El diagrama de Venn de la Ciencia de datos (Conway’s Data Science Venn Diagram) de Drew Conway y su relación con el sector financiero.

Este diagrama muestra qué habilidades necesita un Data Scientist para dedicarse a la Ciencia de datos (DataScience).

© Robexia AI TechConsulting · Reproducción permitida con cita del título y autor.

Durante la Strata conference de la editorial y academia estadounidense O’Reilly (especializada en informática y tecnología) de 2010, Drew Conway [1] desplegó un diagrama que se ha hecho famoso en el mundo de la Ciencia de datos y de la Inteligencia artificial.

Este diagrama muestra qué habilidades se necesitan para ser un Data Scientist, es decir, para dedicarse a la Ciencia de datos (Data Science). Para preservar su carácter general y no entrar en detalles (que es justo lo que el autor quería), se centra exclusivamente en las habilidades técnicas o de competencia (hard skills)[2].

Como suele ocurrir, provocó y provoca muchas reacciones diversas. Algunas positivas, otras neutrales, para aquellos para los que es algo puramente anecdótico, y otras negativas, por carecer de los necesarios matices. Es verdad que es una representación muy básica, con intención de recoger la esencia que es la que nos guía en un mundo como el de la Ciencia de datos en el que la sobreabundancia de información redundante y la falta de visión general es tan profunda.

El diagrama se centra en tres áreas y sus intersecciones

1.     Habilidades informáticas a nivel de jaqueo (Hacking skills): En esta área es la palabra Hacker la que llama la atención, al igual que el libro del que es coautor Conway. En realidad, no tiene que ver con el jaqueo[3] como actividad ilegal sino con las habilidades que un hacker tiene, como es la capacidad para trabajar con ficheros de texto desde la línea de comandos, la comprensión de las operaciones vectoriales y matriciales y, por supuesto, el pensamiento extremadamente algorítmico. La Ciencia de datos requiere, lógicamente, datos, y éstos son adquiridos y manejados de manera digital, por lo que la tecnología informática es fundamental.

2.     Conocimiento matemático y estadístico: Afirma Conway que no es necesario tener un doctorado en estadística, pero sí tener suficiente conocimiento como para entender y ejecutar una regresión lineal y comprender sus coeficientes.

3.     Experiencia relevante: Experiencia para saber qué estás haciendo y qué puedes esperar de ello.

Visto de otro modo:

1.     Habilidad informática: Para extraer y tratar los datos.

2.     Conocimiento matemático: Para tratar los datos.

3.     Experiencia relevante: Para dar sentido real a los datos y su tratamiento.

Una breve introducción al Machine Learning (Aprendizaje automático)

La Inteligencia Artificial (Artificial Intelligence – AI) es un conjunto de problemas y soluciones que anteriormente, sin ordenadores, no podían ejecutarse. El Aprendizaje automático o Machine Learning (ML) es una parte de la Inteligencia Artificial y un campo, y esto es importante, de la Ciencia computacional (Computer Science). ML es una colección creciente de algoritmos que se basan en ejemplos o datos recopilados que provienen de la naturaleza, del entorno, creados por seres humanos o por otras máquinas (otros algoritmos).

La estadística moderna se desarrolló a finales del siglo XIX y principios del XX, una época en la que no existían los ordenadores, por lo que tuvo que adaptarse a lo que había disponible. La estadística sería totalmente distinta si a finales del XIX Galton y Pearson, o entre los años 10 y 20 Gosset y Fisher, o hasta los años 30 Pearson y Neyman, hubieran dispuesto de la capacidad de cálculo que hoy en día tenemos. Pero no fue así, y por tanto tuvieron que adaptar las premisas a simplificaciones extremas de la realidad.

Pero hoy en día disponemos de algoritmos inimaginables sin el uso de ordenadores. Un algoritmo es algo más elaborado que una fórmula, dado que supone un conjunto de pasos o instrucciones con las que se programa un ordenador. Un algoritmo requiere un ordenador, una fórmula no. Pero no por ello es más complejo lo uno que lo otro.

En cierto modo, lo que está ocurriendo podría compararse con la construcción de grandes edificios. Sin duda que dicha construcción se ha desarrollado de acuerdo a los materiales disponibles (piedra,…) y a las técnicas y maquinaria existente pero, ¿y si de repente surgieran materiales radicalmente distintos, con pesos, texturas y técnicas para manejarlos que no pudiéramos ni imaginar? ¿No empezaríamos a construir edificios asombrosos de la mano de una nueva arquitectura? Pues es justo lo que está ocurriendo con la Inteligencia Artificial.

Intersecciones del diagrama y el sector financiero

1 y 2) Habilidad informática y conocimiento matemático: En este punto se desarrolla el ML. Pero sin la experiencia relevante para saber qué se está haciendo no se crea conocimiento, no se va más allá. La Ciencia de datos es una ciencia, y por tanto se orienta a crear conocimiento, no solo a satisfacer requerimientos.

SF >> En el sector financiero es especialmente relevante la experiencia y conocimiento del sector principalmente por dos motivos: el primero es que el ML surge inicialmente para datos de corte transversal, donde podemos hacer comparaciones entre ítems o sujetos en un momento determinado, no para series temporales. Sin embargo, el sector financiero es un ámbito de series temporales. El otro motivo es que determinados entornos, como la física o la química, no cambian. El valor de aceleración de la gravedad es 9,8 m/s, lo cual no genera dudas, pero un factor de valor determinado de una acción puede dejar de ser relevante por efecto, por ejemplo, del arbitraje. En la mayoría de campos en esta intersección se puede desarrollar ML para cubrir requerimientos conocidos, sin avanzar, pero en el sector financiero esta intersección es muy peligrosa dados los cambios en los requerimientos.

2 y 3) Conocimiento matemático y experiencia relevante: Esta intersección da lugar al análisis tradicional. Pero en un mundo en el que disponemos de la capacidad de cálculo necesaria para tratar datos de forma radicalmente nueva y eficiente, no disponer de habilidades informáticas para tratarlos supone reducir el nivel a la estadística tradicional y al uso de un Excel.

SF >> En el sector financiero, la falta de capacidad computacional da lugar a modelos de valoración de riesgos, gestión de carteras o de crédito totalmente alejados de la realidad con consecuencias desastrosas para los desarrollos finales, para la viabilidad de los proyectos y para la sociedad y usuarios. Eso da lugar a que un sector intensivo en datos no es un sector impulsado por los datos (data-driven).

1 y 3) Habilidad informática y experiencia relevante: Esta zona fue clasificada por Conway como “Zona de peligro”. En realidad, las tres zonas de intersección dual son peligrosas, pero lo son especialmente en el sector financiero. Según el autor, quien se mueve en esta zona tiene la capacidad suficiente para realizar una regresión con habilidad, pero sin llegar a entender sus coeficientes y sus consecuencias. Son pocos, pero pueden ser peligrosos igualmente.

SF >> En el sector financiero están vinculados al tratamiento bruto o sucio de datos, y supone una zona muy superior a la de otros sectores.

Es por eso que un científico de datos, un Data Scientist, debe tener habilidades informáticas para manejar los datos con fluidez, conocimiento matemático para poder tratarlos adecuadamente, especialmente dado el constante desarrollo de nuevos algoritmos de Aprendizaje automático (ML), y a la vez la experiencia que permite sustentar teorías y no meras repeticiones de escenarios pasados y backtestings. Y si este científico de datos pertenece al sector financiero, de alguna manera la experiencia de negocio debe trasladarse a las otras dos áreas, de modo que el área de Data Science, como equipo, si no como individuo, pueda desarrollar avances relevantes en el sector.

Además de poder entender lo que son los datos alternativos, la asignación eficiente de proxies en series incompletas o las posibilidades del aprendizaje por refuerzo en la inversión, podemos desplegar aproximaciones que solo desde el conocimiento de las tres áreas es posible, pero especialmente la de la experiencia. Me refiero al uso de:

1.     Matrices de covarianzas sin ruido: Las matrices de covarianzas se emplean a lo largo de todo el sector financiero, pero están plagadas de ruido. La técnicas de Denoising propuesta por Marcos López de Prado ofrecen resultados incuestionables.

2.     Técnicas de aprendizaje automático para llevar a cabo un “clustering” y agrupar activos en su cluster o sector, formando ramas o agrupaciones mucho más estables que diversifican con mucha más eficiencia y exigen menos rebalanceo. Llevo una década realizando lo que llamo mapas topológicos (Mantegna, 2007) de universos de activos, índices bursátiles, criptomonedas e incluso indicadores macroeconómicos para detectar variaciones relevantes, anomalías y diversificar adecuadamente.

Todo ello es difícil sin un conocimiento del sector, del negocio, sin una experiencia relevante en procesos y productos. Sin ello, se cometerían errores a la hora de obtener los proxies para el tratamiento de riesgos de mercado en series incompletas. O se empleará una matriz de correlaciones entre los activos con los que una entidad bancaria propone carteras a sus potenciales clientes que en realidad no diversifica como se supone ni mide adecuadamente los riesgos.

Conclusión

Las habilidades técnicas (hard skills) de la Ciencia de datos requieren la intersección de tres áreas para evitar moverse en zonas incompletas y peligrosas: La habilidad informática para adquirir y manejar datos, el conocimiento matemático y estadístico para tratar los datos de acuerdo a los avances de la Inteligencia Artificial y la experiencia relevante con la que se emplea el conocimiento del espacio concreto. Cuando este espacio se refiere al sector financiero, varias particularidades deben tenerse en cuenta, lo cual hace más peligrosas las zonas de intersección de solo dos áreas.

Notas:

[1] Drew Conway, CEO y fundador de Alluvium, es un experto en la aplicación de métodos computacionales a problemas sociales y de comportamiento a gran escala. Inició su carrera en la agencia gubernamental United States Intelligence Community uniéndose a la lucha conta el terrorismo. Es asesor de múltiples compañías tecnológicas y co-autor del libro Machine Learning para Hackers (2012).

[2] Habilidades técnicas o de competencia frente a las sociales o actitudinales (soft skills). Es decir, claro que hay que saber trabajar en equipo y comunicar, pero eso es algo muy genérico y amplio, no específico de la ciencia de datos.

[3] La RAE admite jaqueo como la “Acción y efecto de jaquear”. Jaquear [Adapt. del ingl. to hack, con el suf. -ear]: Introducirse de forma no autorizada en un sistema informático.