El ciudadano científico de datos

Mientras que los datos han tomado su lugar como uno de los principales recursos naturales existentes, los especialistas para aprovecharlos están limitados.

484

Datos

Mientras que los datos han tomado su lugar como uno de los principales recursos naturales existentes, los especialistas para aprovecharlos están limitados.

A continuación podemos ver la estimación de crecimiento de datos creados a nivel mundial de 2010 a 2025 (en zetabytes) según datos de statista.

Imagen de gráfica crecimiento de datos

Para entender (o confundir más según sea el caso) aquí les dejo una tabla para tener una idea aproximada de a cuánto equivale un zetabyte.

Cada prefijo abarca 3 ceros, Kilo 3, Mega 6, Giga 9, Tera 12, Peta 15, Exa 18, Zetta 21.

Imagen de cuánto es un zettabyte. Imagen tomada de https://www.neoteo.com/la-era-
del-zettabyte-cuantos-bytes-
hay-en-un-zettabyte-y-como-nos-afecta/

Para tener un comparativo de la cantidad de información que eso supone, un ejemplo tomado de un blog de Cisco menciona que si cada Terabyte (12 ceros) de un Zettabyte (21 ceros) fuera un kilómetro, sería el equivalente a 1,300 viajes a la luna de ida y vuelta o 768,800 kilómetros.

Son números que parecen difíciles de cuantificar debido a su magnitud, sin embargo con los datos digitales y la información de sensores entre otros que se crean todos los días, su crecimiento incrementa rápidamente todos los días.

Es por eso que se requieren cada vez más profesionales que sean capaces de aprovechar el valor inherente en los datos.

Científicos de datos

Ha sido calificada como una de las profesiones del futuro, de las más solicitadas y al mismo tiempo una con muy pocos profesionales listos para satisfacer la demanda actual y futura, al menos en el corto y mediano plazo.

Poniendo aparte la discusión acerca del rol del científico de datos, que si es solo una persona la que puede tener la capacidad o un equipo multidisciplinario; qué habilidades son las que requiere, técnicas, sociales, conocimiento del negocio, experiencia, lenguajes de programación y herramientas tecnológicas que maneje.

A continuación en la gráfica de insidebigdata.com vemos como la escasez sigue en aumento, 4 de cada 10 compañías reportan la falta de habilidades analíticas como uno de sus principales retos y se estima que se requerirán al menos 1.5 millones más de gerentes y analistas con experiencia analítica.

Imagen de demanda de científicos de datos

Ciudadano científico de datos o el científico de datos de a pie

De acuerdo con Gartner un ciudadano científico de datos es la persona que le agrega valor al proceso de análisis y es capaz de simplificarlo empleando modelos analíticos para diagnósticos avanzados o con capacidades predictivas y prescriptivas; pero no cuenta con la formación académica ni su función en el trabajo está relacionada con el ámbito de la estadística ni la analítica.

En resumen, son usuarios de negocio avanzados que pueden llevar a cabo análisis complejos que normalmente habrían requerido de mayor conocimiento y experiencia técnica y de programación.

Esto no quiere decir que sustituirán a los científicos de datos, pero si son una excelente alternativa porque a pesar de que no cuentan con formación en ciencia de datos si pueden aportar su experiencia en el negocio y sus habilidades específicas.

A diferencia de los científicos de datos que resuelven los grandes problemas de las organizaciones, desarrollan modelos de gran complejidad, escriben código y atienden las necesidades más prioritarias del negocio, los ciudadanos científicos de datos tienen la ventaja de que se enfocan en resolver tareas y preguntas de negocio del día a día que muchas veces consumen mucho tiempo y dependen de otros roles que los tienen que apoyar.

Eso no quiere decir que las preguntas que resuelven sean triviales, pero si requieren mayor capacidad técnica y en muchos casos de programación y estadística avanzada para poder pasar de la simple preparación de datos o unión de archivos y fuentes a temas de estadística descriptiva, predictiva e incluso prescriptiva.

Para facilitar el surgimiento de los científicos de datos de a pie, se presenta una coyuntura entre las capacidades, las necesidades y la tecnología que hacen posible para alguien que no tenga la formación, pero si la inquietud y el conocimiento de negocio; que pueda pasar de la preparación de datos usando sólo Excel o archivos de texto a poder emplear plataformas poderosas que le permitan tener acceso a bases de datos y Big Data sin límite en cuanto al volumen y rapidez de respuesta.

Las nuevas plataformas de análisis de datos hacen posible que los usuarios de negocio puedan hacer los análisis requeridos con sólo el conocimiento técnico mínimo y usando interfases sencillas e intuitivas que se enfoquen en los resultados y no en aprender a codificar ni complejos conceptos de tecnología, abstrayéndolos para buscar resultados rápidamente.

Algo importante es contar con una metodología para resolver los problemas y conocer las herramientas (modelos) existentes para hacerlo, que aunque las nuevas plataformas lo simplifican con sólo unos cuantos clics, es necesario tener el fundamento de para qué tipo de problemas aplica cada modelo y algunos parámetros importantes que pueden afectar el resultado.

CRISP DM

En la parte de la metodología, todos contamos con una manera de resolver los problemas, aunque una recomendación estándar es usar CRISP (Cross Industry Standard Process for Data Mining).

Metodología estándar para análisis de datos CRISP-DM. Tomada de https://www.
datasciencecentral.com/
profiles/blogs/crisp-dm-a-
standard-methodology-to-ensure-a-good-outcome

La ventaja de tener un proceso sistemático y estándar para el análisis de datos es que se puede medir su efectividad y es fácilmente replicable.

Las etapas de la metodología son:

1.    Entendimiento del negocio

Conocer y comprender los requerimientos y objetivos desde la perspectiva de la industria para así poder estructurar una definición del problema para el análisis de datos y crear un plan preliminar.

2.    Comprensión de los datos

Hacer un análisis exploratorio de los datos para conocerlos, identificar posibles problemas de calidad y hallazgos para crear hipótesis basadas en lo que realmente se tiene y verificar que se puede cumplir el objetivo con los datos que se tienen.

3.    Preparación de los datos

Son las actividades para conjuntar y ordenar los datos de forma adecuada para llevar a cabo el análisis que se requiere.

4.    Modelado

Basados en el problema, objetivo y los datos, se seleccionan las técnicas de modelado. Debido a los requerimientos específicos de cada modelo, generalmente se puede volver a la preparación para tener justo los datos necesarios y en el formato correcto.

5.    Evaluación

Ya que se construyeron los modelos, hay que probarlos para verificar que responden lo más acertadamente posible a la realidad del problema, el resultado final será un modelo campeón que ofrece se adapta mejor a la realidad y da la respuesta más precisa.

6.    Despliegue

Colocar el modelo en producción, ya sea en un sitio web o una aplicación de negocio para que empiece a funcionar en el día a día.

Bases de Ciencia de Datos

Teniendo una metodología para la resolución de problemas, el siguiente punto que hace falta es tener un marco de referencia que nos ayude a seleccionar el tipo de modelo que puede ayudarnos para cada problema particular.

Sin ser expertos en estadística, podemos usar el siguiente cuadro de referencia creado por Alteryx para seleccionar el tipo de modelo de acuerdo con el problema de negocio, los datos con que se cuenten y su volumen.

Tomada del curso Problem Solving with Advanced Analytics
By Alteryx en UDacity

Plataforma para Científicos de Datos de a Pie

El punto final para ser un gran científico de datos de a pie es contar con una plataforma orientada a resultados, de auto-servicio, en la que no existan dependencias con especialistas para acceder a los datos, prepararlos ni modelarlos. Que el analista de negocios pueda ser independiente para generar todo el proceso de análisis de principio a fin, desde encontrar los datos necesarios, revisar su calidad, crear modelos, evaluarlos, publicarlos y generar reportes en las soluciones institucionales de BI.

Sin programar ni escribir una línea de código en complejos lenguajes.

Existen varias opciones en el mercado, algunas de código abierto como Orange, Open Refine, otras que llevan mucho tiempo en el mercado como SAS o SPSS, las que usan inteligencia artificial como Data Robot o H2O, plataformas de BI como Tableau, PowerBI o Qlik y las más modernas como Knime o Rapid Miner.

Aunque yo me referiré a Alteryx la que fácilmente cualquier usuario puede empezar a usar para crear análisis e ir creciendo con la plataforma para ir progresando en sus análisis pasando de la mezcla básica de datos hasta los modelos con técnicas analíticas especializadas, análisis geoespaciales o la creación de aplicaciones, todo usando el ratón solamente en un ambiente amigable e intuitivo.

A continuación, les dejo un breve video (2 minutos y medio) donde les muestro cuál es el proceso de análisis de datos hasta la creación de modelos predictivos y prescriptivos usando Alteryx pero usando un rompecabezas.

Otro punto importante respecto a Alteryx es que lo pueden probar de forma gratuita por 14 días, la versión completa con todas las características, modelos y funcionalidades si lo descargan de la siguiente liga:

https://www.alteryx.com/designer-trial/free-trial

SUSCRÍBETE A LA REVISTA IMPRESA A UN PRECIO ESPECIAL