¿Por qué mantener los datos limpios?

1179

Cuando hablamos de Analytics y Big Data y todos esos bonitos y poderosos conceptos que vemos alrededor de los datos y su uso, rara vez nos acordamos de que tenemos que hablar de la calidad de los datos con los que estamos trabajando.

En el mundo de la explotación de los datos se suele decir que “garbage in, garbage out” bajo el axioma de que el resultado de un proceso que utiliza datos no puede ser mejor que los datos que recibe como insumo. Esto hace sentido si pensamos que la conclusión que vamos a obtener está embebida en los datos que estamos trabajando y simplemente la estamos encontrando y dándole forma, de modo que, si tenemos datos erróneos o incompletos, obtendremos conclusiones erróneas o sesgadas.

Así que esto sugiere que sí, que la calidad de la información que utilicemos es importante. Entonces hay que hacer un esfuerzo por limpiar los datos antes de utilizarlos, tenemos que hacer que los datos pasen por un proceso de limpieza que nos ayude a saber hasta qué nivel los datos que estamos utilizando son confiables y qué tanto podemos mejorarlos. Este proceso tan importante puede llegar a consumir 80% de un proyecto de analítica de datos, aunque el objetivo del proyecto no es limpiar datos sino explotarlos. Es decir, podríamos estar desperdiciando muchos recursos simplemente por no tener la información que queremos utilizar limpia y utilizable.

A nadie nos gusta desperdiciar, mucho menos en niveles del 80%, entonces una buena alternativa es mantener la información limpia y no tener que limpiarla cada que queremos utilizarla. ¿Cómo podemos hacer esto? Aquí les dejo un par de cosas que funcionan en este sentido:

  • Definir qué es calidad de datos. Hay que observar todas las métricas que de calidad de datos y asegurar que la medimos y la mantenemos en los niveles correctos. Tenemos que pensar con en si está completa, consistente, bien formateada, bien referida, etc.
  • Proteger la fuente de datos. Suena obvio que, si recolectamos los datos mal, no hay forma de que los tengamos bien; esta obviedad, muchas veces la ignoramos y no nos preocupamos por asegurar que la recolección de datos se haga correctamente.
  • Almacenar todo de forma coherente. Pedir datos que no se almacenan es un ejercicio ocioso, por no decir que un desperdicio de esfuerzo de todos los involucrados. Almacenarlos de forma incorrecta se vuelve desperdicio también, con un todo de frustración mayor. ¿Cómo se puede almacenar algo de forma incoherente? Imagina que en un registro de clientes pides la edad del cliente y no almacenas cuándo se llenó ese registro. Unos años después, ¿qué edad tiene tu cliente? Es un dato que se almacenó de forma incoherente, ¿por qué no mejor pedir una fecha de nacimiento y tener siempre la edad actualizada?
  • Poner disponible. Nos da muchas veces por recolectar datos y no querer que nadie tenga acceso. ¿Entonces para qué queremos el dato? Si no lo ponemos disponible para aquellos procesos que lo necesiten y lo puedan utilizar para mejorar algo, ¿para qué lo almacenamos?

Al final, tener y mantener la información limpia es una forma de trabajo que tenemos que permear en toda nuestra organización y que cada persona entienda que esa información que produce y almacena es importante y que tiene que estar del mejor modo posible para que la persona o sistema que viene después en el proceso la pueda utilizar del modo correcto.

¿Tú mides la calidad de tu información? ¿Te esfuerzas por recibirla y mantenerla limpia? ¿Cuánto de tus proyectos de explotación de datos inviertes en limpieza de información?

 

 

 

SUSCRÍBETE A LA REVISTA IMPRESA A UN PRECIO ESPECIAL