Por eso conviene detenerse cada tanto a evaluar el propio proceso analítico y revisar la propia práctica. Algunos de estas equivocaciones pueden ser más obvias, otros menos evidentes.
Comprender adecuadamente el problema de negocios antes de lanzarse a por los datos es fundamental: el científico de datos debe entender el valor agregado que podría aportar el análisis en el marco de la estrategia digital y de negocios en general, o de los objetivos empresariales. Esto ayuda a definir los supuestos del proyecto, mapear las fuentes de datos disponibles, enumerar las métricas de éxito que traducen las necesidades comerciales y proporcionar una hoja de ruta realista para cumplir con las limitaciones de tiempo.
El sesgo de muestreo es un error lamentablemente bastante común, aunque fácilmente detectable. Y lo mismo la selección “selectiva” de los datos, que sucede cuando se es especialmente receptivo a los datos que prueben la propia hipótesis, o cuando los datos se organizan como para respaldar una hipótesis particular. En todo proyecto de análisis y de base de datos siempre es importante ver los datos a través de una lente amplia y considerar múltiples métricas al sacar conclusiones.
Análisis de datos
Interactuar con expertos en dominios es parte del trabajo del científico de datos. No hacerlo puede hacer perder información y pistas que tal vez no se puedan ver directamente en los datos.
Otro error frecuente es pasar a la parte de modelado sin encarar el análisis de datos exploratorio, que es el que permite detectar anomalías y errores en los datos, encontrar correlaciones entre variables y construir las primeras intuiciones sobre el problema, visualizar relaciones inesperadas entre las características y formalizar las primeras preguntas a los expertos en el dominio.
Con los valores atípicos suele haber dos clases de errores: a veces se los; y otras veces se les otorga una importancia exagerada. En realidad la actitud recomendada es la intermedia: deben considerarse como un factor del análisis, pero no tratarse como indicadores sólidos por sí mismos.
Gestión de datos
Otra equivocación frecuente es probar varias hipótesis nuevas con el mismo conjunto de datos. Esto puede resultar tentador, pero debe evitarse. Lo indicado es abordar cada conjunto de datos con una hipótesis u objetivo nuevo y claro. Y cuando cambie la hipótesis, actualizar el análisis con un nuevo conjunto de datos.
En la analítica de datos se habla de sobreajuste cuando se elabora un modelo que se ajusta exactamente a un conjunto de datos dado. El modelo explica a la perfección ese conjunto de datos disponibles, pero que tendrá problemas para predecir patrones futuros.
Por otra parte hay errores que se presentan por confiar demasiado en la automatización de procesos o en el aporte de las soluciones tecnológicas, sin reconocer la importancia de que algunas definiciones y controles se efectúen de manera manual y en base a criterios que se ajusten al caso en particular.
Otro déficit común entre los especialistas en análisis y gestión de datos es la deficiencia comunicacional: transmitir los hallazgos de manera accesible a las personas que no participaron en el proyecto siempre es clave.
Dado que caer en estos errores es más común de lo que se cree, establecer controles y pautas de trabajo que ayuden a evitarlos es fundamental en el análisis de datos.
¿En tu tarea como científico o analista de datos pudiste observar otros errores comunes?