La importancia del storytelling en Data Analysis

Patricia Carmona
5 min readAug 30, 2022

--

Photo by Sid Balachandran on Unsplash

En muchas ocasiones, unas gráficas sin más no facilitan la lectura de un análisis. Muchos datos, sin una historia que los guíe pueden interpretarse de diferentes formas y generar confusión.

Un gráfico sin recursos textuales y sin contexto es difícil de interpretar
Un gráfico sin recursos textuales y sin contexto es difícil de interpretar

El análisis de datos no suele circunscribirse al ámbito técnico y los perfiles de negocio necesitan apoyarse en ellos para presentar iniciativas, estrategias o resultados. Leer un Jupyter Notebook bañado de código con unas gráficas no es fácil para todos, de ahí la importancia de una narrativa que facilite digerir lo que se muestra, ayude a interpretar resultados y maximice el potencial de un análisis.

¿Por dónde empezar?

No hace falta ser Cervantes para desarrollar un storytelling que guíe un análisis de datos. Pero tampoco te ciñas a leer lo que arrojan los datos, porque en ese caso los datos guían tu análisis.

La clave está en fijar una hipótesis

Cualquier consulta debe ir en la línea de contrastar si se valida o no el planteamiento inicial. La hipótesis facilita estructurar qué preguntas hay que hacerle a los datos. Y el leer los resultados ayuda a generar las conclusiones.

Te traigo como caso práctico un análisis que desarrollamos en Packlink: las monedas en las que los usuarios declaraban el valor de contenido de un paquete.

En Packlink lidiábamos con un caso: la moneda en la que declaraban el valor del contenido los clientes a veces era nula y a veces no coincidía con la moneda con la que se desarrollaba el pago de la etiqueta del envío. Por lo que hacer un análisis de valor de contenido era complejo.

En este post te cuento cómo desarrollamos el análisis de datos para tomar una decisión entre negocio y data y fijar una lógica para aquellos envíos en los que la moneda del valor de contenido del paquete no coincidía con la de la compra o no estaba declarada.

¿Qué aspectos abordar?

Antes de cargar datos y lanzarte al código, estructura el análisis: fija qué necesitas analizar para probar la hipótesis.

Si lo tienes en la cabecera del análisis, te guiará y evitará proscrastinaciones, que en Data Analysis a todos nos pasa.

3 pasos básicos para estructurar la cabecera de un análisis

  1. Definir el objetivo: para qué se realiza este análisis.
  2. Definir la hipótesis: qué necesitas probar
  3. Definir los aspectos a analizar

En el ejemplo de Packlink la cabecera del análisis del valor de contenido fue:

# Goal of the analysisIn order to create standard content value ranges in EUR for the shipments, this analysis aims to know which are the different currencies detected in the content, how many shipments had no declared currency for the content, how to deal with different currencies in content and purchase and if it's possible to use the payment currency for the null declared ones.The main asssumptions:
- declared content value is correct and it's alligned with the shipment value, because it's not a validated field.
- declared currency is correct, despite the purchase was made in other currency.
- sold label currency should be the same to the content_currency, but there are exceptions for shipments coming from import sources.
Since there are different currencies, exchange rate information is necessary to change all content value to EUR and its available from BCE in the Data Warehouse. So here we have no issues regarding shipments with different currencies from content value to purchase.For all shipments without content currency, first iteration will use the sold label currency since it's the information available for the same time (purchase).

Y en la misma definición del objetivo incluí la hipótesis: si puede ser válido en una primera iteración hacer uso de la moneda con la que se pagó el envío, para aquellos para los que no tenían declarada una moneda para el valor del contenido.

¿Puede darse que un usuario no declare el valor del contenido o la moneda?

Sí, de hecho el 30% de los envíos no tenían moneda declarada al ser un campo libre. Y un tercio de los envíos, supone un impacto suficiente en la compañía como para no dedicarles un análisis y razonar si tienen sentido esta hipótesis.

¿Qué aspectos analizar?

Para no extender el análisis, éste está circunscrito solo a lo más clave:

  • Monedas declaradas y saber si había información disponible de exchange rate en un histórico.
  • Valor de contenido, al ser un campo libre, conocer qué habían declarado los usuarios y qué corner cases podía haber.
  • Evaluar otras fuentes de información para la moneda en el caso de no estar declarada (entró en una segunda iteración).
  • El impacto.

¿Por qué medir el impacto?

Parte del análisis de datos no es solo disponibilizar información o visualizarla, sino conocer el impacto de las decisiones que se toman. El estudio de una hipótesis a veces se realiza para guiar un futuro modelado de datos, como en el caso de Packlink que te muestro. Esto implica una toma decisión que impactará en mayor o menor medida en el negocio, por eso, es interesante definir cómo medir el impacto y contárselo a quien lea el análisis.

Las métricas de impacto en negocio suelen venir definidas por revenue, coste, profit o margen. Al fin y al cabo, la salud financiera del negocio es lo que define un impacto positivo o negativo.

¿Cómo contar la historia de tus datos?

Definir la estructura en la cabecera ayuda a gestionar el análisis, pero también a contarlo. Claves:

  1. Dinamiza las gráficas con título y nombre en los ejes.
  2. Incluye líneas de texto que lean los resultados que se arrojan.
  3. Haz uso de los recursos tipográficos: tamaño de letra, negrita, listas y viñetas.
  4. Enlaza los resultados con las preguntas que has propuesto inicialmente argumentado por qué sucede.
  5. Si hay que hacer limpieza del dataframe para reducir corner cases que no impactan, explica por qué. Esta propuesta puede incluirse en el modelado de datos y aquí tienes el origen de la razón que te lleva a hacerlo.
  6. Incluye unas conclusiones al final, que faciliten resumir el análisis. Si es necesario, incluye referencias a las líneas donde pueden verse los resultados concretos.
  7. Guarda tu Jupyter Notebook en un formato HTML o PDF, que sea accesible fácilmente.

Recursos para ampliar

Happy Coding!

--

--