VISUALIZACION DE DATOS

Concretamente, aprenderás:

Los elementos de un gráfico exitoso.
Cómo hacer gráficos usando Python.
Cómo crear gráficos de dispersión, gráficos de línea e histogramas.
La correlación entre variables.
Las distribuciones de valores para variables individuales.
Visualizar datos nos permite identificar rápidamente patrones y relaciones, ayudándonos a comprender los datos. También facilita la formulación de conclusiones, el surgimiento de nuevas preguntas y la comunicación efectiva de nuestros descubrimientos con los demás.

Visualización de datos: descripción general
Antes de empezar a crear tus propias visualizaciones, queremos dedicar algo de tiempo en esta lección a discutir el propósito de la visualización de datos y revisar los elementos de un buen gráfico. Discutiremos brevemente por qué la visualización es importante, qué tipo de gráficos usaremos en este capítulo y qué principios seguir al graficar tus datos.

¿Por qué visualizar datos?
Hay dos razones fundamentales para crear visualizaciones como un profesional de datos:

Para simplificar el análisis de grandes cantidades de datos mostrando visualmente sus propiedades. En otras palabras, visualizar para analizar. Al visualizar datos, puedes tener una perspectiva que te sería imposible si estuvieras leyendo cifras sin procesar.
Para comunicar los resultados de tu análisis a tus colegas o clientes de forma comprensible y eficaz.
Los datos representados visualmente suelen ser mucho más fáciles de comprender que los datos en bruto. Las visualizaciones también pueden generar una respuesta emocional, lo que puede ser importante y muy útil, cuando intentas comunicar tu trabajo.

Visualizar para analizar
Aquí tienes una tabla de datos del peso corporal para ratones con una dieta particular tomada en diferentes momentos a lo largo de su vida:

age	mouse1	mouse2

1	24	18

2	56	36

3	64	50

4	82	68

5	92	72

6	94	72

7	88	74

¿Notas algún patrón?

En cambio, echemos un vistazo a un gráfico de dispersión de estos datos:

![grafico-dispersion.png](attachment:grafico-dispersion.png)

Parece que el peso corporal aumenta linealmente desde el nacimiento hasta alrededor de los cuatro meses, y luego los ratones tienden a dejar de aumentar de peso. Es mucho más fácil ver la relación entre el peso corporal y la edad en el gráfico que en la tabla de datos numéricos.

Comunicar resultados

Otra manera en la que usamos las gráficas es para presentar nuestro trabajo a una audiencia que no comparte nuestro nivel de experiencia técnica. A los accionistas y tomadores de decisiones, suelen atraerles más las imágenes que el texto o los números.

Aquí hay un ejemplo de un gráfico de barras que comunica de manera efectiva la información sobre los ingresos de la empresa de TI:

![grafico-barras.png](attachment:grafico-barras.png)

Este aspecto dramático de los gráficos tiene sus ventajas y sus desventajas. A veces, una visualización puede ser engañosa si no tomas en cuenta toda la información, tales como el rango de valores para cada eje y qué representan aquellos ejes. Cuando trabajes con gráficos, no te dejes engañar. Estudia exactamente lo que muestra cada gráfico antes de apresurarte a sacar conclusiones.

Recuerda también que, como analista, eres responsable de los gráficos que produces. Trata de predecir qué conclusiones sugieren y piensa si son razonables y honestas.

Elegir la visualización correcta

Hay muchos tipos de gráficos. Cuál usar depende de muchos factores, incluido el tipo de datos, la dimensión de los datos (es decir, la cantidad de variables representadas en el gráfico) y otros factores que cubriremos a lo largo de este capítulo. Cada tipo de gráfico puede ser útil para analistas y lectores finales a su manera.

Estos son ejemplos de algunos de los tipos de gráficos que aprenderás en este capítulo:

![tipos-graficos.png](attachment:tipos-graficos.png)

De izquierda a derecha, estos son el gráfico de barras, el gráfico de dispersión y el gráfico de líneas.

Elementos de un buen gráfico

Las buenas gráficas ayudan a arrojar conclusiones fácilmente a partir de los datos. Nos proporcionan un buen entendimiento inicial de los datos sin necesidad de un análisis profundo. Sin embargo, la siguiente gráfica no es muy útil para este propósito, ya que no resulta claro qué representan los datos. Repasemos algunos elementos que podríamos agregar a este gráfico para mejorarlo.

![grafico-no-repesentativo.png](attachment:grafico-no-repesentativo.png)

Títulos
Cada gráfico debe tener un título descriptivo que comunique inmediatamente a la audiencia por qué fue creado.

Los títulos no deben simplemente reiterar lo que las etiquetas de los ejes ya comunican. Mira el gráfico del peso corporal del ratón, por ejemplo. Se titula ”Tasa de crecimiento de ratones (Dieta #1)”, que es mucho mejor que un título como “Peso corporal del ratón frente a la edad”. Queda claro a partir de las etiquetas de los ejes que estamos representando el peso corporal frente a la edad, por lo que un título como ese no proporciona información adicional.

Incluso, los títulos pueden incluir un subtítulo donde se explique la conclusión del gráfico. Por ejemplo, “Tasa de crecimiento de ratones (Dieta #1): el peso de los ratones crece linealmente con la edad hasta alrededor de los 4 meses, después de lo cual su peso comienza a estabilizarse”.

Ejes
Los ejes siempre deben etiquetarse para evitar así cualquier ambigüedad sobre las cantidades o categorías que se grafican.

Si un eje representa alguna cantidad física (p. ej., peso, velocidad, tiempo, dinero), siempre debe incluir las unidades de dicha cantidad en la etiqueta del eje. También se deben incluir marcas de eje con etiquetas numéricas o categóricas para que la audiencia tenga una idea de la escala de los datos.

Normalmente, la mejor opción es representar la variable independiente en el eje X, mientras la variable dependiente se representa en el eje Y.

- La variable independiente es la causa de la variación en el gráfico. Su valor es independiente de otras variables en tu gráfico.
- La variable dependiente es el efecto. Su valor depende de los cambios en la variable independiente.

Leyendas

Las leyendas son útiles cuando trazas más de un conjunto de datos en el mismo gráfico.

El gráfico de ratones incluye una leyenda codificada por colores que le dice a la audiencia que hay datos para dos ratones diferentes, lo que básicamente nos permite trazar una tercera variable (número de ratón) en un gráfico 2D mediante el uso de colores para diferenciar los ratones. La leyenda comunica el significado de cada color (morado para el ratón 1 y verde para el ratón 2).

No todos los gráficos requieren una leyenda, aún así, una leyenda puede ayudar a reiterar la información para algunos lectores.

Pregunta

Entonces, ¿qué tiene de malo este gráfico? Teniendo en cuenta todo lo que acabas de aprender, ¿puedes pensar en 5 problemas que tiene este gráfico que le impiden comunicar información con claridad?

![grafico-no-repesentativo.png](attachment:grafico-no-repesentativo.png)

Elige tantas como quieras
- No tiene título.

    Un título aquí seguramente ayudaría a entender de qué se trata el gráfico.

El verde y el morado no son un buen esquema de color.

- No hay ninguna leyenda.

    Sin una leyenda, es imposible decir qué intentan decir las líneas verdes y moradas.

- Los ejes deberían intercambiarse.

    Esto es cierto. La causa de la variación de dinero es la variación del tiempo; hacer dinero es la variable dependiente; y el tiempo, la independiente.

- Las etiquetas del eje no tienen unidades.

    Efectivamente. No sabemos si estamos hablando de millones de dólares en décadas, o unos cuantos centavos en una semana.

Las marcas de eje están demasiado separadas.


- Las marcas no tienen etiquetas.

    Esto tampoco ayuda a entender cómo cambian las variables. De hecho, es un problema.

Supongamos que quieres visualizar la relación entre el dinero gastado en una campaña publicitaria y la cantidad de usuarios que atrae la campaña. ¿Qué irá en el eje Y?

Dinero gastado.

- Número de usuarios atraídos.

    ¡Correcto! Esta es la variable dependiente (el efecto, no la causa).

Esto significa que un buen gráfico proporciona información fácilmente comprensible sobre la marcha, sin que tengas la idea equivocada de los datos. Crear buenos gráficos es un arte en el que todo profesional debe esforzarse en dominar. ¡Aprendamos cómo crearlos adecuadamente!