Buenas lecciones sobre malas visualizaciones

A veces, la mejor manera de aprender a hacer algo bien es aprender de los ejemplos en los que algo salió mal.

En esta lección, revisaremos algunas visualizaciones de datos del mundo real que no dieron en el blanco de una forma u otra. Algunos de estos defectos pueden ser sutiles, por lo que es bueno desarrollar un sentido de los matices de lo que hace bueno a un gráfico.

¡Exploremos algunos ejemplos divertidos!

Uso innecesario del eje X

Echa un vistazo a este artículo (materiales en inglés) de Al Jazeera que compara la cantidad de gas natural importado de Rusia en 2019 para diferentes países. En realidad, hay dos comparaciones aquí:

La cantidad de dinero gastada en importaciones de gas (representada por el tamaño del círculo).
La proporción del gas natural total que provino de las importaciones rusas (representada por el eje Y).

![grafico-gas-rusia.png](attachment:grafico-gas-rusia.png)

El uso del tamaño del círculo para representar el dinero gastado y el color para representar el continente está bien. El problema aquí es que el eje X ordena los países en orden alfabético, lo cual es irrelevante y no transmite información adicional.

Mira la parte inferior derecha de la imagen. Verás que los países cuyos nombres empiezan con la letra S están todos apiñados, lo que dificulta entender qué círculo pertenece a cada país. Se podrían espaciar mejor, si no estuvieran supeditados a su letra inicial. 

Aquí (materiales en inglés) tienes un mejor ejemplo de un estilo de gráfico similar que explora las emisiones de dióxido de carbono en función del PIB de distintos países.

Gráfico circular sin sentido

Echa un vistazo a este gráfico circular de Fox News (analizado en Business Insider (materiales en inglés)) que compara la popularidad de los candidatos republicanos para las elecciones presidenciales de EE.UU. de 2012:

![presidential-run-graphic.png](attachment:presidential-run-graphic.png)

Este gráfico plantea más preguntas de las que responde. ¿Por qué las porciones del gráfico circular suman más del 100%? ¿Se les permitió a las personas encuestadas elegir más de un candidato favorable? ¿Eran estos los únicos tres candidatos en la encuesta?

Además, es mejor no usar gráficos circulares en absoluto (materiales en inglés). No existe casi ningún caso en donde una gráfica circular sea una mejor alternativa que un gráfico de barras si buscas comunicar claramente tus datos.

Suponiendo que a las personas encuestadas se les permitiera elegir más de un candidato, un mejor gráfico para estos datos sería uno de barras como este:

![presidential-run-bars.png](attachment:presidential-run-bars.png)

Sigue siendo una gráfica basada en un conjunto de datos peculiar. De cualquier modo, como leemos de izquierda a derecha, podemos entender fácilmente que Palin tiene cifras más altas que Huckabee, quien, por su parte, tiene cifras más altas que Romney.

Ya que se tiene una idea, puedes analizar la gráfica con mayor detalle y averiguar los números. Además, sería útil agregar una nota al margen en la parte inferior que aclare que los encuestados podían elegir más de un candidato.

Gráfico de barras engañoso

Otra gráfica de Fox News que se analizó en Business Insider (materiales en inglés) es un gráfico de barras visualmente engañoso.

![graphic-federal-welfare.png](attachment:graphic-federal-welfare.png)

El tamaño de las barras hace parecer que la cantidad de beneficiarios de asistencia social en EE. UU. se cuadriplicó entre 2009 y 2011, pero mira más de cerca el eje Y. En lugar de comenzar en cero, el eje comienza en 94 millones. Las alturas de las barras hacen que parezca un aumento del 400%, mientras que los números indican un aumento del 10%.

Podemos arreglar esto haciendo que el eje Y comience en 0 y suba a 108 millones. Esto mostrará visualmente que el aumento es del 10%.

Ten en cuenta que hay casos en los que es aceptable no hacer que tus ejes inicien en cero. Si deseas saber más, puedes mirar este video.

Sobrecarga de información
Aquí tienes un gráfico sobre las plantas de energía en los EE.UU. de 1900 a 2008 presentada por Microsoft (materiales en inglés) usando GeoFlow con Microsoft Excel:

![bad-power-stations-graphic.png](attachment:bad-power-stations-graphic.png)

Este gráfico es un gran ejemplo de “demasiada información”. El objetivo de visualizar tus datos es obtener información rápida y fácil y comunicarla claramente a los demás.

Es difícil decir de inmediato exactamente lo que este gráfico intenta comunicar. No debe ser difícil para tu audiencia comprender tu gráfico. A menudo, menos es más.

Gráfico de líneas engañoso

Y aquí, otra gráfica engañosa de Fox News; en este caso, de una publicación de reddit (materiales en inglés). Este gráfico de líneas muestra la evolución de los nuevos casos de COVID en 2020:

![bad-line-graphic-covid.png](attachment:bad-line-graphic-covid.png)

¿Notas algo extraño en este gráfico?

Mira de cerca la escala del eje Y. Claro, no comienza en cero, pero ese no es realmente el problema en este caso. Son los intervalos entre las marcas del eje Y los que están fuera de control. Al principio, cada marca representa un aumento de 30 casos. Entonces, de repente, la cuarta marca representa un aumento de solo 10 casos (de 90 a 100). Las siguientes marcas una vez más representan 30 casos, pero luego la octava marca representa 50 casos, la novena marca representa 10 casos y cada marca posterior representa 50 casos nuevamente. El eje Y es un desastre absoluto.

Así es como se vería el gráfico si las marcas del eje fueran consistentes, como deben ser:

![good-covid-cases-graphic.png](attachment:good-covid-cases-graphic.png)



In [None]:
#codigo ejemplo anterior

import pandas as pd
import numpy as np
import plotly.express as px

cases = [33, 61, 86, 112, 116, 129, 192, 174, 344, 304, 327, 246, 320, 339, 376]

dates = ['March<br>'] * len(cases)
day = 18
for i in range(len(dates)):
    dates[i] = dates[i] + str(day)
    day = day + 1
dates[-1] = 'April<br>1'

labels = dict(date="Date", cases="Number of cases")
markers = dict(size=30, line=dict(width=2, color='black'), color='white')
title = dict(text='New Cases Per Day', font=dict(color='white', size=30))
yaxis = dict(tickmode='linear', tick0=30, dtick=30)

df = pd.DataFrame({'cases': cases, 'date': dates})

fig = px.line(df, y='cases', x='date', text='cases', markers=True, labels=labels, title="New Cases Per Day")

fig.update_xaxes(showgrid=False, color='white', tickangle=0)
fig.update_yaxes(color='white', gridcolor='#5c5a5c', gridwidth=2, range=[15, 400])
fig.update_traces(marker=markers, line_color='white', line_width=6)
fig.update_layout(title=title,
                  title_x=0.5,
                  paper_bgcolor='#070230',
                  plot_bgcolor='#070230',
                  yaxis=yaxis,
                  xaxis_type='category')
fig.add_annotation(text='TOTAL CASES', 
                    align='right',
                    showarrow=False,
                    font=dict(color='white', size=12),
                    xref='paper',
                    yref='paper',
                    x=1.08,
                    y=1.25)
fig.add_annotation(text='3,342', 
                    align='right',
                    showarrow=False,
                    font=dict(color='white', size=23),
                    xref='paper',
                    yref='paper',
                    x=1.071,
                    y=1.2)

fig.show()

Uso confuso del color

Aquí tienes otro gráfico sobre los casos de COVID en EE.UU. de los CDC, discutida en esta publicación de blog Towards Data Science (materiales en inglés):

![confuse-color-graphic.png](attachment:confuse-color-graphic.png)

A simple vista, parecería que los estados con colores más oscuros tienen más casos de COVID. De hecho, esto tendría mucho sentido. Pero fíjate bien en la leyenda. Es como si los colores se hubieran asignado al azar. En el mejor de los casos, esto hace que el gráfico sea inútil para la comunicación. En el peor de los casos, es intencionalmente engañoso. Además, los colores asignados a None y 101 a 1000 son casi los mismos, lo que hace casi imposible distinguirlos visualmente.

La solución es simple: hacer que el gradiente de color se correlacione con la cantidad de casos. De hecho, parece que los CDC hicieron justamente eso con las gráficas actuales (materiales en inglés) en su sitio web.

Resumen

Como puedes ver, las malas visualizaciones están en todas partes. Como profesional de los datos, debes evitar estos errores y reconocerlos cuando los veas. A lo largo del resto de este capítulo, aprenderás las mejores prácticas para presentar los tipos de gráficos en esta lección y más.

Para obtener otros excelentes ejemplos de malas visualizaciones, además de recomendaciones sobre cómo mejorarlas, navega a través de los blogs y artículos que hemos publicado. O puedes visitar otros blogs dedicados a este tema, tales como este (materiales en inglés).