<a href="https://colab.research.google.com/github/worldbank/dec-python-course/blob/main/1-foundations/4-api-and-dataviz/foundations-s4-dataviz.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Corre esta linea si es necesario
!pip install seaborn

In [None]:
import pandas as pd
pd.options.mode.chained_assignment = None

# Introducción a visualización de datos en Python

Python cuenta con varios paquetes para la visualización de datos. Dos de las bibliotecas más utilizadas son `matplotlib` y `seaborn`.

# `matplotlib`

- Primera biblioteca de visualización de datos en Python  
- Muy potente  
- Permite una personalización completa de cualquier gráfico
- Sintaxis "larga", puede volverse bastante compleja fácilmente
- Muy popular en programación científica
- Su estética predeterminada es visualmente mala

¿Recuerdas esta "imagen"? En realidad fue un gráfico creado con `matplotlib`.

<img src="https://github.com/worldbank/dec-python-course/blob/main/1-foundations/4-api-and-dataviz/img/black-hole.jpg?raw=true" width=400 />

# `seaborn`

- Construida en base `matplotlib`, sus comandos ejecutan todas sus visualizaciones en `matplotlib`
- Tiene una mucho mejor estetica predeterminada
- Mucho más fácil de usar que `matplotlib`, pero permite menos personalización en general

Vamos a usar `matplotlib` y `seaborn` en esta sesión.

# Datos iniciales

 Comenzaremos por cargar los dataframes que hemos generado en limpieza de datos con Pandas

In [None]:
df_regiones = pd.read_csv('datos/regiones.csv')
df_provincias = pd.read_csv('datos/provincias.csv')
df_norte = pd.read_csv('datos/provincias_norte_2024.csv')

In [None]:
df_regiones.head()

In [None]:
df_provincias.head()

In [None]:
df_norte.head()

# Bar plots

We'll create a simple bar plot of Mexico's total population by million.

- We need to wrangle the data so that it only includes observations from Mexico and in millions
- For bar plots the data we pass to `matplotlib` and `seaborn` is basically composed of the x-axis and y-axis data

# Gráficos de barras

Vamos a crear un gráfico de barras simple con la recaudacion total por provincia en 2024.

- Necesitamos transformar un poco los datos de `df_provincias` para que solo incluyan la recaudacion de 2024
- Para los gráficos de barras, los datos que pasamos a `matplotlib` y `seaborn` básicamente se componen de los datos del eje x y del eje y

In [None]:
y_datos = df_norte['recaudacion 2024'] # eje y: recaudacion de 2024
x_datos = df_norte['provincia']        # eje x: provincias

## Utilizando `matplotlib`

In [None]:
import matplotlib.pyplot as plt

El comando `bar()` produce un graficos de barras basico.

In [None]:
# Grafico de barras simple con opciones esteticas por defecto
plt.bar(x_datos, y_datos)

Dado que los nombres de las provincias son largos, cambiar el orden de los ejes x, y tendria un mejor resultado. Podemos hacer eso con el comando `hbar()`, que produce un grafico de barras horizontal:

In [None]:
x_datos = df_norte['recaudacion 2024'] # eje x: recaudacion de 2024
y_datos = df_norte['provincia']        # eje y: provincias

In [None]:
# Grafico de barras simple con opciones esteticas por defecto
plt.barh(y_datos, x_datos)

Personalizando el grafico para una mejor estetica:

In [None]:
# Orden de los datos: cambiamos el orden en el dataframe primero con .sort_values()
df_norte = df_norte.sort_values('recaudacion 2024')
x_datos = df_norte['recaudacion 2024'] # eje x: recaudacion de 2024
y_datos = df_norte['provincia']        # eje y: provincias

# Anadiendo otros elementos
titulo = 'Recaudacion en 2024 para provincias de la region norte' # definiendo un titulo
plt.barh(y_datos, x_datos)                                        # produciendo el grafico
plt.title(titulo)                                                 # agregando el titulo al grafico
plt.ylabel('Provincia')                                           # titulo para el eje y
plt.xlabel('Millones de pesos');                                  # titulo para el eje x

- `plt` tiene una característica que no es muy común en Python: modifica un objeto en el lugar (in-place)
- Las múltiples usos de `plt` junto a un metodo añaden personalizaciones sobre el resultado de la línea anterior
- Cuando se usa en un notebook, `plt` imprimirá por defecto el resultado de la última línea del bloque de código. Tambien es posible mostrar una visualizacion explicitamente con `plt.show()`
- Sin embargo, esto no funcionará con un nuevo bloque de código: un nuevo bloque no tendrá acceso al objeto `plt` del bloque anterior

In [None]:
# Este codigo no producire nada porque este bloque no tiene acceso al `plt` del bloque anterior.
plt.show()

- El punto y coma (`;`) al final de la última línea de un bloque le indica al notebook que omita imprimir informacion adicional sobre la ejecucion de `plt` en esa línea (prueba quitándolo para ver la diferencia)

## Utilizando `seaborn`

In [None]:
import seaborn as sns

In [None]:
# Metodo 1: grafico de barras horizontal
sns.barplot(x=x_datos, y=y_datos)

In [None]:
# Método 1 con título del gráfico
sns.barplot(x=x_datos, y=y_datos)
plt.title(plot_title);

In [None]:
# Metodo 2: podemos tambien usar un dataframe directamente como input en seaborn
# y definir las columnas de cada eje en argumentos dentro de sns.barplot()
# podemos usar el argumento "color" para controlar los colores
sns.barplot(data=df_norte, x='recaudacion 2024', y='provincia', color='green')
plt.title(plot_title);

Algunos detalles a tener en cuenta:

- En este ejemplo definimos los datos de los ejes x e y como series de Pandas, pero también pueden ser listas con números  
- Seaborn acepta dos métodos para graficar visualizaciones:  
    + O bien pasas los datos de los ejes x e y en los argumentos `x`, `y`  
    + O defines un DataFrame de Pandas en el argumento `data` y asignas `x` y `y` a los nombres de las columnas de donde se tomarán los datos para los ejes  
- Compara la sintaxis de ambos paquetes para obtener resultados similares:

```python
# matplotlib
plt.bar(x_data, y_data)
plt.title(plot_title)
plt.ylabel('Provincia')
plt.xlabel('Millones de pesos'); 

# seaborn
sns.barplot(x=x_data, y=y_data, color='C0')
plt.title(plot_title);
```

# Gráficos de líneas

- Los gráficos de líneas tienen una sintaxis muy similar a los gráficos de barras en `matplotlib`, pero usan la función `plt.plot()` en lugar de `plt.bar()`  
- En `seaborn`, la función es `sns.lineplot()`
- Para hacer un grafico de lineas que tenga sentido, utilizaremos los datos de `df_regiones` pero les cambiaremos la forma primero

**Importante:** Todo el contenido de esta sesión sigue una práctica fundamental en la visualización de datos: todo el procesamiento de datos se realiza **fuera** del código de visualización. Si se necesita transformar o preparar los datos, lo haremos utilizando Pandas y solo pasaremos los datos ya procesados como insumo para la visualización.

In [None]:
df_regiones

Estos datos estan en forma de una observacion por region. En bases de datos, esto se conoce como formato "ancho". Los cambiaremos a una observacion por region y año, a formato "largo".

In [None]:
df_regiones_largo = pd.wide_to_long(df_regiones, stubnames='recaudacion', i='region', j='año', sep=' ').reset_index()
df_regiones_largo

In [None]:
# Extrayendo los datos en series para ser inputs en el grafico
y_norte = df_regiones_largo[df_regiones_largo['region']=='Norte']['recaudacion']
y_sureste = df_regiones_largo[df_regiones_largo['region']=='Sureste']['recaudacion']
y_suroeste = df_regiones_largo[df_regiones_largo['region']=='Suroeste']['recaudacion']
x = df_regiones_largo[df_regiones_largo['region']=='Norte']['año']

## `matplotlib`

In [None]:
# generando grafico
plt.plot(x, y_norte, label ='Norte')
plt.plot(x, y_sureste, label ='Sureste')
plt.plot(x, y_suroeste, label ='Suroeste')

# Estetica
titulo = 'Recaudacion anual por region'
plt.title(titulo)
plt.ylabel('Millones de pesos')
plt.xticks(x)  # esto agrega un marcador para cada año
plt.legend();  # esto muestra una leyenda

## `seaborn`

In [None]:
sns.lineplot(data=df_regiones_largo, x='año', y='recaudacion', hue='region')
plt.title(titulo)
plt.xticks(x);

# Gráficos de puntos

Vamos a crear un gráfico de puntos de la recaudacion en 2024 y la recaudacion diez años antes, en 2015.

## Con `matplotlib`

In [None]:
df_provincias

In [None]:
# Excluimos Distrito Nacional por ser un valor extremo
x = df_provincias[df_provincias['provincia']!='Distrito Nacional']['recaudacion 2015']
y = df_provincias[df_provincias['provincia']!='Distrito Nacional']['recaudacion 2024']

In [None]:
# Grafico de puntos basico
plt.scatter(x, y);

In [None]:
# Agregando elementos
plt.scatter(x, y, s=15) # s=15 indica el tamano del punto
plt.title('Recaudacion por provincia en 2015 versus recaudacion en 2024')
plt.xlabel('2015 - Millones de pesos')
plt.ylabel('2024 - Millones de pesos')
plt.annotate('Incluye todas las provincias excepto Distrito Nacional', (0, 0), (0, -40), xycoords='axes fraction', textcoords='offset points', va='top');

## Con `seaborn`

In [None]:
sns.scatterplot(data=df_provincias[df_provincias['provincia']!='Distrito Nacional'], x='recaudacion 2015', y='recaudacion 2024')
plt.title('Recaudacion por provincia en 2015 versus recaudacion en 2024')
plt.xlabel('2015 - Millones de pesos')
plt.ylabel('2024 - Millones de pesos')
plt.annotate('Incluye todas las provincias excepto Distrito Nacional', (0, 0), (0, -40), xycoords='axes fraction', textcoords='offset points', va='top');

# Histogramas

Haremos un histograma de la recaudacion por provincia en 2024.

## `matplotlib`

In [None]:
# Nuevamente excluimos Distrito Nacional por ser un valor extremo comparado al resto de provincias
x = df_provincias[df_provincias['provincia']!='Distrito Nacional']['recaudacion 2024']

In [None]:
# Histograma basico
plt.hist(x);

In [None]:
# Anadiendo cambios esteticos
plt.hist(x, bins=20) # bins define el numero de bloques en el histograma
plt.title('Histograma de recaudacion por provincia en 2024')
plt.xlabel('Millones de pesos')
plt.ylabel('Numero de provincias')
plt.annotate('Incluye todas las provincias excepto Distrito Nacional', (0, 0), (0, -40), xycoords='axes fraction', textcoords='offset points', va='top');

## `seaborn`

In [None]:
# Con las opciones por defecto
sns.histplot(data=df_provincias[df_provincias['provincia']!='Distrito Nacional'], x='recaudacion 2024');

In [None]:
# Anadiendo elementos a la apariencia
sns.histplot(data=df_provincias[df_provincias['provincia']!='Distrito Nacional'], x='recaudacion 2024', bins=20)
plt.title('Histograma de recaudacion por provincia en 2024')
plt.xlabel('Millones de pesos')
plt.ylabel('Numero de provincias')
plt.annotate('Incluye todas las provincias excepto Distrito Nacional', (0, 0), (0, -40), xycoords='axes fraction', textcoords='offset points', va='top');

# Guardando visualizaciones como imagenes

Tanto `matplotlib` como `seaborn` usan el mismo (de `matplotlib`) para guardar imagenes: `.savefig()`

In [None]:
# Anadiendo cambios esteticos
plt.hist(x, bins=20) # bins define el numero de bloques en el histograma
plt.title('Histograma de recaudacion por provincia en 2024')
plt.xlabel('Millones de pesos')
plt.ylabel('Numero de provincias')
plt.annotate('Incluye todas las provincias excepto Distrito Nacional', (0, 0), (0, -40), xycoords='axes fraction', textcoords='offset points', va='top');
plt.savefig('img/histograma_matplotlib.png')
plt.show()

In [None]:
# Anadiendo elementos a la apariencia
sns.histplot(data=df_provincias[df_provincias['provincia']!='Distrito Nacional'], x='recaudacion 2024', bins=20)
plt.title('Histograma de recaudacion por provincia en 2024')
plt.xlabel('Millones de pesos')
plt.ylabel('Numero de provincias')
plt.annotate('Incluye todas las provincias excepto Distrito Nacional', (0, 0), (0, -40), xycoords='axes fraction', textcoords='offset points', va='top');
plt.savefig('img/histograma_seaborn.png')
plt.show()