# Sesión 04: Visualización de datos


## 4.1 Visualización en Pandas y Matplotlib
En esta práctica utilizaremos el archivo "b03_enigh_2020" que incluye las variables principales de la ENIGH 2020 (Encuesta Nacional de Ingreso y Gasto en Hogares) con observaciones de los principales municipios de la zona metropolitana de Monterrey. 

In [None]:
# Importa la biblioteca de pandas
import pandas as pd

In [None]:
# Carga el archivo 'data/b02_enigh2020.xlsx' en un dataframe "df"
#df = pd.read_excel('data/b02_enigh2020.xlsx')
df = pd.read_excel('https://github.com/adan-rs/AnalisisDatos/raw/main/s04_estadistica_descriptiva/data/b02_enigh2020.xlsx')

In [None]:
# Revisa las variables y evalúa si hay datos perdidos en una columna
df.info()

Seleccionemos una columna con una variable categórica. Por ejemplo, el sexo del jefe de familia ('sexo_jefe'). Obtén un conteo de la frecuencia en cada categoría. Recuerda que para una variable 'X' esto se puede obtener con el comando  `df['X'].value_counts()`

In [None]:
# Obtén el conteo de la variable 'sexo_jefe'
df['sexo_jefe'].value_counts()

**Diagramas de pastel** Los dataframes en Pandas tienen un método *plot* que permite crear fácilmente un gráfico. Por ejemplo, para una variable categórica "X", podemos crear un diagrama de pastel (pie) con el siguiente comando: `df.X.value_counts().plot(kind = 'pie')`. 

In [None]:
# Crea un gráfico de pastel para la variable 'sexo_jefe'
df['sexo_jefe'].value_counts().plot(kind = 'pie')

Observa que aparece un texto antes del gráfico relacionada con el comando utilizado. Para evitar esto, repite el comando agregando un punto y coma al final.

**Diagramas de barra** Otra opción para variables categóricas son los diagramas de barra. Para ello se puede utilizar el parámetro *kind='bar'* para un gráfico vertical o *kind=barh* para gráficos horizontales. 

In [None]:
# Crea un gráfico de barras horizontal para la variable 'ubica_geo'
df['sexo_jefe'].value_counts().plot(kind = 'bar');

Existen algunos parámetros para modificar la apariencia del gráfico. Por ejemplo *width* indica la proporción de espacio que ocupan las barras, que dede manera predeterminada es 0.5 (*¿por qué es importante dejar un hueco entre las barras?*). El parámetro *alpha* sirve para agregar un nivel de transparencia desde completamente transparente (0) hasta completamente opaco (1). Con *color* podemos establecer una lista de colores codificados.

In [None]:
# Realiza de nuevo el gráfico anterior para modificar los parámetros width, alpha y color
df['sexo_jefe'].value_counts().plot(kind = 'bar', width = 0.80, alpha = 0.8, color = ['b', 'r']);

Para ejemplificar gráficos más complejos utilizaremos como referencia una tabla cruzada a partir de una tabla pivote. Crearemos esta tabla con la instrucción `tabla = df.pivot_table(index='ubica_geo', columns='sexo_jefe', values='tot_integ', aggfunc='sum')`. Las filas serán los diferentes municipios, las columnas el sexo del jefe de familia y los valores dentro de la tabla serán la suma de cada combinación de nombre y categoría

In [None]:
# Crear tabla pivote
tabla = df.pivot_table(index='ubica_geo', columns='sexo_jefe', values='tot_integ', aggfunc='sum')
tabla

In [None]:
# Construye un gráfico de barras para "tabla". Modifica y agrega el parámetro 'stacked=True'
tabla.plot(kind = 'bar', stacked = True);

Si nos interesa mostrar más de un gráfico se utiliza el parámetro *subplots=True*

In [None]:
# Construye gráficos de barras para tablas utilizando subplots=True
tabla.plot(kind = 'bar', subplots = True);

Otro gráfico disponible es *'scatter'* para los diagramas de dispersión. Por ejemplo:  
`df.plot(kind='scatter', x='ing_cor', y='gasto_mon')` 

In [None]:
# Crea un diagrama de dispersión para ingreso corriente y gasto monetario
df.plot(kind='scatter', x='ing_cor', y='gasto_mon');

## 4.2 Gráficos con Matplotlib
Para realizar gráficos más complejos es necesario utilizar otros paquetes como *Seaborn*. La estructura general de una función en Seaborn es `sns.plotClass(x=Xvar, y=Yvar, data=data, kind=kind, options)` en la cual sns es el alias de Seaborn, *plotClass* es una familia de gráficos.  
Tanto Pandas como Seaborn están construidas con el paquete *Matplotlib* interactuando con el módulo *pyplot*. Por lo tanto, se requiere importar el módulo *pyplot* aunque no lo utilices directamente. Para importarlo utiliza el comando `import matplotlib.pyplot as plt`

In [None]:
# Importa pyplot
import matplotlib.pyplot as plt

En la terminología de matplotlib, los gráficos se hace en un contenedor llamado figura (*figure*), y cada gráfico  se crea dentro de un área definida por ejes (*axis*). Puedes crear una figura con `fig = plt.figure()` en la cual de manera predeterminada solo hay un *axis* pero puedes definir este conjunto de ejes al crear la *figure*. Por ejemplo,  `fig, axis = plt.subplots(nrows=1, ncols=1)` para un 1x1 conjunto de ejes o `fig, axis = plt.subplots(2,2)` para crear 4 conjuntos de ejes. 
Cada *axis* se nombra, generalmente, como *ax*. Entonces es común encontrar instrucciones como    
`fig, ax = plt.subplots()`  
`fig, axs = plt.subplots(2,2)`  
`fig, (ax1, ax2) = plt.subplots(1,2)`  


Algunas instrucciones básicas son:  
| Componente | Ejemplo |
|-------------|--------|
| Título de la figura | fig.suptitle('*Título*') |
| Título del axis | ax.set_title('*Título del conjunto de ejes*') |  
| Etiqueta eje x | ax.set_xlabel('*Etiqueta eje X*') |  
| Etiqueta eje y | ax_set_ylabel('*Etiqueta eje Y*') |

## 4.3. Diagrama de dispersión

Para un diagrama de dispersión se puede utilizar la función `plt.scatter()`en la cual los primeros dos argumentos son las variables x y y. 

In [None]:
# Ejemplo
fig, ax = plt.subplots()
ax.scatter(df['ing_cor'], df['gasto_mon'])
ax.set_title('Ingreso y gasto en Hogares')
ax.set_xlabel('Ingreso')
ax.set_ylabel('Gasto');

In [None]:
# Se crea un diccionario para asociar un color a cada estrato
colores = {'bajo':'red', 'medio_bajo':'orange', 'medio_alto':'yellow', 'alto':'green'}
# La función map() se puede usar para transformaciones simples elemento por elemento
color_estrato = df['est_socio'].map(colores)

In [None]:
# Ejemplo
fig, ax = plt.subplots()
ax.scatter(df['ing_cor'], df['gasto_mon'], color = color_estrato)
ax.set_title('Ingreso y gasto en Hogares')
ax.set_xlabel('Ingreso')
ax.set_ylabel('Gasto')

#plt.savefig('images/grafico_dispersion');

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(10,4))
fig.suptitle('título')

ax1.scatter(df['ing_cor'], df['agua'])
ax1.set_xlabel('Ingreso')
ax1.set_ylabel('Agua')

ax2.scatter(df['ing_cor'], df['energia'])
ax2.set_xlabel('Ingreso')
ax2.set_ylabel('Energía')
# Ajusta el diseño
plt.tight_layout();

### 4.4 Diagrama de pastel

In [None]:
conteo_estratos = df['est_socio'].value_counts()
# pd.DataFrame sirve para convertirlo a dataframe
fig, ax = plt.subplots()
ax.pie(conteo_estratos, labels=conteo_estratos.index,
      colors=['gold', 'coral', 'limegreen', 'lavender'],
      explode = (0,0, 0.2, 0))
plt.show();

Otros colores pueden ser:
- Básicos: blue, red, green, cyan, magenta, yellow, black, white.
- Modificados: skyblue, navy, forestgreen, chocolate, purple, pink, orange, gray
- Otros (X11): aliceblue, blanchedalmond, cornflowerblue, darkgoldenrod, lavender, lightcoral, olive, rosybrown, wheat. 

## 4.5 Histograma

Un histograma se puede crear con *hist()*. El primer argumento es el conjunto de datos. Los *bins* corresponden a las barras.

In [None]:
fig, ax = plt.subplots()
h=ax.hist(df['edad_jefe'], bins=10, color='skyblue', edgecolor='black', cumulative=False)
h[2][4].set_facecolor('orange')
ax.set_title('Edades del jefe del hogar')
plt.show();

## 4.6 Diagrama de caja (boxplot)

In [None]:
fig, ax = plt.subplots()
ax.boxplot(df['edad_jefe'])
ax.set_title('Edad del jefe de familia');