# Visualizaciones en Python (Parte II)

### OBJETIVOS DE LA CLASE

* Aprender a graficar datos en Python.
* Entender el uso básico de las librerías más utilizadas: Matplotlib y Seaborn.


In [None]:
import matplotlib as mpl
import matplotlib.pyplot as plt #conda install -c conda-forge matplotlib
import seaborn as sns #conda install -c anaconda seaborn
import pandas as pd #conda install -c anaconda pandas 

In [None]:
#Estilos existentes:
#https://matplotlib.org/3.5.1/gallery/style_sheets/style_sheets_reference.html
mpl.style.use('bmh')

In [None]:
df_lluvias = pd.read_csv(r'~\Downloads\archive/pune_1965_to_2002.csv')
df_lluvias.head()

### Subgráficos


In [None]:
fig, ax = plt.subplots(nrows=3, ncols=1, figsize=(12, 5), sharex=True, sharey=True) 
#Como los años son los mismos para todos los gráficos, ponemos el parámetro sharex y sharey en True

In [None]:
#A cada fila, le asignamos las precipitaciones de un mes
ax[0].plot(df_lluvias.index, df_lluvias['Jan'], label='Precipitaciones de enero')
ax[1].plot(df_lluvias.index, df_lluvias['Feb'], label='Precipitaciones de febrero', color='C1')
ax[2].plot(df_lluvias.index, df_lluvias['Mar'], label='Precipitaciones de marzo', color='C2')

In [None]:
#Por último, añadimos texto y leyendas
ax[0].set_title('Precipitaciones de los primeros tres meses del año') 
ax[2].set_xlabel('Año')  
ax[1].set_ylabel('Precipitación (mm.)')

ax[0].legend()  
ax[1].legend()
ax[2].legend()  

In [None]:
fig

Al pasar sharey=True, los subgráficos comparten la escala en el eje y. Esto permitió comparar a simple vista el volumen <br>
de precipitaciones.<br>
* Cada subgráfico puede tener su propio título y etiquetas.<br>
* En caso de tener dos filas y dos columnas, ax se torna bidimensional:<br>
    * El subgráfico superior izquierdo se referencia con ax[0,0]<br>
    * El subgráfico superior derecho se referencia con ax[0,1]<br>

### Personalizando Matplotlib

* Matplotlib permite modificar cada aspecto de sus gráficos por medio de parámetros.<br>
* Al importar la librería, Matplotlib establece establece sus parámetros por defecto.<br>
* Los parámetros se guardan en una estructura de datos de tipo dict. Se puede obtener una lista de los parámetros <br>
consultando sus claves.<br>

In [None]:
mpl.rcParams.keys()

#### Algunos ejemplos:

|      Parámetro     | Descripción              | Valor por defecto |   |   |
|:------------------:|--------------------------|:-----------------:|---|---|
| axes.grid          | Mostrar grilla           | True              |   |   |
| axes.titleweight   | Grosor tipografía título | "normal"          |   |   |
| axes.titlelocation | Posición del título      | "center"          |   |   |

In [None]:
mpl.rcParams['axes.titleweight'] = 'bold' 
mpl.rcParams['axes.titlelocation'] = 'left' 
mpl.rcParams['axes.titlecolor'] = 'firebrick' 
mpl.rcParams['axes.labelcolor'] = 'blue' 
mpl.rcParams['axes.labelsize'] = '10' 
mpl.rcParams['axes.labelweight'] = 'light' 
mpl.rcParams['axes.linewidth'] = '1' 
mpl.rcParams['grid.color'] = 'black' 
mpl.rcParams['grid.linestyle'] = '-.' 
mpl.rcParams['grid.linewidth'] = '2' 

In [None]:
fig, ax = plt.subplots(figsize=(7, 4))  
ax.scatter(df_lluvias['Aug'], df_lluvias['Sep'], c=df_lluvias.index)
ax.set_title('(Título rojo en negrita)')
ax.set_xlabel('(Etiqueta eje horiz.)')
ax.set_ylabel('(Etiqueta eje vert.)')

In [None]:
mpl.rcParams.update(mpl.rcParamsDefault)

## La librería Seaborn

Funciona por encima de matplotlib. 
* Se integra muy bien con las estructuras de datos de Pandas.
* Provee métodos que facilitan la generación de gráficos para la comparación de variables categóricas.
* Provee sus propios estilos y colores (muy estéticos, por cierto 😏).

* Seaborn tiene una sintaxis diferente a matplotlib, por lo que sólo lo aprovecharemos por su punto fuerte: las visualizaciones de variables categóricas.
* Como Seaborn se construye sobre matplotlib, puede actualizar los parámetros de matplotlib con los estilos de Seaborn y seguir graficando normalmente.


In [None]:
sns.set() ## Aplica el tema Seaborn predeterminado, la escala y la paleta de colore.(mpl.rcParams.update(mpl.rcParamsDefault))

In [None]:
#Seaborn trae algunos datasets de prueba, exploremos uno:

#Los valores son mediciones del pulso de 30 personas tras realizar algún tipo de actividad por un determinado tiempo. Las columnas son:
#Id: 	número identificador de la persona
#Diet: dieta de la persona			baja en grasas o sin grasas
#Time: duración del ejercicio		1 min, 15 min o 30 min
#Kind: tipo de ejercicio			reposo, caminar o correr

df_ejercicio = sns.load_dataset('exercise')
df_ejercicio = df_ejercicio.drop('Unnamed: 0', axis='columns')
df_ejercicio.head()

In [None]:
#1)Extraigamos sólo aquellas observaciones que se corresponden con un ejercicio de 30 minutos

df_30_min = df_ejercicio[df_ejercicio['time'] == '30 min']
df_30_min.head()

* Debemos especificar la columna de valores en el parámetro x, en este caso nos interesa la columna pulse
* Como queremos separar las distribuciones según el tipo de actividad, pasamos el parámetro hue='kind'

In [None]:
#1) Probar en kind = ['hist', 'kde', 'ecdf']
#2) Probar fill = [True, False]
#3) Probar hue = [kind, diet]

ax = sns.displot(data=df_30_min, x='pulse', kind='kde', hue='kind', fill=True)
ax.set(xlabel='Frecuencia Cardíaca', ylabel='Densidad', title='Distribución  de las pulsaciones')

In [None]:
type(ax)

### Seaborn: Categorical Plots


sns.catplot con el parámetro kind='violin' permite comparar distribuciones separando los datos en base a dos categorías simultáneamente.

In [None]:
# 1) Probar cambiar los ejes.
# 2) Probar x = [time, kind]

ax = sns.catplot(data=df_ejercicio, kind='violin', x='time', y='pulse', hue='diet', split=True)
ax.set(xlabel='Duración de ejercicio', ylabel='Frecuencia cardíaca', title='Categorización de la distribución de pulsaciones')

### Desafio Generico

Consigna: <br>
1. Cargar [este](https://drive.google.com/file/d/1Msf9fKLNyQJFmZbPecSe1G23kjkPg-ap/view) archivo en Python. Realizar estadísticas descriptivas básicas
2. Realizar un histograma con los salarios. Qué rango(s) de salarios son los más populares por Departamento?
3. Graficar la serie de tiempo correspondiente a LastPerformanceReview_Date y el Salario


In [None]:
df = pd.read_csv(r"~/Downloads/HRDataset_v14.csv")

In [None]:
#1)Realizar estadísticas descriptivas básicas


In [None]:
#2) Realizar un histograma con los salarios. Qué rango(s) de salarios son los más populares por Departamento?


In [None]:
#3) Graficar la serie de tiempo correspondiente a LastPerformanceReview_Date y el Salario
# Tip buscar ordenar las fechas