# Visualizaciones en Python (Parte II)

### OBJETIVOS DE LA CLASE

* Aprender a graficar datos en Python.
* Entender el uso b치sico de las librer칤as m치s utilizadas: Matplotlib y Seaborn.


In [None]:
import matplotlib as mpl
import matplotlib.pyplot as plt #conda install -c conda-forge matplotlib
import seaborn as sns #conda install -c anaconda seaborn
import pandas as pd #conda install -c anaconda pandas 

In [None]:
#Estilos existentes:
#https://matplotlib.org/3.5.1/gallery/style_sheets/style_sheets_reference.html
mpl.style.use('bmh')

In [None]:
df_lluvias = pd.read_csv(r'~\Downloads\archive/pune_1965_to_2002.csv')
df_lluvias.head()

### Subgr치ficos


In [None]:
fig, ax = plt.subplots(nrows=3, ncols=1, figsize=(12, 5), sharex=True, sharey=True) 
#Como los a침os son los mismos para todos los gr치ficos, ponemos el par치metro sharex y sharey en True

In [None]:
#A cada fila, le asignamos las precipitaciones de un mes
ax[0].plot(df_lluvias.index, df_lluvias['Jan'], label='Precipitaciones de enero')
ax[1].plot(df_lluvias.index, df_lluvias['Feb'], label='Precipitaciones de febrero', color='C1')
ax[2].plot(df_lluvias.index, df_lluvias['Mar'], label='Precipitaciones de marzo', color='C2')

In [None]:
#Por 칰ltimo, a침adimos texto y leyendas
ax[0].set_title('Precipitaciones de los primeros tres meses del a침o') 
ax[2].set_xlabel('A침o')  
ax[1].set_ylabel('Precipitaci칩n (mm.)')

ax[0].legend()  
ax[1].legend()
ax[2].legend()  

In [None]:
fig

Al pasar sharey=True, los subgr치ficos comparten la escala en el eje y. Esto permiti칩 comparar a simple vista el volumen <br>
de precipitaciones.<br>
* Cada subgr치fico puede tener su propio t칤tulo y etiquetas.<br>
* En caso de tener dos filas y dos columnas, ax se torna bidimensional:<br>
    * El subgr치fico superior izquierdo se referencia con ax[0,0]<br>
    * El subgr치fico superior derecho se referencia con ax[0,1]<br>

### Personalizando Matplotlib

* Matplotlib permite modificar cada aspecto de sus gr치ficos por medio de par치metros.<br>
* Al importar la librer칤a, Matplotlib establece establece sus par치metros por defecto.<br>
* Los par치metros se guardan en una estructura de datos de tipo dict. Se puede obtener una lista de los par치metros <br>
consultando sus claves.<br>

In [None]:
mpl.rcParams.keys()

#### Algunos ejemplos:

|      Par치metro     | Descripci칩n              | Valor por defecto |   |   |
|:------------------:|--------------------------|:-----------------:|---|---|
| axes.grid          | Mostrar grilla           | True              |   |   |
| axes.titleweight   | Grosor tipograf칤a t칤tulo | "normal"          |   |   |
| axes.titlelocation | Posici칩n del t칤tulo      | "center"          |   |   |

In [None]:
mpl.rcParams['axes.titleweight'] = 'bold' 
mpl.rcParams['axes.titlelocation'] = 'left' 
mpl.rcParams['axes.titlecolor'] = 'firebrick' 
mpl.rcParams['axes.labelcolor'] = 'blue' 
mpl.rcParams['axes.labelsize'] = '10' 
mpl.rcParams['axes.labelweight'] = 'light' 
mpl.rcParams['axes.linewidth'] = '1' 
mpl.rcParams['grid.color'] = 'black' 
mpl.rcParams['grid.linestyle'] = '-.' 
mpl.rcParams['grid.linewidth'] = '2' 

In [None]:
fig, ax = plt.subplots(figsize=(7, 4))  
ax.scatter(df_lluvias['Aug'], df_lluvias['Sep'], c=df_lluvias.index)
ax.set_title('(T칤tulo rojo en negrita)')
ax.set_xlabel('(Etiqueta eje horiz.)')
ax.set_ylabel('(Etiqueta eje vert.)')

In [None]:
mpl.rcParams.update(mpl.rcParamsDefault)

## La librer칤a Seaborn

Funciona por encima de matplotlib. 
* Se integra muy bien con las estructuras de datos de Pandas.
* Provee m칠todos que facilitan la generaci칩n de gr치ficos para la comparaci칩n de variables categ칩ricas.
* Provee sus propios estilos y colores (muy est칠ticos, por cierto 游땚).

* Seaborn tiene una sintaxis diferente a matplotlib, por lo que s칩lo lo aprovecharemos por su punto fuerte: las visualizaciones de variables categ칩ricas.
* Como Seaborn se construye sobre matplotlib, puede actualizar los par치metros de matplotlib con los estilos de Seaborn y seguir graficando normalmente.


In [None]:
sns.set() ## Aplica el tema Seaborn predeterminado, la escala y la paleta de colore.(mpl.rcParams.update(mpl.rcParamsDefault))

In [None]:
#Seaborn trae algunos datasets de prueba, exploremos uno:

#Los valores son mediciones del pulso de 30 personas tras realizar alg칰n tipo de actividad por un determinado tiempo. Las columnas son:
#Id: 	n칰mero identificador de la persona
#Diet: dieta de la persona			baja en grasas o sin grasas
#Time: duraci칩n del ejercicio		1 min, 15 min o 30 min
#Kind: tipo de ejercicio			reposo, caminar o correr

df_ejercicio = sns.load_dataset('exercise')
df_ejercicio = df_ejercicio.drop('Unnamed: 0', axis='columns')
df_ejercicio.head()

In [None]:
#1)Extraigamos s칩lo aquellas observaciones que se corresponden con un ejercicio de 30 minutos

df_30_min = df_ejercicio[df_ejercicio['time'] == '30 min']
df_30_min.head()

* Debemos especificar la columna de valores en el par치metro x, en este caso nos interesa la columna pulse
* Como queremos separar las distribuciones seg칰n el tipo de actividad, pasamos el par치metro hue='kind'

In [None]:
#1) Probar en kind = ['hist', 'kde', 'ecdf']
#2) Probar fill = [True, False]
#3) Probar hue = [kind, diet]

ax = sns.displot(data=df_30_min, x='pulse', kind='kde', hue='kind', fill=True)
ax.set(xlabel='Frecuencia Card칤aca', ylabel='Densidad', title='Distribuci칩n  de las pulsaciones')

In [None]:
type(ax)

### Seaborn: Categorical Plots


sns.catplot con el par치metro kind='violin' permite comparar distribuciones separando los datos en base a dos categor칤as simult치neamente.

In [None]:
# 1) Probar cambiar los ejes.
# 2) Probar x = [time, kind]

ax = sns.catplot(data=df_ejercicio, kind='violin', x='time', y='pulse', hue='diet', split=True)
ax.set(xlabel='Duraci칩n de ejercicio', ylabel='Frecuencia card칤aca', title='Categorizaci칩n de la distribuci칩n de pulsaciones')

### Desafio Generico

Consigna: <br>
1. Cargar [este](https://drive.google.com/file/d/1Msf9fKLNyQJFmZbPecSe1G23kjkPg-ap/view) archivo en Python. Realizar estad칤sticas descriptivas b치sicas
2. Realizar un histograma con los salarios. Qu칠 rango(s) de salarios son los m치s populares por Departamento?
3. Graficar la serie de tiempo correspondiente a LastPerformanceReview_Date y el Salario


In [None]:
df = pd.read_csv(r"~/Downloads/HRDataset_v14.csv")

In [None]:
#1)Realizar estad칤sticas descriptivas b치sicas


In [None]:
#2) Realizar un histograma con los salarios. Qu칠 rango(s) de salarios son los m치s populares por Departamento?


In [None]:
#3) Graficar la serie de tiempo correspondiente a LastPerformanceReview_Date y el Salario
# Tip buscar ordenar las fechas