# **Visualización para análisis exporatorio**
# AE08. Seaborn Violin y Lineplot

Veamos dos nuevos tipos de gráficos en Seaborn; uno de ellos, llamado gráfico de violín, es muy característico de esta librería.


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

In [None]:
sns.__version__ # Revisamos que estemos en la ultima versión de seaborn

In [None]:
# Importamos las librerías adicionales para el manejo numérico y de DataFrame
import numpy as np
import pandas as pd

In [None]:
sns.set(context='notebook', style='darkgrid', palette='dark')

In [None]:
from google.colab import drive
drive.mount('/content/drive')

En este caso, ahora en adelante todos los gráficos que utilicemos van a tener el formato que nosotros definimos con el método `sns.set()`

In [None]:
path1 = '/content/drive/MyDrive/TalentoDigital_Mk_III/Material_clases_CD_AD/M03-Analisis_exploratorio_estadistica/Archivos/VD02.csv'
penguins_df = pd.read_csv(path1).dropna()
penguins_df.head()

El segundo set de datos, corresponde a las temperaturas máximas diarias, en distintas localidades de Australia:

In [None]:
path2 = "/content/drive/MyDrive/TalentoDigital_Mk_III/Material_clases_CD_AD/M03-Analisis_exploratorio_estadistica/Archivos/VD05.csv"
temps_df = pd.read_csv(path2)
temps_df.Date = pd.to_datetime(temps_df.Date)
temps_df.sample(5)

## <font color='blue'>__Diagramas de violín (violinplots)__</font>

Los diagramas de violín corresponden a un tipo de grafico similar al gráfico de caja y bigotes. En este caso se muestra una barra interna con un punto blanco, donde este punto corresponde a la mediana, y el largo de la barra corresponden a $Q1$ y $Q3$. Se muestra además con unas líneas la misma cobertura de los bigotes, pero la gran diferencia es que el diagrama de violín muestra una estimación de la distribución a través de los distintos valores a graficar. El método corresponde a `sns.violinplot(x=X, y=Y, data=df)`.

<img src="https://drive.google.com/uc?id=1kQTLE-_L-eZT2TfRaazRMTH5tpg8R3Gi">

[Documentación Violinplot](https://seaborn.pydata.org/generated/seaborn.violinplot.html?highlight=violinplot#seaborn.violinplot)


In [None]:
sns.violinplot(x='species', y='flipper_length_mm',
               data=penguins_df)
plt.show()

Al igual que los boxplots, nosotros podemos separar cada *violinplot* según el parámetro `hue`. Adicionalmente, nosotros podemos utilizar el parámetro `split=True` en conjunto con `hue` para poder presentar de forma divida en un mismo violin, las distintas distribuciones por la que estamos separando según la columna `hue`:

In [None]:
fig, ax = plt.subplots(1,2, figsize=(10,5))
sns.violinplot(x='species', y='flipper_length_mm', data=penguins_df, hue='sex', ax = ax[0])
sns.violinplot(x='species', y='flipper_length_mm', data=penguins_df, hue='sex', split=True, ax = ax[1])
plt.show()

## <font color='blue'>__Diagramas de Líneas (lineplot)__</font>

Para este tipo de gráfico vamos a utilizar el set de datos de la temperatura y el método `sns.lineplot`. Tal como el método de `sns.barplot`, `Seaborn` si es que tiene la oportunidad, va a hacer agregación de los datos dependiendo de cómo nosotros presentemos los datos, el uso de los parametros `hue` y posibles valores dependientes de categorías (en este caso, como tenemos 8 ciudades de Australia, vamos a tener 8 mediciones de temperatura para cada día).

[Documentación Lineplot](https://seaborn.pydata.org/generated/seaborn.lineplot.html?highlight=lineplot#seaborn.lineplot)


In [None]:
plt.figure(figsize=(10,5))
sns.lineplot(x='Date', y='max_tmp_day', data=temps_df, ci='sd') # Definimos el Intervalo de confianza como la desviación estandar
plt.show()

## <font color='blue'>__Ejercicios__</font>

### <font color='green'>__Actividad 1:__</font>

Para esta dinámica revisitaremos el set de datos de precios de casa de King County Housing (VD08.csv). Realizaremos visualizaciones sencillas utilizando el conocimiento recientemente adquirido:

- Graficar la matriz de correlación para las distintas variables numéricas **nota:** el parámetro `fmt='.2f'` transformara el texto de anotaciones a 2 decimales máximo
- Utilizando subplots genere 4 histogramas de distintas variables presentes en el set de datos
- Utilizando subplots genere 2 boxplots y dos violinplots, comparando el precio para distintas variables (como por ej: 'grade', 'view', 'waterfront', 'bedrooms',etc). **¿Qué puede observar de esto?**
- utilizando subplots, genere 2 lineplots
    - Precio de las casas a través de los años que fueron construidas
    - Precio de las casas a través de los años que fueron construidas pero separadas por la columna **waterfront**


In [None]:
path3 = "/content/drive/MyDrive/TalentoDigital_Mk_III/Material_clases_CD_AD/M03-Analisis_exploratorio_estadistica/Archivos/VD08.csv"
housing_df = pd.read_csv(path3)
housing_df.head()

# Tu código aquí ...


<font color='green'>Fin actividad 1</font>