# <u>Visualización con Seaborn</u>

Seaborn es más que una mera librería de visualización, es una librería para representación estadística, ya que muestra fácilmente la relación que guardan los datos para detectar tendencias y patrones.

Seaborn es una librería para pintar gráficas construidas a partir de matplotlib.

In [None]:
# actualizamos seaborn a la versión más actualizada

# !pip install seaborn --upgrade

In [None]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

In [None]:
from pydataset import data   #contiene datasets incluidos para pruebas
iris = data('iris')

In [None]:
# si quieren instalar pydataset
# !pip install pydataset

In [None]:
# iris = pd.read_csv('data/iris.csv')

In [None]:
iris.head()

* **Barplot.** Muy recomendable para la visuación de datos agregados, como la media.

In [None]:
sns.barplot(x='Species', y='Sepal.Length', data=iris, estimator=np.mean)
plt.show()

In [None]:
df=iris
groupedvalues=df.groupby('Species').mean().reset_index()
g=sns.barplot(x='Species',y='Sepal.Length',data=groupedvalues)

for index, row in groupedvalues.iterrows():
    g.text(row.name,row['Sepal.Length'], round(row['Sepal.Length'],2), color='black', ha="center")

* **Histograma.** Para conocer la distribución de los datos, el histograma es una herramienta básica, sin embargo, esta representación está muy influenciada por el número de bins que se seleccionen y el ancho de cada uno.

In [None]:
sns.displot(iris['Sepal.Length'])
plt.show()

* **KDE plots (Kernel Density Estimation plots).** Genera mejores representaciones de distribuciones de datos que un histograma al suavizar la forma de los datos, pero no aporta información estadística.

In [None]:
sns.kdeplot(data=iris['Sepal.Length'], shade=True)
plt.show()

* **Box plots.** Útiles para conocer los rangos de datos, si existen outliers, la media y el rango intercuartil en el que se distribuyen los datos.

In [None]:
sns.boxplot(data=iris, x='Species', y='Sepal.Length')
plt.show()

* **Violin plots.** La conjunción de KDE + box plots, clave para comparar distribuciones. Un violin representa la distribución, su media, el rango intercuartil y el intervalo de confianza de 95% en el que se distruyen los mapas.

In [None]:
sns.violinplot(data=iris, x='Species', y='Sepal.Length')
plt.show()

* **Catplot().** Este método es muy útil cuando en el análisis se representan variables categóricas. Otra alternativa al diagrama de barras.

In [None]:
sns.catplot(x='Species', y='Sepal.Length', kind="swarm", data=iris)
plt.show()

* **Scatter plots.** Ideal para la representación de correlaciones y cómo una variable afecta a la otra

In [None]:
sns.scatterplot(x="Sepal.Length", y="Sepal.Width", data=iris)
plt.show()

In [None]:
sns.scatterplot(x="Sepal.Length", y="Sepal.Width", hue='Species', data=iris)
plt.show()

Para más ejemplos: https://seaborn.pydata.org/

Cómo desarrollar cada gráfico de forma correcta: https://www.python-graph-gallery.com/

### Veamos otros ejemplos gráficos

In [None]:
iris.head()

**Histogramas y funciones de densidad**

In [None]:
sns.histplot(iris['Sepal.Length'],bins=30,kde=True)
plt.show()
# kde = True por default, te presenta la curva de densidad.
# hist : True/False, te presenta el histograma.

In [None]:
sns.histplot(iris['Sepal.Length'],bins=20,kde=True,edgecolor="black",linewidth=2,linestyle='--')
plt.show()

In [None]:
sns.kdeplot(iris['Sepal.Length'])
plt.show()

In [None]:
sns.kdeplot(iris['Sepal.Length'],shade=True, color='green')
plt.axhline(y=0.2)
plt.axvline(x=5)
plt.show()

**ScatterPlot**

In [None]:
#sns.scatterplot?

In [None]:
sns.scatterplot(data=iris,x='Sepal.Length',y='Petal.Length',hue='Species')
plt.show()

In [None]:
# adicionamos estilo de marcadores
plt.figure(figsize=(10,10))
sns.scatterplot(data=iris,x='Sepal.Length',y='Petal.Length',hue='Species',style='Species')
plt.show()

In [None]:
#incluimos el tamaño
plt.figure(figsize=(10,10))
sns.scatterplot(data=iris,x='Sepal.Length',y='Petal.Length',hue='Species',size='Sepal.Width',sizes=(20, 200))
plt.show()

Más sobre scatterplots: https://seaborn.pydata.org/generated/seaborn.scatterplot.html

#### Distribuciones Bivariantes

* El equivalente a plt.scatter de matplotlib en seaborn es sns.jointplot().
* No solo pinta el scatter sino que de manera automática muestra los histogramas de las variables involucradas

In [None]:
sns.jointplot(x=iris['Sepal.Length'],y=iris['Petal.Length'])
plt.show()

In [None]:
sns.jointplot(x=iris['Sepal.Length'],y=iris['Petal.Length'],kind='reg')
plt.show()

In [None]:
sns.jointplot(x=iris['Sepal.Length'],y=iris['Petal.Length'],hue=iris['Species'])
plt.show()

In [None]:
sns.jointplot(x=iris['Sepal.Length'],y=iris['Petal.Length'],kind='hex',color ='purple')
plt.show()

In [None]:
sns.jointplot(x=iris['Sepal.Length'],y=iris['Petal.Length'],kind='kde')
plt.show()

In [None]:
snsObject=sns.jointplot(x=iris['Sepal.Length'],y=iris['Petal.Length'],hue=iris['Species'],kind='kde')
plt.show()

Probemos con otra data:

In [None]:
penguins = sns.load_dataset("penguins")
sns.jointplot(data=penguins, x="bill_length_mm", y="bill_depth_mm",kind='kde', color = 'brown')
plt.show()

In [None]:
sns.jointplot(data=penguins, x="bill_length_mm", y="bill_depth_mm",kind='kde', color = 'brown',hue="species")
plt.show() 

**Relaciones entre todas las variables**

    * pairplot()


Es muy útil poder ver las relaciones entre todas las variables existentes.
Para esto existen las funciones pairplot(), PairGrid().

In [None]:
sns.pairplot(iris,hue='Species')
plt.show()

In [None]:
sns.pairplot(iris,hue='Species',kind='kde')
plt.show()

In [None]:
sns.pairplot(penguins,hue='species')
plt.show()

Para guardar el último gráfico ejecutado en un archivo, podemos utilizar la función **savefig** de matplotlib.pyplot:

In [None]:
# permite guardar el último gráfico ejecutado
sns.pairplot(iris, hue = "Species")
plt.savefig("Correlaciones.jpg")

### Extra:
En la librería ***seaborn*** tenemos un listado de conjuntos de datos de prueba que podemos utilizar: 

In [None]:
#import seaborn as sns
planets = sns.load_dataset('planets')
planets.shape

In [None]:
planets.head()

In [None]:
titanic = sns.load_dataset('titanic')
titanic.shape

In [None]:
titanic.head()

In [None]:
accidentes = sns.load_dataset('car_crashes')
accidentes.shape

In [None]:
accidentes.head()

In [None]:
help(sns.load_dataset)

In [None]:
#listado de datasets
sns.get_dataset_names()

Más información de estos conjuntos de datos en: https://github.com/mwaskom/seaborn-data