# Entendiendo Seaborn

Si está familiarizado con el lenguaje `R`, sabe que` ggplot` es un gran recurso para trazar datos e interpretarlos. Del mismo modo, en `Python`, la biblioteca equivalente es` matplotlib`. Sin embargo, la funcionalidad y la apariencia de los gráficos con matplotlib no son buenas y, como resultado, se necesita una mejor alternativa. Aquí es donde 'seaborn' interviene y roba el espectáculo.

## Importar datos

Usaremos el dataset **California House Prices** dataset disponible en [Kaggle](https://www.kaggle.com/camnugent/california-housing-prices).

In [None]:
import pandas as pd

dataset = pd.read_csv("data/housing.csv")

In [None]:
print("Dataset: {}".format(dataset.shape))
print("Columns: {}".format(dataset.columns))
dataset.head(5)

Hay ** 20640 filas ** con ** 10 columnas **. Podemos aprovechar los datasets y la valiosa información que esconden para trazar datos e inferir de ellos.

## Seaborn library

Vamos a importar la biblioteca `seaborn` para comenzar.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

### Scatter plot

Un diagrama de dispersión ayuda a describir una buena relación entre dos cantidades. Aquí, veamos la relación entre el número de habitaciones y el número de dormitorios.

In [None]:
sns.scatterplot(x = 'total_rooms', y = 'total_bedrooms', data = dataset)

Podemos ver una relación casi lineal entre `habitaciones` y` dormitorios`. Sin embargo, el trazado no es muy intuitivo. Hagamos esto más informativo y descriptivo.

In [None]:
plt.figure(figsize = (12, 8))
sns.scatterplot(data = dataset,
               x = 'total_rooms', 
               y = 'total_bedrooms', 
               hue = 'ocean_proximity', 
               style = 'ocean_proximity')
plt.title("California Rooms vs Bedrooms")
plt.xlabel("Total habitaciones")
plt.ylabel("Total dormitorios")

Como puede ver, hemos mejorado mucho el trazado. Basta informar para el parámetro `hue` la columna que va colorear los puntos. A continuación, el 'tono' proporciona diferentes colores basados en la columna categórica que define la proximidad al océano. La misma columna también nos ayuda a definir varios marcadores usando `style`. 

In [None]:
sns.relplot(x='total_rooms', y='total_bedrooms', size='housing_median_age', sizes=(15,300), data=dataset)

### Count Plot

Las gráficas de conteo son una gran herramienta para describir información categórica. Por ejemplo, en este conjunto de datos podríamos ver cómo se distribuye el conjunto de datos en función de `ocean_proximity`.

In [None]:
sns.countplot(x = 'ocean_proximity', data = dataset)

Podemos ver cómo ya calcula el valor de cada columna y lo presenta como una barra. `<1H OCEAN` tiene el valor más alto, mientras que` ISLAND` es casi insignificante. Sin embargo, la gráfica no dice cuáles son los valores reales. Vamos a trazarlos y ver. Además, algo a tener en cuenta sobre el conjunto de datos es que no es muy descriptivo. Por ejemplo, el valor `<1H OCEAN` no describe lo que H significa aquí y tampoco los metadatos para este conjunto de datos.

In [None]:
# https://matplotlib.org/api/_as_gen/matplotlib.pyplot.annotate.html

plt.figure(figsize = (12, 8))
ocean_plot = sns.countplot(x = 'ocean_proximity', data = dataset)
for p in ocean_plot.patches:
    ocean_plot.annotate(p.get_height(), 
                        (p.get_x() + p.get_width() / 2.0, 
                         p.get_height()), 
                        ha = 'center', 
                        va = 'center', 
                        xytext = (0, 5),
                        textcoords = 'offset points')

plt.title("Recuento de casas según su proximidad al océano.")
plt.xlabel("Proximidad al oceano")
plt.ylabel("Cantidad de viviendas")

In [None]:
ocean_plot.patches

### Histograms

Los histogramas se parecen a los gráficos de barras, pero se utilizan para expresar valores continuos en contenedores separados. Describamos los precios medios de la vivienda en California y veamos cómo se ve. Lo bueno de `seaborn` es que tiene la gráfica de densidad incorporada en el histograma y se llama la gráfica` dist`.

In [None]:
plt.figure(figsize = (12, 8))
sns.distplot(a = dataset['median_house_value'], bins = 10, hist = True)
plt.title("Density and histogram plot for Median house value")
plt.xlabel("Median house value")
plt.ylabel("Value")

Los datos se ven un poco sesgados hacia el lado izquierdo y se ven bastante **normales**. Sin embargo, al final, hay un pico inusual alrededor de 500,000.

Las graficas combinadas muestran que las casas en `ISLAND` son las más caras. Mientras que para todos los demás, el rango es bastante variado.

### Violin plot

Los graficos de violín son similares a los de caja pero tienen en cuenta las densidades.

In [None]:
plt.figure(figsize = (12, 8))
sns.violinplot(x = 'ocean_proximity', y = 'median_house_value', data = dataset)
plt.title("Box plots de los valores de las viviendas basados en la proximidad del oceano")
plt.xlabel("Proximidad del oceano")
plt.ylabel("Valor promedio de la vivienda")

En la gráfica anterior, podemos ver cómo se distribuyen las densidades para cada valor de proximidad del océano.

### Heatmap

A veces solo necesita echar un vistazo a la correlación entre características y etiquetas. En tal caso, un mapa de calor que no solo menciona los valores, sino también el color basado en el valor de correlación, proporciona una excelente descripción. Intentemos trazar el mapa de calor para nuestro conjunto de datos.

In [None]:
plt.figure(figsize = (12, 8))
sns.heatmap(dataset.corr(), annot = True)

Al observar el mapa de calor, podemos ver que `median_income` está altamente correlacionado con el` median_house_value`.

### Joint plot

Un joint plot es un diagrama de dispersión con otras características. Nos muestra la distribución de los dos valores que estamos trazando junto con el diagrama de dispersión. Además, tiene una regresión integrada, que muestra una línea de regresión en los datos.

In [None]:
sns.jointplot(x = "total_rooms", y = "total_bedrooms", data=dataset, kind="reg", height = 8, color = 'g')
plt.xlabel("Total habitaciones")
plt.ylabel("Total dormitorios")

### Box plots with swarm plots

Los diagramas de caja proporcionan una buena manera de ver cómo se distribuyen los datos. Además, cuando combinamos la misma gráfica con gráficas de 'enjambre' que grafican puntos que no se superponen, se puede representar más información fácilmente.

In [None]:
plt.figure(figsize = (12, 8))
sns.boxplot(x = 'ocean_proximity', y = 'median_house_value', data = dataset)
sns.swarmplot(x = 'ocean_proximity', y = 'median_house_value', data = dataset)
plt.title("Box plots de los valores de las viviendas basadas en la proximidad del oceano")
plt.xlabel("Proximidad del Oceano")
plt.ylabel("Valor promedio de la casa")

### Pair plot

El pairplot es una gráfico único proporcionado en seaborn. Cuando mostramos un pairplot para todo el conjunto de datos, traza la relación entre cada columna como un diagrama de dispersión y un histograma para la relación de cada columna consigo mismo. Es realmente genial mostrar mucha información en una sola colección de tramas

In [None]:
sns.pairplot(dataset)