# Seaborn

![image-2.png](attachment:image-2.png)

https://seaborn.pydata.org/

Seaborn es una librería Python para la visualización de datos, desarrollada sobre Matplotlib, que ofrece una interfaz fácil de usar para producir gráficos estadísticos visualmente atractivos e informativos. 

Está diseñado para funcionar con dataframes Pandas, lo que facilita la visualización y exploración de datos de forma rápida y eficaz.

Seaborn ofrece una variedad de herramientas potentes para visualizar datos, incluidos gráficos de dispersión, gráficos de líneas, gráficos de barras, mapas de calor y muchos más. 

También proporciona soporte para análisis estadísticos avanzados, como análisis de regresión, gráficos de distribución y gráficos categóricos.

**Instalación:**

`pip install seaborn`

In [4]:
import pandas as pd

from matplotlib import pyplot as plt

# hará que los resultados de los gráfico aparezcan y se almacenen en el cuaderno.
%matplotlib inline

# Seaborn para dibujar y dar estilo
import seaborn as sns

import warnings
warnings.filterwarnings("ignore")

In [5]:
df = pd.read_csv('./data/Pokemon.csv', index_col=0, encoding='latin')

In [None]:
df.info()

In [None]:
df.head()

In [None]:
df.describe()

# Nomenclatura

![image.png](attachment:image.png)

# Funciones Seaborn

https://seaborn.pydata.org/tutorial.html#plotting-functions

Funciones más comunes:
- relplot(): Interfaz de alto nivel para crear gráficos de dispersión y de líneas.
- scatterplot(): Para crear gráficos de dispersión.
- lineplot(): Para crear gráficos de líneas.
- displot(): Para crear gráficos de distribución, incluidos histogramas y KDE.
- histplot(): Para crear histogramas.
- boxplot(): Para crear gráficos de caja.
- violinplot(): Para crear gráficos de violín.
- heatmap(): Para crear mapas de calor.
- pairplot(): Para crear una cuadrícula de gráficos de dispersión para relaciones por pares.
- catplot(): Interfaz de alto nivel para crear varios gráficos categóricos.

Una de las mayores fortalezas de Seaborn es su diversidad de funciones de trazado. Por ejemplo, hacer un diagrama de dispersión con el modelo regresivo es solo una línea de código usando la función `lmplot()`.

Hay dos formas de hacerlo.

- La primera forma (recomendada) es pasar al DataFrame al argumento data=, mientras pasa los nombres de las columnas a los argumentos de los ejes, x= e y=.
- La segunda forma es pasar directamente Series de datos a los argumentos de los ejes.

In [None]:
# Recommended way
sns.lmplot(x='Attack', y='Defense', data=df)

In [None]:
# argumentos de Scatterplot
sns.lmplot(x='Attack', y='Defense', data=df,
           fit_reg=False, # No regression line
           hue='Stage')   # Color by evolution stage. Try with 'Speed'
# hue: Determina qué columna se usará para la codificación de color.

In [None]:
# Recomendado
sns.scatterplot(x='Attack', y='Defense', data=df, hue='Stage')

# Personalizando con Matplotlib
1. Primero, invocar la función de trazado Seaborn como de costumbre.
2. Luego, invocar las funciones de personalización de Matplotlib. En este caso, usaremos sus funciones ylim() y xlim().

In [None]:
# Plot using Seaborn
sns.lmplot(x='Attack', y='Defense', data=df,
           fit_reg=False,
           hue='Stage')
 
# Tweak using Matplotlib
plt.xlim(0, 160)
plt.ylim(0, 300)

# El papel de Pandas
  Las funciones de trazado de Seaborn se benefician de un DataFrame base que tiene un formato razonable.

Por ejemplo, supongamos que queremos hacer un diagrama de caja para las estadísticas de combate de nuestro Pokémon (también ejecutaremos el código plt.figure(figsize=(9,6)) para que el diagrama sea más grande y más legible):

In [None]:
# Boxplot
plt.figure(figsize=(9,6)) # Set plot dimensions
sns.boxplot(data=df)

In [None]:
# Preprocesar el DataFrame
stats_df = df.drop(['Total', 'Stage', 'Legendary'], axis=1)
 
# Nuevo boxplot usando stats_df
plt.figure(figsize=(9,6)) # Set plot dimensions
sns.boxplot(data=stats_df)

# Temas Seaborn
-  "darkgrid" , "whitegrid" , "dark" , "white" y "ticks"

In [None]:
# Establecer el tema
sns.set_style('darkgrid')
 
# Violin plot
plt.figure(figsize=(12,8)) # Set plot dimensions
sns.violinplot(x='Type 1', y='Attack', data=df)

# Paletas de Color

In [19]:
pkmn_type_colors = ['#78C850',  # Grass
                    '#F08030',  # Fire
                    '#6890F0',  # Water
                    '#A8B820',  # Bug
                    '#A8A878',  # Normal
                    '#A040A0',  # Poison
                    '#F8D030',  # Electric
                    '#E0C068',  # Ground
                    '#EE99AC',  # Fairy
                    '#C03028',  # Fighting
                    '#F85888',  # Psychic
                    '#B8A038',  # Rock
                    '#705898',  # Ghost
                    '#98D8D8',  # Ice
                    '#7038F8',  # Dragon
                   ]

In [None]:
# Violin plot con paleta de colores de Pokémon
plt.figure(figsize=(11,6)) # Set plot dimensions

sns.violinplot(x='Type 1', y='Attack', data=df, palette=pkmn_type_colors) # Set color palette

In [None]:
# dado que solo tenemos 151 Pokémon en nuestro conjunto de datos, es posible que deseemos simplemente mostrar cada punto.

# Swarm plot con paleta de colores de Pokémon
plt.figure(figsize=(11,6)) # Set plot dimensions
sns.swarmplot(x='Type 1', y='Attack', data=df, palette=pkmn_type_colors, hue='Stage')

# Gráficos superpuestos
1. Primero, agrandaremos nuestra figura usando Matplotlib.
2. Luego, trazaremos la trama del violín. Sin embargo, configuraremos inner=None para eliminar las barras dentro de los violines.
3. A continuación, trazaremos el diagrama de enjambre. Esta vez, haremos que los puntos sean negros para que sobresalgan más.
4. Finalmente, estableceremos un título usando Matplotlib.

In [None]:
# Establecer el tamaño de la figura con matplotlib
plt.figure(figsize=(11,4))
 
# Crear plot
sns.violinplot(x='Type 1',
               y='Attack', 
               data=df, 
               inner=None, # Remove the bars inside the violins
               palette=pkmn_type_colors)
 
sns.swarmplot(x='Type 1', 
              y='Attack', 
              data=df, 
              color='k', # Make points black
              alpha=0.7) # and slightly transparent
 
# Establecer título con matplotlib
plt.title('Attack by Type')

# Poniendolo todo junto

In [None]:
stats_df.head()

In [None]:
# Fundir el DataFrame
melted_df = pd.melt(stats_df, 
                    id_vars=["Name", "Type 1", "Type 2"], # Variables to keep
                    var_name="Stat") # Name of melted variable
melted_df.head()

In [None]:
# imprimir las dimensiones de estos dos DataFrames
print( stats_df.shape )
print( melted_df.shape )

Ahora podemos hacer un diagrama de enjambre con melted_df.

- Esta vez, vamos a configurar x='Stat' e y='value' para que nuestros enjambres estén separados por estadísticas.
- Luego, estableceremos hue='Type 1' para colorear nuestros puntos según el tipo de Pokémon.

In [None]:
# Swarmplot con melted_df
sns.swarmplot(x='Stat', y='value', data=melted_df, hue='Type 1', legend='brief')

Finalmente, hagamos algunos ajustes finales para un gráfico más legible:
1. Ampliar la parcela.
2. Separe los puntos por tono usando el argumento dodge=True.
3. Usa nuestra paleta de colores personalizada de Pokémon.
4. Ajuste los límites del eje y para terminar en 0.
5. Coloque la leyenda a la derecha.

In [None]:
# 1. Agrandar el plot
plt.figure(figsize=(12,8))
 
sns.swarmplot(x='Stat', 
              y='value', 
              data=melted_df, 
              hue='Type 1', 
                  dodge=True, # 2. Separar los puntos por matiz
              palette=pkmn_type_colors) # 3. Usar paleta Pokemon
 
# 4. Ajustar el y-axis
plt.ylim(0, 260)
 
# 5. leyenda a la derecha
plt.legend(bbox_to_anchor=(1, 1), loc=2)

# Pokédex (Mini-Gallería)

**Heatmap**

Los mapas de calor lo ayudan a visualizar datos similares a una matriz (correlación).

In [None]:
# Calcular correlaciones
corr = stats_df.corr('pearson', numeric_only=True)
 
# Heatmap
plt.figure(figsize=(9,8))
sns.heatmap(corr)

**Histograma**

Los histogramas permiten trazar las distribuciones de variables numéricas.

In [None]:
# Distribution Plot (a.k.a. Histogram)
plt.figure(figsize=(9,6))
sns.histplot(df, x='Attack',
             kde=True) # Plot the density curve too

**Bar Plot**

Las gráficas de barras ayudan a visualizar las distribuciones de variables categóricas.

In [None]:
df.head()

In [None]:
df.groupby(['Type 1']).count()

In [None]:
# Count Plot (a.k.a. Bar Plot)
plt.figure(figsize=(9,6))
sns.countplot(x='Type 1', data=df, palette=pkmn_type_colors)
 
# Rotar x-labels
plt.xticks(rotation=-45)

**CatPlot (Categorical Plot)**

CatPlots facilita la separación de plots por clases categóricas.

In [None]:
# Categorical Plot
g = sns.catplot(x='Type 1', 
                   y='Attack', 
                   data=df, 
                   hue='Stage',  # Color by stage
                   col='Stage',  # Separate by stage
                   kind='swarm') # Swarmplot
 
# Rotate x-axis labels
g.set_xticklabels(rotation=-45)
 
# Doesn't work because only rotates last plot
# plt.xticks(rotation=-45) 

**Density Plot**

Los gráficos de densidad muestran la distribución entre dos variables.
>Tip: Consider overlaying this with a scatter plot.

In [None]:
# Density Plot
sns.kdeplot(x='Attack', y='Defense', data=df)

**Joint Distribution Plot**

Los gráficos de distribución conjunta combinan información de gráficos de dispersión e histogramas para brindar información detallada para distribuciones bivariadas.

In [None]:
# Joint Distribution Plot
sns.jointplot(x='Attack', y='Defense', data=df)