# Práctica de Seaborn

### Introducción

En esta sesión analizaremos la biblioteca de visualización: Seaborn. Este cuaderno se basa en el material del curso de visualización de Kaggle disponible [aquí](https://www.kaggle.com/learn/data-visualization).

Según su documentación `Seaborn` es una biblioteca de visualización de datos de Python basada en matplotlib. Proporciona una interfaz de alto nivel para dibujar gráficos estadísticos atractivos e informativos.

La documentación de la biblioteca puede consultarse [aquí](https://seaborn.pydata.org/).

### Importamos las bibliotecas necesarias

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
print("¡Listo!")

### Cargamos los datos

En este cuaderno, trabajaremos con un conjunto de datos de clasificaciones históricas de la FIFA para seis países: Argentina (ARG), Brasil (BRA), España (ESP), Francia (FRA), Alemania (GER) e Italia (ITA). El conjunto de datos se almacena como un archivo CSV (abreviatura de archivo de valores separados por comas).

In [None]:
# Path of the file to read
fifa_filepath = "https://raw.githubusercontent.com/vbatiz/intro-python/main/notebooks/data/fifa.csv"

# Read the file into a variable fifa_data
fifa_data = pd.read_csv(fifa_filepath, index_col="Date", parse_dates=True)

### Revisamos los datos

In [None]:
fifa_data.head()

In [None]:
fifa_data.tail()

### Gráfica inicial

Una leve muestra de lo que revisaremos.

In [None]:
# Fijar el ancho y alto en pulgadas de la figura
plt.figure(figsize=(16,6))

# Gráfico de líneas mostrando la evolución del ranking FIFA Varonil para los países de Argentina, Brasil, España, Francia, Alemania e Italia.
sns.lineplot(data=fifa_data)

### Gráficos de líneas

#### Seleccionamos el dataset

El conjunto de datos que usaremos rastrea los streams diarios globales en el servicio de streaming de música Spotify. Nos centramos en cinco canciones populares de 2017 y 2018:

1. "Shape of You", de Ed Sheeran
2. "Despacito", de Luis Fonzi 
3. "Something Just Like This", de The Chainsmokers y Coldplay
4. "HUMBLE.", de Kendrick Lamar 
5. "Unforgettable", de French Montana

In [None]:
# Ruta al archivo
spotify_filepath = "https://raw.githubusercontent.com/vbatiz/intro-python/main/notebooks/data/spotify.csv"

# Cargamos el archivo en la variable spotify_data
spotify_data = pd.read_csv(spotify_filepath, index_col="Date", parse_dates=True)

#### Revisamos los datos

In [None]:
spotify_data.head()

In [None]:
spotify_data.tail()

#### Graficamos los datos

In [None]:
# Gráfico de líneas que muestra las reproducciones globales diarias de cada canción 
sns.lineplot(data=spotify_data)

Así como lo hicimos en la práctica de matplotlib, podemos agregar detalles a nuestro gráfico.

In [None]:
# Cambiaremos el ancho y alto de la gráfica
plt.figure(figsize=(14,6))

# Agregamos título
plt.title("Reproducciones mundiales diarias de canciones populares en 2017-2018")

# Gráfico de líneas mostrando las reproducciones mundiales diarias de canciones populares en 2017-2018 
sns.lineplot(data=spotify_data)

#### Grafiquemos un subconjunto de los datos

Primero revisemos las columnas que tiene nuestro conjunto de datos

In [None]:
print(list(spotify_data.columns))

Graficaremos las reproducciones de "Shape of you" y "Despacito".

In [None]:
# Cambiaremos el ancho y alto de la gráfica
plt.figure(figsize=(14,6))

# Agregamos título
plt.title("Reproducciones mundiales diarias de canciones populares en 2017-2018")

# Gráfico de líneas mostrando las reproducciones mundiales diarias de 'Shape of You'
sns.lineplot(data=spotify_data['Shape of You'], label="Shape of You")

# Gráfico de líneas mostrando las reproducciones mundiales diarias de 'Despacito'
sns.lineplot(data=spotify_data['Despacito'], label="Despacito")

# Agregamos etiqueta para el eje x
plt.xlabel("Fecha")

# Agregamos etiqueta para el eje y
plt.ylabel("Número de reproducciones")

### Gráficos de barras y mapas de calor

Utilice el color o la longitud para comparar categorías en un conjunto de datos

#### Gráfico de barras

##### Seleccionamos el dataset

En este caso utilizaremos un conjunto de datos del Departamento de Transporte de EE.UU. que registra los retrasos promedio en arrivo de los vuelos. El conjunto de datos muestra una fila para cada mes (donde 1 = enero, 2 = febrero, etc.) y una columna para cada código de línea aérea. Los datos son todos del año 2015. Los valores negativos indican que los vuelos en promedio llegaron antes de la hora estimada.


- AA = American Airlines Inc.
- AS = Alaska Airlines Inc.
- B6 = JetBlue Airways
- DL = Delta Air Lines Inc.
- EV = ExpressJet Airlines LLC
- F9 = Frontier Airlines Inc.
- HA = Hawaiian Airlines Inc.
- MQ = Envoy Air
- NK = Spirit Air Lines
- OO = SkyWest Airlines Inc.
- UA = United Air Lines Inc.
- US = USAirways
- VX = Virgin America
- WN = Southwest Airlines Co.

In [None]:
# Ruta al archivo
flight_filepath = "https://raw.githubusercontent.com/vbatiz/intro-python/main/notebooks/data/flight_delays.csv"

# Cargamos el archivo en la variable flight_data
flight_data = pd.read_csv(flight_filepath, index_col="Month")

##### Revisamos los datos

In [None]:
flight_data.head()

In [None]:
flight_data.tail()

In [None]:
# Ancho y alto de la figura
plt.figure(figsize=(10,6))

# Se agrega título
plt.title("Average Arrival Delay for Spirit Airlines Flights, by Month")

# Gráfico de barras mostrando el retraso promedio para los vuelos de Spirit Airlines por mes
sns.barplot(x=flight_data.index, y=flight_data['NK'])

# Se agrega leyenda para eje vertical
plt.ylabel("Arrival delay (in minutes)")

#### Mapa de calor

En la celda de código siguiente, creamos un mapa de calor para visualizar rápidamente patrones en flight_data. Cada celda está codificada por colores según su valor correspondiente.

In [None]:
# Ancho y alto de la figura
plt.figure(figsize=(14,7))

# Se agrega título
plt.title("Average Arrival Delay for Each Airline, by Month")

# Gráfico de mapa de calor mostrando el retraso promedio para cada aerolínea por mes.
sns.heatmap(data=flight_data, annot=True) # annot=True asegura que los valores de cada celda aparezcan en el gráfico. 

# Se agrega leyenda para el eje horizontal
plt.xlabel("Airline")

### Gráficos de dispersión

#### Seleccionamos el dataset

En este caso utilizaremos un conjunto de datos (sintéticos) de gastos de seguros, para ver si podemos entender por qué unos clientes pagan más que otros.

In [None]:
# Ruta al archivo
insurance_filepath = "https://raw.githubusercontent.com/vbatiz/intro-python/main/notebooks/data/insurance.csv"

# Cargamos el archivo en la variable insurance_data
insurance_data = pd.read_csv(insurance_filepath)

#### Revisamos los datos

In [None]:
insurance_data.head()

In [None]:
insurance_data.tail()

#### Graficamos

Ocupamos indicar los valores para los ejes x y y.

In [None]:
sns.scatterplot(x=insurance_data['bmi'], y=insurance_data['charges'])

El diagrama de dispersión anterior sugiere que el índice de masa corporal (IMC, BMI en inglés) y los gastos del seguro están positivamente correlacionados, de modo que los clientes con un IMC más alto suelen pagar más en concepto de seguro. (Este patrón tiene sentido, ya que un IMC alto suele asociarse a un mayor riesgo de enfermedades crónicas).

Para comprobar la fuerza de esta relación, puede añadir una línea de regresión, o la línea que mejor se ajuste a los datos. Para ello, cambie el comando a `sns.regplot`.

In [None]:
sns.regplot(x=insurance_data['bmi'], y=insurance_data['charges'])

#### Gráficos de dispersión codificados por colores
Podemos utilizar gráficos de dispersión para mostrar las relaciones entre (no dos, sino...) ¡tres variables! Una forma de hacerlo es codificar los puntos por colores.

Por ejemplo, para entender cómo afecta el tabaquismo a la relación entre el IMC y los costes del seguro, podemos colorear los puntos según "fumador" y representar las otras dos columnas ("IMC", "gastos") en los ejes.

In [None]:
# Agregamos el parámetro hue para diferenciar los puntos con base en el campo 'smoker'.
sns.scatterplot(x=insurance_data['bmi'], y=insurance_data['charges'], hue=insurance_data['smoker'])

Este gráfico de dispersión muestra que, mientras que los no fumadores tienden a pagar ligeramente más con el aumento del IMC, los fumadores pagan MUCHO más.

Para enfatizar aún más este hecho, podemos utilizar el comando sns.lmplot para añadir dos líneas de regresión, correspondientes a fumadores y no fumadores. (Observará que la línea de regresión de los fumadores tiene una pendiente mucho más pronunciada que la de los no fumadores).

In [None]:
sns.lmplot(x="bmi", y="charges", hue="smoker", data=insurance_data)

Por último, hay un gráfico más que revisaremos, tiene un aspecto ligeramente diferente de cómo estamos acostumbrado a ver los gráficos de dispersión. Normalmente, utilizamos los gráficos de dispersión para resaltar la relación entre dos variables continuas (como "bmi" y "cargos"). Sin embargo, podemos adaptar el diseño del gráfico de dispersión para incluir una variable categórica (como "smoker") en uno de los ejes principales. Nos referiremos a este tipo de gráfico como gráfico de dispersión categórico, y lo construiremos con el comando `sns.swarmplot`.

In [None]:
sns.swarmplot(x=insurance_data['smoker'],
              y=insurance_data['charges'])
# Agregar coloreado con base al bmi para ver la relación


### Distribuciones
Crear histogramas y gráficos de densidad.

#### Seleccionamos el conjunto de datos.

Trabajaremos con un conjunto de datos de 150 flores diferentes, 50 de cada una de tres especies distintas de iris (Iris setosa, Iris versicolor e Iris virginica).

![Iris](https://storage.googleapis.com/kaggle-media/learn/images/RcxYYBA.png)

Cada fila del conjunto de datos corresponde a una flor diferente. Hay cuatro medidas: la longitud y la anchura del sépalo (Sepal Width), junto con la longitud y la anchura del pétalo (Petal Width y Petal Length). También llevamos la cuenta de la especie correspondiente (Species).

In [None]:
# Ruta al conjunto de datos
iris_filepath = "https://raw.githubusercontent.com/vbatiz/intro-python/main/notebooks/data/iris.csv"

# Cargamos el conjunto de datos en la variable iris_data
iris_data = pd.read_csv(iris_filepath, index_col="Id")

# Revisamos los datos
iris_data.head()

#### Graficamos el Histograma

In [None]:
# Histogram 
sns.histplot(iris_data['Petal Length (cm)'])

#### Gráficos de densidad

El siguiente tipo de gráfico es un gráfico de estimación de densidad del núcleo (KDE). En caso de que no esté familiarizado con los gráficos KDE, puede considerarlos como un histograma suavizado.

In [None]:
# KDE plot 
sns.kdeplot(data=iris_data['Petal Length (cm)'], shade=True)

#### Gráficos de densidad 2D

No estamos restringidos a una sola columna cuando creamos un gráfico KDE. Podemos crear un gráfico KDE bidimensional (2D) con el comando `sns.jointplot`.

In [None]:
# 2D KDE plot
sns.jointplot(x=iris_data['Petal Length (cm)'], y=iris_data['Sepal Width (cm)'], kind="kde")

#### Coloreando los datos

In [None]:

sns.histplot(data=iris_data, x='Petal Length (cm)', hue='Species')


plt.title("Histogram of Petal Lengths, by Species")

In [None]:

sns.kdeplot(data=iris_data, x='Petal Length (cm)', hue='Species', shade=True)


plt.title("Distribution of Petal Lengths, by Species")