# 1. Matplotlib


## A. Presentación


### ¿Qué es Matplotlib?

Matplotlib es una biblioteca de visualización de datos en Python ampliamente utilizada y altamente flexible. Fue creado por John D. Hunter en 2003 como una herramienta para generar gráficos de alta calidad de manera sencilla y efectiva. Matplotlib permite crear una variedad de gráficos y visualizaciones, desde simples gráficos de línea hasta complejas representaciones tridimensionales.


<a href="https://matplotlib.org/">
  <img src="https://matplotlib.org/stable/_static/images/logo_dark.svg">
</a>
Esta biblioteca se ha convertido en una parte fundamental del ecosistema de Python para análisis de datos y visualización, ya que proporciona una interfaz amigable para crear gráficos informativos y estéticamente atractivos. Matplotlib es especialmente útil para visualizar patrones, tendencias y relaciones en los datos, lo que facilita la comunicación de ideas y hallazgos a través de gráficos claros y significativos.

### Importancia de la visualización

<a href="https://cdn8.openculture.com/2019/07/10194425/Minard.png">
   <img align="center" width="1200" height="500" src="https://cdn8.openculture.com/2019/07/10194425/Minard.png" >
</a>





---



A medida que lidiamos con conjuntos de datos cada vez más grandes y complejos, la capacidad de representar visualmente estos datos se vuelve esencial para comprenderlos y comunicar resultados de manera efectiva. Algunas razones clave para la importancia de la visualización en este contexto son:


1. **Comprensión de patrones y tendencias:** Los gráficos permiten identificar patrones, tendencias y relaciones en los datos que pueden ser difíciles de detectar en tablas de números.


2. **Comunicación efectiva:** Los gráficos permiten comunicar hallazgos de manera más clara y accesible que las descripciones verbales o las tablas de datos.


3. **Exploración de datos:** La visualización ayuda en la exploración inicial de datos, lo que puede conducir a nuevas preguntas y descubrimientos.

4. **Toma de decisiones informadas:** Los gráficos ayudan a los profesionales y tomadores de decisiones a comprender la información subyacente y tomar decisiones basadas en evidencia.

5. **Identificación de anomalías:** Las visualizaciones destacan valores atípicos o anomalías en los datos, lo que puede ser crucial para detectar problemas en los datos o en el proceso de recopilación.



## B. Configuración inicial


Para usar Matplotlib, primero debes asegurarte de que esté instalado en tu entorno. En el caso de Google Colab, `matplotlib` viene instalado por defecto.





In [None]:
# Chequeo de versión
import matplotlib
print(matplotlib.__version__)

### Importar el módulo

Una vez que Matplotlib esté instalado, puedes importar el módulo matplotlib.pyplot en tu script o Notebook. Este módulo proporciona una amplia gama de funciones y métodos que permiten crear y personalizar gráficos.

    Al importar el módulo como plt, puedes acceder a sus funciones utilizando esta abreviación, lo que hace que el código sea más conciso y legible.

Con la instalación y la importación adecuadas, estarás listo para comenzar a crear visualizaciones utilizando las capacidades de Matplotlib. La importación de matplotlib.pyplot es un paso crucial para poder acceder a todas las funcionalidades que Matplotlib tiene para ofrecer en términos de creación y personalización de gráficos.

In [None]:
import matplotlib.pyplot as plt

### Filosofía
Matplotlib es una biblioteca para realizar gráficos en 2D en Python. Está diseñada con la filosofía de que deberías poder crear gráficos simples con solo unos pocos pasos:
1. Inicializar: cargar librerías necesarias
2. Preparar: obtener datos a visualizar.
3. Render: proceso de creación de la visualización.


In [None]:
# 1. Inicializar
import numpy as np
import matplotlib.pyplot as plt

In [None]:
# 2. Preparar
X = np.linspace(0, 4*np.pi, 1000)
Y = np.sin(X)

In [None]:
# 3. Render
fig, ax = plt.subplots()
ax.plot(X, Y)

# 4.Agregar título y etiquetas de ejes
plt.title("Título")
plt.xlabel("Etiqueta x")
plt.ylabel("Etiqueta y")

# 4. Mostrar
plt.show()

**Render**
- `fig, ax = plt.subplots()`: Esta línea crea una figura y un
conjunto de ejes (axis) en Matplotlib.
  - Figura es el contenedor principal que contiene todos los elementos gráficos.
  - Los ejes son las áreas donde se trazarán los gráficos.
  - `fig, ax` es una convención común para asignar las instancias de figura y ejes a las variables `fig` y `ax`, respectivamente. Puedes usar `ax` para realizar operaciones y configuraciones en los ejes, como agregar datos y personalizar aspectos del gráfico.

- `ax.plot(X, Y)`: Aquí, `ax.plot()` se utiliza para trazar un gráfico de línea. `X` y `Y` son los datos que se utilizarán para crear el gráfico.

- Agregar etiquetas y título:
`plt.title(), plt.xlabel(), plt.ylabel()`

- `plt.show()`: Finalmente, `plt.show()` se utiliza para mostrar el gráfico en una ventana emergente. Esto es necesario para que el gráfico se muestre en la pantalla.

## C. Creación de gráficos básicos

La creación de gráficos básicos es uno de los primeros pasos para comenzar a explorar tus datos visualmente con `matplotlib`. En esta sección, aprenderemos cómo usar la función `plot()` para crear gráficos de líneas simples, y cómo personalizar elementos clave como etiquetas de ejes y título.


### Gráfico de dispersión

Un scatter plot (gráfico de dispersión) es una representación visual que muestra la relación entre dos conjuntos de datos numéricos. Cada punto en el gráfico representa una observación y se coloca en función de sus valores en dos ejes, `x ` e `y`. Esto ayuda a identificar patrones, correlaciones o agrupamientos en los datos.

In [None]:
# Preparación
X = np.random.uniform(0, 1, 100)
Y = np.random.uniform(0, 1, 100)


# Render
fig, ax = plt.subplots()
ax.scatter(X, Y)
plt.show()

⛳ **Ejercicio**

 Imagina que estás realizando un experimento científico en el que estás midiendo la temperatura (X) y la humedad (Y) en diferentes puntos de un área. Tienes 100 lecturas de temperatura y humedad almacenadas en las listas X y Y, respectivamente. Quieres visualizar estos datos para identificar algún patrón.

 Utilizando la librería Matplotlib en Python, escribe un código que genere un scatter plot con la temperatura en el eje X y la humedad en el eje Y. Asegúrate de que los puntos estén marcados de manera clara en el gráfico



In [None]:
# Generación del dataset de ejemplo
np.random.seed(42)
X = np.random.uniform(0, 1, 100)
Y = np.random.uniform(0, 1, 100)

# Su código aquí

### Gráfico de barras
Un gráfico de barras es una representación visual que utiliza barras rectangulares para mostrar y comparar diferentes valores numéricos o categorías. Cada barra representa una categoría o un valor, y su longitud es proporcional al valor que está siendo representado. Los gráficos de barras son efectivos para visualizar datos categóricos o cuantitativos discretos y para comparar magnitudes entre distintas categorías.

In [None]:
X = np.arange(10)
Y = np.random.uniform(1, 10, 10)

# Render
fig, ax = plt.subplots()
ax.bar(X, Y)
plt.show()

### Mapa de calor
Un heatmap (mapa de calor en español) es un tipo de gráfico que utiliza colores para representar la relación entre dos variables en una matriz. Cada celda de la matriz se colorea según el valor que contiene, lo que permite visualizar patrones, tendencias y relaciones en los datos.

En un heatmap, los colores se utilizan para codificar los valores. Por ejemplo, los colores más oscuros pueden representar valores más bajos y los colores más claros pueden representar valores más altos. Esto permite una rápida identificación de patrones, como áreas con valores bajos o altos en la matriz.

In [None]:
Z = np.random.uniform(0, 1, (8,8))

# Render
fig, ax = plt.subplots()
ax.imshow(Z)
plt.show()

### Gráfico de contornos

Un contour plot (también conocido como gráfico de contornos) es un tipo de gráfico utilizado para visualizar datos tridimensionales en un formato bidimensional. En lugar de representar los valores de datos con colores o barras como en otros tipos de gráficos, un contour plot utiliza líneas de contorno para mostrar los niveles de valores a lo largo de dos ejes, generalmente el eje x y el eje y.


Los contour plots son especialmente útiles para visualizar funciones matemáticas o científicas, como mapas topográficos, distribuciones de temperatura, y otras superficies tridimensionales en las que se desea ver cómo los valores cambian en función de dos variables independientes.


In [None]:
Z = np.random.uniform(0, 1, (8,8))

# Render
fig, ax = plt.subplots()
ax.contourf(Z)
plt.show()

### Gráfico pastel
Un gráfico de pastel (también conocido como gráfico circular o gráfico de tarta) es un tipo de gráfico utilizado para representar proporciones y porcentajes de diferentes partes en relación con un todo.

En un gráfico de pastel, los datos se visualizan como porcentajes del círculo completo. Cada porción (segmento) del pastel representa una categoría específica y su tamaño angular refleja el porcentaje que representa dentro del conjunto total. Además, los gráficos de pastel a menudo se etiquetan con los nombres o valores numéricos de las categorías correspondientes.

Los gráficos de pastel son útiles cuando se desea mostrar rápidamente cómo se distribuyen las partes en relación con el todo. Sin embargo, en algunos casos, pueden ser menos efectivos para comparar valores precisos o para visualizar muchas categorías diferentes debido a la limitación de representación en el círculo. En tales casos, otros tipos de gráficos, como los gráficos de barras o los gráficos de columnas, pueden ser más apropiados.



In [None]:
Z = np.random.uniform(0, 1, 4)
# Render
fig, ax = plt.subplots()
ax.pie(Z)
plt.show()

⛳ **Ejercicio:** Imagina que estás analizando la distribución de gastos en diferentes categorías en el presupuesto de una familia. Tienes los datos de los gastos en una lista llamada `Z`, donde cada elemento representa el porcentaje de gasto en una categoría específica. Tu tarea es utilizar la librería Matplotlib en Python para crear un pie chart que visualice la distribución de gastos en estas categorías.



In [None]:
# Datos de distribución de gastos
Z = np.random.uniform(0, 1, 4, 7)

# Su código aquí

### Histograma

Un histograma es utilizado para representar la distribución de frecuencias de un conjunto de datos numéricos continuos. En lugar de mostrar valores individuales, como en otros tipos de gráficos, un histograma organiza los datos en intervalos (llamados "bins" o "clases") y muestra cuántas veces los valores caen en cada intervalo.

En un histograma, el eje horizontal representa los valores numéricos continuos, mientras que el eje vertical representa la frecuencia o la densidad de ocurrencia de esos valores en cada intervalo. Las barras en el gráfico se elevan para indicar cuántos valores caen dentro de un intervalo específico.

El histograma es especialmente útil para observar la distribución de los datos, lo que puede ayudar a identificar patrones, tendencias y características importantes, como la concentración de valores alrededor de ciertos rangos o la presencia de valores atípicos.

Al ajustar el número de intervalos en el histograma, puedes cambiar la resolución y la visualización de los datos. Un número bajo de intervalos puede ocultar detalles, mientras que un número alto puede revelar patrones más finos, pero también puede hacer que el gráfico sea más difícil de interpretar.


In [None]:
Z = np.random.normal(0, 1, 100)

# Render
fig, ax = plt.subplots()
ax.hist(Z)
plt.show()

⛳ **Ejercicio:** Imagina que estás estudiando las alturas de un grupo de estudiantes en tu escuela. Tienes los datos de las alturas en una lista llamada Z, donde cada elemento representa la altura de un estudiante en centímetros. Tu tarea es utilizar la librería Matplotlib en Python para crear un histograma que muestre la distribución de alturas en el grupo.

In [None]:
# Datos de alturas de los estudiantes
Z = np.random.normal(0, 1, 100)

# Su código aquí

### Barras de error

Un error bar (barra de error ) es una representación visual en un gráfico que muestra la variabilidad o incertidumbre asociada con un conjunto de datos. Estas barras se extienden desde el punto central de cada dato en el gráfico y representan el rango en el cual los valores podrían variar debido a errores de medición, incertidumbre estadística u otras fuentes de variabilidad.

Las barras de error se utilizan comúnmente en gráficos de barras y similarespara proporcionar información adicional sobre la confiabilidad y la dispersión de los datos. Hay varios tipos de barras de error, incluyendo:

1. **Barras de error estándar:** Representan la desviación estándar o el error estándar de los datos.

2. **Barras de error de rango:** Representan el rango completo de los valores dentro de un intervalo específico.

3. **Barras de error de confianza:** Indican intervalos de confianza alrededor de los valores medios.

4. **Barras de error personalizadas:** Pueden representar otros tipos de información de incertidumbre según el contexto del análisis.


In [None]:
X = np.arange(5)
Y = np.random.uniform(0, 1, 5)


# Render
fig, ax = plt.subplots()
ax.errorbar(X, Y, Y/4)
plt.show()

### Gráfico de caja

Un boxplot (también conocido como diagrama de caja y bigote o gráfico de caja) es un tipo de gráfico utilizado para representar la distribución de un conjunto de datos numéricos. Este gráfico proporciona información sobre la mediana, los cuartiles y la presencia de valores atípicos en los datos.

El boxplot se representa como una caja con "bigotes" extendiéndose desde ella. Los componentes clave del boxplot son:

1. **Caja (Box):** La caja del gráfico representa el rango intercuartil (IQR, por sus siglas en inglés), que contiene el 50% central de los datos. El borde inferior de la caja representa el primer cuartil (Q1), y el borde superior representa el tercer cuartil (Q3). La mediana (valor en el medio de los datos ordenados) se marca como una línea dentro de la caja.

2. **Bigotes (Whiskers):** Los bigotes se extienden desde los bordes de la caja y su longitud se calcula utilizando una fórmula que involucra el IQR. Los bigotes indican la dispersión de los datos fuera del rango intercuartil.

3. **Valores Atípicos:** Los valores que están fuera del rango intercuartil se consideran valores atípicos y se representan como puntos individuales en el gráfico.

El boxplot es especialmente útil para visualizar la dispersión, tendencias centrales y la presencia de valores atípicos en los datos. Proporciona una imagen clara y concisa de la distribución del conjunto de datos, lo que es valioso para el análisis exploratorio y la comparación de diferentes conjuntos de datos.


In [None]:
Z = np.random.normal(0, 1, (100, 3))
Z[10, 0] = 8  # Valor atípico en el primer conjunto de datos
Z[25, 1] = -4  # Valor atípico en el segundo conjunto de datos
Z[70, 2] = 10  # Valor atípico en el tercer conjunto de datos

# Render
fig, ax = plt.subplots()
ax.boxplot(Z)
plt.show()

## D. Personalizaciones

Si bien matplotlib es una herramienta poderosa y versátil para la visualización de datos en Python, su flexibilidad viene con cierta complejidad. Aunque permite una amplia gama de personalizaciones, desde colores y estilos hasta la disposición precisa de los elementos, alcanzar el diseño deseado a menudo requiere escribir y ajustar múltiples líneas de código. Esta complejidad puede ser un desafío, especialmente para los principiantes o aquellos que buscan soluciones rápidas y sencillas.

Aqui un ejemplo de personalización de un gráfico en Matplotlib:

In [None]:
# Datos con etiquetas
meses = ['Enero', 'Febrero', 'Marzo']
categorias = ['Electrónica', 'Ropa', 'Alimentos']
values = np.array([
    [1200, 1400, 1300],  # Electronica
    [800, 750, 850],    # Ropa
    [1500, 1600, 1550]  # Alimentos
])

In [None]:
from matplotlib.ticker import FixedLocator, FixedFormatter

# Colores
colors = ['#1f77b4', '#ff7f0e', '#2ca02c']

# Crear un gráfico de barras apiladas con etiquetas en español
fig, ax = plt.subplots(figsize=(10, 7))

# Graficar datos
for i, (categoria, color) in enumerate(zip(categorias, colors)):
    if i == 0:
        ax.bar(meses, values[i], color=color, label=categoria)
        bases = values[i]
    else:
        ax.bar(meses, values[i], color=color, label=categoria, bottom=bases)
        bases += values[i]

# Personalizaciones
ax.set_title('Ventas de Productos en el Primer Trimestre', fontsize=16, fontweight='bold')
ax.set_ylabel('Ventas ($)', fontsize=14)
ax.set_xlabel('Mes', fontsize=14)

# Corregir las advertencias usando FixedLocator y FixedFormatter
ax.xaxis.set_major_locator(FixedLocator([0, 1, 2]))
ax.xaxis.set_major_formatter(FixedFormatter(meses))
ax.yaxis.set_major_locator(FixedLocator(ax.get_yticks()))
ax.yaxis.set_major_formatter(FixedFormatter(ax.get_yticks().astype(int)))

ax.legend(loc='upper left', bbox_to_anchor=(1, 1), fontsize=12)
ax.grid(axis='y', linestyle='--', alpha=0.7)
ax.set_axisbelow(True)

# Anotaciones
for indice_mes, mes in enumerate(meses):
    ventas_totales = values[:, indice_mes].sum()
    ax.annotate(f'Total: ${ventas_totales}', (indice_mes, ventas_totales + 50),
                ha='center', fontsize=10, color='black', fontweight='bold')

plt.tight_layout()
plt.show()

# 2. Seaborn

Seaborn es una biblioteca de visualización de datos en Python basada en Matplotlib, pero diseñada específicamente para crear gráficos atractivos y estéticos con menos líneas de código.

Seaborn proporciona una interfaz de alto nivel que simplifica la creación de gráficos estadísticos y permite explorar patrones y relaciones en los datos de manera más eficiente. Fue desarrollada para facilitar la creación de visualizaciones más avanzadas y sofisticadas, especialmente en el contexto del análisis estadístico y científico.

<a href="https://seaborn.pydata.org/">
  <img src="https://seaborn.pydata.org/_static/logo-wide-lightbg.svg">
</a>


**Características:**
- **Estilos Atractivos por Defecto:** Seaborn viene con estilos visuales predeterminados que hacen que los gráficos sean más atractivos de inmediato. Esto permite crear visualizaciones agradables sin la necesidad de personalizar cada detalle.

- **Paletas de Colores Mejoradas:** Seaborn ofrece paletas de colores diseñadas para resaltar patrones en los datos y facilitar la distinción entre categorías.

- **Funciones de Alto Nivel:** Seaborn proporciona funciones de alto nivel para crear gráficos estadísticos comunes, como histogramas, diagramas de violín, gráficos de dispersión con líneas de regresión y mapas de calor de correlación.

- **Integración con Pandas:** Seaborn puede trabajar directamente con DataFrames de Pandas, lo que simplifica la importación y visualización de datos almacenados en estructuras de datos tabulares.


In [None]:
# Librerías
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_theme(style="darkgrid")

## A. Gráficos de dispersión
Existen varias formas de crear un gráfico de dispersión en seaborn. La más básica, que debe utilizarse cuando ambas variables son numéricas, es la función `scatterplot()`.





In [None]:
# Datos
tips = sns.load_dataset("tips")
tips.head()

In [None]:
# Scatter plot
sns.scatterplot(data=tips, x="total_bill", y="tip")
plt.show()

Si bien los puntos se representan en dos dimensiones, se puede agregar otra dimensión al gráfico al colorear los puntos de acuerdo con una tercera variable. En seaborn, esto se conoce como utilizar una "semántica de matiz" (`hue`), ya que el color del punto adquiere significado:

In [None]:
sns.scatterplot(data=tips, x="total_bill", y="tip", hue="smoker")
plt.show()

Para enfatizar la diferencia entre las clases y mejorar la accesibilidad, puedes utilizar un estilo de marcador diferente para cada clase:

In [None]:
sns.scatterplot(
    data=tips,
    x="total_bill", y="tip", hue="smoker", style="smoker"
)
plt.show()

También es posible representar cuatro variables al cambiar el matiz (hue) y el estilo de cada punto de manera independiente. Sin embargo, esto debe hacerse con cuidado, ya que el **ojo es mucho menos sensible a la forma que al color**:

In [None]:
sns.scatterplot(
    data=tips,
    x="total_bill", y="tip", hue="smoker", style="time",
)
plt.show()

En los ejemplos anteriores, la semántica de matiz (`hue`) era categórica, por lo que se aplicó la paleta cualitativa predeterminada. Si la semántica de matiz es numérica (específicamente, si se puede convertir a tipo flotante), la coloración predeterminada cambia a una paleta secuencial:

In [None]:
sns.scatterplot(
    data=tips, x="total_bill", y="tip", hue="size",
)
plt.show()

Se puede modificar los colores utilizando una paleta de colores predefinida:

In [None]:
sns.scatterplot(
    data=tips,
    x="total_bill", y="tip",
    hue="size", palette="viridis"
)
plt.show()

El tercer tipo de variable semántica cambia el tamaño de cada punto:

In [None]:
sns.scatterplot(data=tips, x="total_bill", y="tip", size="size")

A diferencia de `matplotlib.pyplot.scatter()`, el valor literal de la variable no se utiliza para determinar el área del punto. En su lugar, el rango de valores en unidades de datos se normaliza en un rango en unidades de área. Este rango se puede personalizar:

In [None]:
sns.scatterplot(
    data=tips, x="total_bill", y="tip",
    size="size", sizes=(15, 200)
)
plt.show()

Utiliza `relplot()` para combinar `scatterplot()` y `FacetGrid`. Esto permite agrupar variables categóricas adicionales y representarlas en múltiples subtramas.

In [None]:
sns.relplot(
    data=tips, x="total_bill", y="tip",
    col="time", hue="day", style="day",
    kind="scatter"
)
plt.show()

⛳ **Ejercicio:** Ahora, estás explorando un conjunto de datos que contiene información sobre diferentes especies de pingüinos. Quieres visualizar la relación entre el peso (`body_mass_g`) y la longitud del pico (`bill_length_mm`) de los pingüinos. Utiliza el dataset `penguins` de Seaborn y la función `sns.scatterplot` para crear un scatter plot. Personaliza el gráfico configurando el color de los puntos según la especie (`species`) y utilizando una paleta de colores llamada "Set1".




In [None]:
# Carga del dataset
data = sns.load_dataset('penguins')

# Su código aquí

## B. Gráfico de línea

Los gráficos de dispersión son altamente efectivos, pero no existe un tipo de visualización universalmente óptimo. En su lugar, la representación visual debe adaptarse a las especificidades del conjunto de datos y a la pregunta que estás tratando de responder con el gráfico.

Con algunos conjuntos de datos, es posible que desees comprender los cambios en una variable en función del tiempo, o una variable continua similar. En esta situación, una buena elección es crear un gráfico de líneas. En seaborn, esto se puede lograr mediante la función `lineplot()`.



In [None]:
# Importar datos
dowjones = sns.load_dataset("dowjones")
dowjones.head()

In [None]:
sns.lineplot(data=dowjones, x="Date", y="Price")
plt.show()


Conjuntos de datos más complejos tendrán múltiples mediciones para el mismo valor de la variable x. El comportamiento predeterminado en seaborn es agregar las múltiples mediciones en cada valor de x trazando la media y el intervalo de confianza del 95% alrededor de la media:




In [None]:
fmri = sns.load_dataset("fmri")
fmri.sort_values('timepoint').head(10)

In [None]:
sns.lineplot(data=fmri, x="timepoint", y="signal")
plt.show()

Los intervalos de confianza se calculan utilizando el método de bootstrapping, lo que puede ser intensivo en tiempo para conjuntos de datos más grandes. Por lo tanto, es posible desactivarlos.

In [None]:
sns.lineplot(data=fmri, x="timepoint", y="signal", errorbar=None)
plt.show()

Otra buena opción, especialmente con datos más grandes, es representar la dispersión de la distribución en cada punto de tiempo trazando la desviación estándar en lugar de un intervalo de confianza:

In [None]:
sns.lineplot(data=fmri, x="timepoint", y="signal", errorbar="sd")
plt.show()

Para desactivar por completo la agregación, establece el parámetro estimator en None. Esto podría producir un efecto extraño cuando los datos tienen múltiples observaciones en cada punto:



In [None]:
sns.lineplot(data=fmri, x="timepoint", y="signal",  estimator=None)
plt.show()

La función `lineplot()` tiene la misma flexibilidad que `scatterplot()`: puede mostrar hasta tres variables adicionales modificando el matiz (hue), el tamaño y el estilo de los elementos del gráfico.

El uso de semánticas en `lineplot()` también determinará cómo se agregan los datos. Por ejemplo, agregar una semántica de matiz (hue) con dos niveles divide el gráfico en dos líneas y bandas de error, coloreando cada una para indicar qué subconjunto de datos corresponden.



In [None]:
sns.relplot(
    data=fmri, kind="line",
    x="timepoint", y="signal", hue="event",
)
plt.show()

Agregar una semántica de estilo (style) a un gráfico de líneas cambia el patrón de guiones en la línea de forma predeterminada:


In [None]:
sns.relplot(
    data=fmri, kind="line",
    x="timepoint", y="signal",
    hue="region", style="event",
)
plt.show()

Pero puedes identificar grupos por  marcadores (`markers`) ya sea junto con  guiones (`dashes`) o sin ellos:

In [None]:
sns.relplot(
    data=fmri, kind="line",
    x="timepoint", y="signal", hue="region", style="event",
    dashes=False, markers=True
)
plt.show()

Al igual que con los gráficos de dispersión, ten cuidado al crear gráficos de líneas con múltiples semánticas. Aunque a veces son informativas, también pueden ser difíciles de interpretar.

Cuando estás trabajando con datos de medidas repetidas (es decir, tienes unidades que fueron muestreadas varias veces), también puedes trazar cada unidad de muestreo por separado sin distinguirlas a través de semánticas. Esto evita saturar la leyenda:

In [None]:
sns.relplot(
    data=fmri.query("event == 'stim'"), kind="line",
    x="timepoint", y="signal", hue="region",
    units="subject", estimator=None,
)
plt.show()

La paleta y el manejo predeterminado de la leyenda en `lineplot()` también dependen de si la semántica de matiz (hue) es categórica o numérica.



⛳ **Ejercicio:** Imagina que estás analizando los resultados de pruebas de ejercicio en un estudio de condición física. Tienes los datos de los resultados en un conjunto de datos llamado `exercise`. Quieres visualizar cómo cambia la frecuencia cardíaca (`pulse`) en función del tiempo de ejercicio (`time`). Utiliza la función `sns.lineplot` para crear un lineplot que muestre esta relación a lo largo del tiempo.




In [None]:
# Carga del dataset
data = sns.load_dataset('exercise')

# Su código aquí

## C. Facetas

Si bien seaborn puede mostrar varias variables semánticas a la vez, no siempre es efectivo hacerlo así. Pero, ¿qué sucede cuando realmente deseas comprender cómo una relación entre dos variables depende de más de una variable adicional?

El enfoque más adecuado puede ser crear más de una gráfica. Debido a que `relplot()` se basa en `FacetGrid`, esto es fácil de hacer.

Para mostrar la influencia de una variable adicional, en lugar de asignarla a uno de los roles semánticos en la gráfica, úsala para "dividir" la visualización en facetas. Esto significa que crearás múltiples ejes y graficarás subconjuntos de datos en cada uno de ellos:





In [None]:
sns.relplot(
    data=tips, x="total_bill", y="tip", hue="smoker", col="time",
)
plt.show()

También puedes mostrar la influencia de dos variables de esta manera: una dividiendo en columnas y otra dividiendo en filas. A medida que agregas más variables a la cuadrícula, es posible que desees reducir el tamaño de la figura. Recuerda que el tamaño de FacetGrid está parametrizado por la altura y la relación de aspecto de cada faceta:

In [None]:
sns.relplot(
    data=fmri, kind="line",
    x="timepoint", y="signal", hue="subject",
    col="region", row="event", height=3,
    estimator=None
)
plt.show()

Cuando desees examinar efectos a través de muchos niveles de una variable, puede ser una buena idea dividir esa variable en columnas y luego "envolver" las facetas en filas:

In [None]:
sns.relplot(
    data=fmri.query("region == 'frontal'"), kind="line",
    x="timepoint", y="signal", hue="event", style="event",
    col="subject", col_wrap=5,
    height=3, aspect=.75, linewidth=2.5,
)
plt.show()


Estas visualizaciones, a veces llamadas gráficas "lattice" o "small-multiples", son muy efectivas porque presentan los datos en un formato que facilita al ojo detectar tanto patrones generales como desviaciones de esos patrones.

Si bien debes aprovechar la flexibilidad que ofrecen `scatterplot`()` y `relplot()`, siempre intenta tener en cuenta que varias gráficas simples suelen ser más efectivas que una gráfica compleja.

⛳ **Ejercicio:** Estás explorando un conjunto de datos que contiene información sobre planetas fuera de nuestro sistema solar. Quieres visualizar la relación entre el tamaño (`orbital_radius`) y la masa (`mass`) de los planetas. Además, te gustaría diferenciar los planetas por su método de detección (`method`) y sus años de descubrimiento (`year`). Utiliza la función `sns.relplot` para crear un conjunto de gráficos de dispersión faceteado que muestre esta relación, con una faceta para cada método de detección y columnas separadas para cada año de descubrimiento.





In [None]:
# Carga del dataset
data = sns.load_dataset('planets')

# Su código aquí

## D. Distribuciones de datos

Las técnicas de visualización de distribuciones pueden proporcionar respuestas rápidas a muchas preguntas importantes. ¿Qué rango cubren las observaciones? ¿Cuál es su tendencia central? ¿Están fuertemente sesgados en una dirección? ¿Hay evidencia de bimodalidad? ¿Existen valores atípicos significativos? ¿Las respuestas a estas preguntas varían en subconjuntos definidos por otras variables?


### Histograma

Un histograma es un gráfico de barras donde el eje que representa la variable de datos se divide en un conjunto de intervalos discretos y se muestra la cantidad de observaciones que caen en cada intervalo mediante la altura de la barra correspondiente:

In [None]:
penguins = sns.load_dataset("penguins")
penguins

In [None]:
sns.displot(penguins, x="flipper_length_mm")
plt.show()

Esta gráfica inmediatamente brinda algunas ideas sobre la variable `flipper_length_mm`. Por ejemplo, podemos ver que la longitud de aleta más común es aproximadamente 195 mm, pero la distribución parece bimodal, por lo que este número no representa bien los datos.

El tamaño de los intervalos es un parámetro importante, y usar el tamaño incorrecto puede inducir a error al oscurecer características importantes de los datos o crear características aparentes a partir de la variabilidad aleatoria.

De manera predeterminada, `displot()`/`histplot()` elige un tamaño de intervalo basado en la varianza de los datos y el número de observaciones. Sin embargo, no debes depender demasiado en estos enfoques automáticos, ya que dependen de suposiciones particulares sobre la estructura de tus datos. Siempre es recomendable verificar que tus impresiones sobre la distribución sean consistentes en diferentes tamaños de intervalo. Para elegir el tamaño directamente, configura el parámetro ``
`binwidth`:


In [None]:
sns.displot(penguins, x="flipper_length_mm", binwidth=3)
plt.show()

En otras circunstancias, puede tener más sentido especificar el número de (`bins`) intervalos en lugar de su tamaño:


In [None]:
sns.displot(penguins, x="flipper_length_mm", bins=20)
plt.show()

Un ejemplo de una situación en la que los valores predeterminados fallan es cuando la **variable toma un número relativamente pequeño de valores enteros**. En ese caso, el ancho predeterminado del intervalo puede ser demasiado pequeño, creando brechas incómodas en la distribución:

In [None]:
tips = sns.load_dataset("tips")
tips

In [None]:
sns.displot(tips, x="size")
plt.show()

Una opción sería especificar los puntos de quiebre precisos de los intervalos pasando un arreglo a bins:

In [None]:
sns.displot(tips, x="size", bins=[1, 2, 3, 4, 5, 6, 7])

Esto también se puede lograr configurando `discrete=True`, lo que elige puntos de quiebre de intervalo que representan los valores únicos en un conjunto de datos con barras centradas en su valor correspondiente.

In [None]:
sns.displot(tips, x="size", discrete=True)
plt.show()

También es posible visualizar la distribución de una variable categórica utilizando la lógica de un histograma. Los intervalos discretos se configuran automáticamente para variables categóricas, pero también puede ser útil "reducir" (`shrink`) ligeramente las barras para enfatizar la naturaleza categórica del eje:



In [None]:
sns.displot(tips, x="day", shrink=.8)
plt.show()

Una vez que comprendas la distribución de una variable, el siguiente paso a menudo consiste en preguntar si las características de esa distribución difieren en otras variables del conjunto de datos. Por ejemplo, ¿qué explica la distribución bimodal de las longitudes de aleta que vimos anteriormente? `displot()` y `histplot()` ofrecen soporte para la subdivisión condicional a través del atributo `hue`. Asignar una variable a hue generará un histograma separado para cada uno de sus valores únicos y los distinguirá por color:


In [None]:
sns.displot(penguins, x="flipper_length_mm", hue="species")
plt.show()

De manera predeterminada, los diferentes histogramas están "superpuestos" uno encima del otro y, en algunos casos, pueden ser difíciles de distinguir. Una opción es cambiar la representación visual del histograma de un gráfico de barras a un gráfico "`step`":

In [None]:
sns.displot(penguins, x="flipper_length_mm", hue="species", element="step")
plt.show()

Alternativamente, en lugar de superponer cada barra, estas se pueden "apilar" (`stack`) o mover verticalmente. En esta gráfica, el contorno del histograma completo coincidirá con el gráfico con una única variable:

In [None]:
sns.displot(penguins, x="flipper_length_mm", hue="species", multiple="stack")
plt.show()

El histograma apilado enfatiza la relación parte-total entre las variables, pero puede ocultar otras características (por ejemplo, es difícil determinar la moda de la distribución de Adelie).

Otra opción es "esquivar" (`dodge`) las barras, lo que las mueve horizontalmente y reduce su anchura. Esto asegura que no haya superposiciones y que las barras sigan siendo comparables en términos de altura. Sin embargo, solo funciona bien cuando la variable categórica tiene un pequeño número de niveles:

In [None]:
sns.displot(penguins, x="flipper_length_mm", hue="sex", multiple="dodge")
plt.show()

Antes de continuar, otro punto a tener en cuenta es que, cuando los subconjuntos tienen cantidades desiguales de observaciones, comparar sus distribuciones en términos de conteos puede no ser ideal. Una solución es normalizar los conteos utilizando el parámetro "`stat`":

In [None]:
sns.displot(penguins, x="flipper_length_mm", hue="species", stat="density")
plt.show()

Sin embargo, de manera predeterminada, la normalización se aplica a toda la distribución, por lo que simplemente reescala la altura de las barras. Al establecer "`common_norm=False`", cada subconjunto se normalizará de manera independiente:


In [None]:
sns.displot(penguins, x="flipper_length_mm", hue="species", stat="density", common_norm=False)
plt.show()


La normalización de densidad escala las barras de manera que sus áreas sumen 1. Como resultado, el eje de densidad no es directamente interpretable. Otra opción es normalizar las barras de manera que sus alturas sumen 1. Esto tiene más sentido cuando la variable es discreta, pero es una opción para todos los histogramas:

In [None]:
sns.displot(penguins, x="flipper_length_mm", hue="species", stat="probability")
plt.show()

⛳ **Ejercicio:** Estás explorando un conjunto de datos que contiene información sobre características de diamantes, como el peso (`carat`) y el precio (`price`). Quieres visualizar la distribución del peso de los diamantes (`carat`) en un histograma, y además, deseas diferenciar los diamantes por su claridad (`clarity`) utilizando colores diferentes. Utiliza la función `sns.displot` para crear un histograma con matiz que muestre esta distribución, resaltando las diferencias de claridad en los diamantes.







In [None]:
# Carga del dataset
data = sns.load_dataset('diamonds')
# Su código aquí

### Estimación de densidad de kernel

Un histograma tiene como objetivo aproximar la función de densidad de probabilidad subyacente que generó los datos mediante el agrupamiento y el conteo de observaciones. La estimación de densidad de kernel (KDE) presenta una solución diferente al mismo problema. En lugar de usar intervalos discretos, un gráfico KDE suaviza las observaciones con un núcleo gaussiano, produciendo una estimación continua de densidad:

In [None]:
sns.displot(penguins, x="flipper_length_mm", kind="kde")
plt.show()

**Elección de la banda de suavizado (`bandwidth`)**

Al igual que con el tamaño del intervalo en el histograma, la capacidad del KDE para representar con precisión los datos depende de la elección de la banda de suavizado. Una estimación sobre-suavizada podría eliminar características significativas, pero una estimación sub-suavizada puede ocultar la verdadera forma dentro del ruido aleatorio. La manera más sencilla de comprobar la robustez de la estimación es ajustar la banda predeterminada:

In [None]:
sns.displot(penguins, x="flipper_length_mm", kind="kde", bw_adjust=.25)
plt.show()

Observa cómo la banda estrecha hace que la bimodalidad sea mucho más aparente, pero la curva es mucho menos suave. En contraste, una banda más grande oculta casi por completo la bimodalidad:

In [None]:
sns.displot(penguins, x="flipper_length_mm", kind="kde", bw_adjust=2)
plt.show()

Al igual que con los histogramas, si asignas una variable de matiz (`hue`), se calculará una estimación de densidad separada para cada nivel de esa variable:



In [None]:
sns.displot(penguins, x="flipper_length_mm", hue="species", kind="kde")
plt.show()

En muchos casos, el KDE superpuesto es más fácil de interpretar que el histograma superpuesto, por lo que a menudo es una buena elección para la tarea de comparación.


In [None]:
sns.displot(penguins, x="flipper_length_mm", hue="species", kind="kde", multiple="stack")
plt.show()

Observa cómo la gráfica apilada rellena el área entre cada curva de manera predeterminada. También es posible rellenar las curvas para densidades individuales o superpuestas, aunque el valor alfa predeterminado (opacidad) será diferente, de modo que las densidades individuales sean más fáciles de distinguir.


In [None]:
sns.displot(penguins, x="flipper_length_mm", hue="species", kind="kde", fill=True)
plt.show()

⛳ **Ejercicio:** Estás analizando los resultados de pruebas de ejercicio en un estudio de condición física. Quieres visualizar la densidad de la frecuencia cardíaca (`pulse`) en función del tipo de ejercicio (`kind`). Utiliza la función `sns.displot` para crear un gráfico de densidad kernel (KDE) que muestre esta densidad, con colores diferentes para cada tipo de ejercicio y el área bajo las curvas rellenada.



In [None]:
# Carga del dataset
data = sns.load_dataset('exercise')

# Su código aquí

### Distribuciones Bivariadas

Todos los ejemplos hasta ahora han considerado distribuciones univariadas: distribuciones de una sola variable, tal vez condicionadas a una segunda variable asignada al matiz (hue). Sin embargo, asignar una segunda variable a `y` dibujará una distribución bivariada:



In [None]:
sns.displot(penguins, x="bill_length_mm", y="bill_depth_mm")
plt.show()

Un histograma bivariado agrupa los datos en rectángulos que cubren el gráfico y luego muestra la cantidad de observaciones dentro de cada rectángulo con el color de relleno (análogo a un mapa de calor, heatmap()). De manera similar, un gráfico KDE bivariado suaviza las observaciones (`x`, `y`) con un núcleo gaussiano en 2D. La representación predeterminada muestra las curvas de nivel de la densidad 2D:


In [None]:
sns.displot(penguins, x="bill_length_mm", y="bill_depth_mm", kind="kde")
plt.show()

Asignar una variable de matiz (hue) dibujará mapas de calor o conjuntos de curvas de nivel múltiples usando diferentes colores. Para los histogramas bivariados, esto funcionará bien solo si hay una superposición mínima entre las distribuciones condicionales:



In [None]:
sns.displot(penguins, x="bill_length_mm", y="bill_depth_mm", hue="species")
plt.show()

El enfoque de las curvas de nivel del gráfico KDE bivariado se presta mejor para evaluar la superposición, aunque un gráfico con demasiadas curvas de nivel puede volverse complejo:



In [None]:
sns.displot(penguins, x="bill_length_mm", y="bill_depth_mm", hue="species", kind="kde")
plt.show()

Al igual que con las gráficas univariadas, la elección del tamaño de intervalo o la banda de suavizado determinará cuán bien representa la gráfica la distribución bivariada subyacente. Los mismos parámetros se aplican, pero se pueden ajustar para cada variable pasando un par de valores:



In [None]:
sns.displot(penguins, x="bill_length_mm", y="bill_depth_mm", binwidth=(2, .5))
plt.show()

Para facilitar la interpretación del mapa de calor, agrega una barra de color para mostrar la relación entre los conteos y la intensidad del color:



In [None]:
sns.displot(penguins, x="bill_length_mm", y="bill_depth_mm", binwidth=(2, .5), cbar=True)
plt.show()

### Plots en conjunto
La primera es `jointplot()`, que agrega un gráfico relacional o de distribución bivariada con las distribuciones marginales de las dos variables. De manera predeterminada, `jointplot()` representa la distribución bivariada usando `scatterplot()` y las distribuciones marginales usando `histplot()`:

In [None]:
sns.jointplot(data=penguins, x="bill_length_mm", y="bill_depth_mm")
plt.show()


Similar a `displot()`, establecer un tipo diferente "kind="kde"" en `jointplot()` cambiará tanto el gráfico conjunto como los gráficos marginales para usar `kdeplot()`:


In [None]:
sns.jointplot(
    data=penguins,
    x="bill_length_mm", y="bill_depth_mm", hue="species",
    kind="kde"
)
plt.show()




`jointplot()` es una interfaz conveniente para la clase `JointGrid`, que ofrece más flexibilidad cuando se usa directamente:




In [None]:
g = sns.JointGrid(data=penguins, x="bill_length_mm", y="bill_depth_mm")
g.plot_joint(sns.histplot)
g.plot_marginals(sns.boxplot)
plt.show()



Una forma menos intrusiva de mostrar distribuciones marginales utiliza un gráfico de "rug", que agrega una pequeña marca en el borde del gráfico para representar cada observación individual. Esto está incorporado en `displot()`:



In [None]:
sns.displot(
    penguins, x="bill_length_mm", y="bill_depth_mm",
    kind="kde", rug=True
)
plt.show()

Y la función a nivel de ejes `rugplot()` se puede utilizar para agregar marcas en los bordes de cualquier otro tipo de gráfico:



In [None]:
sns.scatterplot(data=penguins, x="bill_length_mm", y="bill_depth_mm")
sns.rugplot(data=penguins, x="bill_length_mm", y="bill_depth_mm")
plt.show()

⛳ Por supuesto, aquí tienes una pregunta que puedes usar para que tus alumnos practiquen la creación de un joint plot utilizando el conjunto de datos "iris" de Seaborn:

**Pregunta:** Estás explorando un conjunto de datos que contiene información sobre medidas de diferentes especies de iris (flores). Quieres visualizar la relación entre la longitud del pétalo (`petal_length`) y la anchura del pétalo (`petal_width`) en un joint plot. Utiliza la función `sns.jointplot` para crear un joint plot que muestre esta relación utilizando un KDE bidimensional. Además, utiliza colores diferentes para cada especie de iris.






In [None]:
# Carga del dataset
data = sns.load_dataset('iris')

# Su código aquí

### Representación de muchas distribuciones

La función `pairplot()` ofrece una mezcla similar de distribuciones conjuntas y marginales. Sin embargo, en lugar de centrarse en una única relación, `pairplot()` utiliza un enfoque de "múltiples pequeños" para visualizar la distribución univariada de todas las variables en un conjunto de datos junto con todas sus relaciones de pares:



In [None]:
sns.pairplot(penguins, hue='species')
plt.show()

⛳ **Ejercicio:** Estás explorando un conjunto de datos que contiene información sobre medidas de diferentes especies de iris (flores). Quieres analizar las relaciones entre las diferentes variables (longitud y anchura del sépalo y el pétalo) en un pair plot. Utiliza la función `sns.pairplot` para crear un pair plot que muestre estas relaciones. Utiliza colores diferentes para cada especie de iris.







In [None]:
# Carga del dataset
data = sns.load_dataset('iris')

# Su código aquí

### Gráficos de dispersión categóricos

Hay dos tipos diferentes de gráficos de dispersión categóricos en Seaborn. Utilizan enfoques diferentes para resolver el principal desafío en la representación de datos categóricos con un gráfico de dispersión, que es que todos los puntos pertenecientes a una categoría caerían en la misma posición a lo largo del eje correspondiente a la variable categórica. El enfoque utilizado por `stripplot()`, que es el "kind" predeterminado en `catplot()`, es ajustar las posiciones de los puntos en el eje categórico con una pequeña cantidad de "jitter" aleatorio:




In [None]:
tips = sns.load_dataset("tips")
sns.catplot(data=tips, x="day", y="total_bill")
plt.show()




El parámetro "jitter" controla la magnitud del "jitter" o lo desactiva por completo:



In [None]:
sns.catplot(data=tips, x="day", y="total_bill", jitter=False)
plt.show()

El segundo enfoque ajusta los puntos a lo largo del eje categórico utilizando un algoritmo que evita que se superpongan. Puede proporcionar una mejor representación de la distribución de las observaciones, aunque solo funciona bien para conjuntos de datos relativamente pequeños. Este tipo de gráfico a veces se llama "beeswarm" y se traza en Seaborn mediante `swarmplot()`, que se activa al establecer "kind="swarm"" en `catplot()`:



In [None]:
sns.catplot(data=tips, x="day", y="total_bill", kind="swarm")
plt.show()

Al igual que en los gráficos relacionales, es posible agregar otra dimensión a un gráfico categórico utilizando un atributo "hue". (Los gráficos categóricos actualmente no admiten atributos de tamaño o estilo). Cada función de trazado categórico maneja el atributo "hue" de manera diferente. Para los gráficos de dispersión, solo es necesario cambiar el color de los puntos:




In [None]:
sns.catplot(data=tips, x="day", y="total_bill", hue="sex", kind="swarm")
plt.show()

A diferencia de los datos numéricos, no siempre es evidente cómo ordenar los niveles de la variable categórica a lo largo de su eje. En general, las funciones de trazado categórico de Seaborn intentan inferir el orden de las categorías a partir de los datos. Si tus datos tienen un tipo de datos categórico de pandas, el orden predeterminado de las categorías se puede establecer allí. Si la variable pasada al eje categórico parece numérica, los niveles se ordenarán. Pero los datos aún se tratan como categóricos y se dibujan en posiciones ordinales en los ejes categóricos (específicamente, en 0, 1, …) incluso cuando se utilizan números para etiquetarlos:




In [None]:
sns.catplot(data=tips.query("size != 3"), x="size", y="total_bill")
plt.show()

La otra opción para elegir un orden predeterminado es tomar los niveles de la categoría tal como aparecen en el conjunto de datos. El orden también se puede controlar en una base específica de trazado utilizando el parámetro "order". Esto puede ser importante al trazar múltiples gráficos categóricos en la misma figura, lo que veremos más adelante:




In [None]:
sns.catplot(data=tips, x="smoker", y="tip", order=["No", "Yes"])
plt.show()

Hemos mencionado la idea de un "eje categórico". En estos ejemplos, eso siempre ha correspondido al eje horizontal. Pero a menudo es útil poner la variable categórica en el eje vertical (especialmente cuando los nombres de categoría son relativamente largos o hay muchas categorías). Para hacer esto, intercambia la asignación de variables a los ejes:



In [None]:
sns.catplot(data=tips, x="total_bill", y="day", hue="time", kind="swarm")
plt.show()

⛳ **Ejercicio:** Estás explorando un conjunto de datos que contiene información sobre diferentes especies de pingüinos. Quieres visualizar la distribución del total de la factura (`bill_length_mm`) en función del día de la semana (`day`), utilizando diferentes colores para diferenciar entre las diferentes horas del día (`time`). Utiliza la función `sns.catplot` para crear un catplot de tipo "swarm" que muestre esta distribución.





In [None]:
# Carga del dataset
data = sns.load_dataset('penguins')

# Su código aquí


### Diagramas de caja (Boxplots)

El primero es el familiar diagrama de caja (`boxplot()`). Este tipo de gráfico muestra los tres valores de cuartil de la distribución junto con los valores extremos. Los "bigotes" se extienden hasta los puntos que se encuentran dentro de 1.5 RIC (Rango Intercuartílico) del cuartil inferior y superior, y luego las observaciones que están fuera de este rango se muestran de manera independiente. Esto significa que cada valor en el diagrama de caja corresponde a una observación real en los datos.



In [None]:
sns.catplot(data=tips, x="day", y="total_bill", kind="box")
plt.show()

Al agregar una variable de atributo "hue", el cuadro para cada nivel de la variable de atributo se desplaza a lo largo del eje categórico para que no se superpongan:



In [None]:
sns.catplot(data=tips, x="day", y="total_bill", hue="smoker", kind="box")
plt.show()

Este comportamiento se llama "dodging" y está activado de manera predeterminada porque se asume que la variable de atributo está anidada dentro de la variable categórica principal. Si eso no es cierto, puedes desactivar el "dodging":



In [None]:
tips["weekend"] = tips["day"].isin(["Sat", "Sun"])
sns.catplot(
    data=tips, x="day", y="total_bill", hue="weekend",
    kind="box", dodge=False,
)
plt.show()

Una función relacionada, `boxenplot()`, traza un gráfico similar a un diagrama de caja pero optimizado para mostrar más información sobre la forma de la distribución. Es más adecuado para conjuntos de datos más grandes:



In [None]:
diamonds = sns.load_dataset("diamonds")
sns.catplot(
    data=diamonds.sort_values("color"),
    x="color", y="price", kind="boxen",
)
plt.show()

⛳ **Ejercicio:** Estás analizando los resultados de pruebas de ejercicio en un estudio de condición física. Quieres visualizar la distribución de las frecuencias cardíacas (`pulse`) en función del tipo de ejercicio (`kind`), utilizando un boxen plot. Utiliza la función `sns.catplot` para crear un boxen plot que muestre esta distribución.




In [None]:
# Carga del dataset
data = sns.load_dataset('exercise')

# Su código aquí


### Diagramas de violín

Un enfoque diferente es el `violinplot()`, que combina un diagrama de caja con el procedimiento de estimación de densidad de núcleo descrito en el tutorial de distribuciones:




In [None]:
sns.catplot(data=tips, x="total_bill", y="day", hue="sex", kind="violin")
plt.show()

Este enfoque utiliza la estimación de densidad de núcleo para proporcionar una descripción más rica de la distribución de valores. Además, los valores de cuartil y los bigotes del diagrama de caja se muestran dentro del violín. El inconveniente es que, debido a que el `violinplot` utiliza una estimación de densidad de núcleo, puede ser necesario ajustar algunos otros parámetros, lo que agrega cierta complejidad en comparación con el diagrama de caja más simple:



In [None]:
sns.catplot(
    data=tips, x="total_bill", y="day", hue="sex",
    kind="violin", bw=.15, cut=0,
)
plt.show()

También es posible "dividir" los violines cuando el parámetro de atributo "hue" tiene solo dos niveles, lo que puede permitir un uso más eficiente del espacio:



In [None]:
sns.catplot(
    data=tips, x="day", y="total_bill", hue="sex",
    kind="violin", split=True,
)
plt.show()

Finalmente, hay varias opciones para el gráfico que se traza en el interior de los violines, incluyendo formas de mostrar cada observación individual en lugar de los valores resumidos del diagrama de caja:




In [None]:
sns.catplot(
    data=tips, x="day", y="total_bill", hue="sex",
    kind="violin", inner="stick", split=True, palette="pastel",
)
plt.show()

También puede ser útil combinar `swarmplot()` o `stripplot()` con un diagrama de caja o un diagrama de violín para mostrar cada observación junto con un resumen de la distribución:




In [None]:
g = sns.catplot(data=tips, x="day", y="total_bill", kind="violin", inner=None)
sns.swarmplot(data=tips, x="day", y="total_bill", color="k", size=3, ax=g.ax)
plt.show()

⛳ **Ejercicio:** Estás explorando un conjunto de datos que contiene información sobre diferentes especies de pingüinos. Quieres visualizar la distribución de la longitud del pico (`bill_length_mm`) en función del género (`sex`), utilizando un violin plot. Utiliza la función `sns.catplot` para crear un violin plot que muestre esta distribución.






In [None]:
# Carga del dataset
data = sns.load_dataset('penguins')

# Su código aquí


### Gráficos de puntos

Una alternativa para visualizar la misma información se ofrece a través de la función `pointplot()`. Esta función también codifica el valor de la estimación con la altura en el otro eje, pero en lugar de mostrar una barra completa, traza la estimación puntual y el intervalo de confianza. Además, `pointplot()` conecta los puntos de la misma categoría de atributo "hue". Esto facilita ver cómo la relación principal está cambiando en función del atributo "hue", ya que nuestros ojos son bastante buenos para detectar diferencias en las pendientes:




In [None]:
titanic = sns.load_dataset("titanic")
sns.catplot(data=titanic, x="sex", y="survived", hue="class", kind="point")
plt.show()

Aunque las funciones categóricas carecen del atributo de estilo de las funciones relacionales, aún puede ser una buena idea variar el marcador y/o el estilo de línea junto con el atributo "hue" para crear gráficos que sean accesibles al máximo y se reproduzcan bien en blanco y negro:




In [None]:
sns.catplot(
    data=titanic, x="class", y="survived", hue="sex",
    palette={"male": "g", "female": "m"},
    markers=["^", "o"], linestyles=["-", "--"],
    kind="point"
)
plt.show()

Al igual que `relplot()`, el hecho de que `catplot()` está basado en un objeto `FacetGrid` significa que es fácil agregar variables de facetas para visualizar relaciones de mayor dimensionalidad:




In [None]:
sns.catplot(
    data=tips, x="day", y="total_bill", hue="smoker",
    kind="swarm", col="time", aspect=.7,
)
plt.show()

## E. Plots de regresión
Muchos conjuntos de datos contienen varias variables cuantitativas, y el objetivo de un análisis suele ser relacionar esas variables entre sí. Anteriormente discutimos funciones que pueden lograr esto mostrando la distribución conjunta de dos variables. Sin embargo, puede ser muy útil utilizar modelos estadísticos para estimar una relación simple entre dos conjuntos de observaciones ruidosas. Las funciones que se discuten en este capítulo lo hacen a través del marco común de la regresión lineal.

Siguiendo el espíritu de Tukey, los gráficos de regresión en seaborn están destinados principalmente a agregar una guía visual que ayude a resaltar patrones en un conjunto de datos durante el análisis exploratorio de datos. Es decir, seaborn en sí mismo no es un paquete para el análisis estadístico. Para obtener medidas cuantitativas relacionadas con el ajuste de modelos de regresión, deberías usar statsmodels. Sin embargo, el objetivo de seaborn es facilitar la exploración de un conjunto de datos a través de la visualización de manera rápida y sencilla, ya que hacerlo es igualmente (si no más) importante que explorar un conjunto de datos a través de tablas de estadísticas.

### Regresión lineal

Las dos funciones que se pueden usar para visualizar un ajuste lineal son `regplot()` y `lmplot()`.

En la invocación más simple, ambas funciones dibujan un gráfico de dispersión de dos variables, x e y, y luego ajustan el modelo de regresión y ~ x y trazan la línea de regresión resultante y un intervalo de confianza del 95% para esa regresión:




In [None]:
tips = sns.load_dataset("tips")
sns.regplot(x="total_bill", y="tip", data=tips);
plt.show()

In [None]:
sns.lmplot(x="total_bill", y="tip", data=tips);
plt.show()

Estas funciones dibujan gráficos similares, pero `regplot()` es una función a nivel de ejes, y `lmplot()` es una función a nivel de figura. Además, `regplot()` acepta las variables x e y en una variedad de formatos, incluyendo simples matrices numpy, objetos pandas.Series o como referencias a variables en un objeto pandas.DataFrame pasado a data. En cambio, `lmplot()` tiene data como un parámetro requerido y las variables x e y deben especificarse como cadenas. Por último, solo `lmplot()` tiene el parámetro hue.

La funcionalidad básica es similar en otro caso, así que este tutorial se centrará en `lmplot()`.

Es posible ajustar una regresión lineal cuando una de las variables toma valores discretos; sin embargo, el gráfico de dispersión simple producido por este tipo de conjunto de datos a menudo no es óptimo:




In [None]:
sns.lmplot(x="size", y="tip", data=tips);
plt.show()

Una opción es agregar algo de ruido aleatorio ("jitter") a los valores discretos para hacer más clara la distribución de esos valores. Ten en cuenta que el jitter se aplica solo a los datos del gráfico de dispersión y no influye en el ajuste de la línea de regresión en sí:




In [None]:
sns.lmplot(x="size", y="tip", data=tips, x_jitter=.05);
plt.show()

Una segunda opción es agrupar las observaciones en cada bin discreto para trazar una estimación de la tendencia central junto con un intervalo de confianza:




In [None]:
sns.lmplot(x="size", y="tip", data=tips, x_estimator=np.mean);
plt.show()

⛳ **Ejercicio:** Estás analizando los resultados de pruebas de ejercicio en un estudio de condición física. Quieres visualizar la relación entre la frecuencia cardíaca (`pulse`) y el tiempo de ejercicio (`time`). Utiliza la función `sns.lmplot` para crear un plot de regresión que muestre esta relación.




In [None]:
# Carga del dataset
data = sns.load_dataset('exercise')

# Su código aquí






El modelo de regresión lineal simple utilizado anteriormente es muy sencillo de ajustar; sin embargo, no es apropiado para algunos tipos de conjuntos de datos. El conjunto de datos "Anscombe's quartet" muestra algunos ejemplos donde la regresión lineal simple proporciona una estimación idéntica de una relación donde la inspección visual claramente muestra diferencias. Por ejemplo, en el primer caso, la regresión lineal es un buen modelo:





In [None]:
anscombe = sns.load_dataset("anscombe")
sns.lmplot(x="x", y="y", data=anscombe.query("dataset == 'I'"),
           ci=None, scatter_kws={"s": 80});
plt.show()

La relación lineal en el segundo conjunto de datos es la misma, pero el gráfico muestra claramente que este no es un buen modelo:




In [None]:
sns.lmplot(x="x", y="y", data=anscombe.query("dataset == 'II'"),
           ci=None, scatter_kws={"s": 80});
plt.show()

En presencia de este tipo de relaciones de orden superior, `lmplot()` y `regplot()` pueden ajustar un modelo de regresión polinómica para explorar tipos simples de tendencias no lineales en el conjunto de datos:




In [None]:
sns.lmplot(x="x", y="y", data=anscombe.query("dataset == 'II'"),
           order=2, ci=None, scatter_kws={"s": 80});
plt.show()

Un problema diferente es planteado por observaciones "atípicas" que se desvían por alguna razón distinta a la relación principal en estudio:




In [None]:
sns.lmplot(x="x", y="y", data=anscombe.query("dataset == 'III'"),
           ci=None, scatter_kws={"s": 80});
plt.show()

Cuando la variable y es binaria, la regresión lineal simple también "funciona", pero proporciona predicciones implausibles:




In [None]:
tips["big_tip"] = (tips.tip / tips.total_bill) > .15
sns.lmplot(x="total_bill", y="big_tip", data=tips, y_jitter=.03)
plt.show()

La solución en este caso es ajustar una regresión logística, de modo que la línea de regresión muestre la probabilidad estimada de y = 1 para un valor dado de x:




In [None]:
sns.lmplot(x="total_bill", y="big_tip", data=tips, logistic=True, y_jitter=.03)
plt.show()

Ten en cuenta que la estimación de regresión logística es considerablemente más intensiva en términos de cómputo (esto también es cierto para la regresión robusta). Como el intervalo de confianza alrededor de la línea de regresión se calcula utilizando un procedimiento de bootstrap, es posible que desees desactivarlo para una iteración más rápida (usando `ci=None`).

Un enfoque completamente diferente es ajustar una regresión no paramétrica utilizando un suavizador LOWESS. Este enfoque tiene menos suposiciones, aunque es intensivo en términos de cómputo y, por lo tanto, actualmente no se calculan intervalos de confianza en absoluto:




In [None]:
sns.lmplot(x="total_bill", y="tip", data=tips, lowess=True, line_kws={"color": "C1"})
plt.show()

La función `residplot()` puede ser una herramienta útil para comprobar si el modelo de regresión simple es adecuado para un conjunto de datos. Ajusta y elimina una regresión lineal simple y luego traza los valores residuales para cada observación. Idealmente, estos valores deberían estar dispersos aleatoriamente alrededor de y = 0:




In [None]:
sns.residplot(x="x", y="y", data=anscombe.query("dataset == 'I'"),
              scatter_kws={"s": 80})
plt.show()

Si hay estructura en los residuales, se sugiere que la regresión lineal simple no es apropiada:




In [None]:
sns.residplot(x="x", y="y", data=anscombe.query("dataset == 'II'"),
              scatter_kws={"s": 80})
plt.show()

Las gráficas anteriores muestran muchas formas de explorar la relación entre un par de variables. Sin embargo, a menudo, una pregunta más interesante es "¿cómo cambia la relación entre estas dos variables en función de una tercera variable?" Aquí es donde aparecen las principales diferencias entre `regplot()` y `lmplot()`. Mientras que `regplot()` siempre muestra una sola relación, `lmplot()` combina `regplot()` con `FacetGrid` para mostrar múltiples ajustes utilizando mapeo de colores o facetado.

La mejor manera de separar una relación es trazar ambos niveles en los mismos ejes y usar el color para distinguirlos:




In [None]:
sns.lmplot(x="total_bill", y="tip", hue="smoker", data=tips);
plt.show()

A diferencia de `relplot()`, no es posible asignar una variable distinta a las propiedades de estilo del gráfico de dispersión, pero puedes codificar redundantemente la variable de color con la forma del marcador:




In [None]:
sns.lmplot(x="total_bill", y="tip", hue="smoker", data=tips,
           markers=["o", "x"], palette="Set1");
plt.show()

Para agregar otra variable, puedes dibujar múltiples "facetas" con cada nivel de la variable que aparezca en las filas o columnas de la rejilla:




In [None]:
sns.lmplot(x="total_bill", y="tip", hue="smoker", col="time", data=tips);
plt.show()

In [None]:
sns.lmplot(x="total_bill", y="tip", hue="smoker",
           col="time", row="sex", data=tips, height=3);
plt.show()

Algunas otras funciones de seaborn utilizan `regplot()` en el contexto de una trama más grande y compleja. La primera es la función `jointplot()` que presentamos en el tutorial de distribuciones. Además de los estilos de trama discutidos anteriormente, `jointplot()` puede usar `regplot()` para mostrar el ajuste de regresión lineal en los ejes conjuntos pasando `kind="reg"`:




In [None]:
sns.jointplot(x="total_bill", y="tip", data=tips, kind="reg");
plt.show()

⛳ **Ejercicio:** Estás analizando los resultados de pruebas de ejercicio en un estudio de condición física. Quieres visualizar la relación entre el total de la factura (`total_bill`) y la propina (`tip`) dejada por los clientes. Utiliza la función `sns.jointplot` para crear un joint plot que muestre esta relación, con una regresión lineal añadida.





In [None]:
# Carga del dataset
data = sns.load_dataset('exercise')

# Su código aquí

Usar la función `pairplot()` con `kind="reg"` combina `regplot()` y `PairGrid` para mostrar la relación lineal entre variables en un conjunto de datos. Ten en cuenta cómo esto es diferente de `lmplot()`. En la figura de abajo, los dos ejes no muestran la misma relación condicionada en dos niveles de una tercera variable; en su lugar, `PairGrid()` se utiliza para mostrar múltiples relaciones entre diferentes combinaciones de las variables en un conjunto de datos:




In [None]:
sns.pairplot(tips, x_vars=["total_bill", "size"], y_vars=["tip"],
             height=5, aspect=.8, kind="reg");
plt.show()

La condición de una variable categórica adicional está incorporada en ambas funciones mediante el parámetro `hue`:




In [None]:
sns.pairplot(tips, x_vars=["total_bill", "size"], y_vars=["tip"],
             hue="smoker", height=5, aspect=.8, kind="reg");
plt.show()

## F. Estética de la figura

Dibujar figuras atractivas es importante. Al crear figuras para ti mismo, mientras exploras un conjunto de datos, es agradable tener gráficos que sean agradables a la vista. Las visualizaciones también son fundamentales para comunicar información cuantitativa a una audiencia, y en ese contexto es aún más necesario tener figuras que llamen la atención y atraigan al espectador.

Matplotlib es altamente personalizable, pero puede ser difícil saber qué configuraciones ajustar para lograr un gráfico atractivo. Seaborn viene con varios temas personalizados y una interfaz de alto nivel para controlar el aspecto de las figuras de matplotlib.

Definamos una función sencilla para trazar algunas ondas seno desplazadas, lo cual nos ayudará a ver los diferentes parámetros estilísticos que podemos ajustar.




In [None]:
def sinplot(n=10, flip=1):
    x = np.linspace(0, 14, 100)
    for i in range(1, n + 1):
        plt.plot(x, np.sin(x + i * .5) * (n + 2 - i) * flip)
sinplot()
plt.show()

Para cambiar a los valores predeterminados de seaborn, simplemente llama a la función `set_theme()`.




In [None]:
sns.set_theme()
sinplot()
plt.show()

Seaborn divide los parámetros de matplotlib en dos grupos independientes. El primer grupo establece el estilo estético del gráfico y el segundo escala varios elementos de la figura para que se puedan incorporar fácilmente en diferentes contextos.

La interfaz para manipular estos parámetros son dos pares de funciones. Para controlar el estilo, utiliza las funciones `axes_style()` y `set_style()`. Para escalar el gráfico, utiliza las funciones `plotting_context()` y `set_context()`. En ambos casos, la primera función devuelve un diccionario de parámetros y la segunda establece los valores predeterminados de matplotlib.
Estilos de figura Seaborn

Hay cinco temas preestablecidos en seaborn: darkgrid, whitegrid, dark, white y ticks. Cada uno de ellos es adecuado para diferentes aplicaciones y preferencias personales. El tema predeterminado es darkgrid. Como se mencionó anteriormente, la cuadrícula ayuda al gráfico a funcionar como una tabla de búsqueda para información cuantitativa, y el blanco sobre gris ayuda a evitar que la cuadrícula compita con las líneas que representan los datos. El tema whitegrid es similar, pero es más adecuado para gráficos con elementos de datos pesados:




In [None]:
sns.set_style("whitegrid")
data = np.random.normal(size=(20, 6)) + np.arange(6) / 2
sns.boxplot(data=data);
plt.show()

Para muchos gráficos (especialmente en configuraciones como charlas, donde principalmente deseas utilizar figuras para proporcionar impresiones de patrones en los datos), la cuadrícula es menos necesaria.




In [None]:
sns.set_style("dark")
sinplot()
plt.show()

In [None]:
sns.set_style("white")
sinplot()
plt.show()

A veces, es posible que desees dar una pequeña estructura adicional a los gráficos, aquí es donde son útiles los ticks:




In [None]:
sns.set_style("ticks")
sinplot()
plt.show()

Tanto los estilos white como ticks se benefician al eliminar los bordes superiores y derechos de los ejes, que no son necesarios. La función `despine()` de seaborn puede ser llamada para eliminarlos:




In [None]:
sinplot()
sns.despine()
plt.show()

Algunos gráficos se benefician al alejar los bordes de los datos, lo cual también se puede hacer al llamar `despine()`. Cuando las marcas no cubren todo el rango del eje, el parámetro `trim` limitará el rango de los bordes supervivientes.






In [None]:
f, ax = plt.subplots()
sns.violinplot(data=data)
sns.despine(offset=10, trim=True);
plt.show()

También puedes controlar qué bordes se eliminan con argumentos adicionales para `despine()`:




In [None]:
sns.set_style("whitegrid")
sns.boxplot(data=data, palette="deep")
sns.despine(left=True)
plt.show()

Aunque es fácil cambiar de un estilo a otro, también puedes usar la función `axes_style()` dentro de un bloque `with` para configurar temporalmente los parámetros del gráfico. Esto también te permite crear figuras con ejes de estilo diferente:




In [None]:
f = plt.figure(figsize=(6, 6))
gs = f.add_gridspec(2, 2)

with sns.axes_style("darkgrid"):
    ax = f.add_subplot(gs[0, 0])
    sinplot(6)

with sns.axes_style("white"):
    ax = f.add_subplot(gs[0, 1])
    sinplot(6)

with sns.axes_style("ticks"):
    ax = f.add_subplot(gs[1, 0])
    sinplot(6)

with sns.axes_style("whitegrid"):
    ax = f.add_subplot(gs[1, 1])
    sinplot(6)

f.tight_layout()
plt.show()

Si deseas personalizar los estilos de seaborn, puedes pasar un diccionario de parámetros al argumento `rc` de `axes_style()` y `set_style()`. Ten en cuenta que solo puedes sobrescribir los parámetros que forman parte de la definición del estilo a través de este método. (Sin embargo, la función de nivel superior `set_theme()` toma un diccionario de cualquier parámetro de matplotlib).

Si deseas ver qué parámetros están incluidos, simplemente llama a la función sin argumentos, lo cual devolverá la configuración actual:





In [None]:
sns.axes_style()

Luego puedes establecer diferentes versiones de estos parámetros:




In [None]:
sns.set_style("darkgrid", {"axes.facecolor": ".9"})
sinplot()
plt.show()

Un conjunto separado de parámetros controla la escala de los elementos del gráfico, lo que te permitirá usar el mismo código para crear gráficos adecuados para su uso en entornos donde sean apropiados gráficos más grandes o más pequeños.

Primero, restablezcamos los parámetros predeterminados llamando a `set_theme()`:




In [None]:
sns.set_theme()

Los cuatro contextos preestablecidos, en orden de tamaño relativo, son paper, notebook, talk y poster. El estilo notebook es el predeterminado y se utilizó en los gráficos anteriores.




In [None]:
sns.set_context("paper")
sinplot()
plt.show()

In [None]:
sns.set_context("talk")
sinplot()
plt.show()

In [None]:
sns.set_context("poster")
sinplot()
plt.show()

La mayoría de lo que ahora sabes sobre las funciones de estilo debería transferirse a las funciones de contexto.

Puedes llamar a `set_context()` con uno de estos nombres para establecer los parámetros y puedes sobrescribir los parámetros proporcionando un diccionario de valores de parámetros.

También puedes escalar independientemente el tamaño de los elementos de la fuente al cambiar el contexto. (Esta opción también está disponible a través de la función de nivel superior `set()`).




In [None]:
sns.set_context("notebook", font_scale=1.5, rc={"lines.linewidth": 2.5})
sinplot()
plt.show()

## G. Paleta de colores
Seaborn ofrece varias paletas de colores predefinidas que puedes utilizar en tus gráficos. Aquí tienes una lista de algunas de las paletas de colores disponibles en seaborn:

- deep
- muted
- bright
- pastel
- dark
- colorblind

In [None]:
# Configurar la paleta de colores
sns.set_palette("deep")

# Datos de ejemplo
categories = ["A", "B", "C", "D"]
values = [10, 25, 15, 30]

# Crear el diagrama de barras
sns.barplot(x=categories, y=values)

# Agregar título y etiquetas de ejes
plt.title("Ejemplo de Diagrama de Barras con Paleta 'muted'")
plt.xlabel("Categorías")
plt.ylabel("Valores")

# Mostrar el gráfico
plt.show()

⛳ **Ejercicio:** Estás analizando datos sobre características de diamantes y deseas visualizar la distribución de las claridades (`clarity`) en un diagrama de barras. Utiliza la función `sns.barplot` para crear un diagrama de barras que muestre esta distribución, y configura una paleta de colores llamada "husl".







In [None]:
# Carga del dataset
data = sns.load_dataset('diamonds')

# Su código aquí