# 📊 Guía Práctica de Gráficos en Ciencia de Datos con Python

En este notebook veremos los gráficos más usados en ciencia de datos, cuándo se utilizan, cómo se interpretan y ejemplos de código ejecutables con Python (Seaborn/Matplotlib).  
Después de cada gráfico encontrarás una interpretación oculta: haz clic en "Interpretación" para desplegarla cuando desees.


## Boxplot

**¿Cuándo usarlo?**  
Para comparar la distribución y presencia de outliers en variables numéricas entre categorías.

**Ejemplo real:** Comparar la edad de los pasajeros por sexo en el Titanic.


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

titanic = sns.load_dataset('titanic')

plt.figure(figsize=(7,5))
sns.boxplot(x='sex', y='age', data=titanic)
plt.title('Distribución de edades por sexo (Titanic)')
plt.show()

: 

<details>
<summary><b>Interpretación</b></summary>

Este gráfico muestra cómo se reparten las edades entre hombres y mujeres.  
La línea dentro de la caja es la edad mediana (la mitad de las personas tienen menos edad y la otra mitad más).  
La caja contiene la mayoría de los datos (la mitad central).  
Los puntos que están fuera de las “líneas” delgadas (bigotes) son personas con edades poco comunes (más mayores o más jóvenes de lo normal en el grupo).  
En este caso, vemos que hombres y mujeres tienen edades parecidas, pero hay más hombres mayores que mujeres mayores.

</details>


## Violin Plot

**¿Cuándo usarlo?**  
Para ver la distribución completa (densidad) junto con la mediana y los cuartiles.

**Ejemplo real:** Comparar la edad de los pasajeros por clase en el Titanic.


In [None]:
plt.figure(figsize=(7,5))
sns.violinplot(x='class', y='age', data=titanic)
plt.title('Distribución de edad por clase (Violin Plot)')
plt.show()

: 

<details>
<summary><b>Interpretación</b></summary>

El gráfico muestra cómo se distribuyen las edades de los pasajeros según la clase en la que viajaban.  
El ancho de la “viola” indica en qué edades hay más pasajeros.  
La línea blanca central es la mediana.  
Se observa, por ejemplo, que en tercera clase hay muchos niños y adolescentes, mientras que en primera y segunda clase la mayoría son adultos.

</details>


## Scatter Plot

**¿Cuándo usarlo?**  
Para visualizar la relación entre dos variables numéricas (correlación, tendencia, clusters).

**Ejemplo real:** Relación entre largo y ancho del sépalo en el dataset Iris.


In [None]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris(as_frame=True)
df_iris = iris['frame']

plt.figure(figsize=(7,5))
sns.scatterplot(x='sepal length (cm)', y='sepal width (cm)', hue='target', data=df_iris, palette='Set2')
plt.title('Relación entre largo y ancho de sépalo (Iris)')
plt.show()

<details>
<summary><b>Interpretación</b></summary>

Cada punto representa una flor.  
Podemos ver si existe alguna relación o patrón entre el largo y el ancho del sépalo.  
Además, usando el color, podemos ver si diferentes tipos de flor se agrupan en distintas zonas del gráfico.

</details>


## Line Plot

**¿Cuándo usarlo?**  
Para visualizar tendencias a lo largo del tiempo o de una secuencia (series temporales, evolución de métricas).

**Ejemplo real:** Evolución del accuracy durante el entrenamiento de un modelo (simulado).


In [None]:
import numpy as np

epochs = np.arange(1, 21)
accuracy = np.random.uniform(0.6, 0.98, size=20)

plt.figure(figsize=(7,5))
plt.plot(epochs, accuracy, marker='o')
plt.title('Curva de accuracy vs. épocas')
plt.xlabel('Épocas')
plt.ylabel('Accuracy')
plt.grid(True)
plt.show()

<details>
<summary><b>Interpretación</b></summary>

Este gráfico permite ver cómo cambia el accuracy (precisión) a lo largo de las épocas del entrenamiento de un modelo.  
La línea muestra si el modelo mejora, empeora o se mantiene estable con cada iteración.

</details>


## Histograma

**¿Cuándo usarlo?**  
Para ver la distribución (forma, sesgo, outliers) de una variable numérica.

**Ejemplo real:** Distribución de edad de los pasajeros del Titanic.


In [None]:
plt.figure(figsize=(7,5))
sns.histplot(titanic['age'].dropna(), bins=30, kde=True)
plt.title('Distribución de edad de pasajeros (Titanic)')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()

<details>
<summary><b>Interpretación</b></summary>

Este gráfico nos permite ver qué edades son las más frecuentes entre los pasajeros del Titanic.  
Las barras más altas indican las edades más comunes.  
También podemos ver si la mayoría son jóvenes, adultos o ancianos.

</details>


## KDE Plot

**¿Cuándo usarlo?**  
Para ver la distribución suavizada de una variable (ideal para comparar varias).

**Ejemplo real:** Distribución de edad según el sexo en el Titanic.


In [None]:
plt.figure(figsize=(7,5))
sns.kdeplot(data=titanic, x='age', hue='sex', fill=True)
plt.title('Distribución de edad por sexo (KDE)')
plt.show()

<details>
<summary><b>Interpretación</b></summary>

El gráfico muestra la forma de la distribución de edades para cada sexo.  
Las áreas más altas indican dónde hay más personas.  
Comparando los colores, podemos ver si la edad de hombres y mujeres sigue un patrón parecido o diferente.

</details>


## Barplot

**¿Cuándo usarlo?**  
Para comparar frecuencias o medias de variables categóricas.

**Ejemplo real:** Número de pasajeros por clase en el Titanic.


In [1]:
plt.figure(figsize=(7,5))
sns.countplot(x='class', data=titanic)
plt.title('Número de pasajeros por clase (Titanic)')
plt.xlabel('Clase')
plt.ylabel('Cantidad')
plt.show()

NameError: name 'plt' is not defined

<details>
<summary><b>Interpretación</b></summary>

Podemos ver cuántos pasajeros viajaban en cada clase del Titanic.  
Las barras más altas representan la clase con más pasajeros.  
Así podemos comparar de forma rápida la cantidad en cada grupo.

</details>


## Pie Chart

**¿Cuándo usarlo?**  
Para mostrar proporciones entre pocas categorías.

**Ejemplo real:** Proporción de supervivientes en el Titanic.


In [None]:
survived_counts = titanic['survived'].value_counts()
labels = ['No sobrevivió', 'Sobrevivió']

plt.figure(figsize=(6,6))
plt.pie(survived_counts, labels=labels, autopct='%1.1f%%', startangle=90)
plt.title('Supervivientes del Titanic')
plt.show()

<details>
<summary><b>Interpretación</b></summary>

El gráfico de pastel nos permite ver rápidamente qué porcentaje de pasajeros sobrevivió y cuál no.  
Cada porción muestra la proporción de personas en cada grupo respecto al total.

</details>


## Pairplot

**¿Cuándo usarlo?**  
Para ver todas las relaciones dos a dos entre variables numéricas.

**Ejemplo real:** Variables del dataset Iris.


In [None]:
sns.pairplot(df_iris, hue='target', palette='Set2')
plt.suptitle('Pairplot del dataset Iris', y=1.02)
plt.show()

<details>
<summary><b>Interpretación</b></summary>

Este conjunto de gráficos nos ayuda a explorar todas las combinaciones posibles entre las características numéricas del dataset.  
Vemos si existen relaciones o agrupamientos de los distintos tipos de flores según sus medidas.

</details>


## Heatmap

**¿Cuándo usarlo?**  
Para visualizar matrices de correlación, confusión, etc.

**Ejemplo real:** Matriz de correlación en Iris.


In [None]:
corr = df_iris.corr()
plt.figure(figsize=(7,5))
sns.heatmap(corr, annot=True, cmap='YlGnBu')
plt.title('Matriz de correlación (Iris)')
plt.show()

<details>
<summary><b>Interpretación</b></summary>

El heatmap muestra la relación entre todas las variables numéricas del dataset.  
Los valores más cercanos a 1 indican una relación fuerte y positiva, mientras que los cercanos a -1 indican una relación negativa.  
Los valores próximos a 0 señalan que no hay relación.

</details>


## Area Plot

**¿Cuándo usarlo?**  
Para mostrar evolución de valores acumulados o varias series.

**Ejemplo real:** Acumulado de ventas mensuales (simulado).


In [None]:
import pandas as pd
np.random.seed(0)
months = pd.date_range(start='2022-01-01', periods=12, freq='M')
sales = np.random.randint(100, 300, size=12).cumsum()

plt.figure(figsize=(7,5))
plt.fill_between(months, sales)
plt.title('Ventas acumuladas por mes')
plt.xlabel('Mes')
plt.ylabel('Ventas')
plt.show()

<details>
<summary><b>Interpretación</b></summary>

El área bajo la línea muestra cómo han ido creciendo las ventas mes a mes.  
Podemos observar de forma clara el total acumulado y si hay algún mes en el que las ventas aumentan más rápidamente.

</details>


## Resumen rápido

| Objetivo                             | Variables                | Gráfico recomendado       |
|--------------------------------------|--------------------------|--------------------------|
| Comparar medias/distribuciones       | Categórica vs Numérica   | Boxplot, Violin, Barras  |
| Relación entre dos numéricas         | Numérica vs Numérica     | Scatter, Line            |
| Distribución de una variable         | Numérica                 | Histograma, KDE, Boxplot |
| Frecuencia de categorías             | Categórica               | Barplot, Pie             |
| Relaciones múltiples                 | Numéricas                | Pairplot, Heatmap        |
| Series de tiempo                     | Tiempo vs Numérica       | Line, Area               |
| Importancia de variables             | Categórica vs Numérica   | Barplot                  |
