# üìä Gu√≠a Pr√°ctica de Gr√°ficos en Ciencia de Datos con Python

En este notebook veremos los gr√°ficos m√°s usados en ciencia de datos, cu√°ndo se utilizan, c√≥mo se interpretan y ejemplos de c√≥digo ejecutables con Python (Seaborn/Matplotlib).  
Despu√©s de cada gr√°fico encontrar√°s una interpretaci√≥n oculta: haz clic en "Interpretaci√≥n" para desplegarla cuando desees.


## Boxplot

**¬øCu√°ndo usarlo?**  
Para comparar la distribuci√≥n y presencia de outliers en variables num√©ricas entre categor√≠as.

**Ejemplo real:** Comparar la edad de los pasajeros por sexo en el Titanic.


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

titanic = sns.load_dataset('titanic')

plt.figure(figsize=(7,5))
sns.boxplot(x='sex', y='age', data=titanic)
plt.title('Distribuci√≥n de edades por sexo (Titanic)')
plt.show()

: 

<details>
<summary><b>Interpretaci√≥n</b></summary>

Este gr√°fico muestra c√≥mo se reparten las edades entre hombres y mujeres.  
La l√≠nea dentro de la caja es la edad mediana (la mitad de las personas tienen menos edad y la otra mitad m√°s).  
La caja contiene la mayor√≠a de los datos (la mitad central).  
Los puntos que est√°n fuera de las ‚Äúl√≠neas‚Äù delgadas (bigotes) son personas con edades poco comunes (m√°s mayores o m√°s j√≥venes de lo normal en el grupo).  
En este caso, vemos que hombres y mujeres tienen edades parecidas, pero hay m√°s hombres mayores que mujeres mayores.

</details>


## Violin Plot

**¬øCu√°ndo usarlo?**  
Para ver la distribuci√≥n completa (densidad) junto con la mediana y los cuartiles.

**Ejemplo real:** Comparar la edad de los pasajeros por clase en el Titanic.


In [None]:
plt.figure(figsize=(7,5))
sns.violinplot(x='class', y='age', data=titanic)
plt.title('Distribuci√≥n de edad por clase (Violin Plot)')
plt.show()

: 

<details>
<summary><b>Interpretaci√≥n</b></summary>

El gr√°fico muestra c√≥mo se distribuyen las edades de los pasajeros seg√∫n la clase en la que viajaban.  
El ancho de la ‚Äúviola‚Äù indica en qu√© edades hay m√°s pasajeros.  
La l√≠nea blanca central es la mediana.  
Se observa, por ejemplo, que en tercera clase hay muchos ni√±os y adolescentes, mientras que en primera y segunda clase la mayor√≠a son adultos.

</details>


## Scatter Plot

**¬øCu√°ndo usarlo?**  
Para visualizar la relaci√≥n entre dos variables num√©ricas (correlaci√≥n, tendencia, clusters).

**Ejemplo real:** Relaci√≥n entre largo y ancho del s√©palo en el dataset Iris.


In [None]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris(as_frame=True)
df_iris = iris['frame']

plt.figure(figsize=(7,5))
sns.scatterplot(x='sepal length (cm)', y='sepal width (cm)', hue='target', data=df_iris, palette='Set2')
plt.title('Relaci√≥n entre largo y ancho de s√©palo (Iris)')
plt.show()

<details>
<summary><b>Interpretaci√≥n</b></summary>

Cada punto representa una flor.  
Podemos ver si existe alguna relaci√≥n o patr√≥n entre el largo y el ancho del s√©palo.  
Adem√°s, usando el color, podemos ver si diferentes tipos de flor se agrupan en distintas zonas del gr√°fico.

</details>


## Line Plot

**¬øCu√°ndo usarlo?**  
Para visualizar tendencias a lo largo del tiempo o de una secuencia (series temporales, evoluci√≥n de m√©tricas).

**Ejemplo real:** Evoluci√≥n del accuracy durante el entrenamiento de un modelo (simulado).


In [None]:
import numpy as np

epochs = np.arange(1, 21)
accuracy = np.random.uniform(0.6, 0.98, size=20)

plt.figure(figsize=(7,5))
plt.plot(epochs, accuracy, marker='o')
plt.title('Curva de accuracy vs. √©pocas')
plt.xlabel('√âpocas')
plt.ylabel('Accuracy')
plt.grid(True)
plt.show()

<details>
<summary><b>Interpretaci√≥n</b></summary>

Este gr√°fico permite ver c√≥mo cambia el accuracy (precisi√≥n) a lo largo de las √©pocas del entrenamiento de un modelo.  
La l√≠nea muestra si el modelo mejora, empeora o se mantiene estable con cada iteraci√≥n.

</details>


## Histograma

**¬øCu√°ndo usarlo?**  
Para ver la distribuci√≥n (forma, sesgo, outliers) de una variable num√©rica.

**Ejemplo real:** Distribuci√≥n de edad de los pasajeros del Titanic.


In [None]:
plt.figure(figsize=(7,5))
sns.histplot(titanic['age'].dropna(), bins=30, kde=True)
plt.title('Distribuci√≥n de edad de pasajeros (Titanic)')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()

<details>
<summary><b>Interpretaci√≥n</b></summary>

Este gr√°fico nos permite ver qu√© edades son las m√°s frecuentes entre los pasajeros del Titanic.  
Las barras m√°s altas indican las edades m√°s comunes.  
Tambi√©n podemos ver si la mayor√≠a son j√≥venes, adultos o ancianos.

</details>


## KDE Plot

**¬øCu√°ndo usarlo?**  
Para ver la distribuci√≥n suavizada de una variable (ideal para comparar varias).

**Ejemplo real:** Distribuci√≥n de edad seg√∫n el sexo en el Titanic.


In [None]:
plt.figure(figsize=(7,5))
sns.kdeplot(data=titanic, x='age', hue='sex', fill=True)
plt.title('Distribuci√≥n de edad por sexo (KDE)')
plt.show()

<details>
<summary><b>Interpretaci√≥n</b></summary>

El gr√°fico muestra la forma de la distribuci√≥n de edades para cada sexo.  
Las √°reas m√°s altas indican d√≥nde hay m√°s personas.  
Comparando los colores, podemos ver si la edad de hombres y mujeres sigue un patr√≥n parecido o diferente.

</details>


## Barplot

**¬øCu√°ndo usarlo?**  
Para comparar frecuencias o medias de variables categ√≥ricas.

**Ejemplo real:** N√∫mero de pasajeros por clase en el Titanic.


In [1]:
plt.figure(figsize=(7,5))
sns.countplot(x='class', data=titanic)
plt.title('N√∫mero de pasajeros por clase (Titanic)')
plt.xlabel('Clase')
plt.ylabel('Cantidad')
plt.show()

NameError: name 'plt' is not defined

<details>
<summary><b>Interpretaci√≥n</b></summary>

Podemos ver cu√°ntos pasajeros viajaban en cada clase del Titanic.  
Las barras m√°s altas representan la clase con m√°s pasajeros.  
As√≠ podemos comparar de forma r√°pida la cantidad en cada grupo.

</details>


## Pie Chart

**¬øCu√°ndo usarlo?**  
Para mostrar proporciones entre pocas categor√≠as.

**Ejemplo real:** Proporci√≥n de supervivientes en el Titanic.


In [None]:
survived_counts = titanic['survived'].value_counts()
labels = ['No sobrevivi√≥', 'Sobrevivi√≥']

plt.figure(figsize=(6,6))
plt.pie(survived_counts, labels=labels, autopct='%1.1f%%', startangle=90)
plt.title('Supervivientes del Titanic')
plt.show()

<details>
<summary><b>Interpretaci√≥n</b></summary>

El gr√°fico de pastel nos permite ver r√°pidamente qu√© porcentaje de pasajeros sobrevivi√≥ y cu√°l no.  
Cada porci√≥n muestra la proporci√≥n de personas en cada grupo respecto al total.

</details>


## Pairplot

**¬øCu√°ndo usarlo?**  
Para ver todas las relaciones dos a dos entre variables num√©ricas.

**Ejemplo real:** Variables del dataset Iris.


In [None]:
sns.pairplot(df_iris, hue='target', palette='Set2')
plt.suptitle('Pairplot del dataset Iris', y=1.02)
plt.show()

<details>
<summary><b>Interpretaci√≥n</b></summary>

Este conjunto de gr√°ficos nos ayuda a explorar todas las combinaciones posibles entre las caracter√≠sticas num√©ricas del dataset.  
Vemos si existen relaciones o agrupamientos de los distintos tipos de flores seg√∫n sus medidas.

</details>


## Heatmap

**¬øCu√°ndo usarlo?**  
Para visualizar matrices de correlaci√≥n, confusi√≥n, etc.

**Ejemplo real:** Matriz de correlaci√≥n en Iris.


In [None]:
corr = df_iris.corr()
plt.figure(figsize=(7,5))
sns.heatmap(corr, annot=True, cmap='YlGnBu')
plt.title('Matriz de correlaci√≥n (Iris)')
plt.show()

<details>
<summary><b>Interpretaci√≥n</b></summary>

El heatmap muestra la relaci√≥n entre todas las variables num√©ricas del dataset.  
Los valores m√°s cercanos a 1 indican una relaci√≥n fuerte y positiva, mientras que los cercanos a -1 indican una relaci√≥n negativa.  
Los valores pr√≥ximos a 0 se√±alan que no hay relaci√≥n.

</details>


## Area Plot

**¬øCu√°ndo usarlo?**  
Para mostrar evoluci√≥n de valores acumulados o varias series.

**Ejemplo real:** Acumulado de ventas mensuales (simulado).


In [None]:
import pandas as pd
np.random.seed(0)
months = pd.date_range(start='2022-01-01', periods=12, freq='M')
sales = np.random.randint(100, 300, size=12).cumsum()

plt.figure(figsize=(7,5))
plt.fill_between(months, sales)
plt.title('Ventas acumuladas por mes')
plt.xlabel('Mes')
plt.ylabel('Ventas')
plt.show()

<details>
<summary><b>Interpretaci√≥n</b></summary>

El √°rea bajo la l√≠nea muestra c√≥mo han ido creciendo las ventas mes a mes.  
Podemos observar de forma clara el total acumulado y si hay alg√∫n mes en el que las ventas aumentan m√°s r√°pidamente.

</details>


## Resumen r√°pido

| Objetivo                             | Variables                | Gr√°fico recomendado       |
|--------------------------------------|--------------------------|--------------------------|
| Comparar medias/distribuciones       | Categ√≥rica vs Num√©rica   | Boxplot, Violin, Barras  |
| Relaci√≥n entre dos num√©ricas         | Num√©rica vs Num√©rica     | Scatter, Line            |
| Distribuci√≥n de una variable         | Num√©rica                 | Histograma, KDE, Boxplot |
| Frecuencia de categor√≠as             | Categ√≥rica               | Barplot, Pie             |
| Relaciones m√∫ltiples                 | Num√©ricas                | Pairplot, Heatmap        |
| Series de tiempo                     | Tiempo vs Num√©rica       | Line, Area               |
| Importancia de variables             | Categ√≥rica vs Num√©rica   | Barplot                  |
