# 🧭 Exploratory Data Analysis (EDA) with Pandas & Matplotlib

El Análisis Exploratorio de Datos (EDA) permite conocer un dataset antes de aplicar modelos. En esta sección aprenderás a usar **pandas** y **matplotlib** para:

- Verificar valores nulos
- Entender distribuciones
- Analizar relaciones entre variables


## Carga del dataset (de nuevo partiremos del dataset del Titanic)

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Cargar el dataset Titanic desde seaborn por conveniencia
import seaborn as sns
df = sns.load_dataset("titanic")

# Mostrar las primeras filas
df.head()

## Exploración general con Pandas

In [None]:
# Dimensiones y tipos de datos
print(f"Shape: {df.shape}")
print(df.dtypes)

# Información general
df.info()

# Estadísticas descriptivas
df.describe(include='all').T

# Valores nulos por columna
df.isnull().sum()

> Observamos columnas como `age`, `embarked` y `deck` con valores nulos que debemos considerar antes de modelar.


## Análisis de variables
A. Variables categóricas


In [None]:
# Conteo de valores únicos
df['sex'].value_counts()

# Porcentaje
df['embarked'].value_counts(normalize=True) * 100


B. Variables numéricas

In [None]:
# Estadísticas
df[['age', 'fare']].describe()

# Detectar valores extremos (outliers)
q1 = df['fare'].quantile(0.25)
q3 = df['fare'].quantile(0.75)
iqr = q3 - q1
outliers = df[(df['fare'] < q1 - 1.5 * iqr) | (df['fare'] > q3 + 1.5 * iqr)]
outliers.shape

## Visualizaciones con MatPlotlib

In [None]:
# Histograma de edad
plt.hist(df['age'].dropna(), bins=30, edgecolor='black')
plt.title("Distribución de Edad")
plt.xlabel("Edad")
plt.ylabel("Frecuencia")
plt.grid(True)
plt.show()

**Histograma:**
¿Qué muestra?

Distribución de una variable numérica. Frecuencia de valores divididos en “bins” o intervalos.

¿Para qué sirve?

* Ver si los datos están normalmente distribuidos (forma de campana).
* Identificar asimetrías (skewed distributions).
* Detectar outliers si hay colas largas o valores extremos.

> "La mayoría de pasajeros del Titanic tenía entre 20 y 40 años. Hay pocos bebés o ancianos.”

In [None]:
# Gráfico de barras: supervivencia por sexo
df_sex_survived = df.groupby('sex')['survived'].value_counts().unstack()
df_sex_survived.plot(kind='bar', stacked=True)
plt.title("Supervivencia por Sexo")
plt.xlabel("Sexo")
plt.ylabel("Número de Pasajeros")
plt.legend(title="¿Sobrevivió?")
plt.show()

**Gráfico de barras (agrupado o apilado):** ¿Qué muestra?

Comparación de cantidades entre categorías (como sexo o clase) y otra variable categórica (como sobrevivió o no).

¿Para qué sirve?

* Comparar frecuencias absolutas.
* Ver tendencias o diferencias entre grupos.

> “Sobrevivieron más mujeres que hombres, incluso si viajaban en tercera clase.”

In [None]:
# Boxplot de tarifas por clase
df.boxplot(column='fare', by='pclass', grid=False)
plt.title("Tarifa por Clase")
plt.suptitle("")
plt.xlabel("Clase")
plt.ylabel("Tarifa")
plt.show()

**Boxplot:** ¿Qué muestra?

Mediana, cuartiles, rango intercuartílico y outliers de una variable numérica. Se puede agrupar por categorías.

¿Para qué sirve?

* Comparar la distribución de una variable numérica entre grupos.
* Ver la variabilidad interna y si hay valores atípicos.

> “Los pasajeros de 1ª clase pagaron mucho más que los de 2ª o 3ª, y hay bastantes outliers en tarifas altas.”

In [None]:
# Pie chart de embarque
embarked_counts = df['embarked'].value_counts()
plt.pie(embarked_counts, labels=embarked_counts.index, autopct='%1.1f%%', startangle=90)
plt.title("Distribución por Puerto de Embarque")
plt.show()

**Gráfico de pastel (pie chart):** ¿Qué muestra?

Proporciones relativas (%) de una variable categórica. Algunas veces es más preciso visualmente usar un gráfico de barras.

¿Para qué sirve?

* Ilustrar cómo se reparte el total entre categorías.
* Bueno cuando hay pocas categorías (2 a 5 máx).

> “La mayoría de los pasajeros embarcó en Southampton, pocos en Cherburgo o Queenstown.”

In [None]:
# Filtramos solo variables numéricas
df_numeric = df.select_dtypes(include='number')

# Calculamos la matriz de correlación
correlation_matrix = df_numeric.corr()

# Mostramos la matriz
print(correlation_matrix)

# Visualización con seaborn
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", square=True, linewidths=0.5)
plt.title("🔗 Matriz de Correlación entre Variables Numéricas")
plt.show()

**Mapa de calor de correlaciones:** ¿Qué muestra?

Correlaciones entre variables numéricas (cuán relacionadas están).

¿Para qué sirve?

* Detectar multicolinealidad.
* Elegir variables relevantes.
* Encontrar relaciones inesperadas.

> “Edad y tarifa no están correlacionadas. Pero clase y tarifa tienen fuerte correlación negativa.”

## 🧠 Conclusiones del análisis:

- Más mujeres sobrevivieron que hombres.
- Los pasajeros de clase alta (1ª) tuvieron mayor tasa de supervivencia.
- La edad y la tarifa presentan valores extremos que pueden necesitar tratamiento.
- Algunos valores faltantes importantes deben imputarse antes del modelado.

Este análisis visual y exploratorio es clave para tomar decisiones inteligentes en etapas posteriores como el preprocesamiento o el modelado.