# üß≠ Exploratory Data Analysis (EDA) with Pandas & Matplotlib

El An√°lisis Exploratorio de Datos (EDA) permite conocer un dataset antes de aplicar modelos. En esta secci√≥n aprender√°s a usar **pandas** y **matplotlib** para:

- Verificar valores nulos
- Entender distribuciones
- Analizar relaciones entre variables


## Carga del dataset (de nuevo partiremos del dataset del Titanic)

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Cargar el dataset Titanic desde seaborn por conveniencia
import seaborn as sns
df = sns.load_dataset("titanic")

# Mostrar las primeras filas
df.head()

## Exploraci√≥n general con Pandas

In [None]:
# Dimensiones y tipos de datos
print(f"Shape: {df.shape}")
print(df.dtypes)

# Informaci√≥n general
df.info()

# Estad√≠sticas descriptivas
df.describe(include='all').T

# Valores nulos por columna
df.isnull().sum()

> Observamos columnas como `age`, `embarked` y `deck` con valores nulos que debemos considerar antes de modelar.


## An√°lisis de variables
A. Variables categ√≥ricas


In [None]:
# Conteo de valores √∫nicos
df['sex'].value_counts()

# Porcentaje
df['embarked'].value_counts(normalize=True) * 100


B. Variables num√©ricas

In [None]:
# Estad√≠sticas
df[['age', 'fare']].describe()

# Detectar valores extremos (outliers)
q1 = df['fare'].quantile(0.25)
q3 = df['fare'].quantile(0.75)
iqr = q3 - q1
outliers = df[(df['fare'] < q1 - 1.5 * iqr) | (df['fare'] > q3 + 1.5 * iqr)]
outliers.shape

## Visualizaciones con MatPlotlib

In [None]:
# Histograma de edad
plt.hist(df['age'].dropna(), bins=30, edgecolor='black')
plt.title("Distribuci√≥n de Edad")
plt.xlabel("Edad")
plt.ylabel("Frecuencia")
plt.grid(True)
plt.show()

**Histograma:**
¬øQu√© muestra?

Distribuci√≥n de una variable num√©rica. Frecuencia de valores divididos en ‚Äúbins‚Äù o intervalos.

¬øPara qu√© sirve?

* Ver si los datos est√°n normalmente distribuidos (forma de campana).
* Identificar asimetr√≠as (skewed distributions).
* Detectar outliers si hay colas largas o valores extremos.

> "La mayor√≠a de pasajeros del Titanic ten√≠a entre 20 y 40 a√±os. Hay pocos beb√©s o ancianos.‚Äù

In [None]:
# Gr√°fico de barras: supervivencia por sexo
df_sex_survived = df.groupby('sex')['survived'].value_counts().unstack()
df_sex_survived.plot(kind='bar', stacked=True)
plt.title("Supervivencia por Sexo")
plt.xlabel("Sexo")
plt.ylabel("N√∫mero de Pasajeros")
plt.legend(title="¬øSobrevivi√≥?")
plt.show()

**Gr√°fico de barras (agrupado o apilado):** ¬øQu√© muestra?

Comparaci√≥n de cantidades entre categor√≠as (como sexo o clase) y otra variable categ√≥rica (como sobrevivi√≥ o no).

¬øPara qu√© sirve?

* Comparar frecuencias absolutas.
* Ver tendencias o diferencias entre grupos.

> ‚ÄúSobrevivieron m√°s mujeres que hombres, incluso si viajaban en tercera clase.‚Äù

In [None]:
# Boxplot de tarifas por clase
df.boxplot(column='fare', by='pclass', grid=False)
plt.title("Tarifa por Clase")
plt.suptitle("")
plt.xlabel("Clase")
plt.ylabel("Tarifa")
plt.show()

**Boxplot:** ¬øQu√© muestra?

Mediana, cuartiles, rango intercuart√≠lico y outliers de una variable num√©rica. Se puede agrupar por categor√≠as.

¬øPara qu√© sirve?

* Comparar la distribuci√≥n de una variable num√©rica entre grupos.
* Ver la variabilidad interna y si hay valores at√≠picos.

> ‚ÄúLos pasajeros de 1¬™ clase pagaron mucho m√°s que los de 2¬™ o 3¬™, y hay bastantes outliers en tarifas altas.‚Äù

In [None]:
# Pie chart de embarque
embarked_counts = df['embarked'].value_counts()
plt.pie(embarked_counts, labels=embarked_counts.index, autopct='%1.1f%%', startangle=90)
plt.title("Distribuci√≥n por Puerto de Embarque")
plt.show()

**Gr√°fico de pastel (pie chart):** ¬øQu√© muestra?

Proporciones relativas (%) de una variable categ√≥rica. Algunas veces es m√°s preciso visualmente usar un gr√°fico de barras.

¬øPara qu√© sirve?

* Ilustrar c√≥mo se reparte el total entre categor√≠as.
* Bueno cuando hay pocas categor√≠as (2 a 5 m√°x).

> ‚ÄúLa mayor√≠a de los pasajeros embarc√≥ en Southampton, pocos en Cherburgo o Queenstown.‚Äù

In [None]:
# Filtramos solo variables num√©ricas
df_numeric = df.select_dtypes(include='number')

# Calculamos la matriz de correlaci√≥n
correlation_matrix = df_numeric.corr()

# Mostramos la matriz
print(correlation_matrix)

# Visualizaci√≥n con seaborn
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", square=True, linewidths=0.5)
plt.title("üîó Matriz de Correlaci√≥n entre Variables Num√©ricas")
plt.show()

**Mapa de calor de correlaciones:** ¬øQu√© muestra?

Correlaciones entre variables num√©ricas (cu√°n relacionadas est√°n).

¬øPara qu√© sirve?

* Detectar multicolinealidad.
* Elegir variables relevantes.
* Encontrar relaciones inesperadas.

> ‚ÄúEdad y tarifa no est√°n correlacionadas. Pero clase y tarifa tienen fuerte correlaci√≥n negativa.‚Äù

## üß† Conclusiones del an√°lisis:

- M√°s mujeres sobrevivieron que hombres.
- Los pasajeros de clase alta (1¬™) tuvieron mayor tasa de supervivencia.
- La edad y la tarifa presentan valores extremos que pueden necesitar tratamiento.
- Algunos valores faltantes importantes deben imputarse antes del modelado.

Este an√°lisis visual y exploratorio es clave para tomar decisiones inteligentes en etapas posteriores como el preprocesamiento o el modelado.