# 01 — EDA del Dataset Titanic (tested.csv)

Este notebook resume el análisis exploratorio del dataset `data/tested.csv`.
Incluye: tamaño, tipos, faltantes, distribuciones y relaciones básicas con `Survived`.


In [None]:
# Imports
import os
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
sns.set(style="whitegrid")

# Localización del CSV
DATA_PATH = 'data/tested.csv' if os.path.exists('data/tested.csv') else 'tested.csv'
df = pd.read_csv(DATA_PATH)
print('Ruta usada:', DATA_PATH)
df.head()

In [None]:
# Dimensiones y tipos
print('Shape:', df.shape)
display(df.dtypes)

# Faltantes
na_pct = df.isna().mean().sort_values(ascending=False)
print('Porcentaje de NA por columna:')
display((na_pct * 100).round(2))


In [None]:
# Estadísticos descriptivos básicos
display(df.describe(include='all'))


In [None]:
# Distribución de la etiqueta
if 'Survived' in df.columns:
    print(df['Survived'].value_counts(dropna=False))
    sns.countplot(data=df, x='Survived')
    plt.title('Distribución de Survived')
    plt.show()


In [None]:
# Distribuciones numéricas
num_cols = ['Age','Fare','SibSp','Parch']
for c in num_cols:
    if c in df.columns:
        sns.histplot(df[c], kde=True)
        plt.title(f'Distribución de {c}')
        plt.show()


In [None]:
# Relación con Survived por algunas variables categóricas
cat_cols = ['Pclass','Sex','Embarked']
for c in cat_cols:
    if c in df.columns and 'Survived' in df.columns:
        sns.countplot(data=df, x=c, hue='Survived')
        plt.title(f'{c} vs Survived')
        plt.legend(title='Survived')
        plt.show()


In [None]:
# Correlación (numéricas)
num_cols_corr = df.select_dtypes(include=[np.number]).columns.tolist()
if len(num_cols_corr) > 1:
    corr = df[num_cols_corr].corr()
    plt.figure(figsize=(6,5))
    sns.heatmap(corr, annot=False, cmap='coolwarm', center=0)
    plt.title('Matriz de Correlación (numéricas)')
    plt.show()
