# Aprendizaje Supervisado - Titanic con Random Forest

Este notebook muestra un flujo básico de **Machine Learning supervisado**:
1. Cargar datos (train y test).
2. Preprocesar (convertir variables categóricas y rellenar valores faltantes).
3. Entrenar un modelo de clasificación (Random Forest).
4. Generar predicciones para Kaggle.

In [None]:
# --- 0. Importar librerías ---
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from tqdm import tqdm

# Habilitamos barra de progreso en operaciones pandas
tqdm.pandas()

## 1. Cargar los datos

In [None]:
print("📂 Leyendo archivos CSV...")

train = pd.read_csv("titanic/train.csv")
test = pd.read_csv("titanic/test.csv")

print("✅ Archivos cargados")
train.head()

## 2. Preprocesamiento de datos

- Convertimos `Sex` en valores numéricos (`male=0`, `female=1`).
- Rellenamos los valores faltantes de `Age` con la mediana.

In [None]:
print("🔄 Preprocesando datos...")

# Mapear sexo
train['Sex'] = train['Sex'].map({'male': 0, 'female': 1})
test['Sex'] = test['Sex'].map({'male': 0, 'female': 1})

# Rellenar edad con la mediana del train
median_age = train['Age'].median()
train['Age'] = train['Age'].fillna(median_age)
test['Age'] = test['Age'].fillna(median_age)

print("✅ Preprocesamiento completado")
train[['Pclass','Sex','Age','Survived']].head()

## 3. Entrenamiento del modelo

In [None]:
X = train[['Pclass', 'Sex', 'Age']]
y = train['Survived']

print("🤖 Entrenando modelo...")
clf = RandomForestClassifier(n_estimators=100, verbose=1, n_jobs=-1, random_state=42)
clf.fit(X, y)

print("✅ Modelo entrenado")

## 4. Generar predicciones

In [None]:
print("📊 Generando predicciones...")

pred = clf.predict(test[['Pclass', 'Sex', 'Age']])

output = pd.DataFrame({
    'PassengerId': test.PassengerId,
    'Survived': pred
})

output.to_csv('submission.csv', index=False)
print("💾 Archivo 'submission.csv' guardado correctamente")
output.head()

## ✅ Conclusión
En este notebook:
- Construimos un pipeline de **Machine Learning supervisado**.
- Usamos **Random Forest** para predecir la supervivencia en el Titanic.
- Generamos un archivo `submission.csv` compatible con Kaggle.

Este flujo puede extenderse agregando más **features** (Fare, SibSp, Embarked, etc.) o probando otros algoritmos de ML.