# 🔧 Preparación de Datos para Modelos de Machine Learning
Este notebook aborda cómo preparar datos antes de entrenar modelos predictivos, utilizando el dataset del Titanic.

Incluye:
- Limpieza básica y selección de variables
- División en conjuntos de entrenamiento y prueba
- Entrenamiento con regresión logística
- Visualización de errores (falsos positivos / negativos)

In [None]:
# Librerías necesarias
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay

# Carga de datos y preprocesamiento básico
df = pd.read_csv("Titanic-Dataset.csv")
df = df[['Pclass', 'Sex', 'Age', 'Fare', 'Survived']].dropna()
df['Sex'] = df['Sex'].map({'male': 0, 'female': 1})
df.head()

## 📦 División de datos en entrenamiento y prueba
Usamos `train_test_split()` para separar los datos:
- 80% para entrenamiento
- 20% para prueba

In [None]:
# Separar en X e y
X = df[['Pclass', 'Sex', 'Age', 'Fare']]
y = df['Survived']

# Dividir en train y test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Tamaño entrenamiento:", X_train.shape)
print("Tamaño prueba:", X_test.shape)

## 🧠 Entrenamiento de modelo y predicción
Usamos una regresión logística como modelo de ejemplo.

In [None]:
model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

## 📊 Evaluación del modelo
Medimos desempeño con exactitud y matriz de confusión.

In [None]:
acc = accuracy_score(y_test, y_pred)
print("Accuracy del modelo:", acc)

cm = confusion_matrix(y_test, y_pred, labels=[0, 1])
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=['No sobrevive', 'Sobrevive'])
disp.plot(cmap='Blues')
plt.title("Matriz de Confusión")
plt.show()

## 🧪 Actividad práctica
1. Cambia la proporción de `test_size` a 0.3 o 0.5 y observa el impacto.
2. Reemplaza `LogisticRegression` por otro modelo (como `RandomForestClassifier`).
3. Interpreta los errores: ¿cuántos falsos negativos y positivos hay?