# 🧪 Actividad práctica: División de datos y visualización de errores
En esta actividad trabajaremos con el dataset del Titanic para:
- Simular la división de datos en distintos porcentajes
- Entrenar un modelo con regresión logística
- Visualizar y analizar los errores usando matriz de confusión

In [None]:
# Importar librerías necesarias
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay, accuracy_score

In [None]:
# Cargar datos y preprocesar
df = pd.read_csv('Titanic-Dataset.csv')
df = df[['Pclass', 'Sex', 'Age', 'Fare', 'Survived']].dropna()
df['Sex'] = df['Sex'].map({'male': 0, 'female': 1})
df.head()

## 🔀 División de datos
Modifica el `test_size` para observar cómo cambia el desempeño del modelo:

In [None]:
# Separar variables
X = df[['Pclass', 'Sex', 'Age', 'Fare']]
y = df['Survived']

# Cambia el test_size aquí
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

print("Tamaño entrenamiento:", X_train.shape)
print("Tamaño prueba:", X_test.shape)

## 🤖 Entrenamiento y predicción

In [None]:
model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print("Exactitud del modelo:", acc)

## 📊 Visualización de errores: matriz de confusión
- Verdaderos positivos (VP)
- Falsos positivos (FP)
- Verdaderos negativos (VN)
- Falsos negativos (FN)

In [None]:
cm = confusion_matrix(y_test, y_pred, labels=[0, 1])
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=['No Sobrevive', 'Sobrevive'])
disp.plot(cmap='Reds')
plt.title("Matriz de Confusión")
plt.show()

## 📝 Reflexión
1. ¿Qué porcentaje de datos usaste para prueba? ¿Aumentó o bajó la precisión?
2. ¿Hay más falsos positivos o falsos negativos? ¿Qué implicancias podría tener eso en salud?
3. Prueba con otro `random_state` y observa si los resultados varían.