# 🚢 Hello World con Scikit-learn: Predicción de Supervivencia en el Titanic

Este notebook es tu primera experiencia en modelamiento predictivo con **scikit-learn**. Usaremos un caso simple y famoso: predecir si una persona habría sobrevivido al Titanic, con base en variables como edad, clase y sexo.

Este ejercicio sigue las fases básicas de **CRISP-DM**:
- Comprensión del negocio
- Comprensión de los datos
- Preparación de los datos
- Modelamiento
- Evaluación

¡Comencemos! 🎯


**1. Introducción y carga de datos**

In [None]:
# Paso 1: Importar librerías necesarias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score


In [None]:
# Paso 2: Cargar los datos desde internet
url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
df = pd.read_csv(url)

**2. Entendimiento del negocio y datos (CRISP: Business & Data Understanding)**

In [None]:
# Paso 3: Revisar las columnas disponibles
print(df.columns)

# Paso 4: Ver resumen de los datos
df.describe(include='all')

**3. Preparación de datos (CRISP: Data Preparation)**

In [None]:
# Paso 5: Elegir variables relevantes
features = ['Pclass', 'Sex', 'Age']
df = df[features + ['Survived']]

# Paso 6: Limpiar datos: reemplazar "Sex" por números y manejar valores faltantes
df['Sex'] = df['Sex'].map({'male': 0, 'female': 1})
df['Age'] = df['Age'].fillna(df['Age'].median())

# Verificar que ya no hay valores faltantes
df.isnull().sum()

**4. Modelado (CRISP: Modeling)**

In [None]:
# Paso 7: Separar variables X (predictoras) e y (objetivo)
X = df[features]
y = df['Survived']

In [None]:
# Paso 8: Separar  datos para hacer entrenamiento y pruebas
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Paso 9: Crear el modelo
model = DecisionTreeClassifier(max_depth=3)
model.fit(X_train, y_train)

**5. Evaluación (CRISP: Evaluation)**

In [None]:
# Paso 10: Evaluar el modelo con accuracy
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print(f"Precisión del modelo: {accuracy:.2f}")

In [None]:
# Paso 11: Mostrar primeras 10 predicciones y comparar con valores reales
resultados = X_test.copy()
resultados['Real'] = y_test
resultados['Predicho'] = y_pred
resultados.head(10)

In [None]:
# Paso 12: Graficar el árbol para observar variables y relaciones
from sklearn.tree import plot_tree
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 6))
plot_tree(model, feature_names=features, class_names=["No sobrevive", "Sobrevive"], filled=True)
plt.title("Árbol de Decisión para Supervivencia en Titanic")
plt.show()

**6. Despliegue básico (CRISP: Deployment)**

In [None]:
# Paso 13:
# Ahora Probamos el modelo con una persona nueva
# Por ejemplo: tercera clase (Pclass=3), hombre (Sex=0), 25 años
nueva_persona = pd.DataFrame({'Pclass': [3], 'Sex': [0], 'Age': [25]})
prediccion = model.predict(nueva_persona)

In [None]:
print("¿Sobreviviría la nueva persona?")
if prediccion[0] == 1:
    print("✅ ¡Sí, sobreviviría! 😀")
else:
    print("❌ No, no sobreviviría. 😢")

## 🧠 Reflexión

- ¿Qué variables parecen influir más en la supervivencia?
- ¿Cómo podrías mejorar este modelo?
- ¿Por qué es útil este tipo de modelo en la toma de decisiones?
