# Proyecto Parte III - Ríos
Estructura del proyecto de Machine Learning para clasificación con el dataset Titanic.

In [None]:

# 1. IMPORTACIÓN DE LIBRERÍAS Y CARGA DE DATOS
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

# Cargar dataset de Titanic
df = sns.load_dataset('titanic')


In [None]:

# 2. EXPLORACIÓN Y LIMPIEZA
print(df.head())
print(df.info())

# Eliminar columnas poco útiles
df = df.drop(columns=['deck', 'embark_town', 'alive', 'who', 'class'])

# Eliminar filas con valores faltantes
df.dropna(inplace=True)

# Convertir variables categóricas en numéricas
label_encoders = {}
for column in df.select_dtypes(include='object').columns:
    le = LabelEncoder()
    df[column] = le.fit_transform(df[column])
    label_encoders[column] = le


In [None]:

# 3. FEATURE SELECTION
X = df.drop(columns='survived')
y = df['survived']

# Usar SelectKBest para elegir las 5 variables más relevantes
selector = SelectKBest(score_func=chi2, k=5)
X_selected = selector.fit_transform(X, y)

# Obtener los nombres de las columnas seleccionadas
mask = selector.get_support()
selected_features = X.columns[mask]
print("Features seleccionadas:", selected_features)


In [None]:

# 4. MODELO DE CLASIFICACIÓN
X_train, X_test, y_train, y_test = train_test_split(df[selected_features], y, test_size=0.3, random_state=42)

model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)


In [None]:

# 5. EVALUACIÓN DEL MODELO
y_pred = model.predict(X_test)

print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))


In [None]:

# 6. CONCLUSIONES
print("""
El modelo Random Forest logró predecir con buena precisión si un pasajero sobrevivió o no, 
basándose en las 5 variables más importantes del dataset. Las métricas muestran buen balance 
entre precisión y recall. Se podría mejorar el modelo ajustando hiperparámetros o usando más datos.
""")
