In [14]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.model_selection import GridSearchCV
from matplotlib import pyplot as plt

from sklearn.preprocessing import LabelEncoder # convertir categorias a num

#añadir random forest 
from sklearn.ensemble import RandomForestClassifier


In [2]:
#dataset
df = pd.read_csv('train.csv')   
# print(df.head())
# print(df.columns)

In [3]:
#limpieza y preparacion de datos

# eliminar columnas que no tienen relevancia para el modelo
df = df.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1)

# rellenar en la columna edad con la mediana (edad típica) para no perder data
df['Age'] = df['Age'].fillna(df['Age'].median())

# rellenar en la columna embarked con la moda (valor mas frecuente) para no perder data
df['Embarked'] = df['Embarked'].fillna(df['Embarked'].mode()[0])

label_encoder = LabelEncoder()
df['Sex'] = label_encoder.fit_transform(df['Sex'])       # hombre = 1, mujer = 0
df['Embarked'] = label_encoder.fit_transform(df['Embarked']) # puerto de embarque = 0, puerto de embarque = 1, puerto de embarque = 2

# print(df.head())

In [4]:
# separar las x de nuestra y (saber si sobrevivio o no)
X = df.drop('Survived', axis=1)  # drop survived
y = df['Survived']               # columna a predecir

In [5]:
# dividir en entrenamiento y prueba 80/20
X_train_val, X_test, y_train_val, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# dividimos el conj de entrenamiento en entrenamiento y validación 75/25 de ese 80
X_train, X_val, y_train, y_val = train_test_split(X_train_val, y_train_val, test_size=0.25, random_state=42)

In [6]:
#normalizar o escalado media ≈ 0 desviación estándar ≈ 1
scaler = StandardScaler()

# ajustar solo con data de entrenamiento y transformar 
X_train = scaler.fit_transform(X_train)  # ademas de transformar aprende
X_val = scaler.transform(X_val) #validacion
X_test = scaler.transform(X_test) #prueba

In [7]:
# modelo 1: 1 capa oculta con 100 neuronas, 1000 iteraciones, solver: sgd, random state 42

# modelo con hiperparametros iniciales
mlp = MLPClassifier(hidden_layer_sizes=(100,), max_iter=500, solver='sgd', random_state=42) #creacion
mlp.fit(X_train, y_train) #entrenamiento 

# validacion
y_pred_val = mlp.predict(X_val)

# evaluacion de nuestra data de validacion
print("Modelo 1: 1 capa oculta con 100 neuronas, 1000 iteraciones, solver: sgd, random state 42")
print("\nAccuracy en validación:", accuracy_score(y_val, y_pred_val))
print("\nReporte de clasificación:\n", classification_report(y_val, y_pred_val))
cm = confusion_matrix(y_val, y_pred_val)
print("\nMatriz de confusión:\n", cm)


Modelo 1: 1 capa oculta con 100 neuronas, 1000 iteraciones, solver: sgd, random state 42

Accuracy en validación: 0.8033707865168539

Reporte de clasificación:
               precision    recall  f1-score   support

           0       0.83      0.86      0.85       112
           1       0.75      0.71      0.73        66

    accuracy                           0.80       178
   macro avg       0.79      0.78      0.79       178
weighted avg       0.80      0.80      0.80       178


Matriz de confusión:
 [[96 16]
 [19 47]]


In [9]:
# modelo 2: 2 capas ocultas, solver 'adam', max_iter 2000, learning_rate_init 0.001, random state 42
mlp2 = MLPClassifier(hidden_layer_sizes=(100, 50), max_iter=2000, solver='adam', learning_rate_init=0.001, random_state=42)
mlp2.fit(X_train, y_train)  # entrenamiento

# validacion
y_pred_val2 = mlp2.predict(X_val)

# evaluacion de nuestra data de validacion
print("Modelo 2: 2 capas ocultas, solver 'adam', max_iter 2000, learning_rate_init 0.001, random state 42")
print("\nAccuracy en validación:", accuracy_score(y_val, y_pred_val2))
print("\nReporte de clasificación:\n", classification_report(y_val, y_pred_val2))
print("\nMatriz de confusión:\n", confusion_matrix(y_val, y_pred_val2))


Modelo 2: 2 capas ocultas, solver 'adam', max_iter 2000, learning_rate_init 0.001, random state 42

Accuracy en validación: 0.8146067415730337

Reporte de clasificación:
               precision    recall  f1-score   support

           0       0.84      0.87      0.85       112
           1       0.76      0.73      0.74        66

    accuracy                           0.81       178
   macro avg       0.80      0.80      0.80       178
weighted avg       0.81      0.81      0.81       178


Matriz de confusión:
 [[97 15]
 [18 48]]


In [10]:
# modelo 3: 3 capas ocultas, solver 'adam', max_iter 3000, learning_rate_init 0.0005, alpha 0.0001, random state 42
mlp3 = MLPClassifier(hidden_layer_sizes=(100, 50, 25), 
                     max_iter=1000, 
                     solver='adam', 
                     learning_rate_init=0.0005, 
                     alpha=0.1, # regularizacion de pesos, penaliza pesos grandes
                     random_state=42)
mlp3.fit(X_train, y_train)  # entrenamiento

# validacion
y_pred_val3 = mlp3.predict(X_val)

# evaluacion de nuestra data de validacion
print("Modelo 3: 3 capas ocultas (100,50,25), solver 'adam', max_iter 3000, learning_rate_init 0.0005,\nalpha 0.1, random state 42")
print("\nAccuracy en validación:", accuracy_score(y_val, y_pred_val3))
print("\nReporte de clasificación:\n", classification_report(y_val, y_pred_val3))
print("\nMatriz de confusión:\n", confusion_matrix(y_val, y_pred_val3))






Modelo 3: 3 capas ocultas (100,50,25), solver 'adam', max_iter 3000, learning_rate_init 0.0005,
alpha 0.1, random state 42

Accuracy en validación: 0.797752808988764

Reporte de clasificación:
               precision    recall  f1-score   support

           0       0.83      0.85      0.84       112
           1       0.73      0.71      0.72        66

    accuracy                           0.80       178
   macro avg       0.78      0.78      0.78       178
weighted avg       0.80      0.80      0.80       178


Matriz de confusión:
 [[95 17]
 [19 47]]


In [11]:
# modelo 4: 1 capa oculta, solver 'lbfgs', max_iter 1000, random state 42
mlp4 = MLPClassifier(hidden_layer_sizes=(100,), solver='lbfgs', max_iter=2000, random_state=42)
mlp4.fit(X_train, y_train)

# validacion
y_pred_val4 = mlp4.predict(X_val)

# evaluacion de nuestra data de validacion
print("Modelo 4: 1 capa oculta, solver 'lbfgs', max_iter 1000, random_state 42")
print("Accuracy en validación:", accuracy_score(y_val, y_pred_val4))
print("\nReporte de clasificación:\n", classification_report(y_val, y_pred_val4))
print("\nMatriz de confusión:\n", confusion_matrix(y_val, y_pred_val4))

# lbfgs NO loss_curve_ porque no guarda el historial de la función de pérdida durante el entrenamiento como los otros


Modelo 4: 1 capa oculta, solver 'lbfgs', max_iter 1000, random_state 42
Accuracy en validación: 0.7584269662921348

Reporte de clasificación:
               precision    recall  f1-score   support

           0       0.83      0.78      0.80       112
           1       0.66      0.73      0.69        66

    accuracy                           0.76       178
   macro avg       0.74      0.75      0.75       178
weighted avg       0.77      0.76      0.76       178


Matriz de confusión:
 [[87 25]
 [18 48]]


In [12]:
#automatizar busqueda de la mejor combinacion de hiperparametros PARA EL MODELO 2
#tuning de hiperparametros

# grilla de hiperparametros 
param_grid = {
    'hidden_layer_sizes': [(100, 50), (100, 50, 25), (50, 25), (100,), (150, 75)],
    'alpha': [0.0001, 0.001, 0.01],
    'learning_rate_init': [0.001, 0.0005, 0.0001]
}

# modelo 2
mlp_base = MLPClassifier(max_iter=2000, solver='adam', random_state=42)

# dreacion del GridSearchCV
grid_search = GridSearchCV(estimator=mlp_base, param_grid=param_grid, cv=5, scoring='accuracy', n_jobs=-1)
grid_search.fit(X_train, y_train)

print("Mejores parámetros encontrados:", grid_search.best_params_)
print("Mejor accuracy en validación cruzada:", grid_search.best_score_)

# evaluacion sobre el conjunto de validacion
best_model = grid_search.best_estimator_
y_pred_val_best = best_model.predict(X_val)

print("\nAccuracy en validación:", accuracy_score(y_val, y_pred_val_best))
print("\nReporte de clasificación:\n", classification_report(y_val, y_pred_val_best))
print("\nMatriz de confusión:\n", confusion_matrix(y_val, y_pred_val_best))



Mejores parámetros encontrados: {'alpha': 0.0001, 'hidden_layer_sizes': (150, 75), 'learning_rate_init': 0.0001}
Mejor accuracy en validación cruzada: 0.818462352318815

Accuracy en validación: 0.8314606741573034

Reporte de clasificación:
               precision    recall  f1-score   support

           0       0.85      0.89      0.87       112
           1       0.80      0.73      0.76        66

    accuracy                           0.83       178
   macro avg       0.82      0.81      0.82       178
weighted avg       0.83      0.83      0.83       178


Matriz de confusión:
 [[100  12]
 [ 18  48]]


In [13]:
# evaluacion final con el conjunto de prueba
y_pred_test = best_model.predict(X_test)


print("Evaluación final con el conjunto de prueba:")
print("Accuracy:", accuracy_score(y_test, y_pred_test))
print("\nReporte de clasificación:\n", classification_report(y_test, y_pred_test))
print("\nMatriz de confusión:\n", confusion_matrix(y_test, y_pred_test))

Evaluación final con el conjunto de prueba:
Accuracy: 0.8044692737430168

Reporte de clasificación:
               precision    recall  f1-score   support

           0       0.81      0.87      0.84       105
           1       0.79      0.72      0.75        74

    accuracy                           0.80       179
   macro avg       0.80      0.79      0.80       179
weighted avg       0.80      0.80      0.80       179


Matriz de confusión:
 [[91 14]
 [21 53]]


In [17]:
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)

y_pred_val_rf = rf.predict(X_val)

print("Random Forest - Validación")
print("Accuracy:", accuracy_score(y_val, y_pred_val_rf))
print("\nReporte de clasificación:\n", classification_report(y_val, y_pred_val_rf))
print("\nMatriz de confusión:\n", confusion_matrix(y_val, y_pred_val_rf))

Random Forest - Validación
Accuracy: 0.8089887640449438

Reporte de clasificación:
               precision    recall  f1-score   support

           0       0.84      0.86      0.85       112
           1       0.75      0.73      0.74        66

    accuracy                           0.81       178
   macro avg       0.80      0.79      0.79       178
weighted avg       0.81      0.81      0.81       178


Matriz de confusión:
 [[96 16]
 [18 48]]


In [18]:
y_pred_test_rf = rf.predict(X_test)
print("Random Forest - Evaluación final con el conjunto de prueba")
print("Accuracy:", accuracy_score(y_test, y_pred_test_rf))
print("\nReporte de clasificación:\n", classification_report(y_test, y_pred_test_rf))
print("\nMatriz de confusión:\n", confusion_matrix(y_test, y_pred_test_rf))

Random Forest - Evaluación final con el conjunto de prueba
Accuracy: 0.8268156424581006

Reporte de clasificación:
               precision    recall  f1-score   support

           0       0.84      0.88      0.86       105
           1       0.81      0.76      0.78        74

    accuracy                           0.83       179
   macro avg       0.82      0.82      0.82       179
weighted avg       0.83      0.83      0.83       179


Matriz de confusión:
 [[92 13]
 [18 56]]
