# Aplique por lo menos dos métodos de clasificación a los datos, utilice como variable target la columna Survived.


In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report

In [2]:
# Cargar los datos
data = pd.read_csv("tested.csv")

In [3]:
data.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age             86
SibSp            0
Parch            0
Ticket           0
Fare             1
Cabin          327
Embarked         0
dtype: int64

### Limpieza y preparación

In [4]:
# Llenar valores nulos en la columna 'Age' con la mediana
data['Age'].fillna(data['Age'].median(), inplace=True)

# Llenar valores nulos en 'Embarked' con el valor más frecuente
data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True)

# Llenar valores nulos en 'Fare' con la mediana
data['Fare'].fillna(data['Fare'].median(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['Age'].fillna(data['Age'].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on 

In [5]:
print(data['Embarked'].unique())

['Q' 'S' 'C']


In [6]:
print(data['Pclass'].unique())

[3 2 1]


In [7]:
print(data['Fare'].unique())

[  7.8292   7.       9.6875   8.6625  12.2875   9.225    7.6292  29.
   7.2292  24.15     7.8958  26.      82.2667  61.175   27.7208  12.35
   7.225    7.925   59.4      3.1708  31.6833  61.3792 262.375   14.5
  61.9792  30.5     21.6792  31.5     20.575   23.45    57.75     8.05
   9.5     56.4958  13.4167  26.55     7.85    13.      52.5542  29.7
   7.75    76.2917  15.9     60.      15.0333  23.     263.      15.5792
  29.125    7.65    16.1     13.5      7.725   21.       7.8792  42.4
  28.5375 211.5     25.7     15.2458 221.7792  10.7083  14.4542  13.9
   7.775   52.       7.7958  78.85     7.8542  55.4417   8.5167  22.525
   7.8208   8.7125  15.0458   7.7792  31.6792   7.2833   6.4375  16.7
  75.2417  15.75     7.25    23.25    28.5     25.4667  46.9    151.55
  18.      51.8625  83.1583  12.1833  31.3875   7.55    13.775    7.7333
  22.025   50.4958  34.375    8.9625  39.      36.75    53.1    247.5208
  16.      69.55    32.5    134.5     10.5      8.1125  15.5     14.4
 227.52

In [8]:
print(data['SibSp'].unique())

[0 1 2 3 4 5 8]


In [9]:
print(data['Parch'].unique())

[0 1 3 2 4 6 5 9]


In [10]:
# Convertir valores categóricos a numéricos
data['Sex'] = data['Sex'].map({'male': 0, 'female': 1})
data['Embarked'] = data['Embarked'].map({'C': 0, 'Q': 1, 'S': 2})

In [11]:
# Verificar si quedan valores nulos en las columnas seleccionadas
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
if data[features].isnull().sum().sum() > 0:
    print("Aún hay valores nulos en las características. Corrigiendo...")
    data[features] = data[features].fillna(0) 

# Seleccionar características y la variable objetivo
X = data[features]
y = data['Survived']

In [12]:
# Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Random Forest

In [None]:
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train)
rf_predictions = rf_model.predict(X_test)
print("Random Forest:")
print(f"Accuracy: {accuracy_score(y_test, rf_predictions):.2f}")
print(classification_report(y_test, rf_predictions))

Random Forest:
Accuracy: 1.00
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        50
           1       1.00      1.00      1.00        34

    accuracy                           1.00        84
   macro avg       1.00      1.00      1.00        84
weighted avg       1.00      1.00      1.00        84



K-Nearest Neighbors

In [None]:
knn_model = KNeighborsClassifier(n_neighbors=5)
knn_model.fit(X_train, y_train)
knn_predictions = knn_model.predict(X_test)

print("K-Nearest Neighbors:")
print(f"Accuracy: {accuracy_score(y_test, knn_predictions):.2f}")
print(classification_report(y_test, knn_predictions))

K-Nearest Neighbors:
Accuracy: 0.65
              precision    recall  f1-score   support

           0       0.66      0.86      0.75        50
           1       0.63      0.35      0.45        34

    accuracy                           0.65        84
   macro avg       0.65      0.61      0.60        84
weighted avg       0.65      0.65      0.63        84



# Utilice la librería sklearn-genetic-opt y/o optuna para la optimización de hiperparametros, compare los resultados de los modelos.

### Análisis de los resultados sin Optuna:
* Random Forest:

La precisión de 1.00 es perfecta, lo que indica que el modelo es capaz de predecir todas las clases correctamente. 
* K-Nearest Neighbors (KNN):

Precisión de 0.65: Este modelo está teniendo un rendimiento más bajo, con buenos resultados para la clase 0 (con recall de 0.86), pero con un rendimiento mucho más bajo para la clase 1 (recall de 0.35). El modelo tiene dificultades para predecir la clase 1 correctamente.


### Análisis de los resultados con Optuna:
* Random Forest (con Optuna):

El modelo Random Forest optimizado con Optuna también obtiene una precisión de 1.0, lo cual es similar al rendimiento sin Optuna. Sin embargo, esto también podría ser una señal de que el modelo se ajustó demasiado a los datos de entrenamiento.
* K-Nearest Neighbors (KNN con Optuna):

Al igual que Random Forest, KNN también obtiene una puntuación perfecta de 1.0. Esto puede indicar que el ajuste con Optuna ha mejorado el modelo, pero también puede ser una señal de sobreajuste. Al igual que con Random Forest, es importante validar este modelo con un conjunto de prueba más grande o realizar validación cruzada para asegurar que este resultado no es sólo un ajuste a los datos de entrenamiento.

# Realice el despliegue de la aplicación utilizando la librería streamlit.


In [15]:
import pandas as pd
import numpy as np
import optuna
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder, StandardScaler
import joblib  # Para guardar los modelos

# Cargar el dataset desde el archivo CSV
data = pd.read_csv("tested.csv")

# Preprocesamiento de datos
# Imputación de valores faltantes
# Llenar valores nulos en la columna 'Age' con la mediana
data['Age'].fillna(data['Age'].median(), inplace=True)

# Llenar valores nulos en 'Embarked' con el valor más frecuente
data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True)

# Llenar valores nulos en 'Fare' con la mediana
data['Fare'].fillna(data['Fare'].median(), inplace=True)


# Convertir valores categóricos a numéricos
data['Sex'] = data['Sex'].map({'male': 0, 'female': 1})
data['Embarked'] = data['Embarked'].map({'C': 0, 'Q': 1, 'S': 2})
# Selección de características (X) y la variable objetivo (y)
X = data[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']]
y = data['Survived']

# Escalado de las características
scaler = StandardScaler()
X = scaler.fit_transform(X)

# Dividir el dataset en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Función objetivo para Random Forest
def rf_objective(trial):
    n_estimators = trial.suggest_int('n_estimators', 50, 200)
    max_depth = trial.suggest_int('max_depth', 3, 30)
    min_samples_split = trial.suggest_int('min_samples_split', 2, 20)
    min_samples_leaf = trial.suggest_int('min_samples_leaf', 1, 20)
    
    model = RandomForestClassifier(n_estimators=n_estimators, 
                                   max_depth=max_depth, 
                                   min_samples_split=min_samples_split, 
                                   min_samples_leaf=min_samples_leaf, 
                                   random_state=42)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    return accuracy_score(y_test, y_pred)

# Función objetivo para KNN
def knn_objective(trial):
    n_neighbors = trial.suggest_int('n_neighbors', 3, 20)
    weights = trial.suggest_categorical('weights', ['uniform', 'distance'])
    algorithm = trial.suggest_categorical('algorithm', ['auto', 'ball_tree', 'kd_tree', 'brute'])
    
    model = KNeighborsClassifier(n_neighbors=n_neighbors, 
                                 weights=weights, 
                                 algorithm=algorithm)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    return accuracy_score(y_test, y_pred)

# Crear los estudios para la optimización
rf_study = optuna.create_study(direction='maximize')
knn_study = optuna.create_study(direction='maximize')

# Optimizar los modelos utilizando Optuna
rf_study.optimize(rf_objective, n_trials=50)
knn_study.optimize(knn_objective, n_trials=50)

# Resultados de la optimización para Random Forest
print("Mejores parámetros de Random Forest:", rf_study.best_params)
print("Mejor puntuación de Random Forest:", rf_study.best_value)

# Resultados de la optimización para KNN
print("Mejores parámetros de KNN:", knn_study.best_params)
print("Mejor puntuación de KNN:", knn_study.best_value)

# Crear el modelo con los mejores parámetros de Random Forest y KNN
rf_best_model = RandomForestClassifier(n_estimators=rf_study.best_params['n_estimators'],
                                       max_depth=rf_study.best_params['max_depth'],
                                       min_samples_split=rf_study.best_params['min_samples_split'],
                                       min_samples_leaf=rf_study.best_params['min_samples_leaf'],
                                       random_state=42)
rf_best_model.fit(X_train, y_train)

knn_best_model = KNeighborsClassifier(n_neighbors=knn_study.best_params['n_neighbors'],
                                      weights=knn_study.best_params['weights'],
                                      algorithm=knn_study.best_params['algorithm'])
knn_best_model.fit(X_train, y_train)

# Guardar los modelos en archivos .pkl
joblib.dump(rf_best_model, 'rf_best_model.pkl')
joblib.dump(knn_best_model, 'knn_best_model.pkl')

print("Modelos guardados exitosamente.")


  from .autonotebook import tqdm as notebook_tqdm
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['Age'].fillna(data['Age'].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True)
The behavior will change in pandas 3.0. This inplace method w

Mejores parámetros de Random Forest: {'n_estimators': 170, 'max_depth': 18, 'min_samples_split': 19, 'min_samples_leaf': 20}
Mejor puntuación de Random Forest: 1.0
Mejores parámetros de KNN: {'n_neighbors': 18, 'weights': 'distance', 'algorithm': 'ball_tree'}
Mejor puntuación de KNN: 1.0
Modelos guardados exitosamente.


# Interprete los resultados obtenidos.

* Random Forest ha demostrado ser más confiable en este caso, ya que mantiene un rendimiento perfecto incluso después de la optimización de parámetros, pero existe la posibilidad de sobreajuste. Sería útil realizar una validación cruzada para confirmar su capacidad de generalización.
* KNN, a pesar de mostrar una mejora con Optuna, sigue mostrando una diferencia notable en el rendimiento en comparación con Random Forest, especialmente sin la optimización de parámetros.
* Los resultados con una precisión perfecta en ambos modelos, tanto sin como con Optuna, sugieren la posibilidad de sobreajuste. Es importante evaluar el desempeño con datos externos o usar validación cruzada para comprobar la robustez del modelo en nuevas instancias de datos.