In [1]:
from ydata_profiling import ProfileReport
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from imblearn.metrics import specificity_score
from sklearn.metrics import *

import pandas as pd

In [86]:
train_data = pd.read_csv('C:\\Users\\gamma\\Desktop\\Bootcamp\\13-Tree_decision\\tree-decision\\src\\datos_entrenados.csv')
test_data = pd.read_csv('C:\\Users\\gamma\\Desktop\\Bootcamp\\13-Tree_decision\\tree-decision\\src\\datos_testeo.csv')


In [87]:
X_train = train_data.drop(["Outcome"], axis = 1)
y_train = train_data["Outcome"]
X_test = test_data.drop(["Outcome"], axis = 1)
y_test = test_data["Outcome"]

In [88]:
modelo = RandomForestClassifier(n_estimators=60, random_state=42)
modelo.fit(X_train, y_train)

In [89]:
y_pred = modelo.predict(X_test)
y_pred

array([0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0,
       0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0,
       0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1,
       0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 1,
       0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1,
       0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
      dtype=int64)

In [90]:
from sklearn.metrics import accuracy_score

accuracy_score(y_test, y_pred)

0.7727272727272727

In [94]:
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV

# Estas son todas las llaves diferentes que vamos a probar en la cerradura del tesoro.
# 'criterion' es el tipo de pista que el detective prefiere.
# 'max_depth' es qué tan lejos el detective sigue una sola pista antes de probar otra.
# 'min_samples_split' es cuántas pistas necesita el detective antes de decidir seguir un camino.
# 'min_samples_leaf' es el número mínimo de pistas finales que el detective quiere tener para estar seguro de su decisión.
hyperparams = {
    "n_estimators": [40, 50, 60, 100],
    "criterion": ["gini", "entropy"],
    "max_depth": [1, 5, 10, 20, 30, 40],
    "min_samples_split": [2, 3, 5, 10],
    "min_samples_leaf": [2, 3, 4]
}

# 'GridSearchCV' es como un robot que prueba todas las llaves por ti para ver cuál funciona mejor.
# Le damos el robot (GridSearchCV), nuestro libro de aventuras (modelo_arbol), todas las llaves diferentes (hyperparams),
# y le decimos que queremos encontrar la llave que nos da la mejor precisión (scoring='accuracy').
# El 'cv=10' significa que el robot va a probar cada llave 10 veces para estar realmente seguro de cuál es la mejor.
grid = GridSearchCV(modelo, hyperparams, scoring='accuracy', cv=10)

# Ahora, le decimos al robot que comience a probar todas las llaves.
grid.fit(X_train, y_train)
mejores_parametros = grid.best_params_

# Después de probar todas las llaves, el robot nos dirá cuál es la mejor combinación para abrir el tesoro.
print(f"La mejor combinación de pistas es: {mejores_parametros}")
print(f"Y con estas pistas, la precisión del detective es del {grid.best_score_ * 100:.2f}%")

La mejor combinación de pistas es: {'criterion': 'entropy', 'max_depth': 20, 'min_samples_leaf': 2, 'min_samples_split': 2, 'n_estimators': 60}
Y con estas pistas, la precisión del detective es del 79.63%


In [77]:
# Aquí estamos creando un nuevo cofre del tesoro, pero esta vez usando la llave especial que encontramos.
# 'mejores_parametros' es como las instrucciones secretas de cómo usar la llave.
# 'random_state = 42' es como un hechizo mágico para asegurarnos de que cada vez que intentemos abrir el cofre, todo suceda de la misma manera.
modelo_arbol_mejorado = RandomForestClassifier(**mejores_parametros, random_state = 42)

# Ahora, le damos al cofre todas las cosas que sabemos sobre tesoros (X_train) y lo que realmente había dentro de los cofres antiguos (y_train).
# Esto es para enseñarle al cofre cómo usar la llave especial.
modelo_arbol_mejorado.fit(X_train, y_train)

# Llegó el momento de la verdad. Vamos a ver si nuestra llave especial puede predecir lo que hay dentro de nuevos cofres del tesoro (X_test).
y_pred = modelo_arbol_mejorado.predict(X_test)

# Para saber qué tan buena es nuestra llave especial, comparamos lo que predijo con lo que realmente había dentro de los cofres (y_test).
# Esto es como contar cuántas veces acertamos al adivinar lo que había dentro del cofre.
accuracy = accuracy_score(y_test, y_pred)

# Finalmente, mostramos qué tan buena fue nuestra llave especial al abrir los cofres.
print(f"La precisión de nuestra llave especial es del {accuracy * 100:.2f}%")

La precisión de nuestra llave especial es del 75.32%


In [66]:
# Evaluar el modelo complejo en entrenamiento y prueba
train_pred = modelo_arbol_mejorado.predict(X_train)
test_pred = modelo_arbol_mejorado.predict(X_test)

In [95]:
def get_metrics(y_train, y_test, y_pred_train, y_pred_test):
    # Calcular métricas para el conjunto de entrenamiento
    train_accuracy = accuracy_score(y_train, y_pred_train)
    train_f1 = f1_score(y_train, y_pred_train)
    train_auc = roc_auc_score(y_train, y_pred_train)
    train_precision = precision_score(y_train, y_pred_train)
    train_recall = recall_score(y_train, y_pred_train)
    train_specificity = specificity_score(y_train, y_pred_train)
    # Calcular métricas para el conjunto de prueba
    test_accuracy = accuracy_score(y_test, y_pred_test)
    test_f1 = f1_score(y_test, y_pred_test)
    test_auc = roc_auc_score(y_test, y_pred_test)
    test_precision = precision_score(y_test, y_pred_test)
    test_recall = recall_score(y_test, y_pred_test)
    test_specificity = specificity_score(y_test, y_pred_test)
    # Calcular la diferencia entre métricas de entrenamiento y prueba
    diff_accuracy = train_accuracy - test_accuracy
    diff_f1 = train_f1 - test_f1
    diff_auc = train_auc - test_auc
    diff_precision = train_precision - test_precision
    diff_recall = train_recall - test_recall
    diff_specificity = train_specificity - test_specificity
    # Crear un DataFrame con los resultados
    metrics_df = pd.DataFrame([[train_accuracy, train_f1, train_auc, train_precision, train_recall, train_specificity],[test_accuracy, test_f1, test_auc, test_precision, test_recall, test_specificity],[diff_accuracy, diff_f1, diff_auc, diff_precision, diff_recall, diff_specificity]],
                              columns = ['Accuracy', 'F1', 'AUC', 'Precision', 'Recall', 'Specificity'],
                              index = ['Train','Test', 'Diferencia'])
    return metrics_df

In [96]:
get_metrics(y_train, y_test, train_pred, test_pred)

Unnamed: 0,Accuracy,F1,AUC,Precision,Recall,Specificity
Train,0.983713,0.976303,0.979827,0.985646,0.967136,0.992519
Test,0.753247,0.660714,0.735354,0.649123,0.672727,0.79798
Diferencia,0.230467,0.315589,0.244474,0.336523,0.294409,0.194539
