In [1]:
# 03 - comparación.ipynb

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import classification_report, confusion_matrix, cohen_kappa_score
from sklearn.model_selection import train_test_split

# Cargar los datos
df = pd.read_csv('dataset.csv', delimiter=';', encoding='utf-8')

# Asegurarse de que los nombres de las columnas no tengan espacios
df.columns = df.columns.str.strip()

# Separar las variables independientes (X) y la variable dependiente (y)
X = df.drop('Target', axis=1)  # Variables independientes
y = df['Target']  # Variable dependiente

# Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Cargar los modelos previamente entrenados:
# (Usa los modelos entrenados de los archivos "01 - modelo 1.ipynb" y "02 - modelo 2.ipynb")
# Suponiendo que ya tenemos los mejores modelos de ambos archivos
# Si no están cargados en memoria, puedes volver a cargarlos (dependiendo de cómo guardaste los modelos).

# Cargar el modelo de Árbol de Decisión (mejor modelo de 01 - modelo 1.ipynb)
from joblib import load
dt_model = load('best_decision_tree_model.joblib')

# Cargar el modelo de Random Forest (mejor modelo de 02 - modelo 2.ipynb)
rf_model = load('best_random_forest_model.joblib')

# Predicción con ambos modelos
y_pred_dt = dt_model.predict(X_test)
y_pred_rf = rf_model.predict(X_test)

# Evaluación de desempeño de ambos modelos
print("Métricas de clasificación - Árbol de Decisión:\n", classification_report(y_test, y_pred_dt))
print("Métricas de clasificación - Random Forest:\n", classification_report(y_test, y_pred_rf))

# Comparar las matrices de confusión
conf_matrix_dt = confusion_matrix(y_test, y_pred_dt)
conf_matrix_rf = confusion_matrix(y_test, y_pred_rf)

# Matriz de confusión de Árbol de Decisión
plt.figure(figsize=(10, 7))
sns.heatmap(conf_matrix_dt, annot=True, fmt="d", cmap="Blues", xticklabels=df['Target'].unique(), yticklabels=df['Target'].unique())
plt.title("Matriz de Confusión - Árbol de Decisión")
plt.xlabel("Predicción")
plt.ylabel("Real")
plt.show()

# Matriz de confusión de Random Forest
plt.figure(figsize=(10, 7))
sns.heatmap(conf_matrix_rf, annot=True, fmt="d", cmap="Blues", xticklabels=df['Target'].unique(), yticklabels=df['Target'].unique())
plt.title("Matriz de Confusión - Random Forest")
plt.xlabel("Predicción")
plt.ylabel("Real")
plt.show()

# Análisis de la concordancia entre ambos modelos utilizando Cohen's Kappa
kappa = cohen_kappa_score(y_pred_dt, y_pred_rf)
print(f'Índice de concordancia (Cohen\'s Kappa) entre Árbol de Decisión y Random Forest: {kappa}')

# Comentario sobre el Kappa:
# Si el valor de kappa es cercano a 1, significa que ambos modelos están de acuerdo en las predicciones.
# Un valor cercano a 0 sugiere que las predicciones de los modelos son independientes.
# Un valor negativo indica que los modelos están en desacuerdo.

# Comparación visual de las curvas de aprendizaje
# Cargar las curvas de aprendizaje de ambos modelos (si las has guardado previamente)
# O generar las curvas desde el principio (como se mostró en los modelos individuales)
from sklearn.model_selection import learning_curve

# Curvas de aprendizaje para el Árbol de Decisión
train_sizes_dt, train_scores_dt, test_scores_dt = learning_curve(dt_model, X, y, cv=5, train_sizes=np.linspace(0.1, 1.0, 5))
# Curvas de aprendizaje para el Random Forest
train_sizes_rf, train_scores_rf, test_scores_rf = learning_curve(rf_model, X, y, cv=5, train_sizes=np.linspace(0.1, 1.0, 5))

plt.figure(figsize=(12, 6))

# Curvas de aprendizaje - Árbol de Decisión
plt.subplot(1, 2, 1)
plt.plot(train_sizes_dt, np.mean(train_scores_dt, axis=1), label="Entrenamiento")
plt.plot(train_sizes_dt, np.mean(test_scores_dt, axis=1), label="Prueba")
plt.title("Curvas de Aprendizaje - Árbol de Decisión")
plt.xlabel("Tamaño del conjunto de entrenamiento")
plt.ylabel("Puntuación")
plt.legend()

# Curvas de aprendizaje - Random Forest
plt.subplot(1, 2, 2)
plt.plot(train_sizes_rf, np.mean(train_scores_rf, axis=1), label="Entrenamiento")
plt.plot(train_sizes_rf, np.mean(test_scores_rf, axis=1), label="Prueba")
plt.title("Curvas de Aprendizaje - Random Forest")
plt.xlabel("Tamaño del conjunto de entrenamiento")
plt.ylabel("Puntuación")
plt.legend()

plt.tight_layout()
plt.show()


FileNotFoundError: [Errno 2] No such file or directory: 'best_decision_tree_model.joblib'