## Comparativa de modelos de ML sobre los datos sin balanceo y balanceados


Se aplicaron los metodos de balanceo:
- SMOTE
- ADASYN
- TOMEK LINKS

### 1. **Evaluación de métricas específicas para el desequilibrio de clases**
En un conjunto de datos desbalanceado, las métricas de evaluación tradicionales como el **accuracy** (exactitud) pueden ser engañosas, ya que un modelo podría obtener una alta precisión simplemente prediciendo la clase mayoritaria en todos los casos. En su lugar, es importante utilizar métricas que evalúen el rendimiento de las clases minoritarias y mayoritarias por separado.

#### Métricas a considerar:
- **Precision**: Qué porcentaje de las predicciones positivas son realmente positivas. Útil para evaluar la tasa de falsos positivos.
- **Recall (Sensibilidad)**: Qué porcentaje de las verdaderas instancias positivas fueron correctamente identificadas. Útil para evaluar los falsos negativos.
- **F1-Score**: La media armónica entre Precision y Recall. Es especialmente útil en problemas desbalanceados porque equilibra los falsos positivos y los falsos negativos.
- **Matriz de confusión**: Para visualizar cómo se comporta el modelo en cada clase (verdaderos positivos, verdaderos negativos, falsos positivos, falsos negativos).
- **AUC-ROC (Área bajo la curva ROC)**: Mide la capacidad del modelo para distinguir entre clases. Una curva ROC cerca de 1 indica un buen desempeño del modelo.

### Recuperamos los datos guardados en DataSet

Estos datos son guardados en archivos para poder cargarlos a posterior y no tener que volver a balancear los datos por los distintos metodos debido al tiempo que consume

In [None]:
# Importamos las librerías necesarias
import pandas as pd
from collections import Counter

# Cargar los datos no originales no balanceados
X_test = pd.read_csv('D:\DESARROLLO DE SOFTWARE\CAPACITACION\MAESTRIA EN CIENCIAS DE DATOS\TESIS DE MAESTRIA\Entregas\Entrega 9\DataSet\DATASET MEJORADOS CON I.C\TEST\X_test.csv')
y_test = pd.read_csv('D:\DESARROLLO DE SOFTWARE\CAPACITACION\MAESTRIA EN CIENCIAS DE DATOS\TESIS DE MAESTRIA\Entregas\Entrega 9\DataSet\DATASET MEJORADOS CON I.C\TEST\y_test.csv')

X_train = pd.read_csv('D:\DESARROLLO DE SOFTWARE\CAPACITACION\MAESTRIA EN CIENCIAS DE DATOS\TESIS DE MAESTRIA\Entregas\Entrega 9\DataSet\DATASET MEJORADOS CON I.C\TRAIN\X_train.csv')
y_train = pd.read_csv('D:\DESARROLLO DE SOFTWARE\CAPACITACION\MAESTRIA EN CIENCIAS DE DATOS\TESIS DE MAESTRIA\Entregas\Entrega 9\DataSet\DATASET MEJORADOS CON I.C\TRAIN\y_train.csv')

# Cargar los datos balanceados SMOTE
X_train_smote = pd.read_csv('D:\DESARROLLO DE SOFTWARE\CAPACITACION\MAESTRIA EN CIENCIAS DE DATOS\TESIS DE MAESTRIA\Entregas\Entrega 9\DataSet\DATASET MEJORADOS CON I.C\SMOTE\X_train_smote.csv')
y_train_smote = pd.read_csv('D:\DESARROLLO DE SOFTWARE\CAPACITACION\MAESTRIA EN CIENCIAS DE DATOS\TESIS DE MAESTRIA\Entregas\Entrega 9\DataSet\DATASET MEJORADOS CON I.C\SMOTE\y_train_smote.csv')

# Cargar los datos balanceados ADASYN
X_train_adasyn = pd.read_csv('D:\DESARROLLO DE SOFTWARE\CAPACITACION\MAESTRIA EN CIENCIAS DE DATOS\TESIS DE MAESTRIA\Entregas\Entrega 9\DataSet\DATASET MEJORADOS CON I.C\ADASYN\X_train_adasyn.csv')
y_train_adasyn = pd.read_csv('D:\DESARROLLO DE SOFTWARE\CAPACITACION\MAESTRIA EN CIENCIAS DE DATOS\TESIS DE MAESTRIA\Entregas\Entrega 9\DataSet\DATASET MEJORADOS CON I.C\ADASYN\y_train_adasyn.csv')

# Cargar los datos balanceados TOMEK LINK
X_train_tomek = pd.read_csv('D:\DESARROLLO DE SOFTWARE\CAPACITACION\MAESTRIA EN CIENCIAS DE DATOS\TESIS DE MAESTRIA\Entregas\Entrega 9\DataSet\DATASET MEJORADOS CON I.C\TOMEK LINKS\X_train_tomek.csv')
y_train_tomek = pd.read_csv('D:\DESARROLLO DE SOFTWARE\CAPACITACION\MAESTRIA EN CIENCIAS DE DATOS\TESIS DE MAESTRIA\Entregas\Entrega 9\DataSet\DATASET MEJORADOS CON I.C\TOMEK LINKS\y_train_tomek.csv')

# Ver la distribución de las clases después de SMOTE
print("Distribución sin BALANCEO:", Counter(y_train))
print("Distribución después de SMOTE en y_train_smote:", Counter(y_train_smote))
print("Distribución después de ADASYN en y_train_smote:", Counter(y_train_adasyn))
print("Distribución después de TOMEK LINK en y_train_smote:", Counter(y_train_tomek))


Distribución sin BALANCEO: Counter({'MOROSIDAD': 1})
Distribución después de SMOTE en y_train_smote: Counter({'MOROSIDAD': 1})
Distribución después de ADASYN en y_train_smote: Counter({'MOROSIDAD': 1})
Distribución después de TOMEK LINK en y_train_smote: Counter({'MOROSIDAD': 1})


# Random Forest

### Datos Optimizados sin Balanceo

In [2]:
# Importamos las librerías necesarias
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score
import time  # Importamos la librería para medir el tiempo

# Medir el tiempo de inicio
start_time = time.time()

# Entrenar un modelo de Random Forest con los datos balanceados
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

# Hacer predicciones en el conjunto de prueba (sin aplicar SMOTE en los datos de prueba)
y_pred = rf_model.predict(X_test)

# Evaluar el rendimiento del modelo
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

# Calcular el AUC
roc_auc = roc_auc_score(y_test, rf_model.predict_proba(X_test)[:, 1])
print(f"ROC AUC: {roc_auc:.2f}")

# Medir el tiempo de finalización y calcular el tiempo transcurrido
end_time = time.time()
elapsed_time = end_time - start_time

# Convertir a minutos y segundos
minutes = elapsed_time // 60
seconds = elapsed_time % 60

print(f"El tiempo total de ejecución fue de {int(minutes)} minutos y {seconds:.2f} segundos.")

  return fit_method(estimator, *args, **kwargs)


Matriz de confusión:
[[936397 184562]
 [125630 684158]]

Reporte de clasificación:
              precision    recall  f1-score   support

           0       0.88      0.84      0.86   1120959
           1       0.79      0.84      0.82    809788

    accuracy                           0.84   1930747
   macro avg       0.83      0.84      0.84   1930747
weighted avg       0.84      0.84      0.84   1930747

ROC AUC: 0.93
El tiempo total de ejecución fue de 28 minutos y 13.51 segundos.


### Datos balanceados con SMOTE

In [3]:
from sklearn.ensemble import RandomForestClassifier
import time  # Importamos la librería para medir el tiempo

# Medir el tiempo de inicio
start_time = time.time()

# Entrenar un modelo de Random Forest con los datos balanceados
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train_smote, y_train_smote)

# Hacer predicciones en el conjunto de prueba (sin aplicar SMOTE en los datos de prueba)
y_pred = rf_model.predict(X_test)

# Evaluar el rendimiento del modelo
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

# Calcular el AUC
roc_auc = roc_auc_score(y_test, rf_model.predict_proba(X_test)[:, 1])
print(f"ROC AUC: {roc_auc:.2f}")

# Medir el tiempo de finalización y calcular el tiempo transcurrido
end_time = time.time()
elapsed_time = end_time - start_time

# Convertir a minutos y segundos
minutes = elapsed_time // 60
seconds = elapsed_time % 60

print(f"El tiempo total de ejecución fue de {int(minutes)} minutos y {seconds:.2f} segundos.")

  return fit_method(estimator, *args, **kwargs)


Matriz de confusión:
[[930668 190291]
 [114642 695146]]

Reporte de clasificación:
              precision    recall  f1-score   support

           0       0.89      0.83      0.86   1120959
           1       0.79      0.86      0.82    809788

    accuracy                           0.84   1930747
   macro avg       0.84      0.84      0.84   1930747
weighted avg       0.85      0.84      0.84   1930747

ROC AUC: 0.93
El tiempo total de ejecución fue de 31 minutos y 46.43 segundos.


### Datos balanceados con ADASYN

In [4]:
from sklearn.ensemble import RandomForestClassifier
import time  # Importamos la librería para medir el tiempo

# Medir el tiempo de inicio
start_time = time.time()

# Entrenar un modelo de Random Forest con los datos balanceados
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train_adasyn, y_train_adasyn)

# Hacer predicciones en el conjunto de prueba (sin aplicar SMOTE en los datos de prueba)
y_pred = rf_model.predict(X_test)

# Evaluar el rendimiento del modelo
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

# Calcular el AUC
roc_auc = roc_auc_score(y_test, rf_model.predict_proba(X_test)[:, 1])
print(f"ROC AUC: {roc_auc:.2f}")

# Medir el tiempo de finalización y calcular el tiempo transcurrido
end_time = time.time()
elapsed_time = end_time - start_time

# Convertir a minutos y segundos
minutes = elapsed_time // 60
seconds = elapsed_time % 60

print(f"El tiempo total de ejecución fue de {int(minutes)} minutos y {seconds:.2f} segundos.")

  return fit_method(estimator, *args, **kwargs)


Matriz de confusión:
[[932166 188793]
 [113631 696157]]

Reporte de clasificación:
              precision    recall  f1-score   support

           0       0.89      0.83      0.86   1120959
           1       0.79      0.86      0.82    809788

    accuracy                           0.84   1930747
   macro avg       0.84      0.85      0.84   1930747
weighted avg       0.85      0.84      0.84   1930747

ROC AUC: 0.93
El tiempo total de ejecución fue de 29 minutos y 59.37 segundos.


### Datos balanceados con TOMEK LINK

In [5]:
from sklearn.ensemble import RandomForestClassifier
import time  # Importamos la librería para medir el tiempo

# Medir el tiempo de inicio
start_time = time.time()

# Entrenar un modelo de Random Forest con los datos balanceados
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train_tomek, y_train_tomek)

# Hacer predicciones en el conjunto de prueba (sin aplicar SMOTE en los datos de prueba)
y_pred = rf_model.predict(X_test)

# Evaluar el rendimiento del modelo
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

# Calcular el AUC
roc_auc = roc_auc_score(y_test, rf_model.predict_proba(X_test)[:, 1])
print(f"ROC AUC: {roc_auc:.2f}")

# Medir el tiempo de finalización y calcular el tiempo transcurrido
end_time = time.time()
elapsed_time = end_time - start_time

# Convertir a minutos y segundos
minutes = elapsed_time // 60
seconds = elapsed_time % 60

print(f"El tiempo total de ejecución fue de {int(minutes)} minutos y {seconds:.2f} segundos.")

  return fit_method(estimator, *args, **kwargs)


Matriz de confusión:
[[864630 256329]
 [ 74873 734915]]

Reporte de clasificación:
              precision    recall  f1-score   support

           0       0.92      0.77      0.84   1120959
           1       0.74      0.91      0.82    809788

    accuracy                           0.83   1930747
   macro avg       0.83      0.84      0.83   1930747
weighted avg       0.85      0.83      0.83   1930747

ROC AUC: 0.93
El tiempo total de ejecución fue de 21 minutos y 55.50 segundos.


# Redes Neuronales

### Datos Optimizados sin Balanceo

In [6]:
from sklearn.neural_network import MLPClassifier
import time  # Importamos la librería para medir el tiempo

# Medir el tiempo de inicio
start_time = time.time()

# Entrenar el modelo de Redes Neuronales
mlp_model = MLPClassifier(max_iter=500, random_state=42)
mlp_model.fit(X_train, y_train)

# Hacer predicciones en el conjunto de prueba
y_pred = mlp_model.predict(X_test)

# Evaluar el rendimiento del modelo
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

# Calcular el AUC
roc_auc = roc_auc_score(y_test, mlp_model.predict_proba(X_test)[:, 1])
print(f"ROC AUC: {roc_auc:.2f}")

# Medir el tiempo de finalización y calcular el tiempo transcurrido
end_time = time.time()
elapsed_time = end_time - start_time

# Convertir a minutos y segundos
minutes = elapsed_time // 60
seconds = elapsed_time % 60

print(f"El tiempo total de ejecución fue de {int(minutes)} minutos y {seconds:.2f} segundos.")

  y = column_or_1d(y, warn=True)


Matriz de confusión:
[[1120959       0]
 [ 809788       0]]

Reporte de clasificación:


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


              precision    recall  f1-score   support

           0       0.58      1.00      0.73   1120959
           1       0.00      0.00      0.00    809788

    accuracy                           0.58   1930747
   macro avg       0.29      0.50      0.37   1930747
weighted avg       0.34      0.58      0.43   1930747

ROC AUC: 0.50
El tiempo total de ejecución fue de 20 minutos y 43.39 segundos.


### Datos balanceados con SMOTE

In [7]:
from sklearn.neural_network import MLPClassifier
import time  # Importamos la librería para medir el tiempo

# Medir el tiempo de inicio
start_time = time.time()

# Entrenar el modelo de Redes Neuronales
mlp_model = MLPClassifier(max_iter=500, random_state=42)
mlp_model.fit(X_train_smote, y_train_smote)

# Hacer predicciones en el conjunto de prueba
y_pred = mlp_model.predict(X_test)

# Evaluar el rendimiento del modelo
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

# Calcular el AUC
roc_auc = roc_auc_score(y_test, mlp_model.predict_proba(X_test)[:, 1])
print(f"ROC AUC: {roc_auc:.2f}")

# Medir el tiempo de finalización y calcular el tiempo transcurrido
end_time = time.time()
elapsed_time = end_time - start_time

# Convertir a minutos y segundos
minutes = elapsed_time // 60
seconds = elapsed_time % 60

print(f"El tiempo total de ejecución fue de {int(minutes)} minutos y {seconds:.2f} segundos.")

  y = column_or_1d(y, warn=True)


Matriz de confusión:
[[1120959       0]
 [ 809788       0]]

Reporte de clasificación:


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


              precision    recall  f1-score   support

           0       0.58      1.00      0.73   1120959
           1       0.00      0.00      0.00    809788

    accuracy                           0.58   1930747
   macro avg       0.29      0.50      0.37   1930747
weighted avg       0.34      0.58      0.43   1930747

ROC AUC: 0.50
El tiempo total de ejecución fue de 22 minutos y 31.71 segundos.


### Datos balanceados con ADASYN

In [8]:
from sklearn.neural_network import MLPClassifier
import time  # Importamos la librería para medir el tiempo

# Medir el tiempo de inicio
start_time = time.time()

# Entrenar el modelo de Redes Neuronales
mlp_model = MLPClassifier(max_iter=500, random_state=42)
mlp_model.fit(X_train_adasyn, y_train_adasyn)

# Hacer predicciones en el conjunto de prueba
y_pred = mlp_model.predict(X_test)

# Evaluar el rendimiento del modelo
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

# Calcular el AUC
roc_auc = roc_auc_score(y_test, mlp_model.predict_proba(X_test)[:, 1])
print(f"ROC AUC: {roc_auc:.2f}")

# Medir el tiempo de finalización y calcular el tiempo transcurrido
end_time = time.time()
elapsed_time = end_time - start_time

# Convertir a minutos y segundos
minutes = elapsed_time // 60
seconds = elapsed_time % 60

print(f"El tiempo total de ejecución fue de {int(minutes)} minutos y {seconds:.2f} segundos.")

  y = column_or_1d(y, warn=True)


Matriz de confusión:
[[1120959       0]
 [ 809788       0]]

Reporte de clasificación:


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


              precision    recall  f1-score   support

           0       0.58      1.00      0.73   1120959
           1       0.00      0.00      0.00    809788

    accuracy                           0.58   1930747
   macro avg       0.29      0.50      0.37   1930747
weighted avg       0.34      0.58      0.43   1930747

ROC AUC: 0.50
El tiempo total de ejecución fue de 18 minutos y 10.42 segundos.


### Datos balanceados con TOMEK LINK

In [9]:
from sklearn.neural_network import MLPClassifier
import time  # Importamos la librería para medir el tiempo

# Medir el tiempo de inicio
start_time = time.time()

# Entrenar el modelo de Redes Neuronales
mlp_model = MLPClassifier(max_iter=500, random_state=42)
mlp_model.fit(X_train_tomek, y_train_tomek)

# Hacer predicciones en el conjunto de prueba
y_pred = mlp_model.predict(X_test)

# Evaluar el rendimiento del modelo
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

# Calcular el AUC
roc_auc = roc_auc_score(y_test, mlp_model.predict_proba(X_test)[:, 1])
print(f"ROC AUC: {roc_auc:.2f}")

# Medir el tiempo de finalización y calcular el tiempo transcurrido
end_time = time.time()
elapsed_time = end_time - start_time

# Convertir a minutos y segundos
minutes = elapsed_time // 60
seconds = elapsed_time % 60

print(f"El tiempo total de ejecución fue de {int(minutes)} minutos y {seconds:.2f} segundos.")

  y = column_or_1d(y, warn=True)


Matriz de confusión:
[[1120959       0]
 [ 809788       0]]

Reporte de clasificación:


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


              precision    recall  f1-score   support

           0       0.58      1.00      0.73   1120959
           1       0.00      0.00      0.00    809788

    accuracy                           0.58   1930747
   macro avg       0.29      0.50      0.37   1930747
weighted avg       0.34      0.58      0.43   1930747

ROC AUC: 0.50
El tiempo total de ejecución fue de 21 minutos y 21.44 segundos.


# XGBoost

### Datos no balanceados

In [10]:
from xgboost import XGBClassifier
import time  # Importamos la librería para medir el tiempo

# Medir el tiempo de inicio
start_time = time.time()

# Entrenar el modelo de XGBoost
xgb_model = XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42)
xgb_model.fit(X_train, y_train)

# Hacer predicciones en el conjunto de prueba
y_pred = xgb_model.predict(X_test)

# Evaluar el rendimiento del modelo
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

# Calcular el AUC
roc_auc = roc_auc_score(y_test, xgb_model.predict_proba(X_test)[:, 1])
print(f"ROC AUC: {roc_auc:.2f}")

# Medir el tiempo de finalización y calcular el tiempo transcurrido
end_time = time.time()
elapsed_time = end_time - start_time

# Convertir a minutos y segundos
minutes = elapsed_time // 60
seconds = elapsed_time % 60

print(f"El tiempo total de ejecución fue de {int(minutes)} minutos y {seconds:.2f} segundos.")

Parameters: { "use_label_encoder" } are not used.



Matriz de confusión:
[[895102 225857]
 [138594 671194]]

Reporte de clasificación:
              precision    recall  f1-score   support

           0       0.87      0.80      0.83   1120959
           1       0.75      0.83      0.79    809788

    accuracy                           0.81   1930747
   macro avg       0.81      0.81      0.81   1930747
weighted avg       0.82      0.81      0.81   1930747

ROC AUC: 0.91
El tiempo total de ejecución fue de 0 minutos y 23.99 segundos.


### Datos balanceados con SMOTE

In [11]:
from xgboost import XGBClassifier
import time  # Importamos la librería para medir el tiempo

# Medir el tiempo de inicio
start_time = time.time()

# Entrenar el modelo de XGBoost
xgb_model = XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42)
xgb_model.fit(X_train_smote, y_train_smote)

# Hacer predicciones en el conjunto de prueba
y_pred = xgb_model.predict(X_test)

# Evaluar el rendimiento del modelo
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

# Calcular el AUC
roc_auc = roc_auc_score(y_test, xgb_model.predict_proba(X_test)[:, 1])
print(f"ROC AUC: {roc_auc:.2f}")

# Medir el tiempo de finalización y calcular el tiempo transcurrido
end_time = time.time()
elapsed_time = end_time - start_time

# Convertir a minutos y segundos
minutes = elapsed_time // 60
seconds = elapsed_time % 60

print(f"El tiempo total de ejecución fue de {int(minutes)} minutos y {seconds:.2f} segundos.")

Parameters: { "use_label_encoder" } are not used.



Matriz de confusión:
[[860597 260362]
 [108501 701287]]

Reporte de clasificación:
              precision    recall  f1-score   support

           0       0.89      0.77      0.82   1120959
           1       0.73      0.87      0.79    809788

    accuracy                           0.81   1930747
   macro avg       0.81      0.82      0.81   1930747
weighted avg       0.82      0.81      0.81   1930747

ROC AUC: 0.91
El tiempo total de ejecución fue de 0 minutos y 26.45 segundos.


### Datos balanceados con ADASYN

In [12]:
from xgboost import XGBClassifier
import time  # Importamos la librería para medir el tiempo

# Medir el tiempo de inicio
start_time = time.time()

# Entrenar el modelo de XGBoost
xgb_model = XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42)
xgb_model.fit(X_train_adasyn, y_train_adasyn)

# Hacer predicciones en el conjunto de prueba
y_pred = xgb_model.predict(X_test)

# Evaluar el rendimiento del modelo
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

# Calcular el AUC
roc_auc = roc_auc_score(y_test, xgb_model.predict_proba(X_test)[:, 1])
print(f"ROC AUC: {roc_auc:.2f}")

# Medir el tiempo de finalización y calcular el tiempo transcurrido
end_time = time.time()
elapsed_time = end_time - start_time

# Convertir a minutos y segundos
minutes = elapsed_time // 60
seconds = elapsed_time % 60

print(f"El tiempo total de ejecución fue de {int(minutes)} minutos y {seconds:.2f} segundos.")

Parameters: { "use_label_encoder" } are not used.



Matriz de confusión:
[[859567 261392]
 [106494 703294]]

Reporte de clasificación:
              precision    recall  f1-score   support

           0       0.89      0.77      0.82   1120959
           1       0.73      0.87      0.79    809788

    accuracy                           0.81   1930747
   macro avg       0.81      0.82      0.81   1930747
weighted avg       0.82      0.81      0.81   1930747

ROC AUC: 0.91
El tiempo total de ejecución fue de 0 minutos y 25.34 segundos.


### Datos balanceados con TOMEK LINK

In [13]:
from xgboost import XGBClassifier
import time  # Importamos la librería para medir el tiempo

# Medir el tiempo de inicio
start_time = time.time()

# Entrenar el modelo de XGBoost
xgb_model = XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42)
xgb_model.fit(X_train_tomek, y_train_tomek)

# Hacer predicciones en el conjunto de prueba
y_pred = xgb_model.predict(X_test)

# Evaluar el rendimiento del modelo
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

# Calcular el AUC
roc_auc = roc_auc_score(y_test, xgb_model.predict_proba(X_test)[:, 1])
print(f"ROC AUC: {roc_auc:.2f}")

# Medir el tiempo de finalización y calcular el tiempo transcurrido
end_time = time.time()
elapsed_time = end_time - start_time

# Convertir a minutos y segundos
minutes = elapsed_time // 60
seconds = elapsed_time % 60

print(f"El tiempo total de ejecución fue de {int(minutes)} minutos y {seconds:.2f} segundos.")

Parameters: { "use_label_encoder" } are not used.



Matriz de confusión:
[[798766 322193]
 [ 56881 752907]]

Reporte de clasificación:
              precision    recall  f1-score   support

           0       0.93      0.71      0.81   1120959
           1       0.70      0.93      0.80    809788

    accuracy                           0.80   1930747
   macro avg       0.82      0.82      0.80   1930747
weighted avg       0.84      0.80      0.80   1930747

ROC AUC: 0.91
El tiempo total de ejecución fue de 0 minutos y 21.80 segundos.


# LightGBM

### Datos no Balanceados

In [14]:
from lightgbm import LGBMClassifier
import time  # Importamos la librería para medir el tiempo

# Medir el tiempo de inicio
start_time = time.time()

# Entrenar el modelo de LightGBM
lgb_model = LGBMClassifier(random_state=42)
lgb_model.fit(X_train, y_train)

# Hacer predicciones en el conjunto de prueba
y_pred = lgb_model.predict(X_test)

# Evaluar el rendimiento del modelo
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

# Calcular el AUC
roc_auc = roc_auc_score(y_test, lgb_model.predict_proba(X_test)[:, 1])
print(f"ROC AUC: {roc_auc:.2f}")


# Medir el tiempo de finalización y calcular el tiempo transcurrido
end_time = time.time()
elapsed_time = end_time - start_time

# Convertir a minutos y segundos
minutes = elapsed_time // 60
seconds = elapsed_time % 60

print(f"El tiempo total de ejecución fue de {int(minutes)} minutos y {seconds:.2f} segundos.")

  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, dtype=self.classes_.dtype, warn=True)


[LightGBM] [Info] Number of positive: 1889506, number of negative: 2615570
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.075916 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 2928
[LightGBM] [Info] Number of data points in the train set: 4505076, number of used features: 18
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.419417 -> initscore=-0.325167
[LightGBM] [Info] Start training from score -0.325167
Matriz de confusión:
[[875924 245035]
 [131030 678758]]

Reporte de clasificación:
              precision    recall  f1-score   support

           0       0.87      0.78      0.82   1120959
           1       0.73      0.84      0.78    809788

    accuracy                           0.81   1930747
   macro avg       0.80      0.81      0.80   1930747
weighted avg       0.81      0.81      0.81   1930747

ROC AUC: 0.91
El tiempo to

### Datos balanceados con SMOTE

In [15]:
from lightgbm import LGBMClassifier
import time  # Importamos la librería para medir el tiempo

# Medir el tiempo de inicio
start_time = time.time()

# Entrenar el modelo de LightGBM
lgb_model = LGBMClassifier(random_state=42)
lgb_model.fit(X_train_smote, y_train_smote)

# Hacer predicciones en el conjunto de prueba
y_pred = lgb_model.predict(X_test)

# Evaluar el rendimiento del modelo
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

# Calcular el AUC
roc_auc = roc_auc_score(y_test, lgb_model.predict_proba(X_test)[:, 1])
print(f"ROC AUC: {roc_auc:.2f}")


# Medir el tiempo de finalización y calcular el tiempo transcurrido
end_time = time.time()
elapsed_time = end_time - start_time

# Convertir a minutos y segundos
minutes = elapsed_time // 60
seconds = elapsed_time % 60

print(f"El tiempo total de ejecución fue de {int(minutes)} minutos y {seconds:.2f} segundos.")

  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, dtype=self.classes_.dtype, warn=True)


[LightGBM] [Info] Number of positive: 2615570, number of negative: 2615570
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.095367 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 3757
[LightGBM] [Info] Number of data points in the train set: 5231140, number of used features: 18
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.500000 -> initscore=0.000000
Matriz de confusión:
[[839954 281005]
 [ 98755 711033]]

Reporte de clasificación:
              precision    recall  f1-score   support

           0       0.89      0.75      0.82   1120959
           1       0.72      0.88      0.79    809788

    accuracy                           0.80   1930747
   macro avg       0.81      0.81      0.80   1930747
weighted avg       0.82      0.80      0.80   1930747

ROC AUC: 0.91
El tiempo total de ejecución fue de 0 minutos y 26.92 segundos.


### Datos balanceados con ADASYN

In [16]:
from lightgbm import LGBMClassifier
import time  # Importamos la librería para medir el tiempo

# Medir el tiempo de inicio
start_time = time.time()

# Entrenar el modelo de LightGBM
lgb_model = LGBMClassifier(random_state=42)
lgb_model.fit(X_train_adasyn, y_train_adasyn)

# Hacer predicciones en el conjunto de prueba
y_pred = lgb_model.predict(X_test)

# Evaluar el rendimiento del modelo
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

# Calcular el AUC
roc_auc = roc_auc_score(y_test, lgb_model.predict_proba(X_test)[:, 1])
print(f"ROC AUC: {roc_auc:.2f}")


# Medir el tiempo de finalización y calcular el tiempo transcurrido
end_time = time.time()
elapsed_time = end_time - start_time

# Convertir a minutos y segundos
minutes = elapsed_time // 60
seconds = elapsed_time % 60

print(f"El tiempo total de ejecución fue de {int(minutes)} minutos y {seconds:.2f} segundos.")

  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, dtype=self.classes_.dtype, warn=True)


[LightGBM] [Info] Number of positive: 2347005, number of negative: 2615570
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.111535 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 3741
[LightGBM] [Info] Number of data points in the train set: 4962575, number of used features: 18
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.472941 -> initscore=-0.108342
[LightGBM] [Info] Start training from score -0.108342
Matriz de confusión:
[[837222 283737]
 [ 95731 714057]]

Reporte de clasificación:
              precision    recall  f1-score   support

           0       0.90      0.75      0.82   1120959
           1       0.72      0.88      0.79    809788

    accuracy                           0.80   1930747
   macro avg       0.81      0.81      0.80   1930747
weighted avg       0.82      0.80      0.80   1930747

ROC AUC: 0.91
El tiempo to

### Datos balanceados con TOMEK LINK

In [17]:
from lightgbm import LGBMClassifier
import time  # Importamos la librería para medir el tiempo

# Medir el tiempo de inicio
start_time = time.time()

# Entrenar el modelo de LightGBM
lgb_model = LGBMClassifier(random_state=42)
lgb_model.fit(X_train_tomek, y_train_tomek)

# Hacer predicciones en el conjunto de prueba
y_pred = lgb_model.predict(X_test)

# Evaluar el rendimiento del modelo
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

# Calcular el AUC
roc_auc = roc_auc_score(y_test, lgb_model.predict_proba(X_test)[:, 1])
print(f"ROC AUC: {roc_auc:.2f}")


# Medir el tiempo de finalización y calcular el tiempo transcurrido
end_time = time.time()
elapsed_time = end_time - start_time

# Convertir a minutos y segundos
minutes = elapsed_time // 60
seconds = elapsed_time % 60

print(f"El tiempo total de ejecución fue de {int(minutes)} minutos y {seconds:.2f} segundos.")

  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, dtype=self.classes_.dtype, warn=True)


[LightGBM] [Info] Number of positive: 1889506, number of negative: 2298168
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.078009 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 2876
[LightGBM] [Info] Number of data points in the train set: 4187674, number of used features: 18
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.451207 -> initscore=-0.195797
[LightGBM] [Info] Start training from score -0.195797
Matriz de confusión:
[[778505 342454]
 [ 49986 759802]]

Reporte de clasificación:
              precision    recall  f1-score   support

           0       0.94      0.69      0.80   1120959
           1       0.69      0.94      0.79    809788

    accuracy                           0.80   1930747
   macro avg       0.81      0.82      0.80   1930747
weighted avg       0.83      0.80      0.80   1930747

ROC AUC: 0.91
El tiempo to