In [48]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score, accuracy_score, mean_absolute_error, mean_squared_error
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

In [49]:
datasets = {
    "reduce_mrmr_instances": pd.read_csv('./data/df_reduce_mrmr_instances.csv'),
    "reduce_mrmr_instances_hard": pd.read_csv('./data/df_reduce_mrmr_instances_hard.csv'),
    "reduce_RFC_instances": pd.read_csv('./data/df_reduce_RFC_instances.csv'),
    "reduce_RFC_instances_hard": pd.read_csv('./data/df_reduce_RFC_instances_hard.csv'),
    "reduce_mrmr_instances_GLVQ": pd.read_csv('./data/df_reduce_mrmr_instances_GLVQ.csv'),
    "reduce_RFC_instances_GLVQ": pd.read_csv('./data/df_reduce_RFC_instances_GLVQ.csv'),
    # "train_data": pd.read_csv('./data/train_data.csv')
}

## Logistic Regresion con mrMr clusterCentroid_soft

In [50]:
df_reduce_mrmr_instances = datasets["reduce_mrmr_instances"]
X = df_reduce_mrmr_instances.drop(columns=['Class'])
y = df_reduce_mrmr_instances['Class']

# Dividir en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

param_grid = [
    # Configuración para 'elasticnet'
    {
        'penalty': ['elasticnet'],
        'solver': ['saga'],  # Solo 'saga' es compatible con elasticnet
        'C': [0.1, 1, 10],
        'l1_ratio': [0.5],
        'tol': [0.0001, 0.001],
        'max_iter': [100, 200],
        'class_weight': [None, 'balanced'],
        'fit_intercept': [True],
    },
    # Configuración para 'l1' y 'l2'
    {
        'penalty': ['l1', 'l2'],
        'solver': ['liblinear', 'saga'],  # Solvers compatibles con l1 y l2
        'C': [0.1, 1, 10],
        'tol': [0.0001, 0.001],
        'max_iter': [100, 200],
        'class_weight': [None, 'balanced'],
        'fit_intercept': [True],
    }
]


# Configurar el modelo de regresión logística
log_reg = LogisticRegression()

# Usar GridSearchCV para buscar la mejor combinación de parámetros
grid_search = GridSearchCV(estimator=log_reg, param_grid=param_grid, cv=5, scoring='accuracy', n_jobs=-1, verbose=1)

# Ajustar el modelo a los datos de entrenamiento
grid_search.fit(X_train, y_train)

# Obtener los mejores parámetros y el mejor puntaje
best_params = grid_search.best_params_
best_score = grid_search.best_score_

print("Mejores parámetros:", best_params)
print("Mejor puntuación de validación cruzada:", best_score)

Fitting 5 folds for each of 120 candidates, totalling 600 fits
Mejores parámetros: {'C': 0.1, 'class_weight': 'balanced', 'fit_intercept': True, 'max_iter': 100, 'penalty': 'l1', 'solver': 'liblinear', 'tol': 0.0001}
Mejor puntuación de validación cruzada: 0.8545499950054939


In [51]:
# Evaluar el modelo en el conjunto de prueba
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)
test_accuracy = accuracy_score(y_test, y_pred)

print("Precisión en el conjunto de prueba:", test_accuracy)

# Calcular la matriz de confusión y el reporte de clasificación
conf_matrix = confusion_matrix(y_test, y_pred)
report = classification_report(y_test, y_pred, target_names=['Correctas', 'Fraudulentas'])

# Calcular el error cuadrático medio
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f'RMSE: {rmse}')

# Calcular el error absoluto medio
mae = mean_absolute_error(y_test, y_pred)
print(f'MAE: {mae}')

# Mostrar la matriz de confusión y el reporte
print("\nMatriz de Confusión:")
print(conf_matrix)

print("\nReporte de Clasificación:")
print(report)

Precisión en el conjunto de prueba: 0.8539325842696629
RMSE: 0.3821876708246056
MAE: 0.14606741573033707

Matriz de Confusión:
[[92  2]
 [24 60]]

Reporte de Clasificación:
              precision    recall  f1-score   support

   Correctas       0.79      0.98      0.88        94
Fraudulentas       0.97      0.71      0.82        84

    accuracy                           0.85       178
   macro avg       0.88      0.85      0.85       178
weighted avg       0.88      0.85      0.85       178



## Logistic Regresion con mrMr clusterCentroid_hard

In [39]:
df_reduce_mrmr_instances_hard = datasets["reduce_mrmr_instances_hard"]
X = df_reduce_mrmr_instances_hard.drop(columns=['Class'])
y = df_reduce_mrmr_instances_hard['Class']

# Dividir en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

param_grid = [
    # Configuración para 'elasticnet'
    {
        'penalty': ['elasticnet'],
        'solver': ['saga'],  # Solo 'saga' es compatible con elasticnet
        'C': [0.1, 1, 10],
        'l1_ratio': [0.5],
        'tol': [0.0001, 0.001],
        'max_iter': [100, 200],
        'class_weight': [None, 'balanced'],
        'fit_intercept': [True],
    },
    # Configuración para 'l1' y 'l2'
    {
        'penalty': ['l1', 'l2'],
        'solver': ['liblinear', 'saga'],  # Solvers compatibles con l1 y l2
        'C': [0.1, 1, 10],
        'tol': [0.0001, 0.001],
        'max_iter': [100, 200],
        'class_weight': [None, 'balanced'],
        'fit_intercept': [True],
    }
]


# Configurar el modelo de regresión logística
log_reg = LogisticRegression()

# Usar GridSearchCV para buscar la mejor combinación de parámetros
grid_search = GridSearchCV(estimator=log_reg, param_grid=param_grid, cv=5, scoring='accuracy', n_jobs=-1, verbose=1)

# Ajustar el modelo a los datos de entrenamiento
grid_search.fit(X_train, y_train)

# Obtener los mejores parámetros y el mejor puntaje
best_params = grid_search.best_params_
best_score = grid_search.best_score_

print("Mejores parámetros:", best_params)
print("Mejor puntuación de validación cruzada:", best_score)

Fitting 5 folds for each of 120 candidates, totalling 600 fits
Mejores parámetros: {'C': 0.1, 'class_weight': 'balanced', 'fit_intercept': True, 'max_iter': 100, 'penalty': 'l1', 'solver': 'liblinear', 'tol': 0.0001}
Mejor puntuación de validación cruzada: 0.8545499950054939


In [40]:
# Evaluar el modelo en el conjunto de prueba
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)
test_accuracy = accuracy_score(y_test, y_pred)

print("Precisión en el conjunto de prueba:", test_accuracy)

# Calcular la matriz de confusión y el reporte de clasificación
conf_matrix = confusion_matrix(y_test, y_pred)
report = classification_report(y_test, y_pred, target_names=['Correctas', 'Fraudulentas'])

# Calcular el error cuadrático medio
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f'RMSE: {rmse}')

# Calcular el error absoluto medio
mae = mean_absolute_error(y_test, y_pred)
print(f'MAE: {mae}')

# Mostrar la matriz de confusión y el reporte
print("\nMatriz de Confusión:")
print(conf_matrix)

print("\nReporte de Clasificación:")
print(report)



Precisión en el conjunto de prueba: 0.848314606741573
RMSE: 0.3894680901671239
MAE: 0.15168539325842698

Matriz de Confusión:
[[91  3]
 [24 60]]

Reporte de Clasificación:
              precision    recall  f1-score   support

   Correctas       0.79      0.97      0.87        94
Fraudulentas       0.95      0.71      0.82        84

    accuracy                           0.85       178
   macro avg       0.87      0.84      0.84       178
weighted avg       0.87      0.85      0.85       178



## Logistic Regresion con mrMr y GLVQ

In [41]:
# No se van a usar los acercamientos con GLVQ dada la imposibilidad con el entrenamiento del modelo de regresion

## Logistic Regresion con RFC clusterCentroid_soft

In [42]:
df_reduce_RFC_instances = datasets["reduce_RFC_instances"]
X = df_reduce_RFC_instances.drop(columns=['Class'])
y = df_reduce_RFC_instances['Class']

# Dividir en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

param_grid = [
    # Configuración para 'elasticnet'
    {
        'penalty': ['elasticnet'],
        'solver': ['saga'],  # Solo 'saga' es compatible con elasticnet
        'C': [0.1, 1, 10],
        'l1_ratio': [0.5],
        'tol': [0.0001, 0.001],
        'max_iter': [100, 200],
        'class_weight': [None, 'balanced'],
        'fit_intercept': [True],
    },
    # Configuración para 'l1' y 'l2'
    {
        'penalty': ['l1', 'l2'],
        'solver': ['liblinear', 'saga'],  # Solvers compatibles con l1 y l2
        'C': [0.1, 1, 10],
        'tol': [0.0001, 0.001],
        'max_iter': [100, 200],
        'class_weight': [None, 'balanced'],
        'fit_intercept': [True],
    }
]


# Configurar el modelo de regresión logística
log_reg = LogisticRegression()

# Usar GridSearchCV para buscar la mejor combinación de parámetros
grid_search = GridSearchCV(estimator=log_reg, param_grid=param_grid, cv=5, scoring='accuracy', n_jobs=-1, verbose=1)

# Ajustar el modelo a los datos de entrenamiento
grid_search.fit(X_train, y_train)

# Obtener los mejores parámetros y el mejor puntaje
best_params = grid_search.best_params_
best_score = grid_search.best_score_

print("Mejores parámetros:", best_params)
print("Mejor puntuación de validación cruzada:", best_score)

Fitting 5 folds for each of 120 candidates, totalling 600 fits
Mejores parámetros: {'C': 1, 'class_weight': None, 'fit_intercept': True, 'l1_ratio': 0.5, 'max_iter': 200, 'penalty': 'elasticnet', 'solver': 'saga', 'tol': 0.0001}
Mejor puntuación de validación cruzada: 0.925162321446409




In [43]:
# Evaluar el modelo en el conjunto de prueba
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)
test_accuracy = accuracy_score(y_test, y_pred)

print("Precisión en el conjunto de prueba:", test_accuracy)

# Calcular el error cuadrático medio
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f'RMSE: {rmse}')

# Calcular el error absoluto medio
mae = mean_absolute_error(y_test, y_pred)
print(f'MAE: {mae}')

# Calcular la matriz de confusión y el reporte de clasificación
conf_matrix = confusion_matrix(y_test, y_pred)
report = classification_report(y_test, y_pred, target_names=['Correctas', 'Fraudulentas'])

# Mostrar la matriz de confusión y el reporte
print("\nMatriz de Confusión:")
print(conf_matrix)

print("\nReporte de Clasificación:")
print(report)

Precisión en el conjunto de prueba: 0.9157303370786517
RMSE: 0.29029237489356885
MAE: 0.08426966292134831

Matriz de Confusión:
[[89  5]
 [10 74]]

Reporte de Clasificación:
              precision    recall  f1-score   support

   Correctas       0.90      0.95      0.92        94
Fraudulentas       0.94      0.88      0.91        84

    accuracy                           0.92       178
   macro avg       0.92      0.91      0.92       178
weighted avg       0.92      0.92      0.92       178



## Logistic Regresion con RFC clusterCentroid_hard

In [44]:
df_reduce_RFC_instances_hard = datasets["reduce_RFC_instances_hard"]
X = df_reduce_RFC_instances_hard.drop(columns=['Class'])
y = df_reduce_RFC_instances_hard['Class']

# Dividir en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

param_grid = [
    # Configuración para 'elasticnet'
    {
        'penalty': ['elasticnet'],
        'solver': ['saga'],  # Solo 'saga' es compatible con elasticnet
        'C': [0.1, 1, 10],
        'l1_ratio': [0.5],
        'tol': [0.0001, 0.001],
        'max_iter': [100, 200],
        'class_weight': [None, 'balanced'],
        'fit_intercept': [True],
    },
    # Configuración para 'l1' y 'l2'
    {
        'penalty': ['l1', 'l2'],
        'solver': ['liblinear', 'saga'],  # Solvers compatibles con l1 y l2
        'C': [0.1, 1, 10],
        'tol': [0.0001, 0.001],
        'max_iter': [100, 200],
        'class_weight': [None, 'balanced'],
        'fit_intercept': [True],
    }
]


# Configurar el modelo de regresión logística
log_reg = LogisticRegression()

# Usar GridSearchCV para buscar la mejor combinación de parámetros
grid_search = GridSearchCV(estimator=log_reg, param_grid=param_grid, cv=5, scoring='accuracy', n_jobs=-1, verbose=1)

# Ajustar el modelo a los datos de entrenamiento
grid_search.fit(X_train, y_train)

# Obtener los mejores parámetros y el mejor puntaje
best_params = grid_search.best_params_
best_score = grid_search.best_score_

print("Mejores parámetros:", best_params)
print("Mejor puntuación de validación cruzada:", best_score)

Fitting 5 folds for each of 120 candidates, totalling 600 fits
Mejores parámetros: {'C': 10, 'class_weight': 'balanced', 'fit_intercept': True, 'l1_ratio': 0.5, 'max_iter': 200, 'penalty': 'elasticnet', 'solver': 'saga', 'tol': 0.0001}
Mejor puntuación de validación cruzada: 0.925162321446409




In [45]:
# Evaluar el modelo en el conjunto de prueba
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)
test_accuracy = accuracy_score(y_test, y_pred)

print("Precisión en el conjunto de prueba:", test_accuracy)

# Calcular la matriz de confusión y el reporte de clasificación
conf_matrix = confusion_matrix(y_test, y_pred)
report = classification_report(y_test, y_pred, target_names=['Correctas', 'Fraudulentas'])

# Calcular el error cuadrático medio
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f'RMSE: {rmse}')

# Calcular el error absoluto medio
mae = mean_absolute_error(y_test, y_pred)
print(f'MAE: {mae}')

# Mostrar la matriz de confusión y el reporte
print("\nMatriz de Confusión:")
print(conf_matrix)

print("\nReporte de Clasificación:")
print(report)

Precisión en el conjunto de prueba: 0.9157303370786517
RMSE: 0.29029237489356885
MAE: 0.08426966292134831

Matriz de Confusión:
[[89  5]
 [10 74]]

Reporte de Clasificación:
              precision    recall  f1-score   support

   Correctas       0.90      0.95      0.92        94
Fraudulentas       0.94      0.88      0.91        84

    accuracy                           0.92       178
   macro avg       0.92      0.91      0.92       178
weighted avg       0.92      0.92      0.92       178



## Logistic Regresion con RFC y GLVQ

In [46]:
# No se va a usar el acercamiento con GLVQ dada la imposibilidad con el entrenamiento del modelo de regresion

## Train_data con modelo simple

In [52]:
from sklearn.preprocessing import StandardScaler
from imblearn.over_sampling import SMOTE

train_data = pd.read_csv('./data/train_data.csv')

X = train_data.drop(columns=['Class'])
y = train_data['Class']

# Dividir los datos en entrenamiento y testing
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# Aplicar SMOTE para equilibrar las clases en los datos de entrenamiento
smote = SMOTE(random_state=42)
X_train_balanced, y_train_balanced = smote.fit_resample(X_train, y_train)

# Estandarizar las características (mejora el desempeño de la regresión logística)
scaler = StandardScaler()
X_train_balanced = scaler.fit_transform(X_train_balanced)
X_test = scaler.transform(X_test)

# Crear y entrenar el modelo de Regresión Logística
model = LogisticRegression(solver='lbfgs', max_iter=1000, class_weight='balanced')
model.fit(X_train_balanced, y_train_balanced)

# Predecir en los datos de testeo
y_pred = model.predict(X_test)

# Calcular las métricas
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy * 100:.2f}%')

# Calcular F1-Score
f1 = f1_score(y_test, y_pred)
print(f'F1-Score: {f1 * 100:.2f}%')

# Calcular el error cuadrático medio
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f'RMSE: {rmse}')

# Calcular el error absoluto medio
mae = mean_absolute_error(y_test, y_pred)
print(f'MAE: {mae}')

# Calcular la matriz de confusión y el reporte de clasificación
conf_matrix = confusion_matrix(y_test, y_pred)
report = classification_report(y_test, y_pred, target_names=['Correctas', 'Fraudulentas'])

# Mostrar la matriz de confusión y el reporte
print("\nMatriz de Confusión:")
print(conf_matrix)

print("\nReporte de Clasificación:")
print(report)

Accuracy: 97.04%
F1-Score: 10.08%
RMSE: 0.17196294892524483
MAE: 0.02957125580306636

Matriz de Confusión:
[[49665  1512]
 [    4    85]]

Reporte de Clasificación:
              precision    recall  f1-score   support

   Correctas       1.00      0.97      0.98     51177
Fraudulentas       0.05      0.96      0.10        89

    accuracy                           0.97     51266
   macro avg       0.53      0.96      0.54     51266
weighted avg       1.00      0.97      0.98     51266



# Conclusiones sobre los Modelos de Regresión y Clasificación

Se evaluaron diversos modelos de clasificación en diferentes particiones de conjuntos de datos. A continuación, se resumen los resultados y observaciones clave:

## Comparación de Modelos

| Modelo                      | Precisión (Test) | RMSE   | MAE    | Recall Correctas | Recall Fraudulentas | F1 Correctas | F1 Fraudulentas |
|-----------------------------|------------------|--------|--------|------------------|---------------------|--------------|-----------------|
| **mrMr clusterCentroid_soft** | 85.39%           | 0.3822 | 0.1461 | 98%              | 71%                 | 0.88         | 0.82            |
| **mrMr clusterCentroid_hard** | 84.83%           | 0.3895 | 0.1517 | 97%              | 71%                 | 0.87         | 0.82            |
| **RFC clusterCentroid_soft** | 91.57%           | 0.2903 | 0.0843 | 95%              | 88%                 | 0.92         | 0.91            |
| **RFC clusterCentroid_hard** | 91.57%           | 0.2903 | 0.0843 | 95%              | 88%                 | 0.92         | 0.91            |
| **Regresión Logística**      | 97.04%           | 0.1720 | 0.0296 | 97%              | 96%                 | 0.98         | 0.10            |

---

## Observaciones Clave

1. **RFC (Random Forest Classifier)**:
   - Los modelos basados en RFC obtuvieron la mejor precisión general (91.57%) en las particiones con centroides suavizados y rígidos.
   - Muestran un equilibrio sólido entre las clases, con valores altos de *recall* y *f1-score* para ambas categorías (Correctas y Fraudulentas).
   - Reducción significativa de error (RMSE y MAE) en comparación con los modelos `mrMr`.

2. **mrMr (Feature Selection)**:
   - Los modelos `mrMr` tienen una precisión ligeramente menor (~85%), siendo algo menos consistentes en la detección de casos fraudulentos (*recall* de 71%).
   - Aunque la matriz de confusión muestra resultados aceptables, los valores de error (RMSE y MAE) son más altos en comparación con RFC.

3. **Regresión Logística (Modelo Base)**:
   - A pesar de tener una alta precisión global (97.04%), el modelo de regresión logística sufre de un claro desbalance en la predicción de las clases.
   - *F1-score* extremadamente bajo para casos fraudulentos (0.10), lo que refleja problemas serios para detectar correctamente estas instancias, a pesar de un *recall* alto (96%).


## Conclusiones Generales

- **RFC** es el modelo más robusto y equilibrado para este conjunto de datos, tanto en precisión como en detección de instancias fraudulentas y no fraudulentas.
- Los modelos `mrMr`, aunque menos precisos, ofrecen resultados aceptables y podrían ser útiles si la interpretabilidad de las características seleccionadas es prioritaria.
- El modelo de regresión logística, a pesar de su alta precisión, tiene una gran desventaja en la clasificación de casos minoritarios (fraudulentos), lo que limita su aplicabilidad en escenarios donde estos son críticos.
