![](https://www.dii.uchile.cl/wp-content/uploads/2021/06/Magi%CC%81ster-en-Ciencia-de-Datos.png)


# Proyecto: Riesgo en el Banco Giturra

**MDS7202: Laboratorio de Programación Científica para Ciencia de Datos**

### Cuerpo Docente:

- Profesor: Pablo Badilla, Ignacio Meza De La Jara
- Auxiliar: Sebastián Tinoco
- Ayudante: Diego Cortez M., Felipe Arias T.

_Por favor, lean detalladamente las instrucciones de la tarea antes de empezar a escribir._

---

## Reglas

- Fecha de entrega: 01/06/2021
- **Grupos de 2 personas.**
- Cualquier duda fuera del horario de clases al foro. Mensajes al equipo docente serán respondidos por este medio.
- Estrictamente prohibida la copia.
- Pueden usar cualquier material del curso que estimen conveniente.


---


- Nombre de alumno 1: Sebastián Versluys
- Nombre de alumno 2: Josué Guillen

### **Link de repositorio de GitHub:** `https://github.com/Nietsabas/MDS7202`

## 1. Introducción 

### Descripción del problema

El problema planteado implica desarrollar un modelo predictivo de riesgo crediticio para el banco de Giturra. El objetivo es predecir la probabilidad de que los clientes que soliciten préstamos no cumplan con los pagos acordados. Para lograr esto, se utilizará una amplia variedad de variables relacionadas con los usuarios, como historiales de crédito, ingresos y otros factores financieros relevantes.

El propósito del modelo es proporcionar al banco una herramienta que les permita evaluar el nivel de riesgo asociado con cada cliente y cada préstamo específico. Al tener una estimación de la probabilidad de incumplimiento de cada cliente, el banco podrá tomar decisiones más informadas sobre si aprobar o rechazar un préstamo y también ajustar las condiciones del préstamo para mitigar los riesgos potenciales.

Es importante que el modelo sea interpretable, lo que significa que debe ser fácilmente comprensible y explicativo para el equipo de Giturra. Esto permitirá que se pueda identificar las variables más influyentes en la predicción de riesgo y que el equipo del banco Giturra puede entender cómo se toman las decisiones crediticias basadas en estas variables.

### Descripción variables dadas en contexto

Los datos de entrada proporcionados para el problema de riesgo crediticio incluyen información sobre los clientes que solicitan préstamos al banco. Estos datos abarcan variables como historial crediticio e ingresos

- Historial crediticio: Esta variable proporciona información sobre el comportamiento crediticio pasado de los clientes, incluyendo si han realizado pagos a tiempo, si tienen deudas pendientes, si han tenido historial de crédito negativo, etc. Un buen historial crediticio suele ser indicativo de un menor riesgo de incumplimiento.

- Ingresos: Estas variables incluyen datos relacionados con los ingresos mensuales de los clientes, sus activos financieros. A priori se podría pensar que un mayor ingreso o mejor situación financiera suelen implicar una mayor capacidad para cumplir con los pagos del préstamo.

También según el contexto del problema que tiene banco Giturra existen otras variables relevantes, estas podrían ser a priori (sin haber visto el dataset): información personal del cliente (edad, estado civil, número de dependientes, antigüedad laboral), características del préstamo (monto, plazo, tasa de interés, tipo de préstamo), variables socioeconómicas (nivel educativo, ubicación geográfica, sector laboral). Estos datos en conjunto con los ya brindados (ingresos, historial crediticio) pueden ser fundamentales para evaluar la estabilidad financiera y capacidad de pago del cliente, así como para estimar el riesgo asociado al préstamo y tomar decisiones informadas en el proceso de concesión de préstamos, sin embargo en las siguientes secciones se verá si contamos con este tipo de datos.

### Métrica relevante

Para evaluar los modelos generados en el problema de riesgo crediticio, se utilizará el F1-score, enfocándose específicamente en la clase de préstamos impagados debido al desbalanceo de clases en los datos. El F1-score es una métrica que combina precisión y recall, lo que lo hace adecuado para abordar el desafío de clasificar correctamente los préstamos impagados, evitando tanto falsos positivos como falsos negativos y permitiendo tomar decisiones más informadas para reducir el riesgo crediticio.

## 2. Carga de datos y Análisis Exploratorio de Datos

### Carga de dataset

In [21]:
import pandas as pd
df = pd.read_parquet("dataset.pq")
df.head(5)

Unnamed: 0,customer_id,age,occupation,annual_income,monthly_inhand_salary,num_bank_accounts,num_credit_card,interest_rate,num_of_loan,delay_from_due_date,...,num_credit_inquiries,outstanding_debt,credit_utilization_ratio,credit_history_age,payment_of_min_amount,total_emi_per_month,amount_invested_monthly,payment_behaviour,monthly_balance,credit_score
0,CUS_0xd40,23.0,Scientist,19114.12,1824.843333,3,4,3,4.0,3,...,4.0,809.98,23.933795,,No,49.574949,24.785217,High_spent_Medium_value_payments,358.124168,0
1,CUS_0x21b1,28.0,Teacher,34847.84,3037.986667,2,4,6,1.0,3,...,2.0,605.03,32.933856,27.0,No,18.816215,218.904344,Low_spent_Small_value_payments,356.078109,0
2,CUS_0x2dbc,34.0,Engineer,143162.64,12187.22,1,5,8,3.0,8,...,3.0,1303.01,38.374753,18.0,No,246.992319,10000.0,High_spent_Small_value_payments,895.494583,0
3,CUS_0xb891,55.0,Entrepreneur,30689.89,2612.490833,2,5,4,-100.0,4,...,4.0,632.46,27.332515,17.0,No,16.415452,125.617251,High_spent_Small_value_payments,379.216381,0
4,CUS_0x1cdb,21.0,Developer,35547.71,2853.309167,7,5,5,-100.0,1,...,4.0,943.86,25.862922,31.0,Yes,0.0,181.330901,High_spent_Small_value_payments,364.000016,0


In [22]:
df.describe()

Unnamed: 0,age,annual_income,monthly_inhand_salary,num_bank_accounts,num_credit_card,interest_rate,num_of_loan,delay_from_due_date,num_of_delayed_payment,changed_credit_limit,num_credit_inquiries,outstanding_debt,credit_utilization_ratio,credit_history_age,total_emi_per_month,amount_invested_monthly,monthly_balance,credit_score
count,12500.0,12500.0,10584.0,12500.0,12500.0,12500.0,12500.0,12500.0,11660.0,12246.0,12243.0,12500.0,12500.0,11380.0,12500.0,11914.0,12145.0,12500.0
mean,105.77184,161620.6,4186.634963,16.93992,23.17272,73.21336,3.09944,21.06088,32.93542,10.398582,26.29233,1426.220376,32.349265,18.230404,1488.394291,638.798715,-2.744614e+22,0.28816
std,664.502705,1297842.0,3173.690362,114.350815,132.005866,468.682227,65.105277,14.863091,237.43768,6.799253,181.821031,1155.169458,5.156815,8.302078,8561.44991,2049.195193,3.024684e+24,0.452924
min,-500.0,7005.93,303.645417,-1.0,0.0,1.0,-100.0,-5.0,-3.0,-6.49,0.0,0.23,20.10077,0.0,0.0,0.0,-3.333333e+26,0.0
25%,25.0,19453.33,1622.408646,3.0,4.0,8.0,1.0,10.0,9.0,5.37,4.0,566.0725,28.066517,12.0,31.496968,73.73681,270.1501,0.0
50%,33.0,37572.38,3087.595,6.0,5.0,14.0,3.0,18.0,14.0,9.41,6.0,1166.155,32.418953,18.0,72.887628,134.093193,339.3885,0.0
75%,42.0,72690.21,5967.9375,7.0,7.0,20.0,5.0,28.0,18.0,14.94,10.0,1945.9625,36.62365,25.0,169.634826,261.664256,471.4245,1.0
max,8678.0,23834700.0,15204.633333,1756.0,1499.0,5789.0,1495.0,67.0,4293.0,36.97,2554.0,4998.07,48.199824,33.0,81971.0,10000.0,1463.792,1.0


In [23]:
df.shape

(12500, 22)

## 3. Preparación de datos

Antes de empezar el column transformer es prudente y necesario tratar errores de imputación u outliers relevantes a eliminar, para ello lo primero que se hará será filtrar las muestras para edades en torno a los 14 y 100 años, este rango se define viendo el EDA que sale en el profile, pues se puede notar que los 5 valores mínimos con menor aparición en este variable es -500 con un 0.8% por lo que esto claramente es un error de imputación así que debe ir fuera de este filtro, por otro lado el segundo valor mínimo es 14 que en general es la edad mínima para que un adolescente puede entrar al sistema financiero en muchos paises por lo que tiene sentido para usarlo como cota mínima, por otro lado como cota máxima se usa 100 años que es una edad prudente ya que clientes mayores a esa edad o están muertos o no tienen mucho valor para el banco.

In [24]:
#Filtrando muestras con edades en torno a 14 y 100 años

df = df[(df['age'] >= 14) & (df['age'] <= 100)]

También se encontraron cantidades extremadamente altas que no corresponden a la naturaleza de la variable por ejemplo un valor extremadamente alto de `interest_rate`, en el dataset df esta variable no esta en porcentaje si no en un número que apriori deberia ser mayor a 0 y menor a 100, es imposible que se cobren tasas de interés superiores inclusivo a cotas como 30 o 50, esto ya que el sistema bancario siempre ha estado regulado, por lo que va1ores superiores a este se consideran outliers o mala inputación de valores, sin embargo para ser más objetivos se eliminaran valores superiores a 100, que sería tasas mayores a 100%.

In [25]:
df = df[df['interest_rate'] <= 100]

Del EDA del profile se puede notar que existen valores negativos en cantidades, como valor negativo en cuentas de banco (`num_bank_accounts`), número de préstamos (`num_of_loan`), `delay_from_due_date` que apriori no puede ser negativo ya que es el promedio de días de retraso desde la fecha de pago, de la misma manera para `num_of_delayed_payment` no puede haber un promedio negativo de pagos atrasados ​​por una persona, a priori se podría pensar que el `changed_credit_limit` no podría ser negativo pero esta variable que representa el cambio porcentual en el límite de la tarjeta de crédito podría ser negativo si se disminuye el límite a los créditos de una persona (que por experiencia podría pasar cuando se tiene un comportamiento crediticio malo), 

In [26]:
df = df[df['num_of_loan'] >= 0]
df = df[df['num_bank_accounts'] >= 0]
df = df[df['delay_from_due_date'] >= 0]
df = df[df['num_of_delayed_payment'] >= 0]


Finalmente, se eliminan variables que no tienen mayor explicabilidad como customer_id notando segun el profile que no existen duplicados en esta variable

In [27]:
df = df.drop(columns=['customer_id'])

In [28]:
df.shape

(10528, 21)

Notemos que estos filtros son necesarios antes de empezar, además pasamos de 12k a 10.5k es decir una reducción de 12% lo cual no es mucho dada la cantidad de datos que teníamos previamente.

### Preprocesamiento con `ColumnTransformer`

Es necesario también convertir las columnas mal leidas a sus tipos correspondientes

In [29]:
df.dtypes

age                         float64
occupation                   object
annual_income               float64
monthly_inhand_salary       float64
num_bank_accounts             int64
num_credit_card               int64
interest_rate                 int64
num_of_loan                 float64
delay_from_due_date           int64
num_of_delayed_payment      float64
changed_credit_limit        float64
num_credit_inquiries        float64
outstanding_debt            float64
credit_utilization_ratio    float64
credit_history_age          float64
payment_of_min_amount        object
total_emi_per_month         float64
amount_invested_monthly     float64
payment_behaviour            object
monthly_balance             float64
credit_score                  int64
dtype: object

In [30]:
df['age'] = df['age'].astype('int64')
df['num_of_loan'] = df['num_of_loan'].astype('int64')
df['delay_from_due_date'] = df['delay_from_due_date'].astype('float64')

Se cambiaron los tipos de las variables por las siguientes razones:

- `age`: Se cambió a tipo `int` porque la edad de una persona generalmente se representa como un número entero, y no tiene sentido tener valores decimales para la edad.
- `num_of_loan`: Se cambió a tipo `int` porque la cantidad de préstamos tomados por una persona debe ser un número entero. Los préstamos no se pueden tomar en fracciones.

- `delay_from_due_date`: Se cambió a tipo `float` porque la variable representa la cantidad promedio de días de retraso en los pagos, y este valor podría tener decimales si hay retrasos parciales en los pagos.

Estos cambios en el tipo de dato garantizan que las variables estén representadas de la manera más adecuada para su posterior análisis y modelado, ya que se alinean mejor con la naturaleza de los datos y sus significados en el contexto del riesgo crediticio.

In [31]:
df.dtypes

age                           int64
occupation                   object
annual_income               float64
monthly_inhand_salary       float64
num_bank_accounts             int64
num_credit_card               int64
interest_rate                 int64
num_of_loan                   int64
delay_from_due_date         float64
num_of_delayed_payment      float64
changed_credit_limit        float64
num_credit_inquiries        float64
outstanding_debt            float64
credit_utilization_ratio    float64
credit_history_age          float64
payment_of_min_amount        object
total_emi_per_month         float64
amount_invested_monthly     float64
payment_behaviour            object
monthly_balance             float64
credit_score                  int64
dtype: object

In [32]:
import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.model_selection import train_test_split

# Variables numéricas
numeric_features = ['age', 'annual_income', 'monthly_inhand_salary', 'num_bank_accounts',
                    'num_credit_card', 'interest_rate', 'num_of_loan', 'delay_from_due_date',
                    'num_of_delayed_payment', 'changed_credit_limit', 'num_credit_inquiries',
                    'outstanding_debt', 'credit_utilization_ratio', 'credit_history_age',
                    'total_emi_per_month', 'amount_invested_monthly', 'monthly_balance']

# Variables categóricas
categorical_features = ['occupation', 'payment_of_min_amount', 'payment_behaviour']

# Preprocesamiento de variables numéricas
numeric_transformer = StandardScaler()

# Preprocesamiento de variables categóricas con OneHotEncoder (sin datos dispersos)
categorical_transformer = OneHotEncoder(sparse=False)

# Dividir el DataFrame en características (X) y variable objetivo (y)
X = df.drop(columns=['credit_score']) 
y = df['credit_score'] 

# ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ],
    remainder='passthrough'  
)

# ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ],
    remainder='passthrough'  
)

# Configuramos la salida del preprocesador como un DataFrame de pandas
preprocessor.set_output(transform="pandas")

X_preprocessed = preprocessor.fit_transform(X)



In [33]:
# Estableciendo semilla aleatoria

semilla = 42

In [34]:
type(X_preprocessed)

pandas.core.frame.DataFrame

In [35]:
print(df.columns)


Index(['age', 'occupation', 'annual_income', 'monthly_inhand_salary',
       'num_bank_accounts', 'num_credit_card', 'interest_rate', 'num_of_loan',
       'delay_from_due_date', 'num_of_delayed_payment', 'changed_credit_limit',
       'num_credit_inquiries', 'outstanding_debt', 'credit_utilization_ratio',
       'credit_history_age', 'payment_of_min_amount', 'total_emi_per_month',
       'amount_invested_monthly', 'payment_behaviour', 'monthly_balance',
       'credit_score'],
      dtype='object')


### Holdout

In [36]:
# Holdout
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=semilla)


###  Datos nulos

In [37]:
### NaNs

porcentajes_nulos = (df.isnull().sum() / len(df))
porcentajes_nulos = porcentajes_nulos.sort_values(ascending=False)
porcentajes_nulos

monthly_inhand_salary       0.152451
credit_history_age          0.088526
amount_invested_monthly     0.046922
monthly_balance             0.028210
num_credit_inquiries        0.020802
changed_credit_limit        0.020327
payment_behaviour           0.000000
total_emi_per_month         0.000000
payment_of_min_amount       0.000000
credit_utilization_ratio    0.000000
outstanding_debt            0.000000
age                         0.000000
occupation                  0.000000
num_of_delayed_payment      0.000000
delay_from_due_date         0.000000
num_of_loan                 0.000000
interest_rate               0.000000
num_credit_card             0.000000
num_bank_accounts           0.000000
annual_income               0.000000
credit_score                0.000000
dtype: float64

Como podemos ver en el profile dado y el código anterior la variable `monthly_inhand_salary` cuenta con un mayor número de NANs, a priori como se comentó en la sección 1 se cree que el salario puede estar involucrado en el riesgo crediticio, por lo que eliminar muestras con NaNs en esta variable puede resultar en un sesgo considerable dado que estos NaNs representan un alto porcentaje (15%) por ende se decide usar otro técnica que no sea el drop de NaNs que es la imputación de la mediana. Lo mismo sucede con `credit_history_age` que a priori puede llegar a tener un fuerte sesgo el eliminar muestras con NaNs en esta variable, por ende se decide realizar una imputación sobre la mediana también. Siguiendo esa linea y dado que el modelo tiene pocas NaNs para las otras variables se decide hacer imputación de mediana finalmente para todas.


## Baseline

In [38]:
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.dummy import DummyClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from lightgbm import LGBMClassifier
from xgboost import XGBClassifier
from sklearn.metrics import classification_report, f1_score

# Clasificadores a evaluar
classifiers = {
    'Dummy (Stratified)': DummyClassifier(strategy='stratified', random_state=semilla),
    'Logistic Regression': LogisticRegression(random_state=semilla),
    'K-Nearest Neighbors': KNeighborsClassifier(),
    'Decision Tree': DecisionTreeClassifier(random_state=semilla),
    'SVM': SVC(random_state=semilla),
    'Random Forest': RandomForestClassifier(random_state=semilla),
    'LightGBM': LGBMClassifier(random_state=semilla),
    'XGBoost': XGBClassifier(random_state=semilla)
}

# Creamos un arreglo para almacenar las métricas
metrics = []

# Pipeline para el imputador promedio (mean imputer)
mean_imputer = Pipeline([
    ('imputer', SimpleImputer(strategy='mean'))
])


for clf_name, clf in classifiers.items():
    # Creamos el pipeline con el preprocesamiento, imputador promedio y el clasificador
    pipeline = Pipeline([
        ('preprocessor', preprocessor),
        ('imputer', mean_imputer),
        ('classifier', clf)
    ])
    # Entrenamos el modelo
    pipeline.fit(X_train, y_train)
    
    # Evaluamos el modelo en el conjunto de prueba
    y_pred = pipeline.predict(X_test)
    report = classification_report(y_test, y_pred, output_dict=True)
    
    # Imprimimos todas las métricas del classification_report
    print(f"Classification Report - {clf_name}:")
    print(classification_report(y_test, y_pred))
    print()
    
    # Almacenamos el f1_score en el DataFrame de métricas
    metrics.append({'Classifier': clf_name, 'F1 Score': report['1']['f1-score']})

# Creamos un DataFrame con los resultados
results_df = pd.DataFrame(metrics)
results_df.sort_values(by='F1 Score', ascending=False, inplace=True)
print("F1 Score para cada Clasificador:")
print(results_df)




Classification Report - Dummy (Stratified):




              precision    recall  f1-score   support

           0       0.72      0.72      0.72      1488
           1       0.32      0.31      0.32       618

    accuracy                           0.60      2106
   macro avg       0.52      0.52      0.52      2106
weighted avg       0.60      0.60      0.60      2106


Classification Report - Logistic Regression:
              precision    recall  f1-score   support

           0       0.79      0.91      0.85      1488
           1       0.66      0.40      0.50       618

    accuracy                           0.76      2106
   macro avg       0.72      0.66      0.67      2106
weighted avg       0.75      0.76      0.74      2106






Classification Report - K-Nearest Neighbors:
              precision    recall  f1-score   support

           0       0.80      0.87      0.83      1488
           1       0.60      0.46      0.52       618

    accuracy                           0.75      2106
   macro avg       0.70      0.67      0.68      2106
weighted avg       0.74      0.75      0.74      2106






Classification Report - Decision Tree:
              precision    recall  f1-score   support

           0       0.79      0.77      0.78      1488
           1       0.47      0.49      0.48       618

    accuracy                           0.69      2106
   macro avg       0.63      0.63      0.63      2106
weighted avg       0.69      0.69      0.69      2106






Classification Report - SVM:
              precision    recall  f1-score   support

           0       0.80      0.90      0.85      1488
           1       0.65      0.45      0.53       618

    accuracy                           0.77      2106
   macro avg       0.72      0.67      0.69      2106
weighted avg       0.75      0.77      0.75      2106






Classification Report - Random Forest:
              precision    recall  f1-score   support

           0       0.82      0.90      0.86      1488
           1       0.69      0.52      0.59       618

    accuracy                           0.79      2106
   macro avg       0.75      0.71      0.73      2106
weighted avg       0.78      0.79      0.78      2106


[LightGBM] [Info] Number of positive: 2446, number of negative: 5976
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 2288
[LightGBM] [Info] Number of data points in the train set: 8422, number of used features: 43
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.290430 -> initscore=-0.893297
[LightGBM] [Info] Start training from score -0.893297




Classification Report - LightGBM:
              precision    recall  f1-score   support

           0       0.83      0.89      0.86      1488
           1       0.67      0.55      0.61       618

    accuracy                           0.79      2106
   macro avg       0.75      0.72      0.73      2106
weighted avg       0.78      0.79      0.78      2106






Classification Report - XGBoost:
              precision    recall  f1-score   support

           0       0.82      0.88      0.85      1488
           1       0.64      0.53      0.58       618

    accuracy                           0.78      2106
   macro avg       0.73      0.70      0.71      2106
weighted avg       0.77      0.78      0.77      2106


F1 Score para cada Clasificador:
            Classifier  F1 Score
6             LightGBM  0.606383
5        Random Forest  0.593205
7              XGBoost  0.581045
4                  SVM  0.532443
2  K-Nearest Neighbors  0.521898
1  Logistic Regression  0.498994
3        Decision Tree  0.482157
0   Dummy (Stratified)  0.315617


¿Hay algún clasificador entrenado mejor que el azar (Dummy)?
Sí, todos los clasificadores entrenados tienen un F1 Score mayor que el clasificador Dummy, que tiene un F1 Score de aproximadamente 0.290. Esto indica que todos los clasificadores están aprendiendo patrones relevantes en los datos y superan significativamente el rendimiento aleatorio del Dummy.

¿Cuál es el mejor clasificador entrenado?
El mejor clasificador entrenado es LightGBM, con un F1 Score de aproximadamente 0.606. Esto indica que LightGBM tiene un mejor equilibrio entre precisión y recall, lo que sugiere que puede identificar correctamente a los individuos que tienen un alto riesgo crediticio (clase 1) y también aquellos que no (clase 0).

¿Por qué el mejor clasificador es mejor que los otros?
LightGBM es un algoritmo de aprendizaje automático basado en árboles de decisión que utiliza el enfoque de "gradient boosting". Este método suele ofrecer un rendimiento sólido en muchos conjuntos de datos debido a su eficiencia y capacidad para manejar grandes cantidades de datos y características. También puede manejar datos categóricos sin necesidad de codificación previa. Además, al utilizar "gradient boosting", se combinan varios árboles débiles para formar un modelo más robusto y generalizable.

El buen rendimiento de LightGBM también puede atribuirse a su capacidad para tratar datos desbalanceados, como en este caso donde puede haber menos ejemplos de clase 1 (personas con mala calificación crediticia) en comparación con la clase 0 (personas con buena calificación crediticia). Los clasificadores basados en árboles tienden a manejar mejor esta situación.

Respecto al tiempo de entrenamiento, este suele variar según el tamaño del conjunto de datos, la complejidad del algoritmo y la cantidad de hiperparámetros que se necesitan ajustar. En este caso, dado que el conjunto de datos no parece ser extremadamente grande, los tiempos de entrenamiento no deberían ser un problema significativo para la mayoría de los algoritmos utilizados.

Sin embargo, es probable que los algoritmos más lentos sean SVM y K-Nearest Neighbors, ya que SVM busca encontrar el hiperplano óptimo para separar las clases, mientras que K-Nearest Neighbors necesita calcular la distancia entre cada punto del conjunto de prueba y todos los puntos del conjunto de entrenamiento. Estos algoritmos pueden requerir más tiempo de entrenamiento y podrían ser buenos candidatos para experimentar con la optimización de hiperparámetros. Por otro lado, Random Forest, LightGBM y XGBoost son algoritmos más eficientes y pueden ser más rápidos para experimentar con diferentes combinaciones de hiperparámetros. 

In [44]:
from sklearn.feature_selection import SelectKBest
from sklearn.model_selection import GridSearchCV
from imblearn.pipeline import Pipeline as ImbalancedPipeline
from imblearn.over_sampling import RandomOverSampler

# Instanciando nuevas Pipelines para LightGBM y Random Forest con imputador promedio (mean imputer) y selección de atributos
lightgbm_pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('imputer', SimpleImputer(strategy='mean')),
    ('feature_selector', SelectKBest(k=10)),  
    ('classifier', LGBMClassifier())
])

randomforest_pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('imputer', SimpleImputer(strategy='mean')),
    ('feature_selector', SelectKBest(k=10)), 
    ('classifier', RandomForestClassifier())
])

# Definiendo los rangos de hiperparámetros a buscar para cada modelo
param_grid_lightgbm = {
    'classifier__n_estimators': [50, 100, 200],  # Definimos aquí los valores a probar para el número de estimadores
    'classifier__max_depth': [3, 5, 7],
}

param_grid_randomforest = {
    'classifier__n_estimators': [50, 100, 200],
    'classifier__max_depth': [None, 3, 5],
}

# Búsqueda de hiperparámetros usando GridSearchCV o HalvingGridSearchCV
grid_search_lightgbm = GridSearchCV(lightgbm_pipeline, param_grid_lightgbm, scoring='f1', cv=5, n_jobs=-1)
grid_search_randomforest = GridSearchCV(randomforest_pipeline, param_grid_randomforest, scoring='f1', cv=5, n_jobs=-1)

# Entrenando los modelos con los mejores hiperparámetros encontrados
grid_search_lightgbm.fit(X_train, y_train)
grid_search_randomforest.fit(X_train, y_train)

# Obteniendo los mejores modelos
best_lightgbm_model = grid_search_lightgbm.best_estimator_
best_randomforest_model = grid_search_randomforest.best_estimator_

# Probando técnicas de balanceo de datos
imbalanced_lightgbm_pipeline = ImbalancedPipeline([
    ('preprocessor', preprocessor),
    ('imputer', SimpleImputer(strategy='mean')),
    ('feature_selector', SelectKBest(k=10)),  
    ('oversampler', RandomOverSampler()), 
    ('classifier', LGBMClassifier())
])

imbalanced_lightgbm_pipeline.fit(X_train, y_train)

y_pred_lightgbm = best_lightgbm_model.predict(X_test)
y_pred_randomforest = best_randomforest_model.predict(X_test)
y_pred_imbalanced_lightgbm = imbalanced_lightgbm_pipeline.predict(X_test)

report_lightgbm = classification_report(y_test, y_pred_lightgbm, output_dict=True)
report_randomforest = classification_report(y_test, y_pred_randomforest, output_dict=True)
report_imbalanced_lightgbm = classification_report(y_test, y_pred_imbalanced_lightgbm, output_dict=True)

print("Classification Report - LightGBM:")
print(classification_report(y_test, y_pred_lightgbm))
print()

print("Classification Report - Random Forest:")
print(classification_report(y_test, y_pred_randomforest))
print()

print("Classification Report - Imbalanced LightGBM:")
print(classification_report(y_test, y_pred_imbalanced_lightgbm))
print()




[LightGBM] [Info] Number of positive: 2446, number of negative: 5976
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 955
[LightGBM] [Info] Number of data points in the train set: 8422, number of used features: 10
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.290430 -> initscore=-0.893297
[LightGBM] [Info] Start training from score -0.893297




[LightGBM] [Info] Number of positive: 5976, number of negative: 5976
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 955
[LightGBM] [Info] Number of data points in the train set: 11952, number of used features: 10
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.500000 -> initscore=0.000000
Classification Report - LightGBM:
              precision    recall  f1-score   support

           0       0.82      0.89      0.85      1488
           1       0.67      0.53      0.59       618

    accuracy                           0.79      2106
   macro avg       0.75      0.71      0.72      2106
weighted avg       0.78      0.79      0.78      2106


Classification Report - Random Forest:
              precision    recall  f1-score   support

           0       0.82      0.89      0.85      1488
           1       0.66      0.53      0.59       618

    accuracy                           0.78      2106
   macro avg       0.74      0.71      0.72      

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=87110296-876e-426f-b91d-aaf681223468' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>