## Credit Card Transactions Fraud Detection Dataset  (ML)
* Descripción: Crear un modelo que detecte transacciones fraudulentas o sospechosas en tiempo real.
* Datos: Datasets de transacciones financieras, Credit Card Fraud Detection dataset: https://www.kaggle.com/datasets/kartik2112/fraud-detection
* Tareas:
    - Preguntas (Analitica)
    - Preprocesamiento de datos, 
    - selección de características, 
    - ingeniería de características,
    - entrenamiento de modelos de detección de anomalías (Isolation Forest, Autoencoders), 
    - evaluación del modelo en términos de precisión y recall. 
    - anadir una seccion en donde se compare el rendimiento de otros modelos de modelos (Random Forest, SVM, Neural Networks),
    -  evaluación del modelo.

## Preguntas   (Analitica)

Preguntas Relacionadas con la Detección de Fraude

* ¿Cuáles son los patrones comunes en las transacciones fraudulentas?
        Analiza las características de las transacciones marcadas como fraudulentas para identificar patrones comunes, como montos de transacción, categorías de comerciantes, o ubicaciones.

* ¿Qué características diferencian más significativamente las transacciones fraudulentas de las no fraudulentas?
        Utiliza técnicas de selección de características y análisis de importancia de características para identificar qué variables son más indicativas de fraude.

* ¿Existen ciertos comerciantes o categorías de comercio más propensos a ser víctimas de fraude?
        Examina la frecuencia de fraudes en diferentes comerciantes y categorías para identificar aquellos que tienen una mayor incidencia de fraude.

 * ¿Hay ciertas horas del día o días de la semana en los que el fraude es más probable?
        Realiza un análisis temporal para ver si el fraude ocurre con mayor frecuencia en ciertos momentos.

 * ¿Cuál es la efectividad de diferentes modelos de detección de fraude?
        Compara el rendimiento de varios modelos de machine learning (como Isolation Forest, Random Forest, SVM, y redes neuronales) en la detección de transacciones fraudulentas.

Preguntas Relacionadas con el Comportamiento del Usuario

* ¿Cuáles son los patrones de gasto típicos de los usuarios según su profesión, género, o ubicación?
        Analiza los datos demográficos y transaccionales para identificar patrones de gasto típicos basados en diferentes características demográficas.

* ¿Cómo varía el comportamiento de gasto entre diferentes grupos demográficos?
        Compara el comportamiento de gasto entre diferentes géneros, edades, profesiones, y ubicaciones.

* ¿Hay ciertas ubicaciones geográficas con mayor actividad de transacciones?
        Utiliza datos de latitud y longitud para visualizar y analizar la densidad de transacciones en diferentes áreas geográficas.

Preguntas Relacionadas con el Análisis Temporal

* ¿Cuáles son las tendencias en el volumen y valor de las transacciones a lo largo del tiempo?
        Analiza cómo cambia el volumen y el valor total de las transacciones a lo largo del tiempo, identificando posibles tendencias estacionales o picos de actividad.

* ¿Cómo varía el comportamiento de transacciones a lo largo del año?
        Examina cómo las transacciones varían en diferentes períodos del año, como durante las vacaciones o eventos especiales.

Preguntas Relacionadas con la Comparación de Modelos

* ¿Qué modelo de machine learning proporciona la mejor precisión y recall en la detección de fraude?
        Evalúa y compara diferentes modelos de machine learning en términos de métricas de rendimiento como precisión, recall, y AUC-ROC.

* ¿Cómo afectan las técnicas de preprocesamiento de datos (como la normalización o la ingeniería de características) al rendimiento de los modelos?
        Experimenta con diferentes técnicas de preprocesamiento y analiza cómo impactan el rendimiento de los modelos.

Preguntas Relacionadas con la Análisis Geográfico

* ¿Existen correlaciones entre la ubicación del comerciante y la probabilidad de fraude?
        Analiza si ciertas ubicaciones geográficas de los comerciantes están más asociadas con transacciones fraudulentas.

* ¿Cómo varía la frecuencia de transacciones fraudulentas en diferentes regiones geográficas?
        Mapea y visualiza la frecuencia de transacciones fraudulentas para identificar regiones geográficas con mayor actividad fraudulenta.

Preguntas Relacionadas con la Evaluación de Riesgos

* ¿Qué variables de las transacciones tienen un mayor impacto en la evaluación del riesgo de fraude?
        Identifica y evalúa qué características son más relevantes para la evaluación del riesgo de fraude en las transacciones.

* ¿Cuál es el riesgo relativo de fraude para diferentes montos de transacción?
        Analiza cómo varía el riesgo de fraude en función del monto de la transacción.

Preguntas Relacionadas con la Demografía

* ¿Cómo influye la edad del titular de la tarjeta en la probabilidad de ser víctima de fraude?
        Analiza si hay alguna relación entre la edad del titular de la tarjeta y la incidencia de transacciones fraudulentas.

* ¿Qué profesiones tienen una mayor incidencia de fraude?
        Examina si ciertas profesiones son más propensas a experimentar fraude en sus transacciones.

## Instalar y Cargar librerias necesarias

In [None]:
# Installa las librerias en tu entorno de trabajo
!pip install pandas numpy matplotlib seaborn scikit-learn tensorflow

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.ensemble import IsolationForest
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, precision_recall_curve, roc_auc_score, accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier
import tensorflow as tf
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Dense

## Carga los datos

In [44]:
train_data = pd.read_csv('fraudTrain.csv')
test_data = pd.read_csv('fraudTest.csv')

## Visualiza las primeras filas 

In [46]:
train_data.head()

Unnamed: 0.1,Unnamed: 0,trans_date_trans_time,cc_num,merchant,category,amt,first,last,gender,street,...,lat,long,city_pop,job,dob,trans_num,unix_time,merch_lat,merch_long,is_fraud
0,0,2019-01-01 00:00:18,2703186189652095,"fraud_Rippin, Kub and Mann",misc_net,4.97,Jennifer,Banks,F,561 Perry Cove,...,36.08,-81.18,3495,"Psychologist, counselling",1988-03-09,0b242abb623afc578575680df30655b9,1325376018,36.01,-82.05,0
1,1,2019-01-01 00:00:44,630423337322,"fraud_Heller, Gutmann and Zieme",grocery_pos,107.23,Stephanie,Gill,F,43039 Riley Greens Suite 393,...,48.89,-118.21,149,Special educational needs teacher,1978-06-21,1f76529f8574734946361c461b024d99,1325376044,49.16,-118.19,0
2,2,2019-01-01 00:00:51,38859492057661,fraud_Lind-Buckridge,entertainment,220.11,Edward,Sanchez,M,594 White Dale Suite 530,...,42.18,-112.26,4154,Nature conservation officer,1962-01-19,a1a22d70485983eac12b5b88dad1cf95,1325376051,43.15,-112.15,0
3,3,2019-01-01 00:01:16,3534093764340240,"fraud_Kutch, Hermiston and Farrell",gas_transport,45.0,Jeremy,White,M,9443 Cynthia Court Apt. 038,...,46.23,-112.11,1939,Patent attorney,1967-01-12,6b849c168bdad6f867558c3793159a81,1325376076,47.03,-112.56,0
4,4,2019-01-01 00:03:06,375534208663984,fraud_Keeling-Crist,misc_pos,41.96,Tyler,Garcia,M,408 Bradley Rest,...,38.42,-79.46,99,Dance movement psychotherapist,1986-03-28,a41d7549acf90789359a9aa5346dcb46,1325376186,38.67,-78.63,0


## Ferst look at the dataset

In [48]:
# N de Filas y Columnas
train_data.shape

(1296675, 23)

In [50]:
# Obtener información sobre el DataFrame (número de filas, columnas, tipos de datos, memoria usada)
print(train_data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1296675 entries, 0 to 1296674
Data columns (total 23 columns):
 #   Column                 Non-Null Count    Dtype  
---  ------                 --------------    -----  
 0   Unnamed: 0             1296675 non-null  int64  
 1   trans_date_trans_time  1296675 non-null  object 
 2   cc_num                 1296675 non-null  int64  
 3   merchant               1296675 non-null  object 
 4   category               1296675 non-null  object 
 5   amt                    1296675 non-null  float64
 6   first                  1296675 non-null  object 
 7   last                   1296675 non-null  object 
 8   gender                 1296675 non-null  object 
 9   street                 1296675 non-null  object 
 10  city                   1296675 non-null  object 
 11  state                  1296675 non-null  object 
 12  zip                    1296675 non-null  int64  
 13  lat                    1296675 non-null  float64
 14  long              

### Features/ Variables / Etiquetas / Atributos  

**Unnamed: 0**

    Descripción: Un índice que parece ser un identificador único para cada fila. En general, no es una característica útil para el análisis de datos.
    Tipo: int64

**trans_date_trans_time**

    Descripción: La fecha y hora en que se realizó la transacción. Es útil para el análisis temporal y puede necesitar ser convertida a un formato de fecha y hora.
    Tipo: object (debe ser convertido a datetime)

**cc_num**

    Descripción: Número de la tarjeta de crédito utilizada en la transacción. Este valor es único para cada tarjeta de crédito y puede ser útil para rastrear el historial de transacciones de una tarjeta específica.
    Tipo: int64

**merchant**

    Descripción: Nombre del comerciante donde se realizó la transacción. Esta característica puede ser categórica.
    Tipo: object

**category**

    Descripción: Categoría del comerciante. Ejemplos incluyen "gas_transport", "grocery_pos", etc. Esta característica es categórica y puede ser usada para identificar patrones de fraude en diferentes categorías.
    Tipo: object

**amt**

    Descripción: Monto de la transacción. Este es un valor numérico continuo y puede ser útil para detectar transacciones inusuales.
    Tipo: float64

**first**

    Descripción: Primer nombre del titular de la tarjeta. Por razones de privacidad, esta característica puede no ser tan útil.
    Tipo: object

**last**

    Descripción: Apellido del titular de la tarjeta. Similar a "first", esta característica puede no ser tan útil por razones de privacidad.
    Tipo: object

**gender**

    Descripción: Género del titular de la tarjeta (M para masculino, F para femenino). Esta característica puede ser utilizada en análisis demográficos.
    Tipo: object

**street**

    Descripción: Dirección del titular de la tarjeta. Por razones de privacidad, esta característica puede no ser tan útil.
    Tipo: object

**city**

    Descripción: Ciudad del titular de la tarjeta. Esta característica puede ser categórica y útil para análisis geográficos.
    Tipo: object

**state**

    Descripción: Estado del titular de la tarjeta. Similar a "city", esta característica es categórica y útil para análisis geográficos.
    Tipo: object

**zip**

    Descripción: Código postal del titular de la tarjeta. Puede ser útil para análisis geográficos más precisos.
    Tipo: int64

**lat**

    Descripción: Latitud de la ubicación del titular de la tarjeta. Puede ser útil para análisis geográficos.
    Tipo: float64

**long**

    Descripción: Longitud de la ubicación del titular de la tarjeta. Similar a "lat", esta característica puede ser útil para análisis geográficos.
    Tipo: float64

**city_pop**

    Descripción: Población de la ciudad del titular de la tarjeta. Esta característica puede proporcionar contexto demográfico.
    Tipo: int64

**job**

    Descripción: Profesión del titular de la tarjeta. Esta característica es categórica y puede ser útil para análisis demográficos y socioeconómicos.
    Tipo: object

**dob**

    Descripción: Fecha de nacimiento del titular de la tarjeta. Puede ser utilizada para calcular la edad, que puede ser un factor en el análisis.
    Tipo: object (debe ser convertido a datetime)

**trans_num**

    Descripción: Número de la transacción, un identificador único para cada transacción. Puede ser útil para el rastreo de transacciones.
    Tipo: object

**unix_time**

    Descripción: Tiempo de la transacción en formato Unix. Puede ser útil para análisis temporales y debe ser convertido a un formato de fecha y hora legible.
    Tipo: int64

**merch_lat**

    Descripción: Latitud de la ubicación del comerciante. Similar a "lat", esta característica puede ser útil para análisis geográficos.
    Tipo: float64

**merch_long**

    Descripción: Longitud de la ubicación del comerciante. Similar a "long", esta característica puede ser útil para análisis geográficos.
    Tipo: float64

**is_fraud**

    Descripción: Etiqueta que indica si la transacción es fraudulenta (1) o no (0). Esta es la variable objetivo que queremos predecir.
    Tipo: int64

## Preprocesamiento de Datos
* Eliminar columnas innecesarias
* Verificar valores nulos
* Convertir características categóricas en numéricas (One-hot encoding)
* Alinear conjuntos de entrenamiento y prueba
* Separar características y etiquetas
* Escalar los datos

Eliminar columnas innecesarias


In [9]:
train_data.drop(columns=['Unnamed: 0'], inplace=True)
test_data.drop(columns=['Unnamed: 0'], inplace=True)

Verificar valores nulos

In [10]:
print(train_data.isnull().sum())
print(test_data.isnull().sum())

trans_date_trans_time    0
cc_num                   0
merchant                 0
category                 0
amt                      0
first                    0
last                     0
gender                   0
street                   0
city                     0
state                    0
zip                      0
lat                      0
long                     0
city_pop                 0
job                      0
dob                      0
trans_num                0
unix_time                0
merch_lat                0
merch_long               0
is_fraud                 0
dtype: int64
trans_date_trans_time    0
cc_num                   0
merchant                 0
category                 0
amt                      0
first                    0
last                     0
gender                   0
street                   0
city                     0
state                    0
zip                      0
lat                      0
long                     0
city_pop       

In [18]:
# Llenar o eliminar valores nulos si es necesario
train_data.fillna(0, inplace=True)
test_data.fillna(0, inplace=True)

## Espacio para Analitica de los datos

## Espacio para modelos ML

Cargamos una muestra del dataset

In [115]:
train_data = pd.read_csv('train_data_sample.csv')
test_data = pd.read_csv('test_data_sample.csv')

## Procesamiento y preparacion para entrenamiento de modelos

In [12]:
# Convertir características categóricas en numéricas (One-hot encoding)
train_data = pd.get_dummies(train_data, drop_first=True)
test_data = pd.get_dummies(test_data, drop_first=True)

In [14]:
# Asegurarse de que los conjuntos de entrenamiento y prueba tengan las mismas columnas
train_data, test_data = train_data.align(test_data, join='inner', axis=1)

In [16]:
# Separar características y etiquetas
x_train = train_data.drop('is_fraud', axis=1)
y_train = train_data['is_fraud']
x_test = test_data.drop('is_fraud', axis=1)
y_test = test_data['is_fraud']

In [18]:
# Escalar los datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(x_train)
X_test_scaled = scaler.transform(x_test)

## Features engineering

In [22]:
# Utilizar PCA para reducir la dimensionalidad si es necesario
pca = PCA(n_components=30)
x_train_pca = pca.fit_transform(X_train_scaled)
x_test_pca = pca.transform(X_test_scaled)

## Entrenamiento de Modelos de Detección de Anomalías

In [None]:
iso_forest = IsolationForest(contamination=0.01, random_state=42)
iso_forest.fit(X_train_pca)
y_pred_train_iso = iso_forest.predict(X_train_pca)
y_pred_test_iso = iso_forest.predict(X_test_pca)

# Convertir las predicciones de -1/1 a 0/1
y_pred_train_iso = [1 if x == -1 else 0 for x in y_pred_train_iso]
y_pred_test_iso = [1 if x == -1 else 0 for x in y_pred_test_iso]

print("Isolation Forest:")
print(classification_report(y_test, y_pred_test_iso))


## Autoencoders

In [None]:
# Definir el modelo Autoencoder
input_dim = X_train_scaled.shape[1]
encoding_dim = 14

input_layer = Input(shape=(input_dim,))
encoder = Dense(encoding_dim, activation="tanh")(input_layer)
encoder = Dense(int(encoding_dim / 2), activation="relu")(encoder)
decoder = Dense(int(encoding_dim / 2), activation='tanh')(encoder)
decoder = Dense(input_dim, activation='relu')(decoder)

autoencoder = Model(inputs=input_layer, outputs=decoder)
autoencoder.compile(optimizer='adam', loss='mean_squared_error')

# Entrenar el autoencoder
history = autoencoder.fit(X_train_scaled, X_train_scaled,
                          epochs=100,
                          batch_size=256,
                          shuffle=True,
                          validation_split=0.2,
                          verbose=1)

# Obtener las reconstrucciones
reconstructions = autoencoder.predict(X_train_scaled)
mse = np.mean(np.power(X_train_scaled - reconstructions, 2), axis=1)

# Determinar el umbral de reconstrucción
threshold = np.percentile(mse, 95)

# Evaluar en el conjunto de prueba
reconstructions_test = autoencoder.predict(X_test_scaled)
mse_test = np.mean(np.power(X_test_scaled - reconstructions_test, 2), axis=1)
y_pred_test_ae = [1 if x > threshold else 0 for x in mse_test]

print("Autoencoder:")
print(classification_report(y_test, y_pred_test_ae))


## Comparación de Otros Modelos

In [None]:
# Random Forest
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train_scaled, y_train)
y_pred_test_rf = rf.predict(X_test_scaled)

print("Random Forest:")
print(classification_report(y_test, y_pred_test_rf))


In [None]:
# SVM
svm = SVC(kernel='rbf', gamma='auto')
svm.fit(X_train_scaled, y_train)
y_pred_test_svm = svm.predict(X_test_scaled)

print("SVM:")
print(classification_report(y_test, y_pred_test_svm))


In [None]:
# Neural Networks
nn = MLPClassifier(hidden_layer_sizes=(50, 25), max_iter=100, alpha=1e-4,
                   solver='adam', verbose=10, tol=1e-4, random_state=42)
nn.fit(X_train_scaled, y_train)
y_pred_test_nn = nn.predict(X_test_scaled)

print("Neural Networks:")
print(classification_report(y_test, y_pred_test_nn))


## Lazypredict

In [27]:
!pip install lazypredict

Collecting lazypredict
  Obtaining dependency information for lazypredict from https://files.pythonhosted.org/packages/bb/df/936639581c018ac59b1096d34e42d39e967d97bf09b1fdb1645e64852e36/lazypredict-0.2.12-py2.py3-none-any.whl.metadata
  Downloading lazypredict-0.2.12-py2.py3-none-any.whl.metadata (12 kB)
Collecting lightgbm (from lazypredict)
  Obtaining dependency information for lightgbm from https://files.pythonhosted.org/packages/e1/4c/4685ccfae9806f561de716e32549190c1f533dde5bcadaf83bdf23972cf0/lightgbm-4.3.0-py3-none-win_amd64.whl.metadata
  Downloading lightgbm-4.3.0-py3-none-win_amd64.whl.metadata (19 kB)
Collecting xgboost (from lazypredict)
  Obtaining dependency information for xgboost from https://files.pythonhosted.org/packages/24/ec/ad387100fa3cc2b9b81af0829b5ecfe75ec5bb19dd7c19d4fea06fb81802/xgboost-2.0.3-py3-none-win_amd64.whl.metadata
  Downloading xgboost-2.0.3-py3-none-win_amd64.whl.metadata (2.0 kB)
Downloading lazypredict-0.2.12-py2.py3-none-any.whl (12 kB)
Downloa

DEPRECATION: Loading egg at c:\programdata\anaconda3\lib\site-packages\vboxapi-1.0-py3.11.egg is deprecated. pip 23.3 will enforce this behaviour change. A possible replacement is to use pip for package installation..


In [117]:
import pandas as pd
import numpy as np
from lazypredict.Supervised import LazyClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler

In [119]:
# Combinamos los datos de entrenamiento y prueba para una preprocesamiento unificado
combined_data = pd.concat([train_data, test_data])

In [121]:
# Convertir la columna de fecha y hora a datetime
combined_data['trans_date_trans_time'] = pd.to_datetime(combined_data['trans_date_trans_time'])

# Crear nuevas características basadas en la fecha y hora
combined_data['trans_year'] = combined_data['trans_date_trans_time'].dt.year
combined_data['trans_month'] = combined_data['trans_date_trans_time'].dt.month
combined_data['trans_day'] = combined_data['trans_date_trans_time'].dt.day
combined_data['trans_hour'] = combined_data['trans_date_trans_time'].dt.hour

# Eliminar la columna original de fecha y hora
combined_data.drop(columns=['trans_date_trans_time'], inplace=True)

# Convertir la columna de fecha de nacimiento a datetime y calcular la edad
combined_data['dob'] = pd.to_datetime(combined_data['dob'], errors='coerce')
combined_data['age'] = 2024 - combined_data['dob'].dt.year  # Asumimos que el año actual es 2024

# Eliminar la columna original de fecha de nacimiento
combined_data.drop(columns=['dob'], inplace=True)

# Eliminar la columna trans_num porque no es útil para el análisis
combined_data.drop(columns=['trans_num'], inplace=True)

# Identifi

In [123]:
# Identificar y codificar variables categóricas
categorical_cols = ['merchant', 'category', 'first', 'last', 'gender', 'street', 'city', 'state', 'job']

In [125]:
# Aplicar label encoding a cada columna categórica
label_encoders = {}
for col in categorical_cols:
    le = LabelEncoder()
    combined_data[col] = le.fit_transform(combined_data[col])
    label_encoders[col] = le


In [127]:
# Verificar los tipos de datos para asegurarse de que todas las columnas son numéricas
print(X_train.dtypes)

# Si hay otras columnas no numéricas, convertirlas a un formato numérico adecuado

Unnamed: 0       int64
cc_num           int64
merchant         int32
category         int32
amt            float64
first            int32
last             int32
gender           int32
street           int32
city             int32
state            int32
zip              int64
lat            float64
long           float64
city_pop         int64
job              int32
unix_time        int64
merch_lat      float64
merch_long     float64
is_fraud         int64
trans_year       int32
trans_month      int32
trans_day        int32
trans_hour       int32
age              int32
dtype: object


In [131]:
# Separar los datos de entrenamiento y prueba
train_data = combined_data.iloc[:len(train_data), :]
test_data = combined_data.iloc[len(train_data):, :]

In [133]:
# Dividir las características y la variable objetivo
X = train_data.drop(columns=['is_fraud'])
y = train_data['is_fraud']

In [135]:
# Verificar los tipos de datos de las características
print(X.dtypes)

# Verificar si hay valores NaN o no numéricos
print(X.isnull().sum())

Unnamed: 0       int64
cc_num           int64
merchant         int32
category         int32
amt            float64
first            int32
last             int32
gender           int32
street           int32
city             int32
state            int32
zip              int64
lat            float64
long           float64
city_pop         int64
job              int32
unix_time        int64
merch_lat      float64
merch_long     float64
trans_year       int32
trans_month      int32
trans_day        int32
trans_hour       int32
age              int32
dtype: object
Unnamed: 0     0
cc_num         0
merchant       0
category       0
amt            0
first          0
last           0
gender         0
street         0
city           0
state          0
zip            0
lat            0
long           0
city_pop       0
job            0
unix_time      0
merch_lat      0
merch_long     0
trans_year     0
trans_month    0
trans_day      0
trans_hour     0
age            0
dtype: int64


In [137]:
# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=123)

In [139]:
# Estandarizar los datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [141]:
# Verificar que los datos estandarizados sean numéricos y no contengan NaNs
print(X_train_scaled.dtype)
print(X_test_scaled.dtype)
print(np.isnan(X_train_scaled).sum())
print(np.isnan(X_test_scaled).sum())

float64
float64
0
0


In [145]:
# Utilizar LazyClassifier para evaluar diferentes modelos
clf = LazyClassifier(verbose=0, ignore_warnings=True, custom_metric=None)
models, predictions = clf.fit(X_train_scaled, X_test_scaled, y_train, y_test)

# Convertir los resultados a un DataFrame de pandas
results_df = pd.DataFrame(models)

100%|██████████| 29/29 [00:00<00:00, 30.69it/s]

[LightGBM] [Info] Number of positive: 7, number of negative: 641
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000173 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 3491
[LightGBM] [Info] Number of data points in the train set: 648, number of used features: 24
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.010802 -> initscore=-4.517119
[LightGBM] [Info] Start training from score -4.517119
                               Accuracy  Balanced Accuracy  ROC AUC  F1 Score  \
Model                                                                           
BaggingClassifier                  1.00               0.75     0.75      1.00   
DecisionTreeClassifier             0.99               0.75     0.75      0.99   
NearestCentroid                    0.98               0.74     0.74      0.99   
GaussianNB                         0.67               0.71     0.71      0.80   
XGBClassifier               




In [151]:
# Imprimir el rendimiento de los modelos
print(results_df)

                               Accuracy  Balanced Accuracy  ROC AUC  F1 Score  \
Model                                                                           
BaggingClassifier                  1.00               0.75     0.75      1.00   
DecisionTreeClassifier             0.99               0.75     0.75      0.99   
NearestCentroid                    0.98               0.74     0.74      0.99   
GaussianNB                         0.67               0.71     0.71      0.80   
XGBClassifier                      1.00               0.62     0.62      0.99   
PassiveAggressiveClassifier        1.00               0.62     0.62      0.99   
AdaBoostClassifier                 0.99               0.62     0.62      0.99   
LinearDiscriminantAnalysis         0.99               0.62     0.62      0.99   
LogisticRegression                 0.99               0.50     0.50      0.99   
SVC                                0.99               0.50     0.50      0.99   
RidgeClassifierCV           