In [2]:
import os
import zipfile
from kaggle.api.kaggle_api_extended import KaggleApi

# Identificación en Kaggle
api = KaggleApi()
api.authenticate()

# Definir el dataset y la ubicación
dataset = 'sgpjesus/bank-account-fraud-dataset-neurips-2022'
file_name = 'Base.csv'
zip_file = 'bank-account-fraud-dataset-neurips-2022.zip'

# Descargar la dataset
api.dataset_download_files(dataset, path='.', unzip=False)

# Extraer el csv específico
with zipfile.ZipFile(zip_file, 'r') as z:
    z.extract(file_name, '.')


Dataset URL: https://www.kaggle.com/datasets/sgpjesus/bank-account-fraud-dataset-neurips-2022


In [5]:
import pandas as pd

# Cargar el dataset en un dataframe de Pandas
bank_account_fraud_df = pd.read_csv(".\Base.csv")
bank_account_fraud_df.head()

Unnamed: 0,fraud_bool,income,name_email_similarity,prev_address_months_count,current_address_months_count,customer_age,days_since_request,intended_balcon_amount,payment_type,zip_count_4w,...,has_other_cards,proposed_credit_limit,foreign_request,source,session_length_in_minutes,device_os,keep_alive_session,device_distinct_emails_8w,device_fraud_count,month
0,0,0.3,0.986506,-1,25,40,0.006735,102.453711,AA,1059,...,0,1500.0,0,INTERNET,16.224843,linux,1,1,0,0
1,0,0.8,0.617426,-1,89,20,0.010095,-0.849551,AD,1658,...,0,1500.0,0,INTERNET,3.363854,other,1,1,0,0
2,0,0.8,0.996707,9,14,40,0.012316,-1.490386,AB,1095,...,0,200.0,0,INTERNET,22.730559,windows,0,1,0,0
3,0,0.6,0.4751,11,14,30,0.006991,-1.863101,AB,3483,...,0,200.0,0,INTERNET,15.215816,linux,1,1,0,0
4,0,0.9,0.842307,-1,29,40,5.742626,47.152498,AA,2339,...,0,200.0,0,INTERNET,3.743048,other,0,1,0,0


In [7]:
# Definir el dataset
bank_account_fraud_df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 32 columns):
 #   Column                            Non-Null Count    Dtype  
---  ------                            --------------    -----  
 0   fraud_bool                        1000000 non-null  int64  
 1   income                            1000000 non-null  float64
 2   name_email_similarity             1000000 non-null  float64
 3   prev_address_months_count         1000000 non-null  int64  
 4   current_address_months_count      1000000 non-null  int64  
 5   customer_age                      1000000 non-null  int64  
 6   days_since_request                1000000 non-null  float64
 7   intended_balcon_amount            1000000 non-null  float64
 8   payment_type                      1000000 non-null  object 
 9   zip_count_4w                      1000000 non-null  int64  
 10  velocity_6h                       1000000 non-null  float64
 11  velocity_24h                      1000

### **Información del dataset
- El dataset "bank account fraud" es de origen sintético que consta de 1 Millón de Filas y 32 Columnas.

### **Información de las columnas:**
- *fraud_bool (binaria):* tipo de dato integer, indica si la aplicación es fraudulenta o no. 
- *income (numérica):* tipo float, ingreso anual del aplicante, en deciles. Rango entre 0.1 y 0.9.
- *name_email_similarity (numérica):* tipo de dato float, medida de similaridad entre el email del aplicante y su nombre.
- *prev_address_months_count (numérica):* tipo de dato integer, cantidad de meses en la que el aplicante registro una dirección anterior. Ejemplo: si aplica, la dirección previa del aplicante. Rango entre -1 y 380 meses, donde -1 es un valor que falta.   
- *current_address_months_count (numérica):* tipo de dato integer, cantidad de meses que el applicante se mantiene en la misma dirección. Rangos entre -1 y 429 meses, donde -1 es un valor que falta. 
- *customer_age (numérica):* tipo de dato integer, edad del aplicante en años, redondeado a la decada. Rangos de 10 a 90 años.
- *days_since_request (númerica):* tipo de dato float, número de días que han transcurrido desde que la applicación fue realizada.
- *intended_balcon_amount (numérica):* tipo de dato float, cantidad inicial transferida por el aplicante. Rangos entre -16 y 114, los negativos indican valores que faltan.
- *payment_type (categórica):* tipo de dato object, tipo de plan de pagos de creditos. Cinco posibles valores (Anónimos)
- *zip_count_4w (numérica):* tipo de dato integer, número de aplicantes dentro del mismo código postal en las últimas cuatro semanas. Rangos entre 1 y 68030.
- *velocity_6h (numérica):* tipo de dato float, velocidad del total de aplicaciones realizadas en las últimas seis horas. Ejemplo: promedio de aplicaciones realizadas por hora en las últimas 6 horas. Rango entre -175 y 16818.
- *velocity_24h (numérica):* tipo de dato float, velocidad del total de aplicaciones realizadas en las últimas 24 horas. Ejemplo: promedio de aplicaciones realizadas por hora en las últimas 24 horas. Rango entre 1297 y 9586.
- *velocity_4w (numérica):* tipo de dato float, velocidad del total de aplicaciones realizadas en las últimas 4 semanas. Ejemplo: promedio de aplicaciones realizadas por hora en las últimas 4 semanas. Rango entre 2825 y 7020.
- *bank_branch_count_8w (numérica):* tipo de dato integer, número de aplicaciones totales en la sucursal del banco seleccionada en las últimas 8 semanas. Rangos entre 0 y 2404.
- *date_of_birth_distinct_emails_4w (numérica):* tipo de dato integer, número de email por aplicantes con la misma fecha de nacimiento en las últimas 4 semanas. Rango entre 0 y 39. 
- *employment_status (categórica):* tipo de data object, situación laboral del aplicante. Siete posibles valores (anónimos).
- *credit_risk_score (numérica):* tipo de dato integer, puntaje inteno de riesgo de aplicación. Rangos entre -191 y 389.
- *email_is_free (binaria):* tipo de dato integer, dominio del email de la aplicación, puede ser gratis o pago.
- *housing_status (categórica):* tipo de dato object, situación residencial actual del aplicante. Siete valores posibles (anonimo).
- *phone_home_valid (binaria):* tipo de dato integer, validez del número de télefono proporcionado.
- *phone_mobile_valid (binaria):* tipo de dato integer, validez del número de télefono movil proporcionado.
- *bank_months_count (numérica):* tipo de dato integer, antigüedad de cuenta anterior en meses, si la tiene.
- *has_other_cards (binaria):* tipo de dato integer, si el aplicante tiene otras tarjetas del mismo banco.
- *proposed_credit_limit (numérica):* tipo de dato float, límite de crédito propuesto por al aplicante. Rango entre 200 y 2000.
- *foreign_request (binaria):* tipo de dato integer, si el país de origen del requerimiento es diferente al país del banco.
- *source (categórica):* tipo de dato object, medio online para la aplicación. Puede ser navegador (INTERNET) o app (TELEAPP)
- *session_length_in_minutes (numérica):* tipo de dato float, duración de la sesión del usuario en la página web del usuario en minutos. Rangos entre -1 y 107, donde -1 representa un valor faltante. 
- *device_os (categórica):* tipo de dato object, sistema operativo del dispositivo donde se realiza el requerimiento. Los posibles valores son: Windows, macOS, Linux, X11 u otro.
- *keep_alive_session ():*
- *device_distinct_emails_8w*
- *device_fraud_count*
- *month*