# Preprocesamiento de Datos para Detección de Fraude en Tarjetas de Crédito

Este notebook tiene como objetivo realizar el preprocesamiento de los datos necesarios para entrenar modelos de detección de fraude en tarjetas de crédito. A continuación, se describen los pasos realizados en el notebook.

## Importar Librerías y Funciones

Primero, importamos las librerías necesarias y las funciones definidas en el archivo `data_prep.py` que se encuentra en la carpeta `src`.

In [1]:
import sys
sys.path.append('../src')

from data_prep import prepare_data, save_processed_data

## Ruta al Archivo de Datos

Definimos la ruta al archivo de datos en formato CSV que contiene las transacciones de tarjetas de crédito.

In [2]:

# Ruta al archivo de datos
data_path = "../data/raw/creditcard.csv"

## Preparar los Datos

**Utilizamos la función `prepare_data` para cargar y preprocesar los datos. Esta función realiza las siguientes tareas:**

- Carga el dataset desde el archivo CSV.
- Selecciona las variables más relevantes según el análisis de importancia de características.
- Aplica transformaciones a las variables necesarias (escalado y logaritmo).
- Divide los datos en conjuntos de entrenamiento y prueba.
- Aplica SMOTE para balancear las clases en el conjunto de entrenamiento.

In [3]:
# Preparar los datos
X_train, X_test, y_train, y_test = prepare_data(data_path)

## Guardar los Datos Procesados

**Utilizamos la función `save_processed_data` para guardar los datos procesados en archivos CSV en la carpeta processed.**

In [4]:
# Guardar los datos procesados
save_processed_data(X_train, X_test, y_train, y_test)

✔️ Datos procesados guardados en data/processed/


## Verificar las Formas de los Conjuntos de Datos

Finalmente, imprimimos las formas de los conjuntos de datos de entrenamiento y prueba para verificar que el preprocesamiento se ha realizado correctamente.

In [5]:
print(f"✔️ Train shape: {X_train.shape}, Test shape: {X_test.shape}")

✔️ Train shape: (454902, 11), Test shape: (56962, 11)
