# 📌 Plan de Trabajo: Detección de Fraude en Transacciones Financieras

## 🧠 Objetivo General
Desarrollar un modelo de machine learning que permita identificar con precisión transacciones financieras fraudulentas utilizando un conjunto de datos con múltiples atributos relacionados con el comportamiento transaccional.

---

## 1. 📥 Adquisición y Comprensión de Datos

### 🎯 Objetivo:
Comprender la estructura del dataset, las variables disponibles y la distribución de clases.

### Acciones:
- Cargar y explorar el dataset (`transactions.csv`)
- Analizar las variables: tipo de transacción, montos, saldos, etc.
- Verificar distribución de clases (`isFraud`), identificar desbalance.

---

## 2. 🧼 Preprocesamiento y Limpieza de Datos

### 🎯 Objetivo:
Preparar los datos para el modelado eliminando errores, inconsistencias y codificando variables.

### Acciones:
- Eliminar columnas irrelevantes o redundantes
- Conversión de variables categóricas (One-Hot o Label Encoding)
- Escalado de variables numéricas (StandardScaler o MinMaxScaler)
- Eliminación de duplicados, tratamiento de valores nulos
- Análisis de correlaciones para evitar multicolinealidad

---

## 3. 📊 Análisis Exploratorio de Datos (EDA)

### 🎯 Objetivo:
Identificar patrones, anomalías o características clave que diferencien transacciones fraudulentas.

### Acciones:
- Visualización de distribución por tipo de transacción (`type`)
- Comparación de montos entre transacciones normales y fraudulentas
- Análisis del comportamiento de `origin` y `destination`
- Heatmap de correlaciones
- Boxplots, histogramas y gráficos de dispersión

---

## 4. ⚖️ Manejo del Desbalance de Clases

### 🎯 Objetivo:
Corregir el desbalance entre transacciones normales y fraudulentas para evitar que el modelo se sesgue.

### Acciones:
- Evaluar proporción real (`isFraud`)
- Aplicar técnicas como:
  - **SMOTE** (Synthetic Minority Over-sampling Technique)
  - Undersampling de la clase mayoritaria
  - Técnicas híbridas

---

## 5. 🤖 Modelado Predictivo

### 🎯 Objetivo:
Entrenar, validar y comparar modelos de clasificación binaria para predecir fraude.

### Modelos a entrenar:
- Regresión Logística
- Árboles de Decisión
- Random Forest
- XGBoost
- LightGBM (opcional)
- K-Nearest Neighbors (opcional)

### Acciones:
- Dividir en conjuntos de entrenamiento y prueba
- Entrenar modelos con validación cruzada
- Ajuste de hiperparámetros con GridSearchCV

---

## 6. 🧪 Evaluación de Modelos

### 🎯 Objetivo:
Comparar modelos usando métricas adecuadas para datos desbalanceados.

### Métricas clave:
- Accuracy (limitada en clases desbalanceadas)
- **Precision, Recall, F1-score**
- **ROC-AUC Score**
- Curvas ROC y PR

---

## 7. 📄 Conclusiones y Recomendaciones

### 🎯 Objetivo:
Extraer hallazgos del análisis, evaluar viabilidad de implementación y sugerir mejoras.

### Acciones:
- Identificar el modelo con mejor rendimiento
- Analizar importancia de variables
- Discutir posibles aplicaciones reales en sistemas antifraude
- Documentar limitaciones y oportunidades de mejora
