# Prediccion y Deteccion Temprana de Fraudes
## Machine Learning Integrado con Calculo Diferencial e Integral

## Descripcion del Proyecto

Este proyecto implementa un sistema de deteccion de fraude bancario utilizando tecnicas de Machine Learning (Regresion Logistica) combinadas con fundamentos matematicos de calculo diferencial e integral.

El sistema analiza datos sinteticos de transacciones bancarias para identificar patrones de comportamiento fraudulento vs legitimo, alcanzando un AUC (Area Under the Curve) de **1.0**.

## Caracteristicas Principales

- **Exploracion de Datos**: Analisis inicial del dataset con visualizaciones
- **Modelo de Clasificacion**: Regresion Logistica para prediccion binaria
- **Fundamentos Matematicos**: Derivadas, optimizacion e integracion numerica
- **Curva ROC**: Visualizacion del rendimiento del clasificador
- **Optimizacion de Umbral**: Ajuste del threshold para minimizar errores
- **Evaluacion Interactiva**: Sistema de registro de evaluacion humana

## Dataset

El proyecto utiliza un dataset sintetico de transacciones bancarias con las siguientes caracteristicas:

| Caracteristica | Valor |
|----------------|-------|
| Total de registros | 100,001 |
| Total de columnas | 50 |
| Transacciones legitimas | 97.02% |
| Transacciones fraudulentas | 2.98% |

### Variables Principales Utilizadas (Features)

| Variable | Descripcion |
|----------|-------------|
| `ip_change_count_30d` | Cambios de IP en los ultimos 30 dias |
| `device_change_flag` | Indicador de cambio de dispositivo |
| `pct_large_tx_30d` | Porcentaje de transacciones grandes |
| `tx_to_new_payees_30d` | Transacciones a nuevos beneficiarios |
| `velocity_tx_1h` | Velocidad de transacciones por hora |
| `avg_tx_distance_km` | Distancia promedio de transacciones |
| `night_tx_ratio` | Proporcion de transacciones nocturnas |
| `is_vpn_flag` | Indicador de uso de VPN |

## Estructura del Proyecto

```
proyecto_deteccion_fraude/
|-- Datos/
|   |-- synthetic_bank_fraud_dataset.csv
|-- Registro/
|   |-- respuestas_humano.csv
|-- proyecto_deteccion_fraude.ipynb
|-- README.md
```

## Fundamentos Matematicos

### 1. Funcion de Perdida (Binary Cross Entropy)

```
L(y, y_hat) = -[y * ln(y_hat) + (1-y) * ln(1-y_hat)]
```

### 2. Derivada de la Funcion de Perdida

```
dL/dy_hat = (y_hat - y) / [y_hat * (1 - y_hat)]
```

Esta derivada es la base del algoritmo **Gradient Descent** utilizado en el entrenamiento.

### 3. Calculo del AUC (Area Under Curve)

Se utiliza la **Regla del Trapecio** para calcular el area bajo la curva ROC mediante integracion numerica.

## Resultados del Modelo

| Metrica | Valor |
|---------|-------|
| AUC (Area Under Curve) | 1.000 |
| Threshold Optimizado | 0.9366 |

## Requisitos

```
numpy
pandas
matplotlib
seaborn
scikit-learn
```

## Instalacion

```bash
pip install numpy pandas matplotlib seaborn scikit-learn
```

## Uso

1. Abrir el notebook `proyecto_deteccion_fraude.ipynb` en Jupyter
2. Ejecutar todas las celdas secuencialmente
3. Para probar con nuevos usuarios, modificar el diccionario `new_user`:

```python
new_user = {
    "ip_change_count_30d": 6,
    "device_change_flag": 0,
    "pct_large_tx_30d": 0.6,
    "tx_to_new_payees_30d": 0,
    "velocity_tx_1h": 2,
    "avg_tx_distance_km": 5,
    "night_tx_ratio": 1,
    "is_vpn_flag": 0
}
```

## Visualizaciones Incluidas

1. **Distribucion de Fraude**: Grafico de barras comparando transacciones legitimas vs fraudulentas
2. **Histograma de Montos**: Distribucion del monto promedio de transacciones
3. **Pairplot**: Relaciones entre variables clave segmentadas por clase
4. **Curva ROC**: Rendimiento del clasificador con AUC
5. **Grafico de Optimizacion**: Error vs Threshold
6. **Grafico Pie**: Rendimiento segun evaluacion humana

## Flujo del Modelo

```
Datos Crudos --> Seleccion Features --> Estandarizacion --> Train/Test Split
     |                                                             |
     v                                                             v
Visualizacion                                          Regresion Logistica
                                                               |
                                                               v
                                                       Prediccion (Proba)
                                                               |
                                                               v
                                                    Optimizacion Threshold
                                                               |
                                                               v
                                                      Prediccion Final
```

## Autor

Proyecto academico de Machine Learning

## Licencia

Proyecto educativo - Uso libre para fines academicos