# 📊 Fase 1 – Comprensión del Negocio


## 🏦 Contexto del Proyecto

Una entidad bancaria busca **mejorar la toma de decisiones estratégicas** mediante el uso de sus datos históricos de clientes y transacciones.  

Actualmente, el banco cuenta con registros de **clientes, transacciones y perfiles de valor**, pero carece de un sistema predictivo robusto para:

- Detectar **transacciones fraudulentas**.  
- Identificar **clientes de alto valor** para retención.  
- Segmentar clientes según su **recencia, frecuencia y valor monetario (RFM)**.  
- Estimar el **valor futuro de las transacciones** para planificación financiera.  

Esto genera **riesgos financieros** y pérdida de **oportunidades de negocio**.


## 🎯 Objetivos del Proyecto

- **General**: aprovechar datos históricos para construir un sistema de análisis predictivo y descriptivo con técnicas de Machine Learning.  

- **Específicos**:  
  - Diseñar un modelo de **clasificación** que anticipe si una transacción será fraudulenta.  
  - Construir un modelo de **regresión** para predecir el monto promedio futuro de transacciones por cliente.  
  - Aplicar segmentación basada en **RFM (Recency, Frequency, Monetary)** para agrupar clientes en perfiles de valor.  


## 📂 Datasets Seleccionados
> Ubicación: `data/01_raw/` (configurados en `conf/base/catalog.yml`)

Se seleccionaron **3 datasets principales** para el desarrollo del proyecto:

| Dataset           | Nivel | Uso en ML | Justificación |
|-------------------|-------|-----------|---------------|
| **cleaned_dataset** | Transacción | Clasificación (fraude), análisis temporal | Datos ya depurados; combina información de cliente + transacciones |
| **customer_agg**   | Cliente | Regresión (gasto futuro), features agregadas | Resume comportamiento histórico de cada cliente (totales, promedios, recencia, frecuencia) |
| **RFM**            | Cliente | Segmentación (clustering/perfiles) | Incluye puntajes y segmentos predefinidos (Champions, At Risk, etc.) |

> Nota: el dataset **bank_customer_transactions** fue descartado al estar en formato crudo y ser redundante frente a `cleaned_dataset`.


### 1) **cleaned_dataset** (nivel: **transacción**)
- **Qué contiene:** `TransactionID`, `CustomerID`, `CustomerDOB`, `CustGender`, `CustLocation`, `CustAccountBalance`, `TransactionDate`, `TransactionTime`, `TransactionAmount (INR)`, `Age`.
- **Por qué se usa:** porque contiene datos **depurados** y listos para trabajar a nivel de transacción; base ideal para **clasificación de fraude** y creación de features temporales (recencia/estacionalidad).

### 2) **customer_agg** (nivel: **cliente**)
- **Qué contiene (agregados):** `txn_count`, `total_spent`, `avg_spent`, `max_spent`, `avg_balance`, `first_txn_date`, `last_txn_date`, `location`, `gender`, `recency_days`, `tenure_days`, `txn_per_day`, `avg_spent_pct_balance`.
- **Por qué se usa:** resume el **comportamiento histórico** por cliente; útil para **regresión** (gasto futuro) y para features de modelos supervisados.

### 3) **RFM** (nivel: **cliente**)
- **Qué contiene:** `Recency`, `Frequency`, `Monetary`, `R`, `F`, `M`, `RFM Score`, `Segment`, `Segment_Final`.
- **Por qué se usa:** permite **segmentar** rápidamente la base y validar perfiles (**Champions, At Risk, Needs Attention, Critical**).


## 📌 Situación Actual

- El banco posee **grandes volúmenes de datos**, pero no los utiliza en un proceso automatizado.  
- El análisis actual es **manual y reactivo**, dificultando la detección temprana de fraude.  
- No existen modelos predictivos que permitan **anticipar riesgos** ni proyectar el **valor futuro de clientes**.  


## 🧠 Objetivos de Machine Learning

- **Clasificación** → Determinar si una transacción es **fraudulenta o legítima** (`cleaned_dataset`).  
- **Regresión** → Estimar el **monto promedio futuro** de transacciones por cliente (`customer_agg`).  
- **Segmentación (RFM)** → Generar perfiles de clientes (`RFM`) para estrategias de retención y marketing.  


## 🗺️ Plan del Proyecto (CRISP-DM)

| Semana | Actividad Principal | Entregable |
|--------|---------------------|------------|
| **1**  | Comprensión del negocio y selección de datasets | Notebook `01_business_understanding.ipynb` |
| **2**  | Análisis exploratorio de datos (EDA) | Notebook `02_data_understanding.ipynb` |
| **3**  | Limpieza y feature engineering | Notebook `03_data_preparation.ipynb` |
| **4**  | Modelado y entrega final | Repositorio GitHub con README y pipelines Kedro |

## 👥 Equipo de Trabajo

- 🧑‍💻 **Sebastián Carrera**  
- 🧑‍💻 **Kevin Vivanco**