# Fase 1 ‚Äì Comprensi√≥n del Negocio


## üè¶ Contexto del Proyecto

Una entidad bancaria, proveniente de la India, busca ***mejorar la toma de decisiones estrat√©gicas*** mediante el uso de sus datos hist√≥ricos de clientes y transacciones.

Actualmente, el banco cuenta con registros de **clientes, transacciones y perfiles de valor**, pero carece de un sistema predictivo robusto para:

- Detectar **transacciones fraudulentas**.  
- Identificar **clientes de alto valor** para retenci√≥n.  
- Segmentar clientes seg√∫n su **recencia, frecuencia y valor monetario (RFM)**.  
- Estimar el **valor futuro de las transacciones** para planificaci√≥n financiera.  

Esto genera **riesgos financieros** y p√©rdida de **oportunidades de negocio**.


## üéØ Objetivos del Proyecto

- **General**: aprovechar datos hist√≥ricos para construir un sistema de an√°lisis predictivo y descriptivo con t√©cnicas de Machine Learning.  

- **Espec√≠ficos**:  
  - Dise√±ar un modelo de **clasificaci√≥n** que anticipe si una transacci√≥n ser√° fraudulenta.  
  - Construir un modelo de **regresi√≥n** para predecir el monto promedio futuro de transacciones por cliente.  
  - Aplicar segmentaci√≥n basada en **RFM (Recency, Frequency, Monetary)** para agrupar clientes en perfiles de valor.  


## üìÇ Datasets Seleccionados
> Ubicaci√≥n: `data/01_raw/` (configurados en `conf/base/catalog.yml`)

Se seleccionaron **3 datasets principales** para el desarrollo del proyecto:

| Dataset           | Nivel | Uso en ML | Justificaci√≥n |
|-------------------|-------|-----------|---------------|
| **cleaned_dataset** | Transacci√≥n | Clasificaci√≥n (fraude), an√°lisis temporal | Datos ya depurados; combina informaci√≥n de cliente + transacciones |
| **customer_agg**   | Cliente | Regresi√≥n (gasto futuro), features agregadas | Resume comportamiento hist√≥rico de cada cliente (totales, promedios, recencia, frecuencia) |
| **RFM**            | Cliente | Segmentaci√≥n (clustering/perfiles) | Incluye puntajes y segmentos predefinidos (Champions, At Risk, etc.) |

> Nota: el dataset **bank_customer_transactions** fue descartado al estar en formato crudo y ser redundante frente a `cleaned_dataset`.


### 1) **cleaned_dataset** (nivel: **transacci√≥n**)
- **Qu√© contiene:** `TransactionID`, `CustomerID`, `CustomerDOB`, `CustGender`, `CustLocation`, `CustAccountBalance`, `TransactionDate`, `TransactionTime`, `TransactionAmount (INR)`, `Age`.
- **Por qu√© se usa:** porque contiene datos **depurados** y listos para trabajar a nivel de transacci√≥n; base ideal para **clasificaci√≥n de fraude** y creaci√≥n de features temporales (recencia/estacionalidad).

### 2) **customer_agg** (nivel: **cliente**)
- **Qu√© contiene (agregados):** `txn_count`, `total_spent`, `avg_spent`, `max_spent`, `avg_balance`, `first_txn_date`, `last_txn_date`, `location`, `gender`, `recency_days`, `tenure_days`, `txn_per_day`, `avg_spent_pct_balance`.
- **Por qu√© se usa:** resume el **comportamiento hist√≥rico** por cliente; √∫til para **regresi√≥n** (gasto futuro) y para features de modelos supervisados.

### 3) **RFM** (nivel: **cliente**)
- Este dataset contiene informaci√≥n relevante porque el banco busca segmentar clientes para dise√±ar estrategias de retenci√≥n y marketing.
- **Qu√© contiene:** `Recency`, `Frequency`, `Monetary`, (`R`, `F` y `M`) indica sus puntajes individuales, `RFM Score` la puntuaci√≥n combinada para cada cliente, (`Segment`, `Segment_Final`) corresponden a la categor√≠a de cliente, usada en estrategias del banco.
- **Por qu√© se usa:** Entonces se usar√° porque permite **segmentar** r√°pidamente la base y validar perfiles (**Champions**: alta frecuencia, gasto alto, compras recientes. **At Risk**: sol√≠an comprar pero llevan mucho tiempo inactivos. **Needs Attention**: nivel intermedio, podr√≠an ser recuperados. **Critical**: clientes con baja frecuencia, poco gasto y alta recencia).


### 4) **Significado de las variables**

| Dataset         | Variable                  | Definici√≥n                                                                 |
|-----------------|---------------------------|-----------------------------------------------------------------------------|
| cleaned_dataset | TransactionID             | Identificador √∫nico de la transacci√≥n.                                      |
| cleaned_dataset | CustomerID                | Identificador √∫nico del cliente.                                            |
| cleaned_dataset | CustomerDOB               | Fecha de nacimiento del cliente.                                            |
| cleaned_dataset | CustGender                | G√©nero del cliente.                                                         |
| cleaned_dataset | CustLocation              | Ubicaci√≥n del cliente.                                                      |
| cleaned_dataset | CustAccountBalance        | Saldo disponible al momento de la transacci√≥n.                              |
| cleaned_dataset | TransactionDate           | Fecha de la transacci√≥n.                                                    |
| cleaned_dataset | TransactionTime           | Hora de la transacci√≥n.                                                     |
| cleaned_dataset | TransactionAmount (INR)   | Monto de la transacci√≥n en rupias indias.                                   |
| cleaned_dataset | Age                       | Edad del cliente.                                                           |
| customer_agg    | txn_count                 | N√∫mero de transacciones realizadas.                                         |
| customer_agg    | total_spent               | Gasto total hist√≥rico.                                                      |
| customer_agg    | avg_spent                 | Gasto promedio por transacci√≥n.                                             |
| customer_agg    | max_spent                 | Monto m√°ximo gastado en una transacci√≥n.                                    |
| customer_agg    | avg_balance               | Saldo promedio mantenido por el cliente.                                    |
| customer_agg    | first_txn_date            | Fecha de la primera transacci√≥n.                                            |
| customer_agg    | last_txn_date             | Fecha de la √∫ltima transacci√≥n.                                             |
| customer_agg    | location                  | Ubicaci√≥n del cliente.                                                      |
| customer_agg    | gender                    | G√©nero del cliente.                                                         |
| customer_agg    | recency_days              | D√≠as desde la √∫ltima transacci√≥n.                                           |
| customer_agg    | tenure_days               | Tiempo de relaci√≥n con el banco en d√≠as.                                    |
| customer_agg    | txn_per_day               | Frecuencia de transacciones por d√≠a.                                        |
| customer_agg    | avg_spent_pct_balance     | Proporci√≥n promedio del gasto respecto al saldo.                            |
| RFM             | Recency                   | D√≠as desde la √∫ltima transacci√≥n.                                           |
| RFM             | Frequency                 | N√∫mero de transacciones en un per√≠odo.                                      |
| RFM             | Monetary                  | Monto total gastado en el per√≠odo.                                          |
| RFM             | R                         | Puntuaci√≥n de recency.                                                      |
| RFM             | F                         | Puntuaci√≥n de frequency.                                                    |
| RFM             | M                         | Puntuaci√≥n de monetary.                                                     |
| RFM             | RFM Score                 | Combinaci√≥n de R, F y M en una sola m√©trica.                                |
| RFM             | Segment                   | Segmento preliminar del cliente.                                            |
| RFM             | Segment_Final             | Segmento final ajustado (*Champions, At Risk, Needs Attention, Critical*).  |


## üìå Situaci√≥n Actual

- El banco posee **grandes vol√∫menes de datos**, pero no los utiliza en un proceso automatizado.  
- El an√°lisis actual es **manual y reactivo**, dificultando la detecci√≥n temprana de fraude.  
- No existen modelos predictivos que permitan **anticipar riesgos** ni proyectar el **valor futuro de clientes**.  


## üß† Objetivos de Machine Learning

- **Clasificaci√≥n** ‚Üí Determinar si una transacci√≥n es **fraudulenta o leg√≠tima** (`cleaned_dataset`).  
- **Regresi√≥n** ‚Üí Estimar el **monto promedio futuro** de transacciones por cliente (`customer_agg`).  
- **Segmentaci√≥n (RFM)** ‚Üí Generar perfiles de clientes (`RFM`) para estrategias de retenci√≥n y marketing.  


## üó∫Ô∏è Plan del Proyecto (CRISP-DM)

| Semana | Actividad Principal | Entregable |
|--------|---------------------|------------|
| **1**  | Comprensi√≥n del negocio | Notebook `01_business_understanding.ipynb` |
| **2**  | An√°lisis exploratorio de datos (EDA) | Notebook `02_data_understanding.ipynb` |
| **3**  | Preparaci√≥n y Limpieza de los datos | Notebook `03_data_preparation.ipynb` |
| **4**  | Modelado y entrega final | Repositorio GitHub con README y pipelines Kedro |
| **5**  | Documentaci√≥n y entrega final | Repositorio GitHub con README y pipelines Kedro |

## üë• Equipo de Trabajo

- üßë‚Äçüíª **Sebasti√°n Carrera**  
- üßë‚Äçüíª **Kevin Vivanco**