##  Configuraci√≥n inicial

En este apartado se definen las librer√≠as necesarias y se cargan las rutas del proyecto.  
Este paso asegura la reproducibilidad del an√°lisis y prepara el entorno para las fases posteriores del EDA.


## Importo librerias

In [3]:
# Librer√≠as principales
import pandas as pd
from pathlib import Path

# Configuraci√≥n general
pd.set_option('display.max_columns', None)



## Localizaci√≥n Proyecto y carga de Dataset

In [4]:
# Detectar la ra√≠z real del proyecto (carpeta que contiene "DATA")
PROJECT_ROOT = Path.cwd().resolve()

# Si est√°s dentro de NOTEBOOKS, sube un nivel
if PROJECT_ROOT.name.lower() == "notebooks":
    PROJECT_ROOT = PROJECT_ROOT.parent

# Si a√∫n no ves DATA, sube hasta encontrarla
while not (PROJECT_ROOT / "DATA").exists() and PROJECT_ROOT.parent != PROJECT_ROOT:
    PROJECT_ROOT = PROJECT_ROOT.parent

# Verificaci√≥n de seguridad
if not (PROJECT_ROOT / "DATA").exists():
    raise FileNotFoundError("No encuentro la carpeta 'DATA'. Abre el notebook dentro del proyecto.")





# Carga
FNAME = "dataset_limpio_y_transformado.csv"
ruta_dataset = PROJECT_ROOT / "DATA" / "DATA_OUTPUT" / FNAME

# Comprobaci√≥n y carga segura
if not ruta_dataset.exists():
    # B√∫squeda recursiva en caso de estar en otra subcarpeta
    hits = list(PROJECT_ROOT.rglob(FNAME))
    if hits:
        ruta_dataset = hits[0]

if not ruta_dataset.exists():
    raise FileNotFoundError(
        f"No encuentro el archivo {FNAME}. Vuelve a exportarlo a DATA/DATA_OUTPUT/ o revisa su nombre.\n"
        f"Prob√© en: {ruta_dataset.parent}"
    )




# üíº INFORME T√âCNICO ‚Äì EDA EN PYTHON
## Limpieza, Transformaci√≥n y An√°lisis Exploratorio de Datos
### üß† Proyecto Final ‚Äì M√°ster en Data Analytics
---
---


### üìò Estructura del informe EDA en Python.
1. **Introducci√≥n** 
2. **Datos y calidad** 
3. **Principales transformaciones**  
4. **An√°lisis visual (8 gr√°ficos) con insights y recomendaciones**   
5. **Conclusi√≥n general del proyecto y utilidad**
* S√≠ntesis global del flujo de trabajo
* Principales hallazgos del an√°lisis.
* Utilidad del proyecto para negocio y para an√°lisis de datos.
* Cierre








## 1. Introducci√≥n


### üéØ Objetivo del an√°lisis
Realizar un **an√°lisis exploratorio de datos (EDA)** sobre un conjunto de **operaciones financieras** para:
- **Identificar patrones, relaciones y tendencias** asociados a **fraude vs. no fraude**.
- Entender c√≥mo variables como **comercio, tipo de comercio, nivel de riesgo (alto/medio/bajo), antig√ºedad, tipo de operaci√≥n, tipo de tarjeta, resultado de la operaci√≥n** se relacionan con la probabilidad de fraude.
- Generar **insights accionables** que ayuden a **priorizar revisiones**, **afinar reglas** y **mejorar la prevenci√≥n** y la **gesti√≥n operativa del fraude**.

Preguntas gu√≠a:
- ¬øCu√°l es la **prevalencia de fraude** global y por **segmentos** (merchant / tipo de comercio / nivel de riesgo / tipo de operaci√≥n)?
- ¬øExisten **picos temporales** de fraude (por d√≠a/mes/hora o por antig√ºedad de la cuenta)?
- ¬øQu√© **combinaciones de variables** incrementan el riesgo?.
- ¬øQu√© diferencias hay por variables **geogr√°ficas** (*`region` = regi√≥n del cliente; `country` = pa√≠s donde se realiza la operaci√≥n*)?
- ¬øQu√© **insights** pueden convertirse en **acciones** concretas?

Estas preguntas act√∫an como gu√≠a del an√°lisis y orientan la b√∫squeda de patrones en los datos.

Cada una de ellas se abordar√° a lo largo del informe mediante gr√°ficos, m√©tricas y conclusiones .



---

### üß© Contexto del dataset

El an√°lisis parte de **dos archivos originales**:

1) **Clientes (original)** ‚Üí contiene informaci√≥n b√°sica del cliente: customer_id, nombre, email, phone, region, country, created_at, risk_core.  
2) **Transacciones (original)** ‚Üí recoge el detalle de operaci√≥n: transaction_id, customer_id, transaction_time, amount, currency, merchant, merchant_category, arn, entry_mode, card_bin6, card_last4, card_masked, card_tipe, card_expiry, transation_result, is_fraud. 

Ambos archivos se **unieron mediante una columna en com√∫n** (customer_id), dando lugar a un **√∫nico dataset consolidado** que integra tanto el perfil del cliente como la informaci√≥n transaccional.  

El resultado de esta uni√≥n se someti√≥ posteriormente a un proceso de **limpieza y transformaci√≥n**, del cual surgi√≥ el archivo final **`dataset_limpio_y_transformado.csv`**.  
Este √∫ltimo es el que se utiliza en el an√°lisis exploratorio y en todo el informe.



---
---


## üìà 2. Datos y calidad

### 2.1. Origen y consolidaci√≥n
El an√°lisis se ha desarrollado a partir de un conjunto de **datos sint√©ticos** que simulan operaciones financieras reales.  
El proyecto parte de **dos fuentes iniciales**:

1. **Clientes** ‚Üí informaci√≥n general del cliente (identificador, correo, tel√©fono, pa√≠s, etc.).  
2. **Transacciones** ‚Üí operaciones financieras con detalle de comercio, importe, tipo de tarjeta, modo de entrada, nivel de riesgo y etiqueta de fraude.

Ambos conjuntos se **unieron mediante una columna en com√∫n (`customer_id`)**, generando un **dataset consolidado** que integra el comportamiento transaccional con los atributos del cliente.  
Posteriormente, se llev√≥ a cabo un proceso de **limpieza, transformaci√≥n y normalizaci√≥n**, cuyo resultado final se guard√≥ en el archivo:

> **`dataset_limpio_y_transformado.csv`**  
> Este archivo constituye la **fuente √∫nica de verdad** sobre la que se ha desarrollado todo el an√°lisis exploratorio.


---

### 2.2. Estructura y volumen

Antes de comenzar con la limpieza y transformaci√≥n de datos, se part√≠a de dos ficheros sint√©ticos independientes:

- `clientes_sinteticos.csv`  
- `transacciones_sinteticas.csv`  

Ambos contienen informaci√≥n complementaria relativa al perfil del cliente y a las operaciones realizadas.

Tras unir ambos datasets utilizando la clave com√∫n correspondiente, se obtuvo la siguiente estructura inicial:

- **Filas totales (tras la uni√≥n):** **60.000**  
- **Columnas totales:** **23**

Este volumen inicial cumple sobradamente con los requisitos del proyecto, que exig√≠an trabajar con un dataset mayor a **50.000 observaciones**.


El resultado final, tras la limpieza y transformaci√≥n completa:


- **Filas:** **39.906**  
- **Columnas:** **34**  
- **Tasa global de fraude (`is_fraud`):** **1,10 %**

Variables relevantes:

- `is_fraud`  ‚Üí indicador principal (1 = fraude, 0 = no fraude). 
- `risk_level`  ‚Üí clasificaci√≥n de riesgo (alto, medio, bajo).
- `entry_mode` ‚Üí modo de entrada de la transacci√≥n (*chip, contactless, magstripe, wallet, ecommerce*).   
- `transaction_result` ‚Üí resultado de la operaci√≥n (*approved, declined, pending*). 
- `card_type`  ‚Üí tipo de tarjeta (*VISA, MASTERCARD, AMEX, DISCOVER*).
- `merchant_category`   ‚Üí categor√≠a o tipo de comercio (*electronics, fashion, grocery, travel, etc.*).
- `amount`   ‚Üí importe de la transacci√≥n.  
- `risk_score`   ‚Üí puntuaci√≥n num√©rica de riesgo asignada a la transacci√≥n.
- `region_normalized`   ‚Üí regi√≥n de residencia o pa√≠s del cliente. 
- `country_normalized`  ‚Üí pa√≠s donde se ha realizado la operaci√≥n.
- `customer_days_active` ‚Üí n√∫mero de d√≠as que el cliente llevaba activo en el sistema.
---

### 2.3. Completitud y nulos
- **Nulos totales en el dataset:** **0**.  
- **Nulos por columna:** **ninguna columna** presenta valores nulos tras la consolidaci√≥n.

---

### 2.4. Integridad y duplicados
- **Duplicados en `transaction_id`:** **0** ‚Üí cada transacci√≥n es √∫nica.  
- **Relaci√≥n cliente‚Äìtransacci√≥n:** consistente **1‚Äìa‚ÄìN** (sin p√©rdidas evidentes en la clave).

---

### 2.5. Tipos y rangos (checks b√°sicos)
- **Importe (`amount`):**  
  - **m√≠n:** 2,35 ¬∑ **q25:** 111,76 ¬∑ **mediana:** 187,69 ¬∑ **q75:** 261,12 ¬∑ **m√°x:** 656,13  
  - **Importes negativos:** **0**
- **Divisa (`currency`):** **EUR** (√∫nica).
- **Categor√≠as principales:**
  - `risk_level`: **Alto, Medio, Bajo**  
  - `entry_mode`: **chip, contactless, ecommerce, magstripe, wallet**  
  - `transaction_result`: **approved, declined, pending**  
  - `card_type`: **AMEX, DISCOVER, MASTERCARD, VISA**  
  - `merchant_category`: **electronics, fashion, gaming, grocery, pharmacy, restaurant, travel**

---

### 2.6. Fechas y coherencia temporal
- **`transaction_date`**: de **2024-10-11** a **2025-10-12**  
- **`created_at`**: de **2024-06-17** a **2026-02-02**

**Chequeo de coherencia (`transaction_date` vs `created_at`):**  
- Registros con **transacci√≥n anterior a `created_at`**: **19.899**.

> **Interpretaci√≥n:** este comportamiento sugiere que **`created_at` no representa necesariamente la ‚Äúfecha de alta inicial‚Äù** de la cuenta/tarjeta, sino **otro hito (p. ej., fecha de alta del perfil en sistema actual, migraci√≥n o actualizaci√≥n)**.  
> Por ello, para medir antig√ºedad operativa se utiliza **`customer_days_active`**, no la comparaci√≥n directa `transaction_date < created_at`.

---

### 2.7. Normalizaci√≥n y geograf√≠a
- **Pa√≠s/Regi√≥n:**  
  - `region_normalized` (residencia del cliente) y `country_normalized` (pa√≠s de operaci√≥n) est√°n **normalizados** (nombres consistentes).  
  - Existe bandera **`is_international`** para detectar operaciones fuera del pa√≠s del cliente.  
- **Codificaciones en min√∫sculas/estandarizadas** en: `entry_mode`, `transaction_result`, `merchant_category`.  
  

---

### 2.8. Conclusi√≥n 
El dataset final presenta **excelente completitud (0 nulos)**, **unicidad por transacci√≥n**, valores monetarios **dentro de rangos plausibles** y categor√≠as **bien estandarizadas**.  
La √∫nica consideraci√≥n de calidad es la **interpretaci√≥n de `created_at`**, que no debe usarse como ‚Äúfecha de alta original‚Äù al comparar con `transaction_date`; para antig√ºedad se dispone de **`customer_days_active`**.  
Con estas garant√≠as, el conjunto es adecuado para analizar el **comportamiento del fraude** por riesgo, tarjeta, comercio, geograf√≠a y resultado de la operaci√≥n.

---
---

## üîÑ 3. Principales transformaciones

### 3.1. Consolidaci√≥n de fuentes
- **Uni√≥n** de los dos or√≠genes (clientes + transacciones) mediante **`customer_id`**.
- Se conserv√≥ **toda la casu√≠stica transaccional** (join 1‚ÄìN desde transacciones), generando un √∫nico dataset consolidado.
- Resultado de la consolidaci√≥n: **`dataset_limpio_y_transformado.csv`** .


---

### 3.2. Conversi√≥n de tipos
- **Fechas** a `datetime`: `transaction_date`, `created_at`.
- **Num√©ricos**: `amount` y `risk_score` a tipo num√©rico.
- **Categ√≥ricas**: `risk_level`, `entry_mode`, `transaction_result`, `card_type`, `merchant_category`, `region_normalized`, `country_normalized`.

---

### 3.3. Normalizaci√≥n y estandarizaci√≥n de categor√≠as
- **Etiquetas consistentes** en:
  - `risk_level` ‚Üí **Alto / Medio / Bajo**  
  - `entry_mode` ‚Üí **chip / contactless / ecommerce / magstripe / wallet**  
  - `transaction_result` ‚Üí **approved / declined / pending**  
  - `card_type` ‚Üí **AMEX / DISCOVER / MASTERCARD / VISA**
- **Geograf√≠a normalizada**:
  - `region_normalized` = pa√≠s/regi√≥n del cliente (normalizado).
  - `country_normalized` = pa√≠s de la operaci√≥n (normalizado).
 

---

### 3.4. Variables temporales derivadas
- Desde `transaction_date` se generaron:
  - **`month`** (1‚Äì12), **`weekday`** (0‚Äì6), **`hour`/`transaction_hour`**, **`month_year`** (etiqueta Y‚ÄìM).
- Objetivo: habilitar **series temporales**, estacionalidad y an√°lisis por franjas horarias.

---

### 3.5. Antig√ºedad operativa del cliente
- **`customer_days_active`**: d√≠as de actividad del cliente disponibles en el dataset y utilizados para los an√°lisis por madurez.
- **Nota t√©cnica:** 
Se intent√≥ calcular la antig√ºedad restando `transaction_date - created_at`, pero se detectaron valores **negativos** en una parte significativa de los registros.
Esto ocurre porque `created_at` no representa la fecha de alta original, sino una fecha m√°s reciente (posiblemente de migraci√≥n o actualizaci√≥n de sistema).
Por ello, se decidi√≥ **no utilizar esa resta directa** y en su lugar emplear la variable `customer_days_active`, que refleja correctamente los d√≠as de actividad acumulados del cliente.

---

### 3.6. Campos de tarjeta y comercio
- **Tarjeta**: `card_type` (marca), `card_bin6`, `card_last4`, `card_masked`, `card_expiry` (soporte anal√≠tico/operativo).
- **Comercio**: `merchant` y **`merchant_category`** (electronics, fashion, gaming, grocery, pharmacy, restaurant, travel).

---

### 3.7. Controles de calidad posteriores a las transformaciones
 Se identificaron **filas incompletas** en las que √∫nicamente figuraba el campo `TransactionID`, mientras que el resto de columnas se encontraban vac√≠as. Estas filas se eliminaron al no aportar informaci√≥n anal√≠tica.   
- **Nulos**: **0** nulos en el dataset (todas las columnas).
- **Duplicados** en `transaction_id`: **0**.
- **Importes (`amount`)**: rango **[2.35 ; 656.13]**, sin valores negativos.
- **Fechas**: `transaction_date` en **[2024-10-11 ; 2025-10-12]**; `created_at` en **[2024-06-17 ; 2026-02-02]**.  
  Se documenta la **posible desalineaci√≥n sem√°ntica** de `created_at` (no usar como ‚Äúalta original‚Äù).

---

### 3.8. Filtros y decisiones de conservaci√≥n
- Se conservaron **todas las categor√≠as** de `entry_mode`, `transaction_result`, `card_type` y `merchant_category` para mantener representatividad.

---
### 3.9. Agrupaciones clave empleadas en el EDA (sin modificar el dataset)

En este notebook se desarrollaron distintos **an√°lisis cruzados y res√∫menes estad√≠sticos** orientados a identificar patrones de fraude en la base de datos.  
Cada cruce se dise√±√≥ con una finalidad anal√≠tica espec√≠fica, priorizando la relaci√≥n entre variables clave como `is_fraud`, `merchant_category`, `entry_mode`, `risk_level`, y `risk_score`.

---

#### Tablas y cruces anal√≠ticos realizados


| Tabla / Variable derivada | Descripci√≥n | M√©tricas calculadas | Enfoque |
|-----------------------------|--------------|----------------------|----------|
| `res_merchant` | Agrupaci√≥n por **categor√≠a de comercio (`merchant_category`)**. | N√∫mero total de operaciones, fraudes, tasa de fraude, importe medio/mediano, riesgo medio, peso de operaciones y fraudes. | Identificar los **sectores con mayor exposici√≥n al fraude**. |
| `res_merchant_by_type` | Agrupaci√≥n doble por **tipo de comercio y tipo de transacci√≥n (fraude/no fraude)**. | Importe medio, importe mediano, riesgo medio. | Comparar el **comportamiento econ√≥mico de fraudes vs no fraudes** por sector. |
| `top_by_rate` | Ranking de las categor√≠as con **mayor tasa de fraude**. | Tasa de fraude ordenada descendente. | Determinar los **comercios prioritarios en vigilancia antifraude**. |
| `plot_df` (comparativa fraude vs no fraude) | Filtrado de los 10 principales comercios por volumen. | Importe medio agrupado por tipo de transacci√≥n. | Analizar la **variaci√≥n de importes medios** entre fraudes y operaciones leg√≠timas. |
| `fraude_por_entry` | Agrupaci√≥n por **modo de entrada (`entry_mode`)**. | Porcentaje de fraude por tipo de operaci√≥n. | Evaluar **qu√© canales presentan mayor incidencia de fraude**. |
| `freq_entry` | Frecuencia total de operaciones por modo de entrada. | Porcentaje de uso. | Relacionar el **volumen operativo con la tasa de fraude**. |
| `analisis_entry` | Uni√≥n de `fraude_por_entry` y `freq_entry`. | Tasa de fraude (%) y frecuencia de uso (%). | Permite visualizar la **relaci√≥n entre popularidad del canal y su vulnerabilidad**. |
| `tabla_entry_risk` | Cruce entre **entry_mode y risk_level** mediante tabla cruzada. | Distribuci√≥n porcentual de niveles de riesgo (Alto, Medio, Bajo) por canal. | Determinar **qu√© modos de entrada concentran mayor proporci√≥n de riesgo alto o medio**. |
| `resumen_entry` | S√≠ntesis final de prevalencia y volumen por `entry_mode`. | N√∫mero de operaciones y tasa de fraude. | Combinar **exposici√≥n (volumen)** y **prevalencia (fraude)** en una misma visi√≥n global. |

---

#### Objetivo de las agrupaciones y cruces

El prop√≥sito de las agrupaciones desarrolladas en este notebook es ofrecer una **visi√≥n anal√≠tica integral del fraude**, combinando indicadores de frecuencia, valor econ√≥mico y riesgo operativo.

#### üéØ Objetivos espec√≠ficos:

1. **Detectar patrones de fraude por tipo de comercio**  
   - Identificar los sectores con **mayor tasa y volumen de fraudes**.  
   - Determinar si los fraudes se concentran en operaciones de alto importe o riesgo.  

2. **Evaluar la influencia del canal de entrada (`entry_mode`) en la probabilidad de fraude**  
   - Analizar qu√© m√©todos (wallet, magstripe, chip, etc.) presentan **mayor vulnerabilidad**.  
   - Relacionar el uso masivo de ciertos canales con la efectividad de los controles.  

3. **Examinar la relaci√≥n entre riesgo y fraude**  
   - A trav√©s de la tabla `entry_mode` vs `risk_level`, se identifican los **modos con mayor proporci√≥n de riesgo medio-alto**, reforzando el an√°lisis predictivo.  

4. **Relacionar volumen de operaciones y prevalencia de fraude**  
   - Mediante res√∫menes combinados, se detectan canales con **alta actividad operativa y elevada incidencia de fraude**, priorizando la mitigaci√≥n en esos puntos.  

5. **Visualizar hallazgos mediante gr√°ficos y rankings claros**  
   - Las visualizaciones (heatmaps, barras comparativas y rankings) aportan una **visi√≥n inmediata de las √°reas cr√≠ticas**, favoreciendo la toma de decisiones basada en datos.


Estos an√°lisis constituyen la base de los **gr√°ficos e insights** que se desarrollan posteriormente en el informe.

**Resultado:** tras estas transformaciones, el dataset qued√≥ **coherente, completo (0 nulos)** y con variables **normalizadas y derivadas** que permiten explicar el fraude por **canal, riesgo, tarjeta, comercio, geograf√≠a, temporalidad y resultado** sin p√©rdida de informaci√≥n.

---
---


# üìÅ Visualizaciones Exportadas (EDA)

Este apartado recoge las visualizaciones generadas durante el an√°lisis exploratorio del dataset de operaciones fraudulentas. Las gr√°ficas se organizan por tem√°tica para facilitar una lectura coherente del comportamiento del fraude en el tiempo, por canal de entrada, por tipo de comercio y por segmentos relevantes.

---

## üïí Distribuci√≥n temporal de operaciones

### **Operaciones fraudulentas por d√≠a**  
- Archivo: `Operaciones_fraudulentas_dia.png`  
- Permite identificar patrones diarios en la actividad fraudulenta.  
- Ayuda a detectar picos an√≥malos.

### **Operaciones fraudulentas por hora del d√≠a**  
- Archivo: `Operaciones_fraudulentas_hora_dia.png`  
- Muestra las franjas horarias con mayor incidencia de fraude.  

### **Operaciones fraudulentas por semana**  
- Archivo: `Operaciones_fraudulentas_semana.png`  
- Eval√∫a tendencias semanales y posibles aumentos recurrentes.  

### **Distribuci√≥n de fraudes por mes**  
- Archivo: `Distribucion_fraudes_por_mes.png`  
- Mide la estacionalidad del fraude por mes.

---

## üì≤ An√°lisis por modo de entrada (Entry Mode)

### **Distribuci√≥n general por entry mode**  
- Archivo: `Distribucion_general_entry_mode.png`  
- Muestra c√≥mo se distribuyen las operaciones seg√∫n el m√©todo de entrada.  

### **Entry mode vs nivel de riesgo**  
- Archivo: `entrymode_risklevel.png`  
- Permite ver si ciertos modos de entrada concentran operaciones de mayor *risk_score*.  

---

## üè™ An√°lisis por tipo de comercio y categor√≠a

### **Operaciones por tipo de tarjeta y comercio**  
- Archivo: `operaciones_tipo_tarjeta_comercio.png`  
- Relaciona tipos de tarjeta con categor√≠as de comercio.

### **Importe medio por categor√≠a (Fraude vs No fraude)**  
- Archivo: `importe_medio_fraude_vs_no_fraude_top10.png`  
- Compara los importes medios entre operaciones fraudulentas y no fraudulentas.

### **Fraude por tipo de tarjeta**  
- Archivo: `fraude_por_tipo_tarjeta.png`  
- Identifica qu√© tarjetas presentan mayor proporci√≥n de fraude.

### **Top pa√≠ses por volumen de fraude**  
- Archivo: `top_paises_volumen_operaciones_fraude.png`  
- Muestra los pa√≠ses con mayor concentraci√≥n de operaciones fraudulentas.

### **Distribuci√≥n geogr√°fica del risk_score**  
- Archivo: `geo_risk_score_violin.png`  
- Analiza la distribuci√≥n del *risk_score* por regi√≥n o pa√≠s.

---

## üîç Comparativas de fraude y an√°lisis avanzado

### **Comparativa general de fraude**  
- Archivo: `comparativa_fraude.csv`  
- Resumen estad√≠stico del comportamiento global de fraude vs no fraude.

### **Tasa de fraude por nivel de riesgo**  
- Archivos:  
  - `amount_por_risk_level.csv`  
  - `amount_por_risk_level.png`  
- Relacionan riesgo y volumen econ√≥mico.

### **Distribuci√≥n del fraude**  
- Archivo: `distribucion_fraude.csv`  
- Tabla descriptiva complementaria al an√°lisis visual.

### **Tasa de fraude por merchant (Top N)**  
- Archivo: `tasa_fraude_topN_merchant.png`  
- Identifica comercios con mayor tasa relativa de fraude.

### **Fraude por resultado de transacci√≥n**  
- Archivo: `fraude_por_resultado_transaccion.png`  
- Analiza el fraude seg√∫n el resultado de la operaci√≥n.

---

## üßæ Resumen estad√≠stico

- Archivo: `resumen_estadistico.csv`  
- Incluye estad√≠sticas descriptivas de las principales variables num√©ricas del dataset.


---
---

# üëÅÔ∏è‚Äçüó®Ô∏è 4. An√°lisis visualizaciones exploratorias

A continuaci√≥n se presentan las principales visualizaciones del an√°lisis exploratorio, centradas en la detecci√≥n de patrones de fraude seg√∫n canal, tipo de tarjeta, riesgo, comercio, resultado y evoluci√≥n temporal.  
Cada gr√°fico incluye una breve interpretaci√≥n (‚Äúinsight‚Äù) basada en los datos del EDA.

---

## üìä 1. Relaci√≥n entre frecuencia de uso y tasa de fraude seg√∫n el modo de entrada (`entry_mode`)
![Distribuci√≥n por entry_mode](../DATA/DATA_OUTPUT/EDA/Distribucion_general_entry_mode.png)



El gr√°fico muestra la **relaci√≥n entre el porcentaje total de operaciones** y la **tasa de fraude** para cada tipo de modo de entrada (`entry_mode`), representando as√≠ tanto la **popularidad de uso** como el **riesgo relativo** asociado a cada canal de transacci√≥n.



Esta visualizaci√≥n permite identificar **qu√© modo de entrada concentra mayor volumen de uso** y **en cu√°les se presenta una mayor proporci√≥n de fraude**.

#### üìà Insights:
1. **`wallet` (billeteras digitales)**  
   - Es el canal con **mayor frecuencia de uso (‚âà20%)** y tambi√©n muestra la **tasa de fraude m√°s elevada (‚âà1.28%)**.  
   - Indica que, aunque es el medio m√°s utilizado, **representa un foco importante de riesgo** y requiere un seguimiento reforzado.  

2. **`magstripe` y `contactless`**  
   - Mantienen una participaci√≥n similar (‚âà19‚Äì20% de operaciones), con tasas de fraude algo menores (‚âà1.1‚Äì1.15%).  
   - Se consideran **canales moderadamente seguros**, aunque su alto volumen los convierte en **zonas potenciales de exposici√≥n**.  

3. **`ecommerce`**  
   - A pesar de su **volumen de uso cercano al 20%**, presenta una **tasa de fraude inferior (‚âà0.98%)**.  
   - Esto sugiere que **las medidas antifraude implementadas en pagos online est√°n resultando efectivas**, o bien que las transacciones sospechosas son detectadas antes de completarse.  

4. **`chip` (EMV)**  
   - Es el canal **m√°s seguro**, con la **tasa de fraude m√°s baja (‚âà0.96%)**.  
   - Este resultado es consistente con la tecnolog√≠a de chip, que incorpora **mecanismos criptogr√°ficos m√°s robustos** frente a clonaciones y usos indebidos.

#### üß© Conclusiones
- Existe una **tendencia descendente clara**: a mayor seguridad tecnol√≥gica del m√©todo de entrada, menor es la tasa de fraude.  
- Sin embargo, los canales **m√°s c√≥modos o r√°pidos para el usuario** (wallet y contactless) tienden a ser **m√°s susceptibles a intentos de fraude**.  
- Estos resultados pueden utilizarse para **priorizar controles o campa√±as de prevenci√≥n** seg√∫n el canal de entrada m√°s expuesto.  


---

## üí≥ 2. Porcentaje de fraude por tipo de tarjeta (`card_type`)
![Fraude por tipo de tarjeta](../DATA/DATA_OUTPUT/EDA/fraude_por_tipo_tarjeta.png)





El gr√°fico muestra la **tasa de operaciones fraudulentas (%)** seg√∫n el tipo de tarjeta utilizada, permitiendo identificar **qu√© marcas presentan mayor vulnerabilidad** frente al fraude.



#### üìà Insights:
1. **AMEX**  
   - Registra la **tasa de fraude m√°s alta (‚âà1.38%)**, superando ligeramente al resto.  
   - Este resultado podr√≠a estar asociado a su **perfil de cliente m√°s internacional** y al uso frecuente en **entornos digitales o de alto importe**, donde la exposici√≥n al fraude suele ser mayor.

2. **MASTERCARD**  
   - Presenta una tasa de fraude similar (‚âà1.32%).  
   - Aunque ampliamente distribuida, su uso masivo en distintos comercios la convierte en un **objetivo habitual de intentos de fraude**.

3. **DISCOVER**  
   - Muestra una tasa intermedia (‚âà1.18%), manteniendo un comportamiento relativamente estable.  
   - Indica una **exposici√≥n moderada**, posiblemente por su menor volumen de operaciones globales.

4. **VISA**  
   - Es la tarjeta **con menor tasa de fraude (‚âà0.90%)**, lo que sugiere **mayor efectividad de sus controles antifraude y autenticaci√≥n**.  
   - Puede relacionarse con una **amplia red de detecci√≥n temprana** y adopci√≥n de est√°ndares EMV en la mayor√≠a de sus operaciones.

#### üß© Conclusiones
- Se observa una **brecha de riesgo de aproximadamente 0.5 puntos porcentuales** entre la marca m√°s vulnerable (AMEX) y la m√°s segura (VISA).  
- Las diferencias pueden deberse tanto a **estrategias de control de riesgo propias de cada red** como a la **naturaleza de los clientes y comercios asociados**.  
- Este an√°lisis permite **priorizar la vigilancia y los controles adicionales** en los tipos de tarjeta con mayor tasa de fraude detectada.  

---

## üè™ 3. Tipo de comercio √ó tipo de tarjeta (`merchant_category √ó card_type`)
![Mapa de calor comercio √ó tarjeta](../DATA/DATA_OUTPUT/EDA/operaciones_tipo_tarjeta_comercio.png)





El gr√°fico muestra el **reparto porcentual de las operaciones por tipo de tarjeta dentro de cada categor√≠a de comercio**, permitiendo analizar la **preferencia de uso de las distintas marcas** (AMEX, DISCOVER, MASTERCARD y VISA) seg√∫n el sector.



#### üìà Insights:
1. **Predominio de VISA**  
   - VISA concentra la **mayor proporci√≥n de operaciones** en todos los sectores analizados, superando aproximadamente el **45‚Äì50% del total de transacciones**.  
   - Esto la posiciona como la **tarjeta m√°s utilizada por los clientes**, reflejando su amplia aceptaci√≥n y cobertura internacional.

2. **MASTERCARD con fuerte presencia**  
   - Representa cerca de un **30‚Äì35% de las operaciones**, manteniendo un peso significativo en todos los tipos de comercio.  
   - Su cuota estable sugiere **una alta penetraci√≥n en comercios generalistas y minoristas**.

3. **AMEX y DISCOVER con uso limitado**  
   - Ambas presentan participaciones menores, en torno al **8‚Äì10% cada una**, con ligeras variaciones por sector.  
   - El uso de **AMEX** tiende a ser m√°s elevado en **moda, viajes y restauraci√≥n**, sectores asociados a **gasto medio-alto y clientes internacionales**.  
   - **DISCOVER**, en cambio, mantiene una presencia m√°s homog√©nea pero reducida, concentrada en **pagos online o de nicho**.

#### üß© Conclusiones
- El mercado muestra una **clara concentraci√≥n de operaciones en las redes VISA y MASTERCARD**, lo que puede implicar una **mayor exposici√≥n agregada al riesgo** en estos emisores.  
- Los comercios de **viajes, restauraci√≥n y moda** son los que presentan **mayor diversidad de marcas**, posiblemente por su **perfil de cliente internacional**.  
- Esta distribuci√≥n es √∫til para **evaluar la exposici√≥n al fraude por tipo de producto y sector**, especialmente al cruzarla con la **tasa de fraude por tarjeta** obtenida en el an√°lisis anterior.  

---

## üß© 4. Modo de entrada √ó nivel de riesgo (`entry_mode √ó risk_level`)
![Distribuci√≥n por entry_mode y risk_level](../DATA/DATA_OUTPUT/EDA/entrymode_risklevel.png)





El mapa de calor muestra la **distribuci√≥n porcentual de los niveles de riesgo (Alto, Medio, Bajo)** seg√∫n el **modo de entrada de la transacci√≥n (`entry_mode`)**, ofreciendo una visi√≥n clara de qu√© canales presentan mayor concentraci√≥n de riesgo.



#### üìà Insights:
1. **Predominio del nivel de riesgo medio (‚âà40‚Äì42%)**  
   - En todos los modos de entrada, **el riesgo medio es el m√°s frecuente**, lo que sugiere una **exposici√≥n moderada generalizada** en las operaciones.  
   - Este patr√≥n indica que, aunque no hay un riesgo extremo predominante, **los canales mantienen una vulnerabilidad constante**.

2. **`magstripe` muestra el mayor riesgo relativo (42% medio)**  
   - Las transacciones con **banda magn√©tica** concentran el porcentaje m√°s alto de operaciones en nivel de riesgo medio.  
   - Esto confirma que **los m√©todos m√°s antiguos presentan mayor vulnerabilidad** frente a fraude o anomal√≠as.

3. **`ecommerce` y `wallet` mantienen un perfil equilibrado**  
   - Ambos presentan distribuciones muy pr√≥ximas al promedio (‚âà41% medio, 31% alto, 27‚Äì28% bajo).  
   - Muestran un **riesgo moderado y estable**, propio de canales digitales que aplican validaciones adicionales.

4. **`chip` y `contactless` exhiben perfiles de riesgo controlados**  
   - Con una proporci√≥n similar de riesgo alto (‚âà31‚Äì32%) y bajo (‚âà27‚Äì28%).  
   - Esto respalda la **efectividad de las tecnolog√≠as EMV y sin contacto** en la reducci√≥n del riesgo operativo.

#### üß© Conclusiones
- Existe una **consistencia en la distribuci√≥n de niveles de riesgo entre canales**, con predominio del **riesgo medio**, lo que sugiere una exposici√≥n homog√©nea.  
- **Magstripe** sigue siendo el **modo de entrada m√°s sensible**, lo que justifica **acciones preventivas espec√≠ficas** o **migraci√≥n tecnol√≥gica** hacia m√©todos m√°s seguros.  
- Este an√°lisis permite **priorizar controles antifraude por canal**, alineando los esfuerzos de mitigaci√≥n con la exposici√≥n al riesgo observada.


---

## üí° 5. Porcentaje de fraude por resultado (`transaction_result`)
![Fraude por resultado](../DATA/DATA_OUTPUT/EDA/fraude_por_resultado_transaccion.png)





El gr√°fico representa el **porcentaje de operaciones fraudulentas** seg√∫n el **resultado final de la transacci√≥n** (aprobada, pendiente o declinada).  
Permite evaluar la **efectividad de los filtros de autorizaci√≥n** y entender en qu√© fase se concentran las tentativas de fraude.



#### üìà Insights:
1. **Transacciones declinadas ‚Üí mayor tasa de fraude (‚âà2.07%)**  
   - La mayor√≠a de las operaciones fraudulentas se concentran en las **transacciones rechazadas**.  
   - Esto indica que **los controles antifraude est√°n actuando correctamente**, detectando comportamientos sospechosos antes de que la operaci√≥n se autorice.  

2. **Transacciones pendientes ‚Üí riesgo intermedio (‚âà1.28%)**  
   - Los casos en espera representan una fracci√≥n relevante de operaciones potencialmente fraudulentas.  
   - Es un grupo a **monitorizar con especial atenci√≥n**, ya que podr√≠an incluir transacciones leg√≠timas bajo revisi√≥n o intentos de fraude no confirmados.

3. **Transacciones aprobadas ‚Üí menor tasa de fraude (‚âà1.01%)**  
   - El porcentaje m√°s bajo se encuentra entre las **operaciones autorizadas**, lo que evidencia una **eficiente capa de prevenci√≥n y filtrado previo**.  
   - Sin embargo, sigue existiendo una fracci√≥n de fraude residual que **consigue superar los filtros iniciales**.

#### üß© Conclusiones
- El an√°lisis demuestra una **buena eficacia de los mecanismos de detecci√≥n temprana**, que bloquean la mayor√≠a de los intentos antes de su aprobaci√≥n.  
- No obstante, el **1% de fraude aprobado** evidencia la necesidad de **reforzar controles en tiempo real y post-autorizaci√≥n**.  
- En conjunto, este comportamiento refleja una **operativa madura de prevenci√≥n**, pero con **margen de mejora en los casos lim√≠trofes** (pendientes o borderline).


---

## üïí 6. Evoluci√≥n temporal de transacciones (d√≠a)
![Tasa de fraude mensual](../DATA/DATA_OUTPUT/EDA/Operaciones_fraudulentas_dia.png)




El gr√°fico presenta la **distribuci√≥n diaria de las operaciones fraudulentas dentro de cada mes**, lo que permite analizar la **variabilidad del fraude a lo largo del ciclo mensual** y detectar posibles patrones de comportamiento.



#### üìà Insights:
1. **Mayor concentraci√≥n entre los d√≠as 1‚Äì5 y 24‚Äì27 del mes**  
   - Los **inicios y finales de mes** muestran un aumento notable de operaciones fraudulentas (picos de 19 a 21 casos).  
   - Este patr√≥n puede relacionarse con **cierres de facturaci√≥n, ciclos de n√≥mina o movimientos financieros habituales**, momentos donde los defraudadores buscan camuflar sus operaciones entre transacciones leg√≠timas.

2. **Descensos pronunciados hacia los d√≠as 10‚Äì12 y 18‚Äì22**  
   - En la parte media del mes se observan varios descensos (con m√≠nimos de 3 y 8 casos).  
   - Esto puede indicar **periodos de menor actividad econ√≥mica** o una **mejor eficacia de los sistemas de control** en esos intervalos.

3. **Actividad irregular pero con repeticiones c√≠clicas**  
   - Se aprecia un **ritmo de repunte cada 8‚Äì10 d√≠as**, lo que podr√≠a reflejar **patrones de prueba o ‚Äútesting‚Äù de fraudes recurrentes**.

#### üß© Conclusiones
- El fraude presenta una **din√°mica c√≠clica dentro del mes**, con **mayor intensidad en los extremos del periodo**.  
- Este comportamiento sugiere que los atacantes **aprovechan los momentos de mayor volumen transaccional** (cobros, pagos, cierres contables).  
- Se recomienda **reforzar los controles autom√°ticos y alertas preventivas** durante los **primeros y √∫ltimos cinco d√≠as del mes**, cuando la exposici√≥n al riesgo es m√°s elevada.


---

## üïí 7. Evoluci√≥n temporal de transacciones (hora/d√≠a)
![Tasa de fraude mensual](../DATA/DATA_OUTPUT/EDA/Operaciones_fraudulentas_hora_dia.png)





El gr√°fico combina la **cantidad total de operaciones por hora del d√≠a** (barras verdes) con la **tasa de fraude (%)** asociada (l√≠nea roja).  
Este enfoque permite identificar **horas cr√≠ticas del d√≠a** donde el volumen operativo y el fraude no siguen el mismo patr√≥n.



#### üìà Insights:
1. **Mayor tasa de fraude entre las 2:00 y las 3:00 h (‚âà3%)**  
   - A pesar del bajo volumen de operaciones, el porcentaje de fraude es muy alto.  
   - Este comportamiento sugiere **actividad fraudulenta concentrada en horas de baja supervisi√≥n**, posiblemente aprovechando la menor carga operativa de control.

2. **Segundo pico relevante hacia las 15:00 h (‚âà3%)**  
   - Coincide con un horario de **alta actividad comercial**, lo que indica que los intentos de fraude **aumentan durante periodos de mayor flujo de transacciones**.

3. **Franja de menor riesgo: entre las 10:00 y las 13:00 h**  
   - Durante las horas laborales est√°ndar, tanto el volumen como la tasa de fraude descienden.  
   - Esto puede asociarse a **mejoras en los controles activos** o **mayor atenci√≥n de los equipos de revisi√≥n manual**.

4. **Alta actividad de operaciones entre 8:00 y 20:00 h**, pero sin correlaci√≥n directa con el fraude.  
   - La mayor parte del volumen se concentra en horas diurnas, aunque la tasa de fraude **permanece moderada**.  
   - Indica que **el riesgo no depende solo del volumen**, sino de **comportamientos espec√≠ficos en franjas concretas**.

#### üß© Conclusiones
- El fraude muestra **dos patrones horarios bien diferenciados**:  
  - **Nocturno (2‚Äì3 h)**: fraude oportunista en baja actividad.  
  - **Vespertino (15 h)**: fraude en picos de alto tr√°fico comercial.  
- Se recomienda **reforzar los sistemas de detecci√≥n en tiempo real** durante estas franjas cr√≠ticas, aplicando controles din√°micos por hora.  
- El an√°lisis demuestra que **la vigilancia continua no debe ser homog√©nea**, sino **adaptativa seg√∫n el riesgo horario**.


---

## üïí 8. Tasa de fraude por pa√≠s del comercio.
![Tasa de fraude mensual](../DATA/DATA_OUTPUT/EDA/top_pais_comercio_fraude_volumen_operaciones.png)




El gr√°fico muestra el **porcentaje de operaciones fraudulentas por pa√≠s del comercio**, considerando los **10 pa√≠ses de los comercios con mayor volumen de transacciones**.  
El objetivo es identificar **regiones con mayor propensi√≥n al fraude**, as√≠ como evaluar si existe **correlaci√≥n entre el volumen transaccional y la incidencia delictiva**.


#### üìà Insights:
1. **Mayores tasas de fraude en:**
   - **Netherlands Antilles (1.9%)**, **Spain (1.95%)** y **China (1.75%)**.  
     ‚Üí Estos pa√≠ses presentan **niveles de fraude muy por encima del promedio** del grupo.  
     ‚Üí En el caso de Espa√±a, la cifra elevada podr√≠a estar relacionada con **el alto volumen operativo local y la diversidad de canales de pago**.  
     ‚Üí En China y Antillas Neerlandesas, podr√≠a influir la **exposici√≥n a transacciones internacionales y comercio electr√≥nico**.

2. **Riesgo medio en:**
   - **Canada (1.2%)**, **Switzerland (1.15%)**, **Eritrea (1.28%)** y **Qatar (0.8%)**.  
     ‚Üí Estos pa√≠ses mantienen una **actividad moderada pero estable**, lo que indica **riesgo controlado pero persistente**.

3. **Menor exposici√≥n en:**
   - **Korea (0.5%)**, **Tonga (0.65%)** y **Jordan (0.95%)**.  
     ‚Üí Estos mercados reflejan **baja incidencia de fraude**, posiblemente por **marcos regulatorios m√°s estrictos o menor presencia transaccional internacional**.

#### üß© Conclusiones
- El comercio con fraude **no se distribuye de forma uniforme entre los pa√≠ses**: algunos mercados presentan **tasas elevadas sin necesariamente tener m√°s volumen**, lo que evidencia **factores espec√≠ficos de vulnerabilidad**.  
- Se recomienda **analizar la naturaleza de las operaciones internacionales** en pa√≠ses de alto riesgo (p. ej., **Espa√±a, China y Antillas Neerlandesas**) para identificar **posibles patrones de fraude transfronterizo**.  
- Este an√°lisis geogr√°fico es clave para **priorizar controles adaptados al contexto regional**, reforzando la detecci√≥n temprana en los pa√≠ses de los comercios con **mayor exposici√≥n o comportamiento at√≠pico**.

---
---

# 5.üßæ Conclusi√≥n general del proyecto y utilidad

## 1. S√≠ntesis global del flujo de trabajo

El proyecto se ha estructurado en cuatro notebooks encadenados que conforman un flujo de trabajo completo y reproducible de An√°lisis Exploratorio de Datos (EDA) aplicado a operaciones financieras con etiqueta de fraude:

1. **01_EDA_PRELIMINAR**  
   - Carga de los ficheros originales de clientes y operaciones.  
   - Verificaci√≥n de la ra√≠z del proyecto y definici√≥n de rutas de trabajo.  
   - Comprobaci√≥n de columnas comunes y uni√≥n de los datasets a trav√©s de la clave de cliente.  
   - Generaci√≥n de un primer dataset consolidado y guardado en la capa `DATA_RAW_OUTPUT`.  

2. **02_EDA_LIMPIEZA_TRANSFORMACION**  
   - Revisi√≥n sistem√°tica de tipos de datos, nulos y valores at√≠picos.  
   - Normalizaci√≥n de valores vac√≠os en variables categ√≥ricas (`''`, `' '`, `null`, `None`, `NA`, etc.) a `NaN`.  
   - Eliminaci√≥n o tratamiento de filas sin informaci√≥n √∫til (p.ej., registros con solo `transaction_id`).  
   - Conversi√≥n de columnas de fecha y num√©ricas a tipos adecuados, garantizando coherencia temporal y monetaria.  
   - Creaci√≥n de variables derivadas (por ejemplo, categorizaci√≥n de niveles de riesgo y otras variables auxiliares).  
   - Ordenaci√≥n y homogeneizaci√≥n del orden de columnas.  
   - Guardado del **dataset limpio y transformado** en la capa `DATA_OUTPUT/EDA`.

3. **03_EDA_ANALISIS_DESCRIPTIVO**  
   - Carga del dataset limpio y configuraci√≥n global de par√°metros de visualizaci√≥n.  
   - Definici√≥n de funciones de utilidad para guardar gr√°ficos (`.png`) y tablas (`.csv`) de forma consistente.  
   - An√°lisis descriptivo por bloques:
     - **Distribuci√≥n temporal** (d√≠a, hora, semana, mes).  
     - **Entry mode / canal de entrada** y su relaci√≥n con el riesgo.  
     - **Tipo de comercio y tipo de tarjeta** (distribuciones cruzadas, porcentajes, top categor√≠as).  
     - **Distribuci√≥n geogr√°fica** y an√°lisis de pa√≠ses con mayor volumen de fraude.  
     - **Comparativas fraude vs no fraude** (tanto en volumen como en importes medios).  
     - **Evaluaci√≥n del `risk_score`** mediante deciles y niveles, analizando si el modelo discrimina bien el fraude.  
   - Exportaci√≥n ordenada de todas las salidas a `DATA/DATA_OUTPUT/EDA`.

4. **04_INFORME**  
   - Integraci√≥n narrativa de todo el trabajo previo en un informe estructurado.  
   - Descripci√≥n del origen de los datos, criterios de limpieza y principales transformaciones.  
   - Inclusi√≥n de las visualizaciones exportadas y su interpretaci√≥n cualitativa.  
   - Redacci√≥n de s√≠ntesis y apartados explicativos orientados a negocio y a la toma de decisiones.

En conjunto, los cuatro notebooks constituyen un pipeline claro: **de datos crudos a informe anal√≠tico listo para stakeholders**, con trazabilidad completa de cada paso.

---

## 2. Principales hallazgos del an√°lisis

A partir del dataset limpio y del conjunto de visualizaciones generadas, se pueden destacar las siguientes conclusiones de alto nivel:

1. **Distribuci√≥n temporal del fraude**  
   - El desglose por d√≠a, semana, hora y mes permite detectar picos de actividad fraudulenta y patrones recurrentes.  
   - Estos patrones temporales son clave para reforzar recursos de monitorizaci√≥n en ventanas de mayor riesgo (franjas horarias concretas, determinados d√≠as de la semana o periodos del a√±o).

2. **Importancia del modo de entrada (entry mode)**  
   - El an√°lisis por `entry_mode` muestra que no todos los canales tienen el mismo comportamiento de riesgo.  
   - Los modos de entrada asociados a operaciones no presenciales o con menor verificaci√≥n suelen concentrar una proporci√≥n relativamente mayor de fraude, lo que justifica reglas y l√≠mites espec√≠ficos por canal.

3. **Diferencias seg√∫n tipo de comercio y categor√≠a**  
   - El estudio por categor√≠as de comercio y por tipo de tarjeta permite identificar sectores especialmente sensibles al fraude.  
   - Las comparativas de **importe medio (fraude vs no fraude)** por categor√≠a revelan que, en algunas verticales, las operaciones fraudulentas se asocian a tickets medios distintos de los regulares (m√°s altos en ciertos segmentos, similares o incluso inferiores en otros), lo que ayuda a dise√±ar umbrales de alerta m√°s precisos.  
   - El an√°lisis de comercios con mayor tasa relativa de fraude (top N merchants) facilita la priorizaci√≥n de revisiones y medidas de mitigaci√≥n espec√≠ficas por comercio.

4. **Dimensi√≥n geogr√°fica del riesgo**  
   - Las visualizaciones por pa√≠s y la distribuci√≥n geogr√°fica del `risk_score` muestran que el fraude no se distribuye de forma homog√©nea.  
   - Algunos pa√≠ses o regiones concentran un mayor volumen de operaciones fraudulentas o un perfil de riesgo m√°s elevado, lo que sugiere la necesidad de pol√≠ticas diferenciadas por geograf√≠a (controles adicionales, l√≠mites por pa√≠s, etc.).

5. **Evaluaci√≥n cr√≠tica del `risk_score` y sus deciles**  
   - El an√°lisis por deciles de `risk_score` y por niveles de riesgo revela que la tasa de fraude **no crece de forma perfectamente mon√≥tona** del decil 1 al decil 10.  
   - Se observan deciles intermedios (por ejemplo, el segundo y algunos deciles altos) con tasas de fraude comparables o incluso superiores a las del decil m√°ximo.  
   - Esta falta de escalada perfecta sugiere que:
     - el modelo de scoring puede requerir recalibraci√≥n,  
     - podr√≠an faltar variables explicativas relevantes, o  
     - el patr√≥n de fraude ha cambiado con el tiempo (drift).  
   - El resultado es especialmente valioso porque no solo describe el comportamiento del fraude, sino que **eval√∫a la calidad del modelo de riesgo existente**.

6. **Comportamiento global fraude vs no fraude**  
   - La comparaci√≥n sistem√°tica entre operaciones fraudulentas y no fraudulentas (en volumen, importe medio, distribuci√≥n por canales, pa√≠ses, categor√≠as y resultados de transacci√≥n) permite construir un perfil diferencial del fraude.  
   - Este perfil sirve como base para dise√±ar reglas, modelos predictivos y dashboards que se centren en los factores con mayor poder discriminante.

---

## 3. Utilidad del proyecto para negocio y para an√°lisis de datos

Este proyecto no se limita a un ejercicio acad√©mico de EDA, sino que aporta una **base pr√°ctica y reutilizable** para equipos de operaciones, riesgo y anal√≠tica:

1. **Base de datos limpia y documentada**  
   - El dataset final se encuentra **limpio, normalizado y enriquecido** con variables derivadas (niveles de riesgo, categor√≠as, etc.).  
   - La documentaci√≥n de cada transformaci√≥n facilita su reutilizaci√≥n en futuros proyectos (por ejemplo, modelos de clasificaci√≥n de fraude, reporting recurrente o integraci√≥n con herramientas como Power BI).

2. **Repositorio de visualizaciones clave**  
   - La carpeta `DATA/DATA_OUTPUT/EDA` act√∫a como un **cat√°logo de gr√°ficos y tablas** que cubre las principales dimensiones del fraude: tiempo, canal, comercio, pa√≠s, tipo de tarjeta, resultado de la operaci√≥n y score de riesgo.  
   - Estas salidas pueden incorporarse directamente a informes ejecutivos, presentaciones internas o dashboards interactivos.

3. **Marco anal√≠tico para la toma de decisiones**  
   - El an√°lisis muestra qu√© combinaciones de variables (entry mode, pa√≠s, categor√≠a de comercio, tipo de tarjeta, nivel de riesgo, etc.) son m√°s relevantes para entender el fraude.  
   - Esto permite:
     - redefinir reglas de negocio,  
     - ajustar l√≠mites de autorizaci√≥n,  
     - priorizar investigaciones manuales,  
     - y focalizar recursos en segmentos de mayor impacto.

4. **Evaluaci√≥n y mejora de modelos de riesgo**  
   - El trabajo sobre los deciles de `risk_score` y la comparativa de tasas de fraude por nivel de riesgo ofrece una **evaluaci√≥n objetiva del desempe√±o del score actual**.  
   - A partir de estos resultados se pueden plantear:
     - recalibraciones del modelo,  
     - incorporaci√≥n de nuevas variables,  
     - o incluso el dise√±o de modelos alternativos (por ejemplo, usando t√©cnicas de machine learning sobre el dataset ya preparado).

5. **Reproducibilidad y buenas pr√°cticas de Data Analytics**  
   - La separaci√≥n en cuatro notebooks (preliminar, limpieza/transformaci√≥n, an√°lisis descriptivo e informe) sigue un esquema profesional de proyecto de datos.  
   - El uso de rutas relativas, funciones de guardado, estructura de carpetas y sintaxis clara en Markdown facilita que otro analista pueda entender, ejecutar y extender el proyecto sin depender de conocimiento t√°cito.

---

## 4. Cierre

En resumen, el proyecto consigue:

- transformar datos dispersos de clientes y operaciones en un **dataset integrado y de calidad**,  
- realizar un **an√°lisis exploratorio profundo** que revela patrones temporales, geogr√°ficos, de canal y de negocio en el fraude,  
- y proporcionar una **base s√≥lida para la toma de decisiones y el dise√±o de futuros modelos y dashboards**.

La combinaci√≥n de limpieza rigorosa, an√°lisis visual y evaluaci√≥n cr√≠tica del `risk_score` convierte este trabajo en una herramienta de gran valor para cualquier √°rea de fraude y riesgo que quiera **entender mejor su operativa y mejorar sus estrategias de prevenci√≥n**.

---
---
---