## 1. Introducci√≥n

### üéØ Objetivo del an√°lisis
Realizar un **an√°lisis exploratorio de datos (EDA)** sobre un conjunto de **operaciones financieras** para:
- **Identificar patrones, relaciones y tendencias** asociados a **fraude vs. no fraude**.
- Entender c√≥mo variables como **comercio, tipo de comercio, nivel de riesgo (alto/medio/bajo), antig√ºedad de la cuenta**, y **tipo de operaci√≥n** (contactless, magstripe, chip, e-commerce) se relacionan con la probabilidad de fraude.
- Generar **insights accionables** que ayuden a **priorizar revisiones**, **afinar reglas** y **mejorar la prevenci√≥n** y la **gesti√≥n operativa del fraude**.

Preguntas gu√≠a:
- ¬øCu√°l es la **prevalencia de fraude** global y por **segmentos** (merchant / tipo de comercio / nivel de riesgo / tipo de operaci√≥n)?
- ¬øExisten **picos temporales** de fraude (por d√≠a/mes/hora o por antig√ºedad de la cuenta)?
- ¬øQu√© **combinaciones de variables** incrementan el riesgo (p. ej., ‚Äúnivel de riesgo = alto‚Äù + ‚Äúe-commerce‚Äù + ‚Äúcuentas recientes‚Äù)?
- ¬øQu√© diferencias hay por variables **geogr√°ficas** (*recordatorio: `region` = regi√≥n del cliente; `country` = pa√≠s donde se realiza la operaci√≥n*)?
- ¬øQu√© **insights** pueden convertirse en **acciones** concretas (nuevos controles, priorizaci√≥n de alertas, umbrales)?

---

### üß© Contexto del dataset
Partimos de tres archivos:
1) **Clientes (original)** y 2) **Transacciones (original)** ‚Äî no cumpl√≠an requisitos inicialmente y se **ampliaron**.  
3) **`dataset_limpio_y_transformado.csv` (final)** ‚Äî **uni√≥n** de fuentes + **limpieza y transformaci√≥n**; es la **fuente √∫nica de verdad** para este informe.

Variables relevantes (no exhaustivo):
- **Etiquetas de fraude** (fraude / no fraude).
- **Merchant** y **tipo de comercio**.
- **Risk level** (alto/medio/bajo).
- **Fecha de creaci√≥n de cuenta** (antig√ºedad al momento de la operaci√≥n).
- **Tipo de operaci√≥n** (contactless, magstripe, chip, e-commerce).
- Campos temporales y geogr√°ficos para an√°lisis de **tendencias** y **distribuciones**.

**Alcance:** Este informe es **descriptivo** (EDA). No incluye modelos predictivos; se centra en **explorar** y **explicar** el comportamiento del fraude con visualizaciones y m√©tricas descriptivas.


---

### üìò Estructura del informe
1. **Introducci√≥n** ‚Äî Objetivos, contexto y alcance.  
2. **Datos y calidad** ‚Äî Estructura del dataset final y evaluaci√≥n de calidad.  
3. **Principales transformaciones** ‚Äî Resumen de limpieza, uniones y derivadas clave.  
4. **An√°lisis visual (6‚Äì8 gr√°ficos)** ‚Äî Distribuciones, comparativas y relaciones con fraude.  
5. **Insights y recomendaciones** ‚Äî *Usar siempre ‚Äúinsights‚Äù (no ‚Äúhallazgos‚Äù)* y traducirlos a acciones.  
6. **Limitaciones del estudio** ‚Äî Restricciones y consideraciones del dato.  
7. **Pr√≥ximos pasos** ‚Äî Profundizaciones, datos adicionales y l√≠neas de mejora.

---


## 2. Datos y calidad

### üìä Descripci√≥n del dataset final
El an√°lisis se basa en el archivo **`dataset_limpio_y_transformado.csv`**, que integra y consolida la informaci√≥n proveniente de los datasets iniciales de **clientes** y **transacciones**.  
Tras el proceso de uni√≥n, limpieza y depuraci√≥n, se obtuvo un dataset **√∫nico y coherente** con un total de **(sustituir por el n√∫mero exacto)** filas y **(sustituir por el n√∫mero exacto)** columnas.

Las variables m√°s relevantes incluidas son:

- **fraud_flag:** indica si la operaci√≥n fue o no fraudulenta.  
- **merchant / merchant_type:** nombre y clasificaci√≥n del comercio.  
- **risk_level:** nivel de riesgo asociado a la operaci√≥n (alto, medio, bajo).  
- **account_creation_date:** fecha de creaci√≥n de la cuenta o emisi√≥n de la tarjeta.  
- **transaction_date:** fecha de la operaci√≥n.  
- **operation_type:** tipo de operaci√≥n (contactless, magstripe, chip, e-commerce).  
- **region:** regi√≥n del cliente.  
- **country:** pa√≠s donde se ha realizado la operaci√≥n.  
- **amount:** importe de la transacci√≥n.  
- **account_age_days:** antig√ºedad de la cuenta al momento de la operaci√≥n.  

El dataset final permite explorar patrones de fraude a trav√©s de **dimensiones temporales, geogr√°ficas, operativas y de riesgo**, ofreciendo una base s√≥lida para el an√°lisis descriptivo.

---

### üßπ Calidad de los datos
Durante la fase de limpieza y transformaci√≥n se verific√≥ la **calidad, consistencia y completitud** del conjunto de datos.

- **Valores nulos:** se identificaron y trataron valores ausentes en variables como *account_age_days* o *risk_level* mediante imputaci√≥n o eliminaci√≥n seg√∫n el caso.  
- **Duplicados:** se eliminaron registros repetidos para evitar sesgos en los conteos y proporciones de fraude.  
- **Outliers:** se revisaron los importes y antig√ºedades extremas, aplicando criterios de rango intercuart√≠lico (IQR) y umbrales l√≥gicos para conservar solo operaciones plausibles.  
- **Tipos de datos:** se ajustaron formatos de fecha, variables categ√≥ricas y num√©ricas para garantizar su correcta lectura en el an√°lisis.

Estas acciones garantizaron un dataset limpio, homog√©neo y listo para el an√°lisis exploratorio.

---

### ‚öñÔ∏è Limitaciones detectadas
A pesar del trabajo de limpieza, existen ciertas limitaciones:

- **Falta de variables contextuales:** no se dispone de informaci√≥n adicional como geolocalizaci√≥n exacta, dispositivo o canal de contacto.  
- **Posibles sesgos en la muestra:** el dataset representa un subconjunto de operaciones, por lo que las proporciones de fraude pueden no reflejar la realidad completa.  
- **Datos sint√©ticos:** aunque mantienen coherencia estructural, no pueden usarse para inferencias predictivas reales.  
- **Nivel de agregaci√≥n:** algunas variables, como *merchant_type* o *risk_level*, est√°n categorizadas a un nivel general, lo que puede ocultar patrones m√°s espec√≠ficos.

Estas limitaciones no invalidan el an√°lisis, pero deben considerarse al interpretar los resultados e insights obtenidos.

---
