# An√°lisis SQL de transacciones financieras

## Objetivo

Analizar transacciones bancarias y el comportamiento de usuarios de una fintech ficticia, utilizando consultas SQL sobre una base relacional (SQLite), para:

- entender c√≥mo usan las tarjetas los clientes,
- identificar patrones por segmento y categor√≠a de comercio,
- y detectar posibles anomal√≠as (incluyendo transacciones marcadas como fraude).

El foco de este proyecto es demostrar **dominio de SQL sobre un modelo relacional realista**, m√°s que construir modelos de machine learning.

---

## Dataset

**Fuente:** *Financial Transactions Dataset* (Kaggle)  
**Tablas utilizadas:**

- `users_data`
- `cards_data`
- `transactions_data`
- `mcc_codes`
- `train_fraud_labels`

Para este notebook se trabaja con una **muestra de 99,999 transacciones** y **2,000 usuarios**, suficiente para simular el volumen de una fintech en producci√≥n sin comprometer recursos de ejecuci√≥n.



## 1. Conociendo el dataset

Antes de escribir una sola consulta SQL, es clave entender **qu√© representa cada tabla** y qu√© rol juega en el modelo de negocio.

### 1.1 Tablas principales

- üßç **`users_data`**  
  Contiene informaci√≥n del cliente:
  - identificador √∫nico (`id`),
  - edad actual y edad de retiro,
  - datos demogr√°ficos (g√©nero, direcci√≥n, coordenadas aproximadas),
  - indicadores financieros (ingreso anual, deuda total, puntaje de cr√©dito, n√∫mero de tarjetas, etc.).  

  Esta tabla nos permite analizar el comportamiento transaccional por **perfil de usuario**.

---

- üí≥ **`cards_data`**  
  Describe las tarjetas emitidas a cada cliente:
  - `id` de tarjeta y `client_id` (relaci√≥n con `users_data`),
  - marca (Visa/Mastercard), tipo (cr√©dito/d√©bito/prepago),
  - l√≠mite de cr√©dito,
  - fechas de apertura y cambios de PIN,  
  - presencia de chip y n√∫mero de tarjetas emitidas.

  Se utiliza para estudiar **qu√© tipo de tarjeta** est√° detr√°s de cada transacci√≥n.

---

- üõí **`transactions_data`**  
  Es el coraz√≥n del proyecto:
  - `id` de transacci√≥n,
  - fecha y hora,
  - `client_id` y `card_id`,
  - monto de la operaci√≥n (en formato texto con s√≠mbolo de `$`),
  - identificador del comercio (`merchant_id`),
  - ciudad, estado y c√≥digo postal,
  - c√≥digo MCC (`mcc`) que clasifica el tipo de comercio.

  A partir de esta tabla calculamos:
  - volumen diario,
  - ticket promedio,
  - recurrencia por cliente,
  - actividad por categor√≠a y por regi√≥n.

---

- üìÇ **`mcc_codes`**  
  Diccionario de **c√≥digos MCC ‚Üí categor√≠a de comercio**.  
  Ejemplos: supermercados, gasolineras, restaurantes, tiendas departamentales, etc.  
  Nos permite traducir transacciones de ‚Äúc√≥digo num√©rico‚Äù a **categor√≠as de negocio entendibles por cualquier stakeholder**.

---

- üö® **`train_fraud_labels`**  
  Tabla con etiquetas de fraude a nivel de `transaction_id`.  
  Cada transacci√≥n se clasifica como:
  - `Yes` ‚Üí transacci√≥n fraudulenta,
  - `No` ‚Üí transacci√≥n leg√≠tima.

  Para esta muestra:
  - se cruzan 67,231 etiquetas con la tabla de transacciones,
  - de las cuales **107 transacciones** est√°n marcadas como fraude (‚âà0.1 % del total).

  Esto habilita un m√≥dulo espec√≠fico de **an√°lisis de fraude** (tasa, ticket promedio, categor√≠as y horas de mayor riesgo).

---

En los siguientes apartados se construye un **modelo relacional en SQLite** con estas tablas y se exploran las principales m√©tricas de negocio.


## 2. Carga y exploraci√≥n inicial de las tablas

En esta secci√≥n se realiza una **primera exploraci√≥n descriptiva** del dataset:

1. Carga de los archivos originales (`users_data.csv`, `cards_data.csv`, `transactions_sample.csv`, `mcc_codes.json`, `train_fraud_labels.json`).
2. Revisi√≥n del n√∫mero de filas por tabla para entender la escala del problema.
3. Visualizaci√≥n de las primeras filas (`head()`) para validar:
   - nombres de columnas,
   - tipos de datos aproximados,
   - presencia de valores faltantes o formatos poco limpios (por ejemplo, montos con s√≠mbolo `$`).

Esta exploraci√≥n inicial sirve como ‚Äúcontrol de calidad‚Äù antes de construir el modelo relacional y empezar a escribir consultas SQL de negocio.


In [1]:
import pandas as pd
import sqlite3

# --- 1. Carga de datos con muestra ligera ---

users = pd.read_csv("users_data.csv")
cards = pd.read_csv("cards_data.csv")
transactions = pd.read_csv("transactions_sample.csv")  # usamos la muestra reducida

print("Tama√±os de las tablas cargadas:")
print("users:", len(users))
print("cards:", len(cards))
print("transactions (muestra):", len(transactions))

display(users.head())
display(cards.head())
display(transactions.head())



Tama√±os de las tablas cargadas:
users: 2000
cards: 6146
transactions (muestra): 99999


Unnamed: 0,id,current_age,retirement_age,birth_year,birth_month,gender,address,latitude,longitude,per_capita_income,yearly_income,total_debt,credit_score,num_credit_cards
0,825,53,66,1966,11,Female,462 Rose Lane,34.15,-117.76,$29278,$59696,$127613,787,5
1,1746,53,68,1966,12,Female,3606 Federal Boulevard,40.76,-73.74,$37891,$77254,$191349,701,5
2,1718,81,67,1938,11,Female,766 Third Drive,34.02,-117.89,$22681,$33483,$196,698,5
3,708,63,63,1957,1,Female,3 Madison Street,40.71,-73.99,$163145,$249925,$202328,722,4
4,1164,43,70,1976,9,Male,9620 Valley Stream Drive,37.76,-122.44,$53797,$109687,$183855,675,1


Unnamed: 0,id,client_id,card_brand,card_type,card_number,expires,cvv,has_chip,num_cards_issued,credit_limit,acct_open_date,year_pin_last_changed,card_on_dark_web
0,4524,825,Visa,Debit,4344676511950444,12/2022,623,YES,2,$24295,09/2002,2008,No
1,2731,825,Visa,Debit,4956965974959986,12/2020,393,YES,2,$21968,04/2014,2014,No
2,3701,825,Visa,Debit,4582313478255491,02/2024,719,YES,2,$46414,07/2003,2004,No
3,42,825,Visa,Credit,4879494103069057,08/2024,693,NO,1,$12400,01/2003,2012,No
4,4659,825,Mastercard,Debit (Prepaid),5722874738736011,03/2009,75,YES,1,$28,09/2008,2009,No


Unnamed: 0,id,date,client_id,card_id,amount,use_chip,merchant_id,merchant_city,merchant_state,zip,mcc,errors
0,7475327,2010-01-01 00:01:00,1556,2972,$-77.00,Swipe Transaction,59935,Beulah,ND,58523.0,5499,
1,7475328,2010-01-01 00:02:00,561,4575,$14.57,Swipe Transaction,67570,Bettendorf,IA,52722.0,5311,
2,7475329,2010-01-01 00:02:00,1129,102,$80.00,Swipe Transaction,27092,Vista,CA,92084.0,4829,
3,7475331,2010-01-01 00:05:00,430,2860,$200.00,Swipe Transaction,27092,Crown Point,IN,46307.0,4829,
4,7475332,2010-01-01 00:06:00,848,3915,$46.41,Swipe Transaction,13051,Harwood,MD,20776.0,5813,


## 2. Exploraci√≥n inicial del dataset

Antes de construir el modelo relacional y comenzar con las consultas SQL, se realiza una **inspecci√≥n exploratoria** de las principales tablas. Esta etapa funciona como una verificaci√≥n preliminar de calidad de datos y permite entender la estructura general del dataset.

---

## üîç 2.1 Carga de las tablas y verificaci√≥n de tama√±os

Se cargaron los siguientes archivos originales:

- `users_data.csv`  
- `cards_data.csv`  
- `transactions_sample.csv` (muestra reducida de ~100k transacciones para evitar problemas de memoria)

Luego se verific√≥ el tama√±o de cada tabla.

### **Hallazgos:**

- **users_data:** 2,000 usuarios  
- **cards_data:** 6,146 tarjetas  
- **transactions_sample:** 99,999 transacciones  

üìå *La relaci√≥n tarjetas/usuarios indica que muchos clientes poseen m√°s de una tarjeta, lo cual es t√≠pico en una fintech con productos d√©bito/cr√©dito.*

üìå *Aunque usamos una muestra de transacciones, el tama√±o sigue siendo suficiente para observar patrones reales de comportamiento.*

---

## üë§ 2.2 Exploraci√≥n de la tabla `users_data`

Esta tabla contiene informaci√≥n demogr√°fica y financiera del cliente:

- Edad actual y edad de retiro  
- A√±o y mes de nacimiento  
- G√©nero  
- Direcci√≥n completa  
- Ingresos (`per_capita_income`, `yearly_income`)  
- Nivel de deuda (`total_debt`)  
- Indicador crediticio (`credit_score`)  
- N√∫mero de tarjetas activas (`num_credit_cards`)

### **Insights preliminares:**

- Los ingresos y deudas vienen en formato texto con `$`, lo que indica necesidad de limpieza.  
- Existe una amplia variabilidad entre los ingresos y los niveles de deuda.  
- La distribuci√≥n de g√©nero es relativamente equilibrada.  
- `latitude` y `longitude` parecen mapear estados/ciudades.

---

## üí≥ 2.3 Exploraci√≥n de la tabla `cards_data`

Incluye informaci√≥n operativa de cada tarjeta:

- Marca (`Visa`, `Mastercard`, etc.)  
- Tipo de producto (d√©bito, cr√©dito, prepago)  
- Fechas clave (apertura, expiraci√≥n, cambio de PIN)  
- L√≠mite de cr√©dito  
- Indicador de chip  

### **Comentarios relevantes:**

- Existen tarjetas de muy bajo l√≠mite (ej. $28 USD) y otras de l√≠mites altos ‚Üí √∫til para segmentar perfiles de riesgo.  
- Gran variaci√≥n en el a√±o de apertura, lo que sugiere tanto clientes nuevos como antiguos.

---

## üßæ 2.4 Exploraci√≥n de la tabla `transactions_sample`

Contiene las principales operaciones financieras:

- ID de transacci√≥n  
- Fecha y hora  
- Cliente y tarjeta asociada  
- Monto (incluye valores negativos por devoluciones)  
- Ciudad/estado del comercio  
- Categor√≠a MCC  

### **Observaciones clave:**

- Los montos requieren limpieza para eliminar s√≠mbolos y convertirlos a formato num√©rico.  
- La granularidad temporal (a nivel de minuto) es suficiente para detectar picos de actividad o comportamientos inusuales.  
- Existen valores nulos en la columna `errors`, posiblemente un campo reservado o poco utilizado.

---

## üß≠ Conclusi√≥n de la exploraci√≥n inicial

La estructura del dataset es consistente y adecuada para an√°lisis de comportamiento y anomal√≠as.  
Este an√°lisis preliminar confirma que:

- Las claves (`id`, `client_id`, `card_id`) permitir√°n construir un modelo relacional robusto.  
- El volumen de datos de la muestra es suficiente para an√°lisis SQL.  
- Se requiere limpieza de variables monetarias y estandarizaci√≥n de fechas.  

Con esto, avanzamos al siguiente paso:  
üëâ **Construcci√≥n del modelo relacional en SQLite y ejecuci√≥n de consultas SQL de negocio.**


## 3. Construcci√≥n del modelo relacional en SQLite

En esta etapa convertimos los DataFrames previamente cargados en una **base de datos relacional SQLite**, lo que nos permitir√° ejecutar consultas SQL complejas de forma eficiente y ordenada.

Para evitar problemas de rendimiento y bloqueo de archivos (especialmente con datasets grandes), se opta por crear la base de datos **en memoria (`:memory:`)**.  

Esto ofrece varias ventajas:

### üîπ ¬øPor qu√© usar SQLite en memoria?
- **Mayor velocidad:** las consultas se ejecutan completamente en RAM.  
- **Evita archivos corruptos:** ideal cuando se crean y eliminan tablas repetidamente.  
- **Entorno limpio:** cada ejecuci√≥n parte de una base vac√≠a ‚Äî perfecto para notebooks.  
- **Pesa menos:** no genera `.db` en disco.

### üîπ ¬øQu√© tablas se crean?
- `users`  
- `cards`  
- `transactions`  

Cada una se inserta respetando su estructura original, sin √≠ndices adicionales para mantener simplicidad en esta primera versi√≥n del modelo.

---

Al finalizar este paso, contamos con una base lista para escribir consultas SQL que analicen volumen, ticket promedio, comportamiento por categor√≠a, segmentos de usuarios, y m√°s.

A continuaci√≥n se ejecuta el c√≥digo que construye la base en memoria.


In [2]:
import sqlite3

conn = sqlite3.connect(":memory:")

users.to_sql("users", conn, if_exists="replace", index=False)
cards.to_sql("cards", conn, if_exists="replace", index=False)
transactions.to_sql("transactions", conn, if_exists="replace", index=False)

print("Tablas 'users', 'cards' y 'transactions' creadas en la base SQLite en memoria.")

Tablas 'users', 'cards' y 'transactions' creadas en la base SQLite en memoria.


## 4. Verificaci√≥n del modelo relacional con un JOIN de tres tablas

Antes de avanzar a consultas m√°s complejas, es fundamental validar que la base SQLite qued√≥ correctamente construida y que las relaciones entre tablas funcionan como deber√≠an. Para ello, realizamos un **JOIN entre `transactions`, `users` y `cards`**, que son los tres bloques centrales del modelo.

Este primer JOIN sirve como prueba de integraci√≥n y permite confirmar:

### üîπ Que las claves coinciden correctamente:
- `transactions.client_id` ‚Üî `users.id`  
- `transactions.card_id` ‚Üî `cards.id`

### üîπ Que los datos fluyen de forma coherente:
- Cada transacci√≥n trae informaci√≥n del cliente (edad, g√©nero).  
- Cada transacci√≥n tambi√©n incorpora los metadatos de la tarjeta (marca, tipo).  

### üîπ Que no existen duplicados inesperados ni p√©rdidas de informaci√≥n.

En resumen, este paso es el equivalente a un **‚Äúsmoke test‚Äù** del modelo relacional: verificamos que el sistema responde correctamente y que todas las conexiones entre tablas son s√≥lidas.

A continuaci√≥n ejecutamos un JOIN de prueba y visualizamos las primeras filas.


In [3]:
# --- 3. Probar una consulta SQL con JOIN de 3 tablas ---

query = """
SELECT 
    t.id            AS transaction_id,
    t.date,
    t.amount,
    u.id            AS user_id,
    u.current_age,
    u.gender,
    c.id            AS card_id,
    c.card_brand,
    c.card_type
FROM transactions t
JOIN users u
    ON t.client_id = u.id
JOIN cards c
    ON t.card_id = c.id
LIMIT 10;
"""

ejemplo = pd.read_sql_query(query, conn)
display(ejemplo)

Unnamed: 0,transaction_id,date,amount,user_id,current_age,gender,card_id,card_brand,card_type
0,7475327,2010-01-01 00:01:00,$-77.00,1556,30,Female,2972,Mastercard,Debit (Prepaid)
1,7475328,2010-01-01 00:02:00,$14.57,561,48,Male,4575,Mastercard,Credit
2,7475329,2010-01-01 00:02:00,$80.00,1129,49,Male,102,Mastercard,Debit
3,7475331,2010-01-01 00:05:00,$200.00,430,52,Female,2860,Mastercard,Debit
4,7475332,2010-01-01 00:06:00,$46.41,848,51,Male,3915,Visa,Debit
5,7475333,2010-01-01 00:07:00,$4.81,1807,47,Female,165,Mastercard,Debit (Prepaid)
6,7475334,2010-01-01 00:09:00,$77.00,1556,30,Female,2972,Mastercard,Debit (Prepaid)
7,7475335,2010-01-01 00:14:00,$26.46,1684,56,Male,2140,Mastercard,Debit (Prepaid)
8,7475336,2010-01-01 00:21:00,$261.58,335,46,Female,5131,Visa,Debit
9,7475337,2010-01-01 00:21:00,$10.74,351,91,Female,1112,Mastercard,Debit (Prepaid)


### ‚úîÔ∏è Interpretaci√≥n del primer JOIN entre `transactions`, `users` y `cards`

El resultado confirma que **nuestro modelo relacional est√° funcionando correctamente**.  
A trav√©s del JOIN, podemos observar c√≥mo cada transacci√≥n se enriquece con datos del usuario y de la tarjeta utilizada.

#### üîç Validaciones clave

- **Integridad del join**:  
  Cada fila muestra informaci√≥n consistente entre las tres tablas.  
  Ejemplo: la transacci√≥n `7475327` pertenece al usuario `1556` y fue realizada con la tarjeta `2972`.  
  Esa relaci√≥n aparece de forma coherente tanto en `users` como en `cards`.

- **Enriquecimiento de informaci√≥n**:  
  Ahora cada transacci√≥n no es solo un monto y un timestamp, sino que incluye atributos como:
  - Edad y g√©nero del usuario.  
  - Marca de la tarjeta (Visa, Mastercard).  
  - Tipo de tarjeta (D√©bito, Cr√©dito, Prepaid).

- **Formateo del monto**:  
  Se observan montos con formato de texto que incluyen el s√≠mbolo `$`.  
  Esto se corregir√° m√°s adelante antes de realizar c√°lculos agregados.

- **Estructura temporal**:  
  Las fechas aparecen en formato `YYYY-MM-DD HH:MM:SS`, lo cual facilita futuras consultas de:
  - volumen por d√≠a  
  - patrones por hora  
  - an√°lisis temporal de fraude  

#### üéØ Conclusi√≥n

El modelo relacional (SQLite en memoria) est√° correctamente montado y los joins funcionan tal como se espera.  
Con esta verificaci√≥n superada, ya estamos listos para avanzar a las **consultas SQL de negocio**, donde analizaremos:

- volumen de transacciones,  
- ticket promedio,  
- comportamiento por categor√≠as,  
- actividad por usuario,  
- y posteriormente, el an√°lisis de fraude.

Este es el punto en el que la base se vuelve ‚Äúanal√≠tica‚Äù: conectamos datos aislados en un ecosistema coherente que permite responder preguntas de negocio reales.


### üìä An√°lisis de volumen diario de transacciones

Con esta consulta realizamos el **primer an√°lisis descriptivo de negocio** utilizando √∫nicamente SQL.

El objetivo es conocer **cu√°ntas transacciones se realizan por d√≠a**, lo cual permite:

- detectar patrones de actividad,
- evaluar estacionalidad o picos inusuales,
- preparar el terreno para detectar anomal√≠as o posibles fraudes.



In [4]:
query = """
SELECT 
    DATE(t.date) AS transaction_date,
    COUNT(*) AS total_transactions
FROM transactions t
GROUP BY DATE(t.date)
ORDER BY DATE(t.date)
LIMIT 30;
"""

df_volumen = pd.read_sql_query(query, conn)
display(df_volumen)


Unnamed: 0,transaction_date,total_transactions
0,2010-01-01,3463
1,2010-01-02,2989
2,2010-01-03,3311
3,2010-01-04,3244
4,2010-01-05,3330
5,2010-01-06,3365
6,2010-01-07,3346
7,2010-01-08,3016
8,2010-01-09,3102
9,2010-01-10,3416


### üìà Interpretaci√≥n del volumen diario de transacciones

El resultado muestra el n√∫mero total de transacciones registradas por d√≠a durante los primeros d√≠as del dataset. Para este periodo inicial (enero de 2010), se observan entre **2,900 y 3,400 transacciones diarias**, con variaciones moderadas.

#### üßê ¬øQu√© indican estos n√∫meros?

- El volumen diario es **estable**, sin picos anormales ni d√≠as con ca√≠das dr√°sticas.
- Las variaciones naturales entre d√≠as (‚âà ¬±200 transacciones) sugieren un comportamiento normal del sistema.
- No se presenta ning√∫n d√≠a con un valor extremadamente bajo, lo cual indica:
  - ausencia de fallas de captura,
  - integridad correcta de la tabla,
  - y continuidad en el registro de actividad.

#### üìå Por qu√© es relevante este an√°lisis:

- Sirve como **l√≠nea base** para comparar otros an√°lisis, por ejemplo:
  - picos de fraude,
  - comportamiento por hora o por categor√≠a,
  - d√≠as con actividad at√≠pica.
- Tambi√©n permite validar que la migraci√≥n de CSV a SQLite no perdi√≥ informaci√≥n.

#### üß≠ Insight inicial

El comportamiento estable sugiere una plataforma con tr√°fico constante y homog√©neo. M√°s adelante podremos contrastar estos valores con:

- d√≠as de mayor proporci√≥n de fraude,
- horas m√°s riesgosas,
- categor√≠as con variaciones abruptas.

Este an√°lisis abre la puerta a detectar anomal√≠as con mayor precisi√≥n.


In [5]:
query = """
SELECT 
    COUNT(*) AS total_transactions,
    SUM(
        REPLACE(REPLACE(t.amount, '$', ''), ',', '') * 1.0
    ) AS total_amount,
    AVG(
        REPLACE(REPLACE(t.amount, '$', ''), ',', '') * 1.0
    ) AS avg_ticket
FROM transactions t;
"""

df_kpis = pd.read_sql_query(query, conn)
display(df_kpis)


Unnamed: 0,total_transactions,total_amount,avg_ticket
0,99999,4312077.84,43.12121


### üíπ KPIs generales del comportamiento financiero

A partir de la tabla `transactions`, se calcularon tres m√©tricas fundamentales para comprender la escala econ√≥mica del dataset:

#### üìå 1. Volumen total de transacciones  
La muestra contiene **99,999 transacciones**, lo cual confirma un tama√±o suficiente para an√°lisis estad√≠sticos fiables y para detectar patrones, incluso en eventos poco frecuentes (como el fraude).

#### üìå 2. Monto total transaccionado  
El total acumulado asciende a **\$4,312,077.84 USD**.  
Este valor consolidado permite dimensionar la magnitud econ√≥mica del sistema y estimar el impacto potencial de anomal√≠as ‚Äîpor ejemplo, p√©rdidas asociadas a fraude.

#### üìå 3. Ticket promedio  
El ticket promedio es de **\$43.12 USD**.  
Este valor sirve como referencia para identificar transacciones inusualmente altas o bajas, que m√°s adelante podremos analizar como posibles outliers.

---

### üßê ¬øQu√© nos dice este bloque de KPIs?

- El sistema maneja un **volumen alto y estable**, t√≠pico de una fintech con transacciones recurrentes.
- El monto promedio sugiere que la mayor√≠a de las operaciones corresponden a compras de consumo cotidiano.
- El total anualizado (solo con la muestra) apunta a un sistema con **movimiento financiero significativo**, donde incluso peque√±as variaciones en fraude pueden representar p√©rdidas importantes.

---

### üéØ Insight inicial

Estos KPIs son el ‚Äútablero principal‚Äù del an√°lisis financiero: sirven como punto de partida para comparar subgrupos de datos (por categor√≠a, usuario, hora, etc.) y para detectar zonas donde los valores se desv√≠an del comportamiento t√≠pico.

A partir de aqu√≠, el proyecto puede avanzar hacia an√°lisis m√°s espec√≠ficos como:

- ticket promedio por merchant category (MCC),  
- patrones por regi√≥n,  
- montos at√≠picos,  
- horas o d√≠as con mayor riesgo.  


### üë• Actividad diaria de usuarios (Active Users)

En este paso analizamos cu√°ntos **usuarios √∫nicos realizan al menos una transacci√≥n por d√≠a**.  
Para ello, se utiliza la m√©trica:

- **Active Users (DAU):** n√∫mero de `client_id` distintos que emitieron una transacci√≥n en una fecha dada.

Esta m√©trica es cr√≠tica para entender el nivel de uso real del sistema financiero y detectar picos o ca√≠das inusuales en la actividad.

---

### üîç ¬øPor qu√© es importante esta m√©trica?

- Mide la **participaci√≥n real** de los clientes, no solo el volumen de transacciones.
- Permite identificar **comportamientos estacionales**: d√≠as con m√°s actividad, posibles festivos, fines de semana, etc.
- Cambios abruptos en el n√∫mero de usuarios activos pueden sugerir:
  - fallos del sistema,
  - campa√±as o promociones,
  - eventos externos,
  - o comportamientos an√≥malos.

---

### üìä Resultados iniciales (primeros 30 d√≠as)

La tabla resultante muestra los primeros 30 d√≠as registrados, con su respectivo n√∫mero de usuarios activos.  
Esto nos permite observar:

- variabilidad diaria normal en la actividad,
- estabilidad o fluctuaciones inusuales,
- niveles base de uso del sistema.

Esta informaci√≥n es esencial antes de avanzar hacia an√°lisis m√°s complejos como cohortes, recurrencia o segmentaci√≥n por grupos de clientes.

---

### üéØ Insight inicial

Los valores reportados muestran una base s√≥lida de usuarios activos diarios, lo que indica un ecosistema financiero con uso recurrente y comportamiento relativamente estable.

Este dato tambi√©n ser√° clave m√°s adelante para evaluar:
- qu√© tan distribuido est√° el uso del sistema,
- si los incidentes de fraude est√°n concentrados en pocos usuarios o distribuidos,
- y c√≥mo se comporta el ticket promedio en funci√≥n de la actividad diaria.



In [6]:
query = """
SELECT 
    DATE(t.date) AS transaction_date,
    COUNT(DISTINCT t.client_id) AS active_users
FROM transactions t
GROUP BY DATE(t.date)
ORDER BY 1
LIMIT 30;
"""

df_activos = pd.read_sql_query(query, conn)
display(df_activos)


Unnamed: 0,transaction_date,active_users
0,2010-01-01,978
1,2010-01-02,954
2,2010-01-03,983
3,2010-01-04,988
4,2010-01-05,980
5,2010-01-06,992
6,2010-01-07,984
7,2010-01-08,973
8,2010-01-09,956
9,2010-01-10,988


### üìÜ Usuarios activos por d√≠a ‚Äì Interpretaci√≥n de resultados

La consulta devuelve el n√∫mero de **usuarios √∫nicos** (`client_id`) que realizaron al menos una transacci√≥n en cada d√≠a del per√≠odo analizado.  

Los primeros registros muestran valores que oscilan entre **950 y 990 usuarios activos diarios**, lo cual sugiere:

---

### üîé 1. Estabilidad operativa  
La actividad diaria de usuarios se mantiene dentro de un rango estrecho.  
Esto indica que la plataforma:

- tiene un **uso constante**,  
- no presenta d√≠as con ca√≠das abruptas,  
- y no depende de picos irregulares para generar transacciones.

Esta estabilidad es t√≠pica de un sistema financiero con usuarios que utilizan sus tarjetas de forma cotidiana.

---

### üîé 2. Patrones saludables de uso  
No se observan saltos dram√°ticos de un d√≠a a otro.  
Esto es se√±al de:

- **comportamiento org√°nico**,  
- alta recurrencia,  
- y una base de usuarios que permanece activa de forma consistente.

En proyectos reales de fintech, este tipo de patr√≥n suele correlacionar con:

- clientes con pagos recurrentes,  
- h√°bitos de consumo regulares,  
- y buena retenci√≥n.

---

### üîé 3. Oportunidad para an√°lisis avanzado  
Con esta estabilidad como punto de partida, se habilitan futuros an√°lisis como:

- retenci√≥n semanal (WAU / DAU),  
- cohortes por mes de registro,  
- estacionalidad por d√≠a de la semana,  
- correlaci√≥n entre actividad diaria y ticket promedio,  
- detecci√≥n de anomal√≠as si alg√∫n d√≠a se aleja del rango.

---

### üìå Insight r√°pido

Durante los primeros 14 d√≠as observados, el n√∫mero de usuarios activos diarios:

- se mantiene entre **954 y 994**,  
- muestra variaciones naturales pero peque√±as,  
- y sugiere una base de usuarios **s√≥lida y participativa**.

Este comportamiento es un buen indicador antes de avanzar hacia el an√°lisis de fraude, ticket promedio y categor√≠as de gasto.



In [7]:
import json
import pandas as pd

# --- Cargar MCC Codes (diccionario codigo -> descripci√≥n) ---

with open("mcc_codes.json", "r") as f:
    mcc_data = json.load(f)

# Si es un dict tipo {"5499": "Grocery", ...}
if isinstance(mcc_data, dict):
    rows = [
        {"mcc_code": int(k), "merchant_category_name": v}
        for k, v in mcc_data.items()
    ]
    mcc = pd.DataFrame(rows)
# Si fuera lista de dicts, lo manejamos tambi√©n
elif isinstance(mcc_data, list):
    mcc = pd.DataFrame(mcc_data)
else:
    raise ValueError("Formato inesperado en mcc_codes.json")

display(mcc.head())
print("Filas en mcc:", len(mcc))



Unnamed: 0,mcc_code,merchant_category_name
0,1711,"Heating, Plumbing, Air Conditioning Contractors"
1,3000,Steelworks
2,3001,Steel Products Manufacturing
3,3005,Miscellaneous Metal Fabrication
4,3006,Miscellaneous Fabricated Metal Products


Filas en mcc: 109


## üóÇÔ∏è 4. Carga de Tabla MCC Codes (Merchant Category Codes)

Los MCC Codes son un cat√°logo que asigna a cada c√≥digo de comercio (mcc_code) una categor√≠a descriptiva (merchant_category_name).
Este cat√°logo es clave porque:

Permite traducir los c√≥digos MCC presentes en las transacciones.

Habilita an√°lisis de negocio como:

Rubros con mayor volumen.

Categor√≠as con tickets m√°s altos.

Categor√≠as con mayor incidencia de fraude.

Sirve como tabla cat√°logo para posteriores JOIN en SQL.

En esta secci√≥n se realiza:

Carga del archivo mcc_codes.json.

Identificaci√≥n del formato de origen (diccionario o lista).

Normalizaci√≥n a un DataFrame est√°ndar con dos columnas:

mcc_code

merchant_category_name

üí° Este paso prepara la base categ√≥rica para enriquecer el an√°lisis transaccional.

## Inserci√≥n del cat√°logo MCC Codes en la base SQLite
Una vez transformado el archivo mcc_codes.json en un DataFrame limpio y estandarizado, el siguiente paso es integrarlo al modelo relacional.
Esto es fundamental porque:

Permite enriquecer las transacciones con descripciones de categor√≠a.

Habilita an√°lisis m√°s interpretables (no solo c√≥digos num√©ricos).

Facilita los JOIN entre transacciones y el cat√°logo.

En este paso enviamos la tabla mcc_codes directamente a la base SQLite en memoria utilizando to_sql().

üìå Importante: usamos if_exists="replace" para garantizar que no se acumulen versiones previas.

In [8]:
mcc.to_sql("mcc_codes", conn, if_exists="replace", index=False)
print("Tabla mcc_codes creada en la base.")


Tabla mcc_codes creada en la base.


La tabla mcc_codes queda correctamente almacenada en la base SQLite, y desde este punto puede ser utilizada en consultas SQL para an√°lisis por categor√≠a de comercio.

Esto completa el set de tablas relacionales que utilizaremos durante el proyecto.

## 6. An√°lisis por categor√≠a de comercio (Top 10 MCC por volumen)

Hasta ahora hemos analizado el comportamiento global de las transacciones y la actividad por d√≠a.  
El siguiente paso es responder una pregunta muy t√≠pica en proyectos financieros:

> **¬øEn qu√© tipos de comercios se concentran m√°s las transacciones?**

Para ello, unimos la tabla de transacciones (`transactions`) con el cat√°logo de categor√≠as (`mcc_codes`) y calculamos el **n√∫mero total de transacciones por categor√≠a de comercio** (`merchant_category_name`).

Puntos clave de la consulta:

- `JOIN mcc_codes`  
  Enlazamos cada transacci√≥n con su categor√≠a MCC descriptiva.

- `COUNT(*) AS total_transactions`  
  Contamos cu√°ntas operaciones se registran en cada categor√≠a.

- `ORDER BY total_transactions DESC`  
  Ordenamos de mayor a menor para identificar las categor√≠as m√°s utilizadas.

- `LIMIT 10`  
  Nos quedamos con el **Top 10** para una lectura r√°pida y enfocada.

A continuaci√≥n se muestra la consulta y el resultado obtenido.


In [9]:
query = """
SELECT 
    m.merchant_category_name,
    COUNT(*) AS total_transactions
FROM transactions t
JOIN mcc_codes m
    ON CAST(t.mcc AS INTEGER) = m.mcc_code
GROUP BY m.merchant_category_name
ORDER BY total_transactions DESC
LIMIT 10;
"""

df_top_mcc = pd.read_sql_query(query, conn)
display(df_top_mcc)


Unnamed: 0,merchant_category_name,total_transactions
0,"Grocery Stores, Supermarkets",12025
1,Miscellaneous Food Stores,11253
2,Service Stations,10961
3,Eating Places and Restaurants,7544
4,Drug Stores and Pharmacies,5704
5,Money Transfer,4563
6,Wholesale Clubs,4542
7,Tolls and Bridge Fees,4510
8,Taxicabs and Limousines,3877
9,Fast Food Restaurants,3761


### üìä Interpretaci√≥n: Top 10 categor√≠as por n√∫mero de transacciones

El resultado muestra las **10 categor√≠as de comercio con mayor volumen de transacciones**.  
Entre las m√°s relevantes aparecen:

- **Grocery Stores, Supermarkets**  
- **Miscellaneous Food Stores**  
- **Service Stations**  
- **Eating Places and Restaurants**  
- **Drug Stores and Pharmacies**  
- **Money Transfer**, **Wholesale Clubs**, **Tolls and Bridge Fees**, **Taxicabs and Limousines**, **Fast Food Restaurants**.

#### üß† ¬øQu√© nos dice este patr√≥n?

1. **Predominio del consumo cotidiano**  
   Supermercados, tiendas de comida y restaurantes concentran una gran parte del volumen.  
   Esto sugiere que las tarjetas se usan principalmente para gastos diarios y recurrentes.

2. **Relevancia de transporte y servicios**  
   Categor√≠as como gasolineras, taxis y peajes indican un uso intenso en movilidad y servicios complementarios.

3. **Canales de dinero y clubes mayoristas**  
   `Money Transfer` y `Wholesale Clubs` apuntan a operaciones de env√≠os de dinero y compras m√°s grandes o planificadas.

#### üéØ Valor para el negocio

Este ranking permite a una fintech:

- Identificar los **segmentos clave de gasto** de sus usuarios.
- Detectar en qu√© rubros tiene m√°s sentido:
  - lanzar promociones,  
  - negociar alianzas,  
  - o monitorear m√°s de cerca el riesgo de fraude.

M√°s adelante, este an√°lisis se podr√° cruzar con:
- ticket promedio por categor√≠a,  
- tasa de fraude por MCC,  
- y patrones por rango de edad o zona geogr√°fica.

En resumen, este Top 10 revela que la mayor parte del movimiento se concentra en **gastos de consumo b√°sico y movilidad**, lo cual encaja con el comportamiento esperado de una base amplia de clientes.


## üìä An√°lisis de ticket promedio por categor√≠a (MCC)

En esta etapa profundizamos en qu√© categor√≠as de comercios generan tickets promedio m√°s altos, una m√©trica √∫til para entender el tipo de gasto que predomina en los clientes y detectar patrones at√≠picos.

Para ello:

Convertimos los montos textuales a valores num√©ricos (quitando $ y comas).

Calculamos el ticket promedio por categor√≠a.

Incluimos solo categor√≠as con m√°s de 3,000 transacciones, garantizando que el an√°lisis se base en suficiente volumen.

Ordenamos de mayor a menor ticket promedio para identificar los segmentos ‚Äúpremium‚Äù.

Este an√°lisis es clave para reconocer:

categor√≠as con gasto alto (mayor riesgo financiero),

patrones de consumo diferenciados,

posibles focos de fraude ligados a montos elevados.

In [10]:
query = """
SELECT 
    m.merchant_category_name,
    AVG(REPLACE(REPLACE(t.amount, '$', ''), ',', '') * 1.0) AS avg_ticket,
    COUNT(*) AS num_transactions
FROM transactions t
JOIN mcc_codes m
    ON CAST(t.mcc AS INTEGER) = m.mcc_code
GROUP BY m.merchant_category_name
HAVING COUNT(*) > 3000
ORDER BY avg_ticket DESC
LIMIT 10;
"""

df_ticket_cat = pd.read_sql_query(query, conn)
display(df_ticket_cat)


Unnamed: 0,merchant_category_name,avg_ticket,num_transactions
0,Money Transfer,90.361604,4563
1,Wholesale Clubs,65.306953,4542
2,Department Stores,56.528643,3545
3,Automotive Service Shops,51.364352,3504
4,Drug Stores and Pharmacies,45.877596,5704
5,Tolls and Bridge Fees,35.010253,4510
6,Eating Places and Restaurants,27.095138,7544
7,Fast Food Restaurants,26.314823,3761
8,"Grocery Stores, Supermarkets",25.703552,12025
9,Taxicabs and Limousines,22.931751,3877


## üß† Interpretaci√≥n de resultados

El resultado confirma tendencias muy marcadas:

üí∏ Money Transfer encabeza el ranking con un ticket promedio elevado, reflejando transacciones de alto valor t√≠picas de env√≠os de dinero.

Wholesale Clubs y Department Stores mantienen tickets altos debido a compras voluminosas o de mayor valor unitario.

Categor√≠as como Eating Places o Fast Food aparecen al final del ranking: montos bajos pero con alta frecuencia.

Este tipo de an√°lisis permite entender qu√© comercios concentran mayor exposici√≥n monetaria y es especialmente valioso para sistemas antifraude, segmentaci√≥n de clientes y an√°lisis de rentabilidad por vertical.

## üìä 3.4. Clientes con mayor recurrencia

En esta secci√≥n identificamos a los usuarios m√°s activos dentro del periodo analizado, ordenando por la cantidad total de transacciones realizadas. Este an√°lisis permite:

Detectar clientes altamente comprometidos con el servicio.

Observar posibles comportamientos at√≠picos (usuarios con vol√∫menes inusualmente altos).

Entender qu√© tan distribuida est√° la actividad dentro de la base de clientes.

La consulta agrupa las transacciones por client_id y devuelve a los 20 usuarios con mayor n√∫mero de movimientos.

In [11]:
query = """
SELECT 
    t.client_id AS user_id,
    COUNT(*) AS num_transactions
FROM transactions t
GROUP BY t.client_id
ORDER BY num_transactions DESC
LIMIT 20;
"""

df_recurrencia = pd.read_sql_query(query, conn)
display(df_recurrencia)


Unnamed: 0,user_id,num_transactions
0,909,391
1,1098,382
2,1963,362
3,1776,322
4,96,314
5,1888,311
6,1696,304
7,114,295
8,285,285
9,1575,281


Los datos muestran que:

El cliente m√°s activo registra 391 transacciones, seguido de otros con >350 movimientos.

Existe un peque√±o grupo de usuarios que concentran una fracci√≥n considerable del volumen total, lo cual puede indicar:

Clientes heavy-users con h√°bitos financieros muy constantes.

Posibles casos interesantes para programas de lealtad o an√°lisis de riesgo.

Potenciales se√±ales para monitorear patrones inusuales, aunque por s√≠ solos no indican fraude.

En general, se observa una cola larga de actividad, donde unos pocos clientes realizan muchas m√°s transacciones que la mayor√≠a ‚Äî patr√≥n com√∫n en servicios financieros y comercios digitales.

## üìä 3.5. ¬øQu√© tipo de categor√≠as consumen usuarios de mayor edad?

Antes de ejecutar la consulta, vale la pena entender qu√© estamos buscando exactamente.

Las finanzas personales y los patrones de consumo suelen variar de forma notable entre grupos de edad. Algunas categor√≠as tienden a concentrar transacciones de usuarios j√≥venes (ej. apps digitales), mientras que otras suelen atraer a usuarios de mayor edad (ej. clubes mayoristas, servicios m√©dicos o transporte).

En esta secci√≥n analizamos:

Promedio de edad de los clientes que compran en cada categor√≠a MCC.

Volumen m√≠nimo de 2,000 transacciones por categor√≠a (para evitar sesgos por categor√≠as demasiado peque√±as).

Ranking descendente seg√∫n la edad promedio.

Esto permite identificar:

categor√≠as con usuarios mayores,

segmentos con alto poder adquisitivo,

oportunidades de marketing o programas de fidelizaci√≥n seg√∫n edad.

In [12]:
query = """
SELECT 
    m.merchant_category_name,
    ROUND(AVG(u.current_age), 1) AS avg_age,
    COUNT(*) AS num_transactions
FROM transactions t
JOIN users u
    ON t.client_id = u.id
JOIN mcc_codes m
    ON CAST(t.mcc AS INTEGER) = m.mcc_code
GROUP BY m.merchant_category_name
HAVING num_transactions > 2000
ORDER BY avg_age DESC
LIMIT 10;
"""

df_age_cat = pd.read_sql_query(query, conn)
display(df_age_cat)


Unnamed: 0,merchant_category_name,avg_age,num_transactions
0,Taxicabs and Limousines,59.0,3877
1,Wholesale Clubs,55.5,4542
2,"Grocery Stores, Supermarkets",55.4,12025
3,Eating Places and Restaurants,55.3,7544
4,Department Stores,55.3,3545
5,Fast Food Restaurants,55.2,3761
6,Automotive Service Shops,55.1,3504
7,Money Transfer,55.0,4563
8,Drug Stores and Pharmacies,54.9,5704
9,Service Stations,54.6,10961


Los resultados muestran que las categor√≠as con mayor edad promedio est√°n relacionadas con:

Transporte tradicional (Taxi & Limousines)

Clubes mayoristas (Wholesale Clubs)

Supermercados

Restaurantes

Tiendas departamentales

Este patr√≥n sugiere que usuarios de mayor edad concentran su gasto en consumo esencial, movilidad y compras de volumen, lo cual es consistente con comportamientos financieros t√≠picos de adultos mayores con estabilidad econ√≥mica.

## üìå 4.2. Detecci√≥n de anomal√≠as por monto (outliers financieros)

En este apartado buscamos transacciones at√≠picamente altas, que pueden representar:

consumos inusuales del cliente,

errores en el registro del comercio,

o potenciales se√±ales de fraude.

Para identificarlas:

Convertimos el campo amount (que viene como texto con $ y comas) a formato num√©rico dentro de la consulta SQL.

Filtramos √∫nicamente aquellas transacciones con monto mayor a 2000 USD.

Enlazamos los c√≥digos MCC para entender el tipo de comercio asociado.

Ordenamos de mayor a menor para ver primero las transacciones m√°s elevadas.

Este filtrado es una primera aproximaci√≥n r√°pida antes de trabajar con modelos estad√≠sticos o machine learning.

In [13]:
query = """
SELECT 
    t.id AS transaction_id,
    t.date,
    t.client_id,
    t.card_id,
    t.amount,
    m.merchant_category_name
FROM transactions t
LEFT JOIN mcc_codes m
    ON CAST(t.mcc AS INTEGER) = m.mcc_code
WHERE 
    REPLACE(REPLACE(t.amount, '$', ''), ',', '') * 1.0 > 2000
ORDER BY 
    REPLACE(REPLACE(t.amount, '$', ''), ',', '') * 1.0 DESC
LIMIT 20;
"""

df_anom = pd.read_sql_query(query, conn)
display(df_anom)


Unnamed: 0,transaction_id,date,client_id,card_id,amount,merchant_category_name
0,7512096,2010-01-10 11:50:00,1340,2954,$2807.05,Cruise Lines
1,7517440,2010-01-11 16:50:00,1487,4946,$2680.80,Wholesale Clubs
2,7576631,2010-01-26 21:22:00,708,5165,$2114.99,Antique Shops


## üìä Interpretaci√≥n de resultados

A partir de las transacciones filtradas:

Los montos superan los 2000 USD, lo cual es at√≠pico considerando la distribuci√≥n general del dataset.

Las categor√≠as asociadas (como Cruise Lines, Wholesale Clubs, Antique Shops) corresponden a rubros donde naturalmente pueden aparecer consumos elevados.

Aun as√≠, este tipo de operaciones deben monitorearse, especialmente si el cliente no suele consumir en estas categor√≠as o si el patr√≥n no coincide con su historial.

Este an√°lisis abre la puerta a t√©cnicas m√°s avanzadas como detecci√≥n de outliers por IQR, clustering o modelos supervisados de fraude.

## üìä An√°lisis por Rango de Edad
¬øC√≥mo cambia el comportamiento transaccional seg√∫n la etapa de vida?

En esta secci√≥n exploramos si la edad influye en el volumen de transacciones y en el ticket promedio.
Para lograrlo:

Segmentamos a los usuarios en rangos de edad claros y operativos:
18‚Äì29, 30‚Äì39, 40‚Äì49, 50‚Äì59, 60+.

Integramos la tabla de usuarios con la de transacciones mediante un JOIN.

Calculamos por cada grupo:

N√∫mero total de transacciones.

Ticket promedio (normalizando los valores monetarios que vienen con s√≠mbolo $).

Este an√°lisis ayuda a entender qu√© edades concentran la mayor actividad financiera y qu√© segmentos gastan m√°s por operaci√≥n, informaci√≥n clave para marketing, productos personalizados o modelos de riesgo.

In [14]:
query = """
SELECT 
    CASE 
        WHEN u.current_age < 30 THEN '18-29'
        WHEN u.current_age BETWEEN 30 AND 39 THEN '30-39'
        WHEN u.current_age BETWEEN 40 AND 49 THEN '40-49'
        WHEN u.current_age BETWEEN 50 AND 59 THEN '50-59'
        ELSE '60+'
    END AS age_range,
    COUNT(*) AS total_transactions,
    AVG(REPLACE(REPLACE(t.amount, '$', ''), ',', '') * 1.0) AS avg_ticket
FROM transactions t
JOIN users u
    ON t.client_id = u.id
GROUP BY age_range
ORDER BY age_range;
"""

df_ages = pd.read_sql_query(query, conn)
display(df_ages)


Unnamed: 0,age_range,total_transactions,avg_ticket
0,18-29,294,30.029456
1,30-39,15723,44.307468
2,40-49,25302,41.638701
3,50-59,24634,44.497233
4,60+,34046,42.792564


## üîç Interpretaci√≥n

‚úî Los adultos mayores (60+) y los segmentos de 40‚Äì59 a√±os concentran la mayor actividad transaccional.
Esto sugiere un patr√≥n consistente con poblaci√≥n econ√≥micamente estable y con h√°bitos financieros maduros.

‚úî El ticket promedio m√°s alto aparece en los grupos de 50‚Äì59 y 30‚Äì39 a√±os.
Ambos segmentos suelen representar etapas de mayor ingreso disponible o gasto consolidado.

‚úî El segmento 18‚Äì29 destaca por baja participaci√≥n.
Es probable que en esta etapa se utilicen menos tarjetas o se realicen gastos de menor monto.

En conjunto, esta distribuci√≥n es √∫til para dise√±ar estrategias de segmentaci√≥n, programas de lealtad y an√°lisis de riesgo diferenciados por edad.

## üîç 4. Exploraci√≥n inicial de fraud labels

Para complementar el an√°lisis transaccional, incluimos la tabla con etiquetas de fraude (train_fraud_labels.json).
Estas etiquetas representan un diccionario donde cada transaction_id tiene asignado un valor "Yes" o "No" indicando si fue detectada como fraude.

Antes de integrarlo al modelo relacional, realizamos una inspecci√≥n para:

Validar la estructura del archivo JSON.

Confirmar que contiene un √∫nico diccionario anidado.

Identificar el volumen total de etiquetas.

Verificar que los valores est√©n correctamente representados.

Este paso es clave para asegurarnos de que las etiquetas puedan cruzarse con la tabla de transacciones posteriormente.

In [15]:
import json

with open("train_fraud_labels.json", "r") as f:
    fraud_raw = json.load(f)

fraud_raw[:5] if isinstance(fraud_raw, list) else fraud_raw


{'target': {'7475327': 'No',
  '7475328': 'No',
  '7475329': 'No',
  '7475332': 'No',
  '7475333': 'No',
  '7475335': 'No',
  '7475338': 'No',
  '7475339': 'No',
  '7475340': 'No',
  '7475341': 'No',
  '7475342': 'No',
  '7475344': 'No',
  '7475345': 'No',
  '7475346': 'No',
  '7475347': 'No',
  '7475348': 'No',
  '7475349': 'No',
  '7475350': 'No',
  '7475353': 'No',
  '7475354': 'No',
  '7475357': 'No',
  '7475359': 'No',
  '7475360': 'No',
  '7475361': 'No',
  '7475362': 'No',
  '7475363': 'No',
  '7475365': 'No',
  '7475366': 'No',
  '7475367': 'No',
  '7475368': 'No',
  '7475371': 'No',
  '7475372': 'No',
  '7475377': 'No',
  '7475378': 'No',
  '7475379': 'No',
  '7475380': 'No',
  '7475382': 'No',
  '7475383': 'No',
  '7475385': 'No',
  '7475389': 'No',
  '7475390': 'No',
  '7475394': 'No',
  '7475395': 'No',
  '7475398': 'No',
  '7475400': 'No',
  '7475401': 'No',
  '7475403': 'No',
  '7475406': 'No',
  '7475410': 'No',
  '7475411': 'No',
  '7475412': 'No',
  '7475414': 'No',
  

üìå Resultado

El archivo contiene un diccionario bajo la llave "target", donde cada clave es un transaction_id y cada valor es "No" o "Yes".

Como se observa, la mayor√≠a de las etiquetas son ‚ÄúNo‚Äù, lo cual es normal en problemas de fraude debido a la naturaleza altamente desbalanceada del fen√≥meno.

Este comportamiento ser√° relevante en etapas posteriores de an√°lisis.

## üîç Conversi√≥n del archivo de etiquetas de fraude (`train_fraud_labels.json`)

El dataset incluye un archivo JSON con **etiquetas de fraude por transacci√≥n**, pero su estructura no viene en un formato tabular directo.  
En esta secci√≥n realizamos:

### ‚úî 1. Lectura del archivo JSON  
Cargamos el archivo `train_fraud_labels.json`, el cual almacena un gran diccionario donde:
- La clave `"target"` contiene miles de pares `id_transacci√≥n : "Yes"/"No"`.

### ‚úî 2. Conversi√≥n a DataFrame  
Transformamos ese diccionario en un DataFrame con dos columnas:

- **transaction_id** ‚Üí el ID de la transacci√≥n (convertido a entero).  
- **is_fraud** ‚Üí bandera binaria (`1` = fraude, `0` = leg√≠timo).

### ‚úî 3. Validaci√≥n  
Mostramos:
- El total de etiquetas procesadas  
- La distribuci√≥n de transacciones fraudulentas vs leg√≠timas  
- Las primeras filas, para validar estructura y tipos

Esta tabla ser√° crucial posteriormente para:
- unir las etiquetas al dataset principal,
- calcular tasas de fraude por categor√≠a, usuario u horario,
- y detectar patrones an√≥malos en el comportamiento financiero.

---


In [16]:
import pandas as pd

# Diccionario id_transacci√≥n -> 'Yes'/'No'
target_dict = fraud_raw["target"]

fraud_rows = [
    {
        "transaction_id": int(tx_id),
        "is_fraud": 1 if label == "Yes" else 0
    }
    for tx_id, label in target_dict.items()
]

fraud = pd.DataFrame(fraud_rows)

print("Fraud labels totales:", len(fraud))
print(fraud["is_fraud"].value_counts())
fraud.head()


Fraud labels totales: 8914963
is_fraud
0    8901631
1      13332
Name: count, dtype: int64


Unnamed: 0,transaction_id,is_fraud
0,7475327,0
1,7475328,0
2,7475329,0
3,7475332,0
4,7475333,0


### üßæ Resultados: Labels de fraude procesados correctamente

El archivo JSON fue interpretado y convertido exitosamente a formato tabular.

**Hallazgos principales:**

- Total de etiquetas importadas: **8,914,963**
- Transacciones leg√≠timas (`is_fraud = 0`): **8,901,631**
- Transacciones fraudulentas (`is_fraud = 1`): **13,332**

Esto revela un dataset **altamente desbalanceado**, t√≠pico de escenarios reales de fraude:
- Solo el **0.15%** de las transacciones registradas en el archivo original est√°n marcadas como fraudulentas.

El DataFrame generado tiene ahora esta estructura:

| transaction_id | is_fraud |
|----------------|----------|
| 7475327        | 0        |
| 7475328        | 0        |
| 7475329        | 0        |
| ‚Ä¶              | ‚Ä¶        |

Este formato permitir√° m√°s adelante **integrar la etiqueta con la tabla `transactions`** para an√°lisis avanzados de fraude, como tasas por horario, categor√≠a MCC o comportamiento del usuario.

---


### üîç Filtrado de etiquetas de fraude para coincidir con la muestra de transacciones

El archivo original de fraude contiene casi **9 millones de etiquetas**, pero en este proyecto estamos usando una **muestra reducida** de transacciones (`transactions_sample.csv`).

Para poder analizar fraude dentro de nuestra base SQLite, necesitamos:

1. **Identificar los IDs de transacci√≥n presentes en nuestra muestra.**  
   Esto se obtiene tomando los valores √∫nicos de `transactions["id"]`.

2. **Filtrar el gran archivo de fraude** y quedarnos √∫nicamente con las filas cuyo `transaction_id` aparece en nuestra muestra.

3. **Verificar cu√°ntas de esas transacciones filtradas est√°n marcadas como fraude real.**

Este paso es fundamental porque nos permite trabajar con un dataset consistente y proporcional a la muestra utilizada en los an√°lisis previos.

---


In [17]:
# IDs de transacciones en tu muestra
sample_ids = set(transactions["id"].unique())

fraud_sample = fraud[fraud["transaction_id"].isin(sample_ids)].copy()

print("Filas de fraude que coinciden con la muestra:", len(fraud_sample))
print(fraud_sample["is_fraud"].value_counts())
fraud_sample.head()


Filas de fraude que coinciden con la muestra: 67231
is_fraud
0    67124
1      107
Name: count, dtype: int64


Unnamed: 0,transaction_id,is_fraud
0,7475327,0
1,7475328,0
2,7475329,0
3,7475332,0
4,7475333,0


### üìä Resultados del filtrado de fraude sobre la muestra

Tras cruzar los IDs del dataset de fraude con las transacciones presentes en nuestra muestra, los resultados son:

- üî¢ **Transacciones en la muestra:** 99,999  
- üîç **Labels de fraude encontrados en la muestra:** 67,231  
  (es decir, no todas las transacciones del JSON estaban en la muestra, lo cual era esperado)

- üü• **Fraudes detectados:** 107  
- üü© **Transacciones leg√≠timas:** 67,124  

Esto confirma nuevamente que el dataset es **extremadamente desbalanceado**, ya que los fraudes representan alrededor de:

\[
\text{fraud rate} = \frac{107}{67,231} \approx 0.16\%
\]

Las primeras filas del DataFrame filtrado confirman la estructura final:

| transaction_id | is_fraud |
|----------------|----------|
| 7475327        | 0        |
| 7475328        | 0        |
| 7475329        | 0        |
| ‚Ä¶              | ‚Ä¶        |

Con esta tabla filtrada podemos ahora:

- unirla a la tabla `transactions`,
- calcular tasas de fraude por categor√≠a MCC,
- analizar picos horarios,
- estudiar comportamiento de usuarios fraudulentos,
- y producir alertas o insights accionables.

---


### üóÇÔ∏è Creaci√≥n de la tabla `fraud_labels` en la base SQLite

Ya contamos con el DataFrame `fraud_sample`, que contiene √∫nicamente las etiquetas de fraude correspondientes a las transacciones presentes en nuestra muestra.

El siguiente paso es **cargar esta tabla dentro de SQLite** para poder:

- realizar consultas SQL de fraude,  
- cruzarla f√°cilmente con `transactions`,  
- calcular tasas de fraude por categor√≠as, horarios o usuarios,  
- y habilitar an√°lisis posteriores de anomal√≠as.

Usamos `to_sql()` para insertar la tabla en memoria, reemplaz√°ndola si ya existiera.


In [18]:
fraud_sample.to_sql("fraud_labels", conn, if_exists="replace", index=False)
print("Tabla fraud_labels creada en la base.")


Tabla fraud_labels creada en la base.


### ‚úÖ Tabla `fraud_labels` creada correctamente

La tabla **`fraud_labels`** ya est√° disponible dentro de nuestra base SQLite.  
Esto confirma que el proceso de filtrado fue exitoso y que ahora podemos trabajar con un dataset consistente, alineado con nuestra muestra de transacciones.

A partir de este punto, podemos:

- unir `transactions` + `mcc_codes` + `users` + `fraud_labels`,
- calcular m√©tricas como:
  - tasa de fraude por categor√≠a MCC,
  - monto promedio de transacciones fraudulentas,
  - picos temporales de actividad sospechosa,
  - comportamiento de usuarios afectados,
- y preparar los insights finales del proyecto.

Con esta integraci√≥n, entramos formalmente a la fase de **An√°lisis de Fraude** usando SQL.


### üîç C√°lculo de la tasa general de fraude

Antes de analizar patrones m√°s complejos, conviene obtener una **visi√≥n panor√°mica del problema**:  
¬øCu√°ntas transacciones fueron marcadas como fraude y qu√© porcentaje representan dentro de la muestra?

En esta consulta:

- Contamos el **total de transacciones**.
- Sumamos cu√°ntas tienen etiqueta de fraude (`is_fraud = 1`).
- Calculamos el **fraud_rate_pct**, expresado como porcentaje.
- Usamos `LEFT JOIN` para integrar `transactions` con `fraud_labels`, de forma que todas las transacciones se consideren (fraudulentas o no).

Este KPI funciona como punto de referencia para comparar tasas por categor√≠a, hora del d√≠a, usuario o tipo de tarjeta.


In [19]:
query = """
SELECT 
    COUNT(*) AS total_transactions,
    SUM(CASE WHEN f.is_fraud = 1 THEN 1 ELSE 0 END) AS fraud_transactions,
    100.0 * SUM(CASE WHEN f.is_fraud = 1 THEN 1 ELSE 0 END) / COUNT(*) AS fraud_rate_pct
FROM transactions t
LEFT JOIN fraud_labels f
    ON t.id = f.transaction_id;
"""

df_fraud_rate = pd.read_sql_query(query, conn)
display(df_fraud_rate)


Unnamed: 0,total_transactions,fraud_transactions,fraud_rate_pct
0,99999,107,0.107001


### üìä Resultado: Tasa de fraude en la muestra

Los valores obtenidos muestran:

- **Total de transacciones:** 99,999  
- **Transacciones fraudulentas:** 107  
- **Tasa de fraude:** 0.107%  

Aunque el n√∫mero absoluto de transacciones fraudulentas es peque√±o, su impacto no debe subestimarse.  
En escenarios reales, incluso tasas inferiores al 0.1% pueden representar p√©rdidas millonarias y justificar sistemas avanzados de detecci√≥n.

Este resultado confirma que el dataset presenta **fraude altamente infrecuente**, lo que introduce retos cl√°sicos en an√°lisis financiero:

- fuerte desbalanceo de clases,  
- necesidad de m√©tricas adicionales para entender d√≥nde ocurre el fraude,  
- importancia de segmentar para encontrar patrones escondidos.

Con esta l√≠nea base establecida, avanzamos hacia an√°lisis m√°s espec√≠ficos.


### üí≥ Comparaci√≥n entre transacciones leg√≠timas y fraudulentas

Ahora profundizamos en el comportamiento financiero de ambos grupos:  
**¬øEn qu√© se diferencian las transacciones marcadas como fraude respecto a las leg√≠timas?**

Para lograrlo:

- Estandarizamos el monto (`amount_clean`) eliminando el formato de texto y el s√≠mbolo `$`.
- Unificamos la etiqueta de fraude con `COALESCE`, evitando valores nulos.
- Agrupamos todas las transacciones en dos categor√≠as:
  - **Fraud**
  - **Legit**
- Calculamos:
  - n√∫mero total de transacciones,
  - ticket promedio (`avg_ticket`),
  - monto total procesado.

Este an√°lisis permite detectar si las operaciones fraudulentas son m√°s ‚Äúcaras‚Äù, m√°s frecuentes o m√°s dispersas, lo cual es clave para dise√±ar alertas espec√≠ficas.


In [20]:
query = """
WITH tx AS (
    SELECT 
        t.id,
        REPLACE(REPLACE(t.amount, '$', ''), ',', '') * 1.0 AS amount_clean,
        COALESCE(f.is_fraud, 0) AS is_fraud
    FROM transactions t
    LEFT JOIN fraud_labels f
        ON t.id = f.transaction_id
)
SELECT 
    CASE WHEN is_fraud = 1 THEN 'Fraud' ELSE 'Legit' END AS label,
    COUNT(*) AS num_transactions,
    AVG(amount_clean) AS avg_ticket,
    SUM(amount_clean) AS total_amount
FROM tx
GROUP BY label;
"""

df_fraud_ticket = pd.read_sql_query(query, conn)
display(df_fraud_ticket)


Unnamed: 0,label,num_transactions,avg_ticket,total_amount
0,Fraud,107,114.519346,12253.57
1,Legit,99892,43.044731,4299824.27


### üìä Interpretaci√≥n de resultados: ¬øc√≥mo operan los fraudes?

Los datos pintan un patr√≥n claro:

| Tipo | Transacciones | Ticket Promedio | Monto Total |
|------|----------------|------------------|-------------|
| **Fraud** | 107 | **$114.52** | 12,253.57 |
| **Legit** | 99,892 | $43.04 | 4,299,824.27 |

**Hallazgos clave:**

- Las transacciones fraudulentas son **casi 3 veces m√°s altas en valor promedio** que las leg√≠timas.
- Aunque solo representan **0.1%** del volumen, generan un impacto econ√≥mico significativo.
- El fraude no destaca por cantidad, sino por **monto elevado**, lo que es t√≠pico en escenarios reales:  
  *los atacantes priorizan calidad sobre cantidad*.

Este tipo de an√°lisis ayuda a dise√±ar reglas antifraude orientadas a:
- montos inusualmente altos,
- patrones de gasto at√≠picos por usuario,
- anomal√≠as por categor√≠a o ubicaci√≥n.

Con estos indicadores, el modelo comienza a perfilar d√≥nde se concentra el riesgo financiero.


## üìå An√°lisis de fraude por categor√≠a (MCC)

En esta secci√≥n profundizamos en qu√© categor√≠as de comercio concentran m√°s transacciones fraudulentas.
El objetivo es entender d√≥nde se est√° filtrando el riesgo y si existen sectores particularmente vulnerables.

Para ello:

Estandarizamos los montos (amount_clean) eliminando s√≠mbolos y comas.

Unificamos los c√≥digos MCC como enteros.

Cruzamos transactions con fraud_labels mediante un CTE para mantener el c√°lculo limpio.

Agrupamos por merchant_category_name y calculamos:

total_transactions

fraud_transactions

fraud_rate_pct: proporci√≥n de fraude por categor√≠a

Filtramos solo categor√≠as con al menos 1 transacci√≥n fraudulenta para no inflar falsos positivos.

Ordenamos de mayor a menor tasa de fraude.

El resultado revela patrones clave: algunas categor√≠as poco frecuentes muestran una tasa de fraude desproporcionadamente alta, mientras que otras ‚Äîaunque de gran volumen‚Äî concentran menos riesgo relativo.

In [21]:
query = """
WITH tx AS (
    SELECT 
        t.id,
        REPLACE(REPLACE(t.amount, '$', ''), ',', '') * 1.0 AS amount_clean,
        COALESCE(f.is_fraud, 0) AS is_fraud,
        CAST(t.mcc AS INTEGER) AS mcc_code
    FROM transactions t
    LEFT JOIN fraud_labels f
        ON t.id = f.transaction_id
)
SELECT
    m.merchant_category_name,
    COUNT(*) AS total_transactions,
    SUM(CASE WHEN tx.is_fraud = 1 THEN 1 ELSE 0 END) AS fraud_transactions,
    100.0 * SUM(CASE WHEN tx.is_fraud = 1 THEN 1 ELSE 0 END) / COUNT(*) AS fraud_rate_pct
FROM tx
JOIN mcc_codes m
    ON tx.mcc_code = m.mcc_code
GROUP BY m.merchant_category_name
HAVING fraud_transactions > 0
ORDER BY fraud_transactions DESC
LIMIT 10;
"""

df_fraud_mcc = pd.read_sql_query(query, conn)
display(df_fraud_mcc)


Unnamed: 0,merchant_category_name,total_transactions,fraud_transactions,fraud_rate_pct
0,Department Stores,3545,22,0.620592
1,Discount Stores,1778,12,0.674916
2,Wholesale Clubs,4542,9,0.198151
3,"Digital Goods - Media, Books, Apps",480,6,1.25
4,Passenger Railways,145,5,3.448276
5,"Furniture, Home Furnishings, and Equipment Stores",35,5,14.285714
6,Electronics Stores,51,5,9.803922
7,Taxicabs and Limousines,3877,4,0.103173
8,"Lighting, Fixtures, Electrical Supplies",109,4,3.669725
9,Fast Food Restaurants,3761,4,0.106355


## üß† Interpretaci√≥n principal

Department Stores y Discount Stores aparecen con vol√∫menes relativamente altos y una tasa de fraude significativa, lo que sugiere que el flujo de transacciones en estos sectores es atractivo para el fraude.

Categor√≠as peque√±as como Furniture & Home Furnishings muestran tasas de fraude elevad√≠simas, pero con muy bajo volumen: esto debe interpretarse como se√±ales puntuales, no tendencias globales.

Electronics Stores mantiene una tasa de fraude notablemente alta dado su volumen moderado, lo cual es coherente con la din√°mica real: productos de alto valor ‚Üí objetivo frecuente para fraudes.

## ‚è∞ 8. An√°lisis de fraude por hora del d√≠a

Para cerrar el an√°lisis SQL, realizamos una evaluaci√≥n por **hora del d√≠a**, con el objetivo de detectar ventanas temporales donde la actividad fraudulenta tiende a concentrarse.  
Este tipo de an√°lisis es muy utilizado en **fintech, banca digital y prevenci√≥n de fraude**, ya que permite:

- identificar patrones inusuales de comportamiento,
- ajustar reglas de riesgo basadas en horarios,
- detectar comportamientos automatizados (bots, scripts),
- validar si existe ‚Äúfraude oportunista‚Äù cuando disminuye la supervisi√≥n humana.

### üîç ¬øQu√© hace esta consulta?

1. Extrae la hora (`%H`) de cada transacci√≥n.
2. Integra la etiqueta de fraude desde `fraud_labels`.
3. Calcula por hora:
   - n√∫mero total de transacciones,
   - n√∫mero de fraudes detectados,
   - tasa porcentual de fraude.
4. Ordena de mayor a menor tasa de fraude.

Este an√°lisis revela **en qu√© momentos del d√≠a las transacciones fraudulentas tienden a ocurrir con mayor frecuencia relativa**, una pieza clave para generar alertas basadas en comportamiento.

---


In [22]:
query = query = """
WITH tx AS (
    SELECT 
        t.id,
        STRFTIME('%H', t.date) AS hour,
        COALESCE(f.is_fraud, 0) AS is_fraud
    FROM transactions t
    LEFT JOIN fraud_labels f
        ON t.id = f.transaction_id
)
SELECT 
    hour,
    COUNT(*) AS total_transactions,
    SUM(CASE WHEN is_fraud = 1 THEN 1 ELSE 0 END) AS fraud_transactions,
    100.0 * SUM(CASE WHEN is_fraud = 1 THEN 1 ELSE 0 END) / COUNT(*) AS fraud_rate_pct
FROM tx
GROUP BY hour
ORDER BY fraud_rate_pct DESC, hour;
"""

df_fraud_hours = pd.read_sql_query(query, conn)
display(df_fraud_hours)
"""
WITH tx AS (
    SELECT 
        t.id,
        STRFTIME('%H', t.date) AS hour,
        COALESCE(f.is_fraud, 0) AS is_fraud
    FROM transactions t
    LEFT JOIN fraud_labels f
        ON t.id = f.transaction_id
)
SELECT 
    hour,
    COUNT(*) AS total_transactions,
    SUM(CASE WHEN is_fraud = 1 THEN 1 ELSE 0 END) AS fraud_transactions,
    100.0 * SUM(CASE WHEN is_fraud = 1 THEN 1 ELSE 0 END) / COUNT(*) AS fraud_rate_pct
FROM tx
GROUP BY hour
ORDER BY fraud_rate_pct DESC, hour;
"""

df_fraud_hours = pd.read_sql_query(query, conn)
display(df_fraud_hours)


Unnamed: 0,hour,total_transactions,fraud_transactions,fraud_rate_pct
0,23,1172,10,0.853242
1,1,883,6,0.679502
2,2,850,4,0.470588
3,5,1421,5,0.351865
4,3,787,2,0.25413
5,22,3136,7,0.223214
6,21,3177,7,0.220334
7,19,3363,6,0.178412
8,6,5632,9,0.159801
9,20,3226,4,0.123993


Unnamed: 0,hour,total_transactions,fraud_transactions,fraud_rate_pct
0,23,1172,10,0.853242
1,1,883,6,0.679502
2,2,850,4,0.470588
3,5,1421,5,0.351865
4,3,787,2,0.25413
5,22,3136,7,0.223214
6,21,3177,7,0.220334
7,19,3363,6,0.178412
8,6,5632,9,0.159801
9,20,3226,4,0.123993


## üìä Interpretaci√≥n del comportamiento del fraude por hora del d√≠a

Los resultados muestran diferencias claras en el **riesgo relativo seg√∫n la hora** en que ocurren las transacciones:

### üî• Horas m√°s riesgosas (fraud_rate_pct m√°s alto)
Las horas con mayor concentraci√≥n proporcional de fraude fueron:

- **23:00 h** ‚Äî picos at√≠picos con la tasa m√°s alta.
- **01:00‚Äì02:00 h** ‚Äî actividad elevada que puede sugerir automatizaci√≥n.
- **05:00 h** ‚Äî otro horario potencialmente oportunista.

Este patr√≥n es t√≠pico en sistemas donde el fraude:
- intenta evitar supervisi√≥n humana,
- se ejecuta mediante scripts nocturnos,
- o se aprovecha de baja actividad operacional.

### üü¶ Horas con riesgo moderado
Entre **19:00‚Äì22:00 h**, el fraude baja, pero sigue siendo superior al promedio.

### üü© Horas m√°s seguras (menor incidencia relativa)
Las horas de **mayor actividad normal (08:00‚Äì17:00 h)** presentan tasas m√≠nimas de fraude, lo que coincide con:

- mayor tr√°fico leg√≠timo,
- mayor supervisi√≥n operativa,
- menor efectividad para ataques automatizados.

---

## üéØ Insight clave

Aunque el **volumen** de fraude es bajo, su **concentraci√≥n por hora** es reveladora:  
los defraudadores parecen aprovechar **ventanas nocturnas**, donde el tr√°fico leg√≠timo es menor y pasar desapercibidos es m√°s sencillo.

Este hallazgo permitir√≠a a una fintech:

- reforzar reglas antifraude en horarios cr√≠ticos,
- exigir validaciones adicionales (OTP, geolocaci√≥n) durante la madrugada,
- ajustar modelos predictivos basados en timestamp.

---

## üîê Conclusi√≥n

La combinaci√≥n de an√°lisis transaccional, perfiles de usuario, categor√≠as MCC y distribuci√≥n horaria construye una visi√≥n s√≥lida del **riesgo operativo**.  
Con ello, la empresa podr√≠a dise√±ar **estrategias proactivas de mitigaci√≥n de fraude**, basadas en evidencia real y patrones observados.

---


# üß† 9. S√≠ntesis de hallazgos e insights financieros

A partir del an√°lisis SQL realizado sobre las tablas de usuarios, tarjetas, transacciones, categor√≠as MCC y etiquetas de fraude, podemos extraer una visi√≥n integral del comportamiento financiero dentro de la fintech.  
Los hallazgos permiten comprender **c√≥mo se mueve el dinero, c√≥mo se comportan los usuarios y d√≥nde se encuentran los riesgos operativos m√°s importantes**.

---

## üìä 1. Volumen y comportamiento transaccional

- El dataset contiene **99,999 transacciones**, suficiente para observar patrones robustos.  
- El tr√°fico se mantiene relativamente estable d√≠a a d√≠a, sin picos at√≠picos que sugieran estacionalidades fuertes.  
- El **ticket promedio general** es de aproximadamente **\$43.12**, lo que posiciona a la fintech en un segmento de pagos cotidianos, de bajo y mediano monto.

**Insight:**  
El negocio parece orientado al consumo recurrente y a transacciones masivas de bajo valor, por lo que la eficiencia y velocidad del procesamiento son factores estrat√©gicos.

---

## üõçÔ∏è 2. Categor√≠as MCC: ¬øen qu√© gastan los usuarios?

Las categor√≠as con mayor volumen de transacciones fueron:

1. **Grocery Stores / Supermarkets**  
2. **Miscellaneous Food Stores**  
3. **Service Stations**  
4. **Restaurants y Fast Food**  

**Patr√≥n dominante:**  
El gasto se concentra en **consumo b√°sico y usos cotidianos**, lo que refuerza la idea de que la fintech opera como medio de pago diario.

**Ticket promedio por categor√≠a:**  
Las categor√≠as de mayor valor promedio fueron:

- **Money Transfer**  
- **Wholesale Clubs**  
- **Department Stores**

Estas categor√≠as ‚Äîaunque no siempre tienen el mayor volumen‚Äî s√≠ concentran **mayor monto por transacci√≥n**, lo que las vuelve relevantes desde perspectiva de margen.

---

## üë• 3. Comportamiento por grupo de edad

El an√°lisis muestra una relaci√≥n clara:  
**A mayor edad, mayor ticket promedio.**

- 18‚Äì29 a√±os ‚Üí ticket promedio m√°s bajo (‚âà \$30)  
- 50‚Äì59 a√±os ‚Üí ticket promedio m√°s alto (‚âà \$44.5)  
- 60+ a√±os ‚Üí consumo tambi√©n elevado y estable  

**Interpretaci√≥n:**  
Los usuarios mayores tienen mayor capacidad de gasto y utilizan los servicios para transacciones de mayor valor. Esto abre puertas a productos premium o l√≠neas de cr√©dito dirigidas a este segmento.

---

## üîÅ 4. Recurrencia de usuarios

Algunos usuarios acumulan **m√°s de 300 transacciones individuales**, lo cual indica:

- un grupo de usuarios ‚Äúheavy usage‚Äù con alta fidelidad,
- potencial para estrategias de retenci√≥n y beneficios segmentados,
- insights valiosos para modelos de CLTV.

**Insight:**  
No todos los usuarios aportan el mismo valor. Hay un subconjunto altamente activo que podr√≠a impulsar programas ‚ÄúTop User‚Äù o cashback inteligente.

---

## üîê 5. Exploraci√≥n y patrones de fraude

La proporci√≥n de fraude encontrada en la muestra es:

- **107 transacciones fraudulentas**  
- **Fraud Rate ‚âà 0.107%**

Aunque el volumen es peque√±o, se detectan patrones claros:

### üîé Categor√≠as con mayor fraude relativo
Las tasas m√°s altas de fraude se concentran en:

- **Furniture / Equipment Stores**  
- **Electronics Stores**  
- **Digital Goods ‚Äì Apps / Media**  
- **Passenger Railways**  
- **Discount Stores**  

**Interpretaci√≥n:**  
Son categor√≠as donde:
- es f√°cil revender bienes,
- existen transacciones r√°pidas/no presenciales,
- hay menos fricci√≥n operativa.

Estos sectores suelen estar entre los m√°s atacados en cualquier ecosistema de pagos.

### üïí Horarios de mayor riesgo
El fraude se concentra desproporcionadamente en:

- **23:00 h** (pico m√°ximo)  
- **01:00‚Äì02:00 h**  
- **05:00 h**  

El patr√≥n sugiere actividad automatizada o intentos de aprovechar periodos de menor supervisi√≥n humana.

**Insight clave:**  
El fraude no ocurre al azar; sigue ventanas de oportunidad espec√≠ficas. Esto permitir√≠a activar **reglas din√°micas** como:
- bloqueo de alto riesgo nocturno,
- doble validaci√≥n en horarios cr√≠ticos,
- modelos ML que incluyan timestamp como feature relevante.

---

## üß© Conclusi√≥n general

El an√°lisis SQL permite construir una radiograf√≠a clara del ecosistema transaccional:

- La fintech opera principalmente como medio de pago cotidiano.  
- Los usuarios mayores impulsan transacciones de mayor valor.  
- Las categor√≠as de consumo diario dominan el volumen.  
- Existen segmentos de usuarios altamente recurrentes que representan oportunidades de fidelizaci√≥n.  
- El fraude es bajo en volumen, pero muy claro en patrones: categor√≠as espec√≠ficas y horas nocturnas.

Este tipo de an√°lisis no solo revela lo que ocurre, sino **c√≥mo puede la empresa actuar**: optimizar prevenci√≥n de fraude, ajustar estrategias de producto, mejorar retenci√≥n y dise√±ar soluciones segmentadas con base en datos reales.

---

