# An√°lisis Integral para la Detecci√≥n y Prevenci√≥n de Fraudes en Tarjetas ‚Äì Perspectiva del Emisor 

El objetivo principal de este proyecto es analizar las transacciones desde la perspectiva del emisor de tarjetas, con el prop√≥sito de identificar tendencias y detectar posibles comportamientos inusuales asociados al fraude. Para esto, se automatiza el c√°lculo de indicadores clave y KPIs relevantes, junto con la visualizaci√≥n de m√©tricas √∫tiles para el monitoreo y control operativo. Durante el trabajo, se identificar√°n variables de riesgo que permitan generar reglas en tiempo real (RT) para declinar transacciones fraudulentas, as√≠ como reglas cercanas a tiempo real (NRT) que faciliten el control y seguimiento de operaciones inusuales. Los resultados obtenidos servir√°n como base para dise√±ar recomendaciones y estrategias que fortalezcan la detecci√≥n y prevenci√≥n de fraudes, aumentando la capacidad de respuesta y la protecci√≥n de las instituciones emisoras de tarjetas.

Cabe destacar que el uso de la Ciencia de Datos resulta esencial en este contexto, ya que permite transformar grandes vol√∫menes de informaci√≥n transaccional en conocimiento √∫til y accionable. Este enfoque no solo facilita la identificaci√≥n temprana de riesgos y patrones sospechosos, sino que tambi√©n potencia la toma de decisiones informadas, contribuyendo de manera decisiva a la gesti√≥n proactiva y eficiente de la prevenci√≥n de fraudes en el sector financiero.

---

## Motivaci√≥n y justificaci√≥n 

- Automatizar la generaci√≥n y reporte de informaci√≥n relevante para la toma de decisiones √°giles y efectivas en la detecci√≥n y prevenci√≥n de fraudes.
- Proveer una plataforma anal√≠tica robusta que sustente el dise√±o, priorizaci√≥n y ajuste de controles antifraude en RT/NRT, basada en evidencias y criterios medibles.
- Optimizar la eficiencia operativa, reduciendo p√©rdidas por fraude sin comprometer la satisfacci√≥n y experiencia del cliente.
- Garantizar la trazabilidad y objetividad en el manejo de datos, facilitando el desarrollo y seguimiento de modelos predictivos de machine learning.

---

## Objetivos 

- Desarrollar indicadores e informes de m√©tricas clave de forma automatizada, como soporte a las decisiones estrat√©gicas antifraude.
- Implementar y monitorear KPIs cr√≠ticos para la evaluaci√≥n continua de desempe√±o y riesgo.
- Analizar y segmentar el hist√≥rico de transacciones para descubrir patrones y comportamientos con alta propensi√≥n a fraude.
- Extraer y definir variables explicativas basadas en an√°lisis estad√≠stico y evidencia emp√≠rica.
- Construir y validar modelos de machine learning orientados a la detecci√≥n temprana y la prevenci√≥n eficaz de fraudes en tarjetas, bajo la perspectiva del emisor.

---

## Autor 

-Christian Javier Fern√°ndez Oca√±a 

* Per√≠odo de cobertura de datos: desde el segundo trimestre de 2023 hasta el primer trimestre de 2025

* Datos para uso educativo
---

# 1. Configuraci√≥n del entorno

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pathlib import Path
import seaborn as sns
from IPython.display import display
from sqlalchemy import create_engine
pd.set_option ('display.max_columns', None)
pd.set_option ('display.max_rows', None)


# 2. Carga de datos

In [2]:
# Conexi√≥n a la base de datos
usuario = "root"
password = '1993'
host = 'Localhost'
puerto = '3306'
base_datos = 'trx_emisor_sumulados_v1'

# Crear engine de conexi√≥n

engine = create_engine(f"mysql+pymysql://{usuario}:{password}@{host}:{puerto}/{base_datos}")

# Cargar la tabla

query = (
    "SELECT DE32_Cod_Adquiriente, DE42_Cod_Comercio, DE49_Cod_Moneda, DE61_13_Cod_Pais, ID_Usuario, DE13_Fecha, "
    "Id_Trx, Comercio_Alias, DE18_MCC, DE6_Monto_Dolar, DE4_Monto_Local, DE22_Modo_Entrada, Aut, "
    "DE25_Punto_Entrada, Regla, DE39_Respuesta_ISO, Id_Terminal_Hash, MTI, Cod_Resp, entry_mode, "
    "Desc_entry_mode, canal, Registro, IIN, ID_Tarjeta_Hash, Estado, BIN_TC_TD, dia_semana, Respuesta "
    "FROM tabla_trx_emisor "
    "WHERE BIN_TC_TD = 'TD'"
)

df_trx_emisor = df_trx_emisor = pd.read_sql(query, con=engine)


# 3. Inspecci√≥n y arreglos preliminares

## Definici√≥n de tipos de datos

Para evitar errores durante el an√°lisis, es fundamental asignar expl√≠citamente el tipo de dato adecuado a cada variable del conjunto de datos, asegurando que las columnas categ√≥ricas, num√©ricas y de fechas est√©n correctamente tipificadas.

Por ejemplo, variables como c√≥digos, identificadores y estados se definen como cadenas de texto (strings), mientras que los montos se convierten a tipo flotante para facilitar c√°lculos y segmentaciones posteriores.

---

### Contexto: Est√°ndar ISO 8583

El an√°lisis de transacciones con tarjetas se basa en el est√°ndar internacional **ISO 8583**, un protocolo global que define la estructura y formato de mensajes para transacciones financieras originadas por tarjetas de cr√©dito y d√©bito. Este est√°ndar es utilizado ampliamente en sistemas financiero y redes de pago para garantizar la interoperabilidad y seguridad en la comunicaci√≥n de transacciones electr√≥nicas.

---

### üîë Variables clave en este an√°lisis

| Variable             | Descripci√≥n                                                                                       |
|----------------------|-------------------------------------------------------------------------------------------------|
| **IIN**              | N√∫mero de Identificaci√≥n del Usuario o BIN, usado para clasificar la tarjeta.                    |
| **DE32_Cod_Adquiriente** | C√≥digo del adquirente que procesa la transacci√≥n (datos anonimizados).                      |
| **DE42_Cod_Comercio** | C√≥digo del comercio o establecimiento donde se realiza la transacci√≥n.                           |
| **DE61_13_Cod_Pais** | C√≥digo del pa√≠s desde donde se origina la transacci√≥n.                                          |
| **ID_Usuario**       | Identificador √∫nico del usuario.                                                                 |
| **Comercio_Alias**   | Identificador pseudonimizado del establecimiento para proteger la privacidad.                     |
| **Canal**            | Indica el canal de consumo: tarjeta presente o no presente.                                     |
| **DE18_MCC**         | Giro o categor√≠a del comercio seg√∫n Merchant Category Code (MCC).                               |
| **Respuesta**        | Indica si la transacci√≥n fue autorizada o rechazada.                                            |
| **Fraude**           | Variable binaria: 1 si la transacci√≥n es fraudulenta, 0 si no.                                  |
| **DE6_Monto_Dolar**  | Monto de la transacci√≥n expresado en d√≥lares estadounidenses.                                   |
| **DE4_Monto_Local**  | Monto de la transacci√≥n en moneda local de origen.                                              |
| **ID_Tarjeta_Hash**  | Identificador pseudonimizado que simula un n√∫mero de tarjeta √∫nico.                             |

---

## Definir los tipos de datos de cada columna


In [4]:
# Definir los tipos de cada columnas
dtype_cols = {
    "INN":str,
    "DE32_Cod_Adquiriente": str,
    "DE42_Cod_Comercio": str,
    "DE49_Cod_Moneda": str,
    "DE61_13_Cod_Pais": str,
    "ID_Usuario": str,
    "Id_Trx": str,
    'Comercio_Alias': str,
    "DE18_MCC": str,
    "DE22_Modo_Entrada": str,
    "Aut": str,
    "Pais_Comercio": str,
    "DE25_Punto_Entrada": str,
    "Regla": str,
    "DE39_Respuesta_ISO": str,
    "Id_Terminal_Hash": str,
    "DE39_Terminal_Id": str,
    "Tipo_Moneda": str,
    "MTI": str,
    "Cod_Resp": str,
    "No_Referencia": str,
    "dia_semana": str,
    "entry_mode": str,
    "Desc_entry_mode": str,
    "canal": str,
    "Respuesta": str,
    "Registro": str,
    "Estado": str,
    "DE6_Monto_Dolar": float,
    "DE4_Monto_Local": float
}


# Forzar tipos de datos seg√πn lo definido

for col, tipo in dtype_cols.items():
    if col in df_trx_emisor.columns:
        df_trx_emisor[col] = df_trx_emisor[col].astype(tipo, errors='ignore')

## Definir rangos 

- Por montos de transacci√≤n 

In [5]:
# Definir rangos de montos por transacci√≤n

rangos = [0,1,10,100,300,1000, float('inf')]
labels = [
    "0-1",          # Validaciones de IIN 
    "1-10",         # Rangos de montos donde tambien se presentan pruebas
    "10-100",       # Pagos moderados
    "100-300",      # Montos medios
    "300-1000",     # Montos altos
    "+1000"         # Montos muy altos
]

# Crear la nueva columna de rangos

df_trx_emisor['rango_monto'] = pd.cut(
    df_trx_emisor['DE6_Monto_Dolar'],
    bins=rangos,
    labels = labels,
    right=True, 
    include_lowest= True

)

# Ver conteo por rango
df_trx_emisor['rango_monto'].value_counts().sort_index()




rango_monto
0-1         173832
1-10        408309
10-100      750055
100-300     109112
300-1000     21559
+1000          973
Name: count, dtype: int64

## Construcci√≥n de variables de tiempo y fraude
Para realizar un an√°lisis temporal detallado y detectar patrones estacionales o por periodos, se generan variables derivadas a partir de la fecha original de cada transacci√≥n. Estas variables temporales permiten segmentar y observar la evoluci√≥n de fraudes y transacciones en diferentes escalas de tiempo, como a√±o, mes, d√≠a u hora.

Tambi√©n se crea una variable binaria para identificar si una transacci√≥n fue fraudulenta o no, lo cual es fundamental para el modelado y segmentaci√≥n posterior.

---

### Variables temporales generadas:

- **year:** A√±o de la transacci√≥n.  
- **mes:** Mes del a√±o.  
- **dia:** D√≠a del mes.  
- **hora:** Hora del d√≠a.  
- **mes_a√±o:** Periodo mes-a√±o para an√°lisis agregados mensuales.  
- **trimestre:** Periodo trimestral para detectar patrones estacionales.

In [6]:
#Crear variables A√±o, mes,dia, hora, dia semana
#Se generan variables temporales (a√±o, mes, d√≠a, hora, trimestre, mes-a√±o) a partir de la fecha de transacci√≥ y una variable binaria de fraude.
df_trx_emisor['year'] =df_trx_emisor['DE13_Fecha'].dt.year
df_trx_emisor['mes'] = df_trx_emisor['DE13_Fecha'].dt.month
df_trx_emisor['day'] = df_trx_emisor['DE13_Fecha'].dt.day
df_trx_emisor['hora'] = df_trx_emisor['DE13_Fecha'].dt.hour
df_trx_emisor['mes_year'] = df_trx_emisor['DE13_Fecha'].dt.to_period('M')
df_trx_emisor['trimestre'] = df_trx_emisor['DE13_Fecha'].dt.to_period('Q')

# Crear clumna binaria de fraude
df_trx_emisor['Fraude'] = np.where(df_trx_emisor['Estado'].str.lower() == 'f',1,0)          

## Construcci√≥n de rangos horarios

- Se segmentan las horas del d√≠a en diferentes franjas horarias, con el objetivo de clasificar y analizar los momentos en que ocurren las transacciones.

In [7]:
# Definir rangos por horarios

def rango_monto(hora):
    if 0 <= hora < 6:
        return "madrugada"
    elif 6 <= hora < 12:
        return "ma√±ana"
    elif 12 <= hora < 18:
        return 'tarde'
    else:
        return 'noche'
    
df_trx_emisor['franja_horaria'] = df_trx_emisor['hora'].apply(rango_monto)

# ver conteo por rangos

df_trx_emisor['franja_horaria'].value_counts().sort_index()

franja_horaria
madrugada     69789
ma√±ana       393677
noche        377235
tarde        623139
Name: count, dtype: int64

In [8]:
df_trx_emisor['Regla_nrt'] = np.where(
    (df_trx_emisor['Estado'] == 'None') | 
    ((df_trx_emisor['Estado'] == 'F') & (df_trx_emisor['Respuesta'] == 'AUTORIZADO')),
    'NO_ALERTA',
    'SI_ALERTA'
)

sialerta1 = df_trx_emisor.groupby('Regla_nrt')['Estado'].value_counts()
sialerta1

Regla_nrt  Estado
NO_ALERTA  None      1340445
           F            1196
SI_ALERTA  D          108947
           F            7933
           I            4838
           S             481
Name: count, dtype: int64

## Revisi√≥n de valores √∫nicos y consistencia de datos

En esta secci√≥n se identifican y analizan los valores √∫nicos presentes en las variables principales del dataset. Este paso es esencial para:

- Inspeccionar la consistencia y limpieza de los datos.
- Detectar posibles anomal√≠as, duplicados o valores at√≠picos.
- Realizar una verificaci√≥n r√°pida del estado general del conjunto de datos.
- Asegurar que las variables categ√≥ricas est√©n correctamente codificadas y sean coherentes para an√°lisis posteriores.

Descripci√≥n general del proceso

Para cada variable clave, se realiza:

- C√°lculo de la frecuencia absoluta de cada valor √∫nico.
- C√°lculo de la proporci√≥n (%) respecto al total de observaciones para identificar categor√≠as dominantes o raras.

 Esto facilita la toma de decisiones sobre limpieza, segmentaci√≥n o consolidaci√≥n de categor√≠as.



In [9]:
# IIN
resumen_IIN =(
    df_trx_emisor['IIN']
    .value_counts()
    .reset_index()
    .rename(columns={'count':'frecuencia'})
 )
total_IIN = resumen_IIN['frecuencia'].sum()
resumen_IIN['%'] = (resumen_IIN['frecuencia']/ total_IIN *100).round(2)

# DE32_Cod_Adquiriente 
resumen_adquirente = (
    df_trx_emisor['DE32_Cod_Adquiriente']
    .value_counts()
    .reset_index()     
    .rename(columns={'count':'frecuencia'})
)
total_adquirente = resumen_adquirente['frecuencia'].sum()
resumen_adquirente['%'] = (resumen_adquirente['frecuencia']/ total_adquirente*100).round(2)


# DE42_Cod_Comercio
resumen_codcomercio = (
    df_trx_emisor['DE42_Cod_Comercio']
    .value_counts()
    .reset_index()
    .rename(columns = {'count':'frecuencia'})
)   
total_codcomercio = resumen_codcomercio['frecuencia'].sum()
resumen_codcomercio['%'] = (resumen_codcomercio['frecuencia']/total_codcomercio*100).round(2)


# DE61_13_Cod_Pais
resumen_pais =(
    df_trx_emisor['DE61_13_Cod_Pais']
    .value_counts()
    .reset_index()
    .rename(columns={'count':'frecuencia'})
)
total_pais = resumen_pais['frecuencia'].sum()
resumen_pais['%'] = (resumen_pais['frecuencia']/total_pais *100).round(2)

# Comercio_Alias
resumen_comercio = (
    df_trx_emisor['Comercio_Alias']
    .value_counts()
    .reset_index()
    .rename(columns={'count':'frecuencia'})
)
total_comercio = resumen_comercio['frecuencia'].sum()
resumen_comercio['%'] = (resumen_comercio['frecuencia']/ total_comercio *100).round(2)

# DE18_MCC
resumen_mcc = (
    df_trx_emisor['DE18_MCC']
    .value_counts()
    .reset_index()
    .rename(columns={'count':'frecuencia'})
)
total_mcc = resumen_mcc['frecuencia'].sum()
resumen_mcc['%'] = (resumen_mcc['frecuencia'] / (total_mcc)*100).round(2)

# DE6_Monto_Dolar
resumen_monto = (
    df_trx_emisor['DE6_Monto_Dolar']
    .value_counts()
    .reset_index()
    .rename(columns={'count':'frecuencia'})
)
total_monto = resumen_monto['frecuencia'].sum()
resumen_monto['%'] = ((resumen_monto['frecuencia'] / total_monto)*100 ).round(2)

# DE22_Modo_Entrada
resumen_entrada = (
    df_trx_emisor['DE22_Modo_Entrada']
    .value_counts()
    .reset_index()
    .rename(columns={'count':'frecuencia'})
)
total_entrada = resumen_entrada['frecuencia'].sum()
resumen_entrada['%'] = (resumen_entrada['frecuencia']/total_entrada * 100).round()

# Regla
resumen_regla = (
    df_trx_emisor['Regla']
    .value_counts()
    .reset_index()
    .rename(columns={'count':'frecuencia'}) 
)
total_regla = resumen_regla['frecuencia'].sum()
resumen_regla['%'] = (resumen_regla['frecuencia'] / total_regla *100).round(2)


# entry_mode
resumen_entry = (
    df_trx_emisor['entry_mode']
    .value_counts()
    .reset_index()
    .rename(columns={'count':'frecuencia'})
)
total_entry = resumen_entry['frecuencia'].sum()
resumen_entry['%'] = (resumen_entry['frecuencia']/total_entry * 100).round()

# Desc_entry_mode
resumen_desentry = (
    df_trx_emisor['Desc_entry_mode']
    .value_counts()
    .reset_index()
    .rename(columns={'count':'frecuencia'})
)
total_desentry = resumen_desentry['frecuencia'].sum()
resumen_desentry['%'] = (resumen_desentry['frecuencia']/total_desentry * 100).round()

# canal
resumen_canal = (
    df_trx_emisor['canal']
    .value_counts()
    .reset_index()
    .rename(columns={'count':'frecuencia'})
)
total_canal = resumen_canal['frecuencia'].sum()
resumen_canal['%'] = (resumen_canal['frecuencia'] / total_canal * 100).round(2)

# DE39_Respuesta_ISO
resumen_resp = (
    df_trx_emisor['DE39_Respuesta_ISO']
    .value_counts()
    .reset_index()
    .rename(columns={'count':'frecuencia'})
)
total_resp = resumen_resp['frecuencia'].sum()
resumen_resp['%'] = (resumen_resp['frecuencia']/ total_resp *100).round(2)

# Estado
resumen_estado = (
    df_trx_emisor['Estado']
    .value_counts()
    .reset_index()
    .rename(columns={'count':'frecuencia'})
)
total_estado = resumen_estado['frecuencia'].sum()
resumen_estado['%'] = (resumen_estado['frecuencia'] / total_estado * 100).round()

# dia_semana
resumen_dia_semana = (
    df_trx_emisor['dia_semana']
    .value_counts()
    .reset_index()
    .rename(columns={'count':'frecuencia'})
)
total_dia_semana = resumen_dia_semana['frecuencia'].sum()
resumen_dia_semana['%'] = (resumen_dia_semana['frecuencia'] / total_dia_semana * 100).round()

# rango_monto
resumen_rango_monto = (
    df_trx_emisor['rango_monto']
    .value_counts()
    .reset_index()
    .rename(columns={'count':'frecuencia'})
)
total_rango_monto = resumen_rango_monto['frecuencia'].sum()
resumen_rango_monto['%'] = (resumen_rango_monto['frecuencia'] / total_rango_monto * 100).round()

# year
resumen_year = (
    df_trx_emisor['year']
    .value_counts()
    .reset_index()
    .rename(columns={'count':'frecuencia'})
)
total_year = resumen_year['frecuencia'].sum()
resumen_year['%'] = (resumen_year['frecuencia'] / total_year * 100).round()


# hora
resumen_hora = (
    df_trx_emisor['hora']
    .value_counts()
    .reset_index()
    .rename(columns={'count':'frecuencia'})
)
total_hora = resumen_hora['frecuencia'].sum()
resumen_hora['%'] = (resumen_hora['frecuencia'] / total_hora * 100).round()

# franja_horaria
resumen_franja_horaria = (
    df_trx_emisor['franja_horaria']
    .value_counts()
    .reset_index()
    .rename(columns={'count':'frecuencia'})
)
total_franja_horaria = resumen_franja_horaria['frecuencia'].sum()
resumen_franja_horaria['%'] = (resumen_franja_horaria['frecuencia'] / total_franja_horaria * 100).round()

# Fraude
resumen_Fraude = (
    df_trx_emisor['Fraude']
    .value_counts()
    .reset_index()
    .rename(columns={'count':'frecuencia'})
)
total_Fraude = resumen_Fraude['frecuencia'].sum()
resumen_Fraude['%'] = (resumen_Fraude['frecuencia'] / total_Fraude * 100).round()

In [10]:
display(resumen_regla.head())

Unnamed: 0,Regla,frecuencia,%
0,0,1433663,97.94
1,175,4455,0.3
2,19,3202,0.22
3,24,2045,0.14
4,10,1629,0.11


In [11]:
display(resumen_IIN.head(),resumen_adquirente.head(3), resumen_codcomercio.head(2), resumen_pais.head(4),resumen_rango_monto.head(6),
        resumen_comercio.head(4),resumen_mcc.head(5), resumen_monto.head(),resumen_entrada.head(),resumen_regla.head(8),resumen_entry.head(5),
        resumen_desentry.head(), resumen_canal.head(), resumen_resp.head(), resumen_estado.head(),resumen_dia_semana.head(7), resumen_year.head(3),
        resumen_hora.head(10), resumen_Fraude.head(), resumen_franja_horaria.head())

Unnamed: 0,IIN,frecuencia,%
0,1,1463840,100.0


Unnamed: 0,DE32_Cod_Adquiriente,frecuencia,%
0,ADQ_2925bbd5,520512,35.56
1,ADQ_5cd9439e,147280,10.06
2,ADQ_174af9a7,104421,7.13


Unnamed: 0,DE42_Cod_Comercio,frecuencia,%
0,COM_2925bbd5,520512,35.56
1,COM_645a8aca,173633,11.86


Unnamed: 0,DE61_13_Cod_Pais,frecuencia,%
0,218,1114344,76.12
1,840,249821,17.07
2,528,29447,2.01
3,372,21386,1.46


Unnamed: 0,rango_monto,frecuencia,%
0,10-100,750055,51.0
1,1-10,408309,28.0
2,0-1,173832,12.0
3,100-300,109112,7.0
4,300-1000,21559,1.0
5,+1000,973,0.0


Unnamed: 0,Comercio_Alias,frecuencia,%
0,APPLE.COM/BILL 7356bf US,64536,4.41
1,LC_b30ea2cae5,29293,2.0
2,LC_bedf40986c,25514,1.74
3,LC_4db621ffb1,21249,1.45


Unnamed: 0,DE18_MCC,frecuencia,%
0,6011,755160,51.59
1,5818,104019,7.11
2,5411,76121,5.2
3,4899,51975,3.55
4,5541,49535,3.38


Unnamed: 0,DE6_Monto_Dolar,frecuencia,%
0,0.0,115591,7.9
1,20.0,87857,6.0
2,10.0,80399,5.49
3,5.0,58561,4.0
4,50.0,53757,3.67


Unnamed: 0,DE22_Modo_Entrada,frecuencia,%
0,510,743416,51.0
1,710,277866,19.0
2,1000,181127,12.0
3,100,143601,10.0
4,1020,43400,3.0


Unnamed: 0,Regla,frecuencia,%
0,0,1433663,97.94
1,175,4455,0.3
2,19,3202,0.22
3,24,2045,0.14
4,10,1629,0.11
5,8,1457,0.1
6,5,1349,0.09
7,128,1240,0.08


Unnamed: 0,entry_mode,frecuencia,%
0,5,743987,51.0
1,7,279142,19.0
2,10,224565,15.0
3,1,196072,13.0
4,0,19515,1.0


Unnamed: 0,Desc_entry_mode,frecuencia,%
0,Chip,743987,51.0
1,Contactless,279142,19.0
2,Credition File,224565,15.0
3,INT,196072,13.0
4,Desconocido,19515,1.0


Unnamed: 0,canal,frecuencia,%
0,CP,1023251,69.9
1,CNP,440152,30.07
2,Desconocido,437,0.03


Unnamed: 0,DE39_Respuesta_ISO,frecuencia,%
0,0,1117231,76.32
1,51,169078,11.55
2,85,44184,3.02
3,59,41330,2.82
4,96,30656,2.09


Unnamed: 0,Estado,frecuencia,%
0,,1340445,92.0
1,D,108947,7.0
2,F,9129,1.0
3,I,4838,0.0
4,S,481,0.0


Unnamed: 0,dia_semana,frecuencia,%
0,Friday,230164,16.0
1,Saturday,223693,15.0
2,Wednesday,211997,14.0
3,Monday,209044,14.0
4,Thursday,205127,14.0
5,Tuesday,199966,14.0
6,Sunday,183849,13.0


Unnamed: 0,year,frecuencia,%
0,2024,744372,51.0
1,2023,369239,25.0
2,2025,350229,24.0


Unnamed: 0,hora,frecuencia,%
0,12,109185,7.0
1,17,108376,7.0
2,13,108151,7.0
3,18,106629,7.0
4,11,100494,7.0
5,16,99611,7.0
6,14,99388,7.0
7,15,98428,7.0
8,10,92333,6.0
9,19,89323,6.0


Unnamed: 0,Fraude,frecuencia,%
0,0,1454711,99.0
1,1,9129,1.0


Unnamed: 0,franja_horaria,frecuencia,%
0,tarde,623139,43.0
1,ma√±ana,393677,27.0
2,noche,377235,26.0
3,madrugada,69789,5.0


## An√°lisis de transacciones totales del DF

Durante la revisi√≥n inicial, se identificaron algunos valores extremadamente altos en las transacciones, que resultaron ser at√≠picos y probablemente datos mal capturados. Se detectaron tres registros que superaban significativamente los rangos esperados. Para evitar que estos valores sesgaran el an√°lisis, fueron eliminados.

Tras este ajuste, el dataset presenta un comportamiento m√°s consistente y representativo de la realidad operativa.

### Resumen del dataset:

- **Tama√±o de la muestra:** 1,463,837 registros, representativos para el an√°lisis.  
- **Montos (DE6_Monto_Dolar):** Principalmente bajos, con mediana en 15 USD y algunos valores at√≠picos que alcanzan hasta 17,150 USD. La distribuci√≥n muestra una cola larga y sesgada.  
- **Variables temporales:** A√±os entre 2023 y 2025, con predominancia del 2024; mediana del mes en junio; d√≠a 15 y hora 14:00 h.  


### Conclusi√≥n

El dataset est√° dominado por transacciones de baja cuant√≠a, con pocos valores extremos. La baja frecuencia de fraudes justifica el uso de t√©cnicas espec√≠ficas para tratar datasets desbalanceados. Esto permite un an√°lisis temporal detallado y segmentado por monto.

In [12]:
# Se identificaron valores poco reales en las transacciones con tarjetas, espec√≠ficamente un monto en d√≥lares de $2,211,089,408.00. 
# Por esta raz√≥n, se procede a realizar una revisi√≥n m√°s profunda con el fin de determinar las causas de este valor atipico en monto en d√≥lares y el monto en moneda local.

pd.set_option('display.float_format','{:.2f}'.format)
df_trx_emisor.describe(include=[np.number])

Unnamed: 0,DE6_Monto_Dolar,DE4_Monto_Local,year,mes,day,hora,Fraude
count,1463840.0,1463840.0,1463840.0,1463840.0,1463840.0,1463840.0,1463840.0
mean,4571.74,5112.84,2023.99,6.61,15.28,13.83,0.01
std,3165336.04,3165472.34,0.7,3.56,8.74,4.88,0.08
min,0.0,0.0,2023.0,1.0,1.0,0.0,0.0
25%,5.15,5.0,2023.0,3.0,8.0,11.0,0.0
50%,15.42,16.0,2024.0,6.0,15.0,14.0,0.0
75%,45.0,48.0,2024.0,10.0,23.0,18.0,0.0
max,2211089408.0,2211089408.0,2025.0,12.0,31.0,23.0,1.0


In [13]:

# 1 Identificar el valor m√†ximo identificado
valor_max = df_trx_emisor['DE6_Monto_Dolar'].max()
valor_max
# 2 Identificar filas con valores atipicos
df_max = df_trx_emisor[df_trx_emisor['DE6_Monto_Dolar']== valor_max ]
df_max


Unnamed: 0,DE32_Cod_Adquiriente,DE42_Cod_Comercio,DE49_Cod_Moneda,DE61_13_Cod_Pais,ID_Usuario,DE13_Fecha,Id_Trx,Comercio_Alias,DE18_MCC,DE6_Monto_Dolar,DE4_Monto_Local,DE22_Modo_Entrada,Aut,DE25_Punto_Entrada,Regla,DE39_Respuesta_ISO,Id_Terminal_Hash,MTI,Cod_Resp,entry_mode,Desc_entry_mode,canal,Registro,IIN,ID_Tarjeta_Hash,Estado,BIN_TC_TD,dia_semana,Respuesta,rango_monto,year,mes,day,hora,mes_year,trimestre,Fraude,franja_horaria,Regla_nrt
1232051,ADQ_7b28194e,COM_c9ce7f72,840,218,a78d03d2d6d2,2025-02-07 09:00:47,1486310,LC_9540c1090d,6011,2211089408.0,2211089408.0,510,0,2252PRO11010P,0,51,TERM_fca396848a,200,4007,5,Chip,CP,Compra,1,e7591fbbaddb,,TD,Friday,NO_AUTORIZADO,1000,2025,2,7,9,2025-02,2025Q1,0,ma√±ana,NO_ALERTA
1241525,ADQ_7b28194e,COM_c9ce7f72,840,218,a78d03d2d6d2,2025-02-11 12:28:17,1497210,LC_9540c1090d,6011,2211089408.0,2211089408.0,510,0,2252PRO11010P,0,51,TERM_fca396848a,200,4007,5,Chip,CP,Compra,1,e7591fbbaddb,,TD,Tuesday,NO_AUTORIZADO,1000,2025,2,11,12,2025-02,2025Q1,0,tarde,NO_ALERTA
1241568,ADQ_7b28194e,COM_c9ce7f72,840,218,a78d03d2d6d2,2025-02-11 12:48:06,1497260,LC_9540c1090d,6011,2211089408.0,2211089408.0,510,0,2252PRO11010P,0,51,TERM_fca396848a,200,4007,5,Chip,CP,Compra,1,e7591fbbaddb,,TD,Tuesday,NO_AUTORIZADO,1000,2025,2,11,12,2025-02,2025Q1,0,tarde,NO_ALERTA


- Durante la revisi√≥n de las transacciones, se identific√≥ un valor at√≠pico correspondiente al c√≥digo MCC 6011 (ATM - Cajeros Autom√°ticos). Este comportamiento sugiere la existencia de una posible anomal√≠a en el registro de la operaci√≥n.

- El hallazgo podr√≠a estar relacionado con errores de configuraci√≥n en el cajero autom√°tico, los cuales habr√≠an permitido procesar montos que exceden los l√≠mites normales establecidos por las pol√≠ticas operativas. Dichas inconsistencias impactan directamente en las estad√≠sticas de transaccionalidad, generando desviaciones significativas en los reportes de comportamiento financiero.

- Adicionalmente, se observ√≥ que las operaciones involucradas fueron realizadas por el mismo usuario y en el mismo ATM, se procedera a eliminar el dato atipico, adicional se procedera a revisar si existen otros valores inusuales.

In [14]:
# Definir umbral 
umbral = 20000
# Filtrar las filas con los valores inflados
df_inflados = df_trx_emisor[df_trx_emisor['DE6_Monto_Dolar']> umbral]
df_inflados.head(20)


Unnamed: 0,DE32_Cod_Adquiriente,DE42_Cod_Comercio,DE49_Cod_Moneda,DE61_13_Cod_Pais,ID_Usuario,DE13_Fecha,Id_Trx,Comercio_Alias,DE18_MCC,DE6_Monto_Dolar,DE4_Monto_Local,DE22_Modo_Entrada,Aut,DE25_Punto_Entrada,Regla,DE39_Respuesta_ISO,Id_Terminal_Hash,MTI,Cod_Resp,entry_mode,Desc_entry_mode,canal,Registro,IIN,ID_Tarjeta_Hash,Estado,BIN_TC_TD,dia_semana,Respuesta,rango_monto,year,mes,day,hora,mes_year,trimestre,Fraude,franja_horaria,Regla_nrt
1232051,ADQ_7b28194e,COM_c9ce7f72,840,218,a78d03d2d6d2,2025-02-07 09:00:47,1486310,LC_9540c1090d,6011,2211089408.0,2211089408.0,510,0,2252PRO11010P,0,51,TERM_fca396848a,200,4007,5,Chip,CP,Compra,1,e7591fbbaddb,,TD,Friday,NO_AUTORIZADO,1000,2025,2,7,9,2025-02,2025Q1,0,ma√±ana,NO_ALERTA
1241525,ADQ_7b28194e,COM_c9ce7f72,840,218,a78d03d2d6d2,2025-02-11 12:28:17,1497210,LC_9540c1090d,6011,2211089408.0,2211089408.0,510,0,2252PRO11010P,0,51,TERM_fca396848a,200,4007,5,Chip,CP,Compra,1,e7591fbbaddb,,TD,Tuesday,NO_AUTORIZADO,1000,2025,2,11,12,2025-02,2025Q1,0,tarde,NO_ALERTA
1241568,ADQ_7b28194e,COM_c9ce7f72,840,218,a78d03d2d6d2,2025-02-11 12:48:06,1497260,LC_9540c1090d,6011,2211089408.0,2211089408.0,510,0,2252PRO11010P,0,51,TERM_fca396848a,200,4007,5,Chip,CP,Compra,1,e7591fbbaddb,,TD,Tuesday,NO_AUTORIZADO,1000,2025,2,11,12,2025-02,2025Q1,0,tarde,NO_ALERTA



Eliminacion de valores atipicos

- Se identificaron tres registros con montos extremadamente altos en la columna `DE6_Monto_Dolar`, considerados at√≠picos y poco representativos del comportamiento real de las transacciones.  
- Para depurar el dataset, se establece un **umbral m√°ximo razonable de 20000**. Si bien los montos t√≠picos de las tarjetas suelen ser mucho menores, 
- Este umbral permite eliminar los datos claramente an√≥malos sin afectar significativamente la distribuci√≥n general.
- Al eliminar este valor atipico se evidencia que el valor maximo en monto dolar es de 17150, lo cual son datos mas acercados a la realidad.


In [15]:
df_trx_emisor = df_trx_emisor[df_trx_emisor['DE6_Monto_Dolar'] < umbral]
df_trx_emisor.describe(include=[np.number])


Unnamed: 0,DE6_Monto_Dolar,DE4_Monto_Local,year,mes,day,hora,Fraude
count,1463837.0,1463837.0,1463837.0,1463837.0,1463837.0,1463837.0,1463837.0
mean,40.33,581.42,2023.99,6.61,15.28,13.83,0.01
std,98.62,29459.37,0.7,3.56,8.74,4.88,0.08
min,0.0,0.0,2023.0,1.0,1.0,0.0,0.0
25%,5.15,5.0,2023.0,3.0,8.0,11.0,0.0
50%,15.42,16.0,2024.0,6.0,15.0,14.0,0.0
75%,45.0,48.0,2024.0,10.0,23.0,18.0,0.0
max,17150.0,15750000.0,2025.0,12.0,31.0,23.0,1.0


In [16]:

# Guardar DataFrame limpio como Parquet
df_trx_emisor.to_parquet(r'C:\Users\xavie\Documents\PROYECTOS\fraud-detection-ml\data\processed\01_df_limpieza.parquet')
