# Detectando o Invisível: Como a Análise de Dados Pode Prevenir Fraudes em Transações Bancárias

## Introdução

A detecção de fraudes em transações financeiras é um dos principais desafios enfrentados por instituições que operam com pagamentos digitais. Com o aumento do volume de operações online, cresce também a sofisticação das tentativas de fraude, exigindo soluções mais inteligentes e automatizadas.

Este projeto busca identificar padrões comportamentais de transações fraudulentas e propor um score de risco interpretável, que auxilie o time de Risco a priorizar análises e bloquear transações suspeitas de forma preventiva.

A abordagem foi estruturada de acordo com o framework CRISP-DM, permitindo uma condução sistemática e iterativa da análise.

## Framework Utilizado - CRISP-DM

O CRISP-DM (Cross Industry Standard Process for Data Mining) é um modelo amplamente utilizado para o desenvolvimento de projetos de análise de dados e ciência de dados.

Neste projeto, cada fase foi aplicada seguindo as melhores práticas.

| Fase | Descrição | 
|------|------------|
| **1. Business Understanding** | Compreensão do problema e definição dos objetivos. | 
| **2. Data Understanding** | Exploração inicial dos dados e verificação de qualidade. | 
| **3. Data Preparation** | Limpeza, tratamento e criação de variáveis. | 
| **4. Modeling** | Desenvolvimento de modelos ou regras analíticas. | 
| **5. Evaluation** | Validação dos resultados e interpretação. | 
| **6. Deployment** | Geração de insights, dashboards ou modelos em produção. |



## Estrutura e Navegação do Notebook

00_intro_entendimento_dados

1. Entendimento dos Négocio\
   1.1. Problema\
   1.2. Contexto\
   1.3. Objetivos\
   1.4. Premissas\
   1.5. Benefícios\
   1.6. Critérios de sucesso
   
2. Entendimento dos Dados\
   2.1. Importação e Visão Geral\
   2.2. Limpeza e Preparação

01_eda

3. Exploratory Data Analysis - Features Iniciais\
   3.1. Categorização das Features\
   3.2. Análise Univariada - Variáveis Numéricas\
   3.3. Análise Univariada - Variáveis categóricas\
   3.4. Análise Bivariada - Relação com Fraude\
   3.5. Consolidação de Descobertas\
   3.6 Conclusões da Análise Exploratória

02_engenharia_features

4. Engenharia de Features\
   4.1. Features Derivadas\
   4.2. Consolidação do Dataframe: df_features\
   4.3. Tabela de Risco Relativo - Features Derivadas\
   4.4. Comparação: Features originais vs derivadas\
   4.5. Conclusões

03_score_avaliacao_performance

5. Construção do Score de Risco\
   5.1. Definição de Pesos\
   5.2. Aplicação e Categorização

6. Avaliação de Performance\
   6.1. Métricas de Performance\
   6.2. Matriz de Confusão\
   6.3. Validação com Machine Learning

7. Calibração Econômica\
   7.1 Lógica de Construção da Tabela de Impacto Financeiro\
   7.2 Construção da Tabela de Impacto Financeiro

8. Conclusão: Criação do Score de Risco e Avaliação

9. Conclusão do Projeto

# 1. Entendimento do Négocio

## 1.1. Problema
A equipe de risco de uma instituição financeira está enfrentando um número crescente de fraudes em transações com cartão de crédito. Essas ocorrências não apenas geram prejuízos financeiros diretos, mas também comprometem a confiança dos clientes no serviço oferecido. Para mitigar esse risco, o banco busca identificar os padrões e características das transações fraudulentas para posterior implementação de um sistema de detecção preventiva, que consiga identificar, em tempo real, se uma transação é suspeita ou não, antes mesmo de ser autorizada.

## 1.2. Contexto
Fraudes em transações financeiras representam um desafio crítico para 
instituições financeiras, gerando:

IMPACTO FINANCEIRO:
- Perdas diretas com chargebacks (estornos);
- Custos operacionais de análise manual;
- Multas regulatórias por não conformidade;

IMPACTO NA EXPERIÊNCIA:
- Clientes legítimos bloqueados (falsos positivos);
- Perda de confiança na plataforma;
- Aumento de reclamações e cancelamentos;

DESAFIO DE BALANCEAMENTO:
- Detectar fraudes (evitar perdas);
- Não bloquear clientes legítimos (evitar frustração);
    
## 1.3. Objetivos
- Entender os padrões e características das transações fraudulentas, comparando com as legítimas;
- Construir um modelo preditivo eficaz, capaz de classificar novas transações como "fraudulentas" ou "legítimas";
- Reduzir a taxa de falsos positivos, evitando o bloqueio indevido de transações genuínas;
- Apoiar a tomada de decisão com dashboards e KPIs relevantes, facilitando o monitoramento contínuo e ajustes futuros;

## 1.4. Premissas
SOBRE OS DADOS:
- Variável target: `has_cbk` (1 = fraude, 0 = legítimo);
- Foram consideradas todas as transações realizadas usando o celular;

SOBRE FRAUDES:
- Fraudes podem evoluir ao longo do tempo;
- Nem todas as fraudes resultam em chargeback imediato;
- Pode haver fraudes não detectadas nos dados (falsos negativos reais);
- Padrões descobertos são válidos para este dataset;
   
SOBRE O MODELO:
- Score manual é interpretável e auditável;
- Pesos são fixos (não se adaptam automaticamente);
- Threshold pode ser ajustado conforme política de risco;
- Modelo deve ser reavaliado periodicamente (recomendado: trimestral);

LIMITAÇÕES:
- Dados limitados a 3500 transações;
- Dados limitados ao range de 1 mês;
- Não temos os seguintes dados de contexto (geolocalização, histórico de compra);
- Score não substitui análise manual em casos críticos;

CONSIDERAÇÕES ÉTICAS:
- Evitar viés discriminatório (não usar dados sensíveis);
- Transparência com usuários sobre regras de bloqueio;
- Privacidade de dados (LGPD/GDPR compliance);

## 1.5. Benefícios

- Redução de perdas financeiras: Identificação precoce de transações fraudulentas antes da confirmação;
- Eficiência operacional: Menor necessidade de revisão manual em transações de baixo risco;
- Melhor experiência do cliente: Redução de bloqueios indevidos e maior confiança na plataforma;
- Tomada de decisão baseada em dados: Insights quantitativos para ajustes de políticas de risco;
- Escalabilidade: Estrutura flexível que pode ser integrada a um pipeline de machine learning futuro;

## 1.6. Critérios de sucesso

- O modelo deve detectar entre 60% e 70% das fraudes conhecidas;
- Manter taxa de falsos positivos abaixo de 5%;
- Gerar score de risco compreensível por analistas de risco (interpretabilidade prioritária);
- Facilidade de implementação em ambiente de produção atráves de regras simples;

# Importing the libraries

In [1]:
# Data manipulation and visualization.
import sys
sys.path.append('../src')

from utils import profiling as prof
from utils.lib_loader import carregar_libs
carregar_libs(['pd','np'])

pd.set_option('display.max_columns', None)

Carregando: ['pd', 'np']
------------------------------
✅ pd (pandas)
✅ np (numpy)

VERSÕES:
Python: 3.10.2
pandas: 2.2.2
numpy: 1.26.4

Bibliotecas disponíveis diretamente (IPython): ['pd', 'np']


# 2. Entendimento dos Dados
- O dataset foi disponibilizado através de um case.

## 2.1. Importação e Visão Geral

In [2]:
data_path_raw = '../data/raw/dados_transacoes.csv'
df = pd.read_csv(data_path_raw)

In [3]:
df.head()

Unnamed: 0,transaction_id,merchant_id,user_id,hash_card_number,transaction_date,transaction_amount,device_id,has_cbk
0,21320398,29744,97051,cn_225730bfed215e86fcb14e416783716d42c37eb87b0...,2019-12-01T23:16:32.812632,374.56,285475.0,False
1,21320399,92895,2708,cn_1026e63cb76b5fdaeab4f472b47236d4539cf48d2ec...,2019-12-01T22:45:37.873639,734.87,497105.0,True
2,21320400,47759,14777,cn_a44e42e0d67ad8cdac30990f2f1f8718c74a03c4d40...,2019-12-01T22:22:43.021495,760.36,,False
3,21320401,68657,69758,cn_fa68ce07344577d64f20949a4aea6159020655897c7...,2019-12-01T21:59:19.797129,2556.13,,True
4,21320402,54075,64367,cn_3c6a38fd69a2ab71859017440efa3d722a97c209cf7...,2019-12-01T21:30:53.347051,55.36,860232.0,False


In [4]:
print(f'The dataset has {df.shape[0]} rows and {df.shape[1]} columns.')

The dataset has 3199 rows and 8 columns.


### Data dictionary

| Variáveis Originais  |
|:---------------------|

| Variável           | Descrição                                         | Tipo                 |
|:-------------------|:--------------------------------------------------|:---------------------|
| transaction_id     | Identificador único da transação                  | String/ID            |
| merchant_id        | Identificador do estabelecimento comercial        | String/ID            |
| user_id            | Identificador do usuário que realizou a transação | String/ID            |
| hash_card_number   | Número do cartão usado (hash/anonimizado)         | String/ID            |
| transaction_date   | Data e hora da transação                          | DateTime             |
| transaction_amount | Valor monetário da transação (R$)                 | Numerical continuous |
| device_id          | Identificador do dispositivo usado na transação   | String/ID            |
| has_cbk            | Target: 1 = Fraude (chargeback), 0 = Legítimo     | Binary (0/1)         |

---

| Novas Variáveis    |
|:-------------------|

| Variável            | Descrição                                                                                    | Tipo                   |
|:--------------------|:---------------------------------------------------------------------------------------------|:-----------------------|
| has_device_info     | Indica se há informação de dispositivo disponível                                            | Binary (0/1)           |
| transaction_day     | Dia do mês em que a transação ocorreu                                                        | Numerical discrete     |
| transaction_time    | Horário completo da transação                                                                | Time                   |
| transaction_hour    | Hora do dia da transação (0–23)                                                              | Numerical discrete     |
| part_of_day         | Período do dia (madrugada, manhã, tarde, noite)                                              | Categorical            |
| day_of_week         | Dia da semana da transação                                                                   | Categorical            |
| is_weekend          | Indica se a transação ocorreu no fim de semana                                               | Binary (0/1)           |
| first_transaction   | Indica se é a primeira transação do usuário                                                  | Binary (0/1)           |
| time_diff_min       | Diferença de tempo (em minutos) para a transação anterior do usuário                         | Numerical continuous   |
| time_diff_less_1h   | Indica se a transação ocorreu em menos de 1h após a anterior                                 | Categorical            |
| anomalous_value     | Indica se o valor da transação é anômalo em relação ao histórico do usuário                  | Binary (0/1)           |
| value_exc_max       | Indica se o valor da transação excede o máximo histórico do usuário                          | Binary (0/1)           |
| burst_transaction   | Indica padrão de múltiplas transações em curto intervalo de tempo                            | Binary (0/1)           |
| multi_card_flag     | Indica uso de múltiplos cartões pelo mesmo usuário                                           | Binary (0/1)           |
| multi_device_flag   | Indica uso de múltiplos dispositivos pelo mesmo usuário                                      | Binary (0/1)           |
| user_fraud_above_50 | Indica se o usuário possui taxa histórica de fraude > 50%                                    | Binary (0/1)           |
| comb_a              | Combinação de 'alor alto' + 'horário noturno', capturando risco composto                     | Binary (0/1)           |
| nighttime_flag      | Indica se a transação ocorreu entre 19h e 3h                                                 | Binary (0/1)           |

In [5]:
report_01 = prof.profile_df(df)
report_01.head(10)

Unnamed: 0,col,dtype,n_rows,n_null,pct_null,n_unique,cardinality_ratio,dup_rate_col,sample_values,has_mixed_types,min,max
0,transaction_id,int64,3199,0,0.0,3199,1.0,0.0,"[21320398, 21320399, 21320400, 21320401, 21320...",False,21320398.0,21323596.0
1,merchant_id,int64,3199,0,0.0,1756,0.5489,0.4511,"[29744, 92895, 47759, 68657, 54075]",False,16.0,99799.0
2,user_id,int64,3199,0,0.0,2704,0.8453,0.1547,"[97051, 2708, 14777, 69758, 64367]",False,6.0,99974.0
3,hash_card_number,object,3199,0,0.0,2925,0.9143,0.0857,[cn_225730bfed215e86fcb14e416783716d42c37eb87b...,False,,
4,transaction_date,object,3199,0,0.0,3199,1.0,0.0,"[2019-12-01T23:16:32.812632, 2019-12-01T22:45:...",False,,
5,transaction_amount,float64,3199,0,0.0,3124,0.9766,0.0234,"[374.56, 734.87, 760.36, 2556.13, 55.36]",False,1.22,4097.21
6,device_id,float64,3199,830,0.2595,1996,0.6239,0.1575,"[285475.0, 497105.0, 860232.0, 192705.0, 76093...",False,2.0,999843.0
7,has_cbk,bool,3199,0,0.0,2,0.0006,0.9994,"[False, True, False, True, False]",False,0.0,1.0


Anotações
1. `has_cbk`: Transformar variável tipo 'bool' para 'int'.
2. `device_id`: 26% de "missing values", imputar variável "unknown_device" e criar coluna flag `has_device_info` identificando existência de device_id ou não.
3. `transaction_date`: realizar uma pequena "feature engineering" para criar as features temporais: `transaction_day`, `transaction_hour`, `time_diff_min`, `part_of_day`, `day_of_week`, `is_weekend`.

# 2.2. Limpeza e Preparação

In [6]:
# Tratamento da coluna 'has_cbk'

df['has_cbk'] = df['has_cbk'].astype(int)

In [7]:
# Tratamento da coluna 'device_id'

df['device_id'] = df['device_id'].fillna('unknown_device')
df['device_id'] = df['device_id'].astype(str)

# FEATURE: 'has_device_info'

df['has_device_info'] = df['device_id'].apply(lambda x: 0 if x == 'unknown_device' else 1)

In [8]:
# Tratamento da coluna 'transaction_date'

df['transaction_date'] = pd.to_datetime(df['transaction_date']) #Converter a coluna em um tipo 'datetime'

# FEATURE: 'transaction_day'

df['transaction_day'] = df['transaction_date'].dt.normalize() #Extrair a data

# FEATURE: 'transaction_hour'

df['transaction_time'] = df['transaction_date'].dt.time #Extrair o horario sem milissegundos
df['transaction_hour'] = df['transaction_date'].dt.hour #Extrair apenas a hora


# FEATURE: 'part_of_day'
# Parte do dia categorizada (manhã, tarde, noite, madrugada)

def categorize_part_of_day(hour):
    if 5 <= hour < 12:
        return 'Morning'
    elif 12 <= hour < 18:
        return 'Afternoon'
    elif 18 <= hour < 24:
        return 'Evening'
    else:
        return 'Night'

df['part_of_day'] = df['transaction_hour'].apply(categorize_part_of_day)

# FEATURE: 'day_of_week'
# Dia da semana (0=segunda, 6=domingo)

df['day_of_week_num'] = df['transaction_date'].dt.dayofweek
map_days = {0:'Segunda',
            1:'Terça',
            2:'Quarta',
            3:'Quinta',
            4:'Sexta',
            5:'Sabado',
            6:'Domingo'}
df['day_of_week'] = df['day_of_week_num'].map(map_days)

# FEATURE: 'is_weekend'
# Fim de semana (sábado ou domingo)

df['is_weekend'] = df['day_of_week_num'].isin([5, 6]).astype(int)

# FEATURE: 'time_diff_min' e 'first_transaction'
# Tempo entre transações (minutos) e flag de Primeira Transação

df['original_order'] = df.index # Registro para manter ordem inicial
df = df.sort_values(by=['user_id', 'transaction_date'])

df['first_transaction'] = (df.groupby('user_id').cumcount() == 0).astype(int)

df['time_diff_sec'] = df.groupby('user_id')['transaction_date'].diff().dt.total_seconds().fillna(0)
df['time_diff_min'] = df['time_diff_sec'] / 60

df = df.sort_values(by='original_order').drop(columns=['original_order', 'time_diff_sec']) # Volta à ordem original

# FEATURE: 'time_diff_less_1h'

conditions = [df['first_transaction'] == 1,
              df['time_diff_min'] <= 60]

categories = ['1th transaction', 
              '<= 1h']

default_value = '> 1h'

df['time_diff_less_1h'] = np.select(conditions, categories, default=default_value)

In [9]:
df.sample(10)

Unnamed: 0,transaction_id,merchant_id,user_id,hash_card_number,transaction_date,transaction_amount,device_id,has_cbk,has_device_info,transaction_day,transaction_time,transaction_hour,part_of_day,day_of_week_num,day_of_week,is_weekend,first_transaction,time_diff_min,time_diff_less_1h
484,21320882,9842,22309,cn_e10639e27365912ecf76877d6c4d6cd91e1a87a816f...,2019-11-29 21:03:08.929123,28.23,731171.0,0,1,2019-11-29,21:03:08.929123,21,Evening,4,Sexta,0,1,0.0,1th transaction
238,21320636,78601,81167,cn_9d5fc2a6bcb8585dc295bd7e24f3c7b25f14a9c058f...,2019-11-30 18:49:08.308577,40.66,unknown_device,0,0,2019-11-30,18:49:08.308577,18,Evening,5,Sabado,1,1,0.0,1th transaction
2385,21322783,73853,72278,cn_591e33c3bf0ac18b245c152046a5e07644d1303cae2...,2019-11-18 20:27:31.866836,1216.8,unknown_device,0,0,2019-11-18,20:27:31.866836,20,Evening,0,Segunda,0,1,0.0,1th transaction
1769,21322167,20198,88096,cn_3573b7247651a83200a1d4afc2804445e8b55529737...,2019-11-22 20:37:13.293656,515.15,378179.0,0,1,2019-11-22,20:37:13.293656,20,Evening,4,Sexta,0,1,0.0,1th transaction
2002,21322400,73182,1072,cn_7bf916887d00b1df0ce99598c853f2945ce529aa3bc...,2019-11-22 11:20:51.917158,499.68,805460.0,0,1,2019-11-22,11:20:51.917158,11,Morning,4,Sexta,0,1,0.0,1th transaction
1840,21322238,55738,2484,cn_78afb726e96570eb7fb40c28f99f0709080078cca88...,2019-11-22 18:03:43.067663,1845.94,119274.0,0,1,2019-11-22,18:03:43.067663,18,Evening,4,Sexta,0,1,0.0,1th transaction
2882,21323280,28647,19922,cn_d4874cc4940eb63ac4bd427e1fc40ba7badccf5b89f...,2019-11-09 20:20:30.539424,947.4,unknown_device,0,0,2019-11-09,20:20:30.539424,20,Evening,5,Sabado,1,1,0.0,1th transaction
435,21320833,52088,30248,cn_7e75bd3e9b479ac50ca7fd5a57aa2ad9ef4216b553f...,2019-11-30 00:01:02.379395,10.17,420875.0,0,1,2019-11-30,00:01:02.379395,0,Night,5,Sabado,1,1,0.0,1th transaction
2298,21322696,20046,13515,cn_8639da0221e4fada969767b4a74d18a140c3f4b9764...,2019-11-19 19:40:02.176869,78.18,978560.0,0,1,2019-11-19,19:40:02.176869,19,Evening,1,Terça,0,1,0.0,1th transaction
2071,21322469,75933,96481,cn_2cabaad28a945b5cd0ea6c4f43a5ca7d654f12fe8b3...,2019-11-21 22:27:48.093520,175.89,493414.0,0,1,2019-11-21,22:27:48.093520,22,Evening,3,Quinta,0,1,0.0,1th transaction


Anotações
1. `first_transaction`: Para criar a feature `time_diff_min` foi necessário a criação do identificador de primeira transação.
2. `time_diff_less_1h`: Feature categorica derivada de `time_diff_min`.

Categorias:
- '1th transaction' = Primeira Transação.
- '<= 1h' = Transação realizada em menos de 1h que a anterior.
- '> 1h' = Transação realizada com mais de 1h da anterior.

3. Dropar feature redundante: `day_of_week_num`

In [10]:
df = df.drop(columns=['day_of_week_num'])

In [11]:
report_02 = prof.profile_df(df)
report_02

Unnamed: 0,col,dtype,n_rows,n_null,pct_null,n_unique,cardinality_ratio,dup_rate_col,sample_values,has_mixed_types,min,max
0,transaction_id,int64,3199,0,0.0,3199,1.0,0.0,"[21320398, 21320399, 21320400, 21320401, 21320...",False,21320398.0,21323596.0
1,merchant_id,int64,3199,0,0.0,1756,0.5489,0.4511,"[29744, 92895, 47759, 68657, 54075]",False,16.0,99799.0
2,user_id,int64,3199,0,0.0,2704,0.8453,0.1547,"[97051, 2708, 14777, 69758, 64367]",False,6.0,99974.0
3,hash_card_number,object,3199,0,0.0,2925,0.9143,0.0857,[cn_225730bfed215e86fcb14e416783716d42c37eb87b...,False,,
4,transaction_date,datetime64[ns],3199,0,0.0,3199,1.0,0.0,"[2019-12-01 23:16:32.812632, 2019-12-01 22:45:...",False,2019-11-01 01:27:15.811098,2019-12-01 23:16:32.812632
5,transaction_amount,float64,3199,0,0.0,3124,0.9766,0.0234,"[374.56, 734.87, 760.36, 2556.13, 55.36]",False,1.22,4097.21
6,device_id,object,3199,0,0.0,1997,0.6243,0.3757,"[285475.0, 497105.0, unknown_device, unknown_d...",False,,
7,has_cbk,int32,3199,0,0.0,2,0.0006,0.9994,"[0, 1, 0, 1, 0]",False,0.0,1.0
8,has_device_info,int64,3199,0,0.0,2,0.0006,0.9994,"[1, 1, 0, 0, 1]",False,0.0,1.0
9,transaction_day,datetime64[ns],3199,0,0.0,31,0.0097,0.9903,"[2019-12-01, 2019-12-01, 2019-12-01, 2019-12-0...",False,2019-11-01 00:00:00,2019-12-01 00:00:00


In [12]:
#data_path_int = '../data/interim'
df.to_csv("../data/interim/fraud_clean.csv", index=False)