# Modelo de Identifica√ß√£o de Fraudes

- Informa√ß√µes da base:
    - 'Time' (tempo): cont√©m os segundos decorridos entre cada transa√ß√£o e a primeira transa√ß√£o no conjunto de dados. 
    - 'Amount' (valor): √© o valor da transa√ß√£o 
    - 'Class' (classe): √© a vari√°vel de resposta e assume valor 1 em caso de fraude e 0 caso contr√°rio.
    - "Infelizmente, devido a quest√µes de confidencialidade, n√£o podemos fornecer os recursos originais e mais informa√ß√µes b√°sicas sobre os dados. Caracter√≠sticas V1, V2, ‚Ä¶ V28 s√£o os principais componentes obtidos com PCA"

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import joblib

from sklearn.preprocessing import PowerTransformer, MinMaxScaler
from sklearn.linear_model import LogisticRegression
from sklearn import metrics
from sklearn.model_selection import train_test_split, GridSearchCV
from imblearn.under_sampling import RandomUnderSampler

from sklearn.metrics import (
    confusion_matrix, 
    accuracy_score, 
    precision_score, 
    recall_score,
    precision_recall_curve,
)

import warnings
from src.config import DADOS_MASTERCARD_TRATADO

warnings.filterwarnings('ignore')
sns.set_theme(palette="bright")

In [3]:
# Importando a base

transacoes = pd.read_parquet(DADOS_MASTERCARD_TRATADO)

In [4]:
# Verificar se todos os valores podem ser convertidos para inteiro (sem valores decimais)

if (transacoes['Time'] == transacoes['Time'].astype(int)).all():
    
    # Se todos os valores s√£o inteiros, realizar a convers√£o
    
    transacoes['Time'] = transacoes['Time'].astype(int)
   
else:
    print("Nem todos os valores na coluna 'Time' podem ser convertidos para inteiro.")

### Pr√©-processamento: 

**- Utilizaremos o PowerTransformer devido ao grande n√∫mero de outliers, exceto em 'Time'.**<br>
**- Em 'Time' utilizaremos o MinMaxScaler.**

In [6]:
# Selecionar as colunas para normaliza√ß√£o (exceto 'Class' e 'Time')

colunas_para_normalizar = [col for col in transacoes.columns if col not in ['Class', 'Time']]

# Inicializar o PowerTransformer (Yeo-Johnson)

pt = PowerTransformer(method='yeo-johnson')

# Inicializar o MinMaxScaler para a coluna 'Time'

scaler = MinMaxScaler()

# Criar uma c√≥pia do DataFrame para preservar o original

transacoes_normalizadas = transacoes.copy()

# Normalizar as colunas com PowerTransformer (exceto 'Class' e 'Time')

transacoes_normalizadas[colunas_para_normalizar] = pt.fit_transform(transacoes[colunas_para_normalizar])

# Normalizar a coluna 'Time' com MinMaxScaler

transacoes_normalizadas[['Time']] = scaler.fit_transform(transacoes[['Time']])

### Criando um modelo de aprendizado de m√°quinas para identificar fraude

**Podemos ajustar as colunas Time e Amount para que elas fiquem entre 0 e 1**

In [9]:
# Separando X e y

X = transacoes_normalizadas.drop('Class',axis=1)
y = transacoes_normalizadas.Class

### Separando em treino e teste

In [11]:
# Separando em treino e teste

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=0,stratify=y)

### Realizando o random undersampling

In [13]:
# Definindo o RandomUnderSampler

rus = RandomUnderSampler(random_state=42)

In [14]:
# Definindo a nova amostra

X_resRU, y_resRU = rus.fit_resample(X_train, y_train)

### Regress√£o Log√≠stica:

**Utilizaremos a Regress√£o Log√≠stica. Pois foi o estimador com o melhor desempenho.**

In [16]:
# Utilizando a Regress√£o Log√≠stica

clf_RL = LogisticRegression(random_state=0,
                            C=0.001,
                            solver='liblinear').fit(X_resRU, y_resRU)

y_pred_RL = clf_RL.predict(X_test)

confusion_matrix(y_test,y_pred_RL)

array([[85420,  8405],
       [   13,   149]], dtype=int64)

In [17]:
# Avaliando o modelo

recall_score(y_test,y_pred_RL)

0.9197530864197531

### Para melhorar, podemos adicionar novos par√¢metros.

**E novamente utilizar o GridSearchCV**

In [20]:
# Adicionando novos par√¢metros

parametros = {
    'C': [0.001,0.01,0.1,1,10,100,1000],
    'solver': ['newton-cg','lbfgs','liblinear','sag','saga']
}

In [21]:
# Selecionando a Regress√£o Log√≠stica

LogReg = LogisticRegression(random_state=0)

In [22]:
# Criando o classificador

clf_RL2 = GridSearchCV(LogReg, parametros,
                       scoring='recall'
                      ).fit(X_resRU,y_resRU)

In [23]:
clf_RL2.best_params_

{'C': 0.001, 'solver': 'liblinear'}

In [24]:
# E avaliando o modelo

y_pred_RL2 = clf_RL2.predict(X_test)

confusion_matrix(y_test,y_pred_RL2)

array([[85420,  8405],
       [   13,   149]], dtype=int64)

In [25]:
# Utilizando a Acur√°cia

accuracy_score(y_test, y_pred_RL2)

0.9104344217817357

In [26]:
# Utilizando a Precis√£o

precision_score(y_test, y_pred_RL2, average='weighted')

0.9981544773261866

In [27]:
# Recall com todos os par√¢metros

recall_score(y_test,y_pred_RL2)

0.9197530864197531

## CONCLUS√ÉO:

**Chegamos ao melhor resultado, dado o fator tempo e os termos acortados com a empresa, utilizando o algoritmo REGRESS√ÉO LOG√çSTICA com os seguintes termos:**
- Balanceando o dataset utilizando o random undersampling;
- Utilizando GridSearchCV para diferentes par√¢metros de 'C' e 'solver';
- Utilizando scoring para 'recall.

## Resultado da avalia√ß√£o final do modelo: 

### acur√°cia = 91,04%

### precis√£o = 99,82%

### recall = 91,98%

Alto desempenho geral: O modelo evita falsos positivos (alta precis√£o) e detecta a maioria das fraudes (alto recall).
Pouqu√≠ssimos falsos positivos: A alt√≠ssima precis√£o (99,82%) indica que quase todas as transa√ß√µes rotuladas como fraude realmente s√£o fraudes.
Baixa taxa de falsos negativos: Um recall de 91,98% indica que o modelo perde apenas cerca de 8% das fraudes, o que √© um desempenho muito bom.
Acur√°cia moderadamente alta: A acur√°cia de 91,04% pode ser um reflexo da boa performance do modelo, mas deve sempre ser analisada em conjunto com precis√£o e recall.

üîπ Esse modelo √© bem equilibrado entre detectar fraudes e evitar falsos alarmes.

In [31]:
import joblib
import os

# Criando o diret√≥rio 'dados/' caso n√£o exista
caminho_dados = '../dados/'
os.makedirs(caminho_dados, exist_ok=True)

# Caminho completo do arquivo
caminho_modelo = os.path.join(caminho_dados, 'modelo_fraude.pkl')

# Salvando o modelo
joblib.dump(clf_RL2, caminho_modelo)
print(f"Modelo salvo em: {caminho_modelo}")


Modelo salvo em: ../dados/modelo_fraude.pkl
