<a href="https://colab.research.google.com/github/Arthur-Povill/LeiloesTDSat/blob/main/Case_de_Predi%C3%A7%C3%A3o_de_Fraudes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Case de Predi√ß√£o de Fraudes em Transa√ß√µes de Cart√£o de Cr√©dito üí≥

## Contexto:

Voc√™ √© um(a) cientista de dados em uma institui√ß√£o financeira renomada. A empresa est√° enfrentando um aumento significativo nas transa√ß√µes fraudulentas de cart√µes de cr√©dito, o que est√° prejudicando a confian√ßa dos clientes e causando preju√≠zos financeiros. Sua tarefa √© desenvolver um modelo preditivo que possa identificar transa√ß√µes fraudulentas com alta precis√£o, minimizando assim o impacto financeiro e protegendo a reputa√ß√£o da institui√ß√£o.

## Base de Dados:

Voc√™ tem acesso √† base de dados "**fraud_dataset.csv**", que cont√©m informa√ß√µes detalhadas sobre as transa√ß√µes de cart√µes de cr√©dito.

## Objetivo:

Desenvolver um modelo preditivo utilizando o algoritmo de Regress√£o Log√≠stica com regulariza√ß√£o L2 para prever se uma transa√ß√£o de cart√£o de cr√©dito √© fraudulenta ou n√£o.

**Realize os seguintes passos na sua entrega:**

- Pr√©-processamento de Dados:
  - Verifique se a base de dados cont√©m informa√ß√µes nulas.
  - Considere a padroniza√ß√£o de vari√°veis num√©ricas.
- Divis√£o da Base de Dados:
  - Separe a base de dados utilizando a t√©cnica hold out, mantendo uma propor√ß√£o adequada para garantir a representatividade dos dados.
  - Caso a base de dados tenha algum tipo de desequil√≠brio, aplique uma t√©cnica de oversampling para equilibrar as classes.
- Modelagem:
  - Implemente o algoritmo de Regress√£o Log√≠stica com regulariza√ß√£o L2.
  - Utilize a t√©cnica de valida√ß√£o cruzada k-fold (com 5 folds) para avaliar o desempenho do modelo.
- Avalia√ß√£o do Modelo:
  - Avalie o modelo utilizando m√©tricas como precis√£o, recall, F1-score e √°rea sob a curva ROC (AUC-ROC).
- Interpreta√ß√£o e Comunica√ß√£o de Resultados:
  - Comunique os resultados de forma clara e acess√≠vel para as partes interessadas, destacando a efic√°cia do modelo na identifica√ß√£o de transa√ß√µes fraudulentas.


In [9]:
# Manipula√ß√£o de dados
import pandas as pd
import numpy as np

# Pr√©-processamento e modelagem
from sklearn.model_selection import train_test_split, StratifiedKFold, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, roc_auc_score

# Balanceamento de classes
from imblearn.over_sampling import SMOTE

Subir o banco de dados e verificar se h√° dados nulos

In [10]:
#leitura do dataset
df = pd.read_csv('/content/sample_data/fraud_dataset.csv')

#verifi√ß√£o de dados ausentes
df.isnull().sum()


Unnamed: 0,0
distance_from_home,0
distance_from_last_transaction,0
ratio_to_median_purchase_price,0
repeat_retailer,0
used_chip,0
used_pin_number,0
online_order,0
fraud,0


Verifica√ß√£o se h√° desequil√≠brio de Classe - Fraud
1.0 == H√° fraude
0.0 == N√£o h√° fraude


In [11]:
# Verificando o balanceamento da vari√°vel alvo
round(df["fraud"].value_counts(normalize = True)*100,2)


Unnamed: 0_level_0,proportion
fraud,Unnamed: 1_level_1
0.0,91.26
1.0,8.74


Separa√ß√£o da base em train vs Test com T√©cnica de Holdout(80% Treino x 20% teste)

In [12]:
# Separando as vari√°veis independentes (X) e dependente (y)
X = df.drop('fraud', axis = 1)
y = df['fraud']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42, stratify = y) # garante a mesma propor√ß√£o de classes em ambos os conjuntos


Aplica√ß√£o da Padroniza√ß√£o

In [13]:
# Padronizando os dados para que todas as vari√°veis tenham m√©dia 0 e desvio padr√£o 1
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)


Aplicando o Oversampling

In [14]:
# Aplicando SMOTE apenas no conjunto de treino
smote = SMOTE(random_state = 42)
X_train, y_train = smote.fit_resample(X_train, y_train)

# Verificando nova distribui√ß√£o ap√≥s o balanceamento
print(pd.Series(y_train).value_counts(normalize = True)* 100,2)

fraud
0.0    50.0
1.0    50.0
Name: proportion, dtype: float64 2


Regress√£o Log√≠stica(Regulariza√ß√£o L2) e Valida√ß√£o Cruzada

In [15]:
# Instanciando o modelo
model = LogisticRegression(penalty = "l2")

# Valida√ß√£o cruzada estratificada
skfold = StratifiedKFold(n_splits = 5, shuffle = True, random_state = 42)

# Avalia√ß√£o usando AUC como m√©trica
score = cross_val_score(model, X_train, y_train, cv = skfold, scoring= "roc_auc")

# Treinando o modelo com os dados balanceados
model.fit(X_train, y_train)

# Exibindo a m√©dia dos scores de valida√ß√£o
np.mean(score)

np.float64(0.9793964360941153)

Chamada do Predict

In [19]:
y_pred = model.predict(X_test)
y_pred_proba = model.predict_proba(X_test)[:, 1]  # probabilidades da classe positiva

Avalia√ß√£o do Modelo

In [20]:

# M√©tricas de desempenho
auc_score = roc_auc_score(y_test, y_pred_proba)
print(classification_report(y_test, y_pred))
print(f"AUC Score: {auc_score:.4f}")
print(f"Mean Cross-Validation AUC: {np.mean(score):.4f}")


              precision    recall  f1-score   support

         0.0       0.99      0.93      0.96    182519
         1.0       0.58      0.95      0.72     17481

    accuracy                           0.93    200000
   macro avg       0.79      0.94      0.84    200000
weighted avg       0.96      0.93      0.94    200000

AUC Score: 0.9795
Mean Cross-Validation AUC: 0.9794
