<a href="https://colab.research.google.com/github/bellanara168/logica-programacao/blob/feature_3/Fraudes_em_cart%C3%B5es_banc%C3%A1rios_28_01_alunos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análise de dados para identificar possíveis fraudes em cartões bancários




## Prof. Dra. Isadora Ferrão
Redes sociais:
*   https://www.instagram.com/isadora.ferrao/
*   https://www.linkedin.com/in/isadora-ferrao/


# Credit Card Fraud Detection

 **Problema**: É importante que as empresas de cartão de crédito sejam capazes de reconhecer transações fraudulentas de cartão de crédito para que os clientes não sejam cobrados por itens que não compraram. Fraude é qualquer ação deliberada de enganar ou ludibriar em benefício próprio (ex.: uso indevido de cartão de crédito).

 **Solução**: A análise de dados ajuda a combater fraudes ao identificar comportamentos atípicos (outliers) em grandes volumes de transações. Por meio de técnicas estatísticas e de aprendizado de máquina, é possível detectar padrões suspeitos e alertar sobre possíveis fraudes de forma mais rápida e precisa, reduzindo perdas financeiras e melhorando a segurança.

**Disponível em**: https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud

O conjunto de dados contém transações feitas por cartões de crédito em setembro de 2013 por titulares de cartão europeus. Este conjunto de dados apresenta transações que ocorreram em dois dias, onde temos 492 fraudes de 284.807 transações. O conjunto de dados é altamente desbalanceado, a classe positiva (fraudes) é responsável por 0,172% de todas as transações.



# Importação das bibliotecas



In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Scikit-learn
from sklearn.ensemble import IsolationForest, RandomForestClassifier
from sklearn.model_selection import train_test_split, StratifiedKFold, cross_validate
from sklearn.metrics import confusion_matrix, classification_report, f1_score, precision_score, recall_score

# Para balanceamento
!pip install imbalanced-learn --quiet
from imblearn.over_sampling import SMOTE
from imblearn.pipeline import Pipeline

# Carregamento do dataset

In [None]:
# Carregar o dataset (ajuste o caminho local conforme necessário)

# Ver as 5 primeiras linhas


In [None]:
# Informações gerais do DataFrame


In [None]:
# Resumo estatístico


# Análise Exploratória

In [None]:
# Contagem de fraudes vs não fraudes
#print("=== Distribuição da variável 'Class' ===")
#print(df['Class'].value_counts())
#num_fraudes = df[df['Class'] == 1].shape[0]
#num_legit = df[df['Class'] == 0].shape[0]
#print(f"Fraudes: {num_fraudes}, Não Fraudes: {num_legit}")
#print(f"Proporção de fraudes: {100 * num_fraudes / (num_fraudes + num_legit):.4f}%\n")

In [None]:
# Plot de distribuição: Fraudes vs Não Fraudes

In [None]:
# Distribuição do 'Amount'

# Pré-Processamento

In [None]:
#Normalização

# Exemplo: Normalizar a coluna Amount



# Reduzindo o tamanho do dataset para testes mais rápidos

## Detecção de Fraudes (Outliers) com Isolation Forest

A Isolation Forest é um algoritmo específico para detecção de anomalias (outliers). Ele “isola” pontos que são poucos frequentes ou têm características muito diferentes do restante dos dados. É útil aqui porque não exige rótulos para treinar: pode ser aplicado como um método não supervisionado.

## Avaliação do Modelo

In [None]:
# Matriz de confusão

"""from sklearn.metrics import confusion_matrix, classification_report

cm = confusion_matrix(target, df['IF_Pred'])
tn, fp, fn, tp = cm.ravel()

plt.figure(figsize=(5,4))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.title('Matriz de Confusão - Isolation Forest')
plt.xlabel('Previsto')
plt.ylabel('Real')
plt.show()

print("Verdadeiros Negativos (TN):", tn)
print("Falsos Positivos (FP):", fp)
print("Falsos Negativos (FN):", fn)
print("Verdadeiros Positivos (TP):", tp)"""

In [None]:
# Precisão, Recall, F1-Score

"""report = classification_report(target, df['IF_Pred'])
print(report)"""

In [None]:
# Calcular Acurácia, Precisão, Recall e F1 manualmente se quiser
"""accuracy_if = (tp + tn) / (tn + fp + fn + tp)
precision_if = tp / (tp + fp) if (tp+fp) > 0 else 0
recall_if = tp / (tp + fn) if (tp+fn) > 0 else 0
f1_if = (2 * precision_if * recall_if) / (precision_if + recall_if) if (precision_if + recall_if) else 0

print(f"Acurácia (IF): {accuracy_if:.4f}")
print(f"Precisão (IF): {precision_if:.4f}")
print(f"Recall (IF):   {recall_if:.4f}")
print(f"F1-Score (IF): {f1_if:.4f}")"""

## Validação Cruzada e Balanceamento
SMOTE + RandomForest

In [None]:
print("\n=== Abordagem Supervisionada (SMOTE + RandomForest) ===")

#from sklearn.model_selection import StratifiedKFold, cross_validate

# Pipeline: SMOTE => RandomForest
#model_pipeline = Pipeline([
    #('smote', SMOTE(random_state=42)),
    #('rf', RandomForestClassifier(n_estimators=50, max_depth=10, random_state=42))  # Classificador simplificado
#])

# Configurar K-Fold estratificado
#skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
#skf = StratifiedKFold(n_splits=3, shuffle=True, random_state=42)  # Reduzido para 3 folds

In [None]:
# Vamos avaliar Precision, Recall e F1 no CV
scoring = {
    'precision': 'precision',
    'recall': 'recall',
    'f1': 'f1'
}

In [None]:
# Executar a validação cruzada
results = cross_validate(model_pipeline, X, y,
                         scoring=scoring,
                         cv=skf,
                         return_train_score=False,
                         n_jobs=-1)

In [None]:
# Média das métricas
precision_cv = np.mean(results['test_precision'])
recall_cv = np.mean(results['test_recall'])
f1_cv = np.mean(results['test_f1'])

print(f"Precision (média 5-Fold): {precision_cv:.4f}")
print(f"Recall (média 5-Fold):    {recall_cv:.4f}")
print(f"F1-Score (média 5-Fold):  {f1_cv:.4f}")

Discussão rápida:


