<a href="https://colab.research.google.com/github/jmfdesouza/PUC_EngDados/blob/main/PUC_EngDados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Detecção de Fraudes Financeiras em Transações Bancárias: Um Pipeline de Dados na Nuvem

1. Introdução
A segurança financeira é um dos principais desafios enfrentados por instituições bancárias e empresas do setor financeiro. O aumento das transações digitais trouxe consigo o crescimento das fraudes financeiras, resultando em prejuízos bilionários. Este trabalho propõe a construção de um pipeline de dados na nuvem para detectar padrões suspeitos em transações bancárias e prevenir fraudes, utilizando técnicas de Machine Learning e análise de dados.

2. Justificativa
A detecção de fraudes é um tema crítico para instituições financeiras, pois permite minimizar riscos, reduzir perdas e melhorar a segurança do cliente. A utilização de um pipeline na nuvem, especificamente na plataforma Databricks, possibilita maior escalabilidade e eficiência no processamento e análise dos dados.

3. Objetivos

3.1 Objetivo Geral
Desenvolver um pipeline de dados na nuvem para detecção de transações fraudulentas, utilizando técnicas de processamento de grandes volumes de dados e Machine Learning.

3.2 Objetivos Específicos

Construir um modelo preditivo capaz de identificar fraudes financeiras em transações bancárias.

Implementar um pipeline de ETL para buscar, coletar, processar e armazenar os dados.

Criar um Data Warehouse para facilitar a consulta e análise das transações.

Avaliar a qualidade dos dados e seu impacto na precisão da detecção de fraudes.

Utilizar Databricks e Spark para processamento eficiente em ambiente de nuvem.

4. Estrutura do Trabalho

O projeto será dividido nas seguintes etapas:

4.1 Busca pelos Dados

Fonte de Dados:

Será utilizado o dataset "Credit Card Fraud Detection" do Kaggle.

Formato dos Dados:

O conjunto de dados contém transações reais com atributos anonimizados.

Exploração Inicial:

Critérios de Seleção:

Contém transações normais e fraudulentas.

Possui atributos anonimizados para evitar exposição de dados sensíveis.

Dataset bem documentado e amplamente utilizado na comunidade científica.

4.2 Coleta e Armazenamento

Download Direto do Google Drive:

O dataset é baixado por meio da biblioteca gdown diretamente no ambiente do Google Colab.

Caminho salvo: /content/dataset.csv

Código utilizado:

In [None]:
import gdown
import pandas as pd

file_id = "1sCOK88OSBk8O_sfPab7W2LmkV3nNyBdm"
url = f"https://drive.google.com/uc?id={file_id}"
output = "/content/dataset.csv"

gdown.download(url, output, quiet=False)
df_creditcard = pd.read_csv(output)
display(df_creditcard.head(10))

Downloading...
From (original): https://drive.google.com/uc?id=1sCOK88OSBk8O_sfPab7W2LmkV3nNyBdm
From (redirected): https://drive.google.com/uc?id=1sCOK88OSBk8O_sfPab7W2LmkV3nNyBdm&confirm=t&uuid=f114d503-5eb9-4f13-bd5d-e885c66b2d8e
To: /content/dataset.csv
100%|██████████| 151M/151M [00:01<00:00, 114MB/s]


Unnamed: 0,Time,V1,V2,V3,V4,V5,V6,V7,V8,V9,...,V21,V22,V23,V24,V25,V26,V27,V28,Amount,Class
0,0.0,-1.359807,-0.072781,2.536347,1.378155,-0.338321,0.462388,0.239599,0.098698,0.363787,...,-0.018307,0.277838,-0.110474,0.066928,0.128539,-0.189115,0.133558,-0.021053,149.62,0
1,0.0,1.191857,0.266151,0.16648,0.448154,0.060018,-0.082361,-0.078803,0.085102,-0.255425,...,-0.225775,-0.638672,0.101288,-0.339846,0.16717,0.125895,-0.008983,0.014724,2.69,0
2,1.0,-1.358354,-1.340163,1.773209,0.37978,-0.503198,1.800499,0.791461,0.247676,-1.514654,...,0.247998,0.771679,0.909412,-0.689281,-0.327642,-0.139097,-0.055353,-0.059752,378.66,0
3,1.0,-0.966272,-0.185226,1.792993,-0.863291,-0.010309,1.247203,0.237609,0.377436,-1.387024,...,-0.1083,0.005274,-0.190321,-1.175575,0.647376,-0.221929,0.062723,0.061458,123.5,0
4,2.0,-1.158233,0.877737,1.548718,0.403034,-0.407193,0.095921,0.592941,-0.270533,0.817739,...,-0.009431,0.798278,-0.137458,0.141267,-0.20601,0.502292,0.219422,0.215153,69.99,0
5,2.0,-0.425966,0.960523,1.141109,-0.168252,0.420987,-0.029728,0.476201,0.260314,-0.568671,...,-0.208254,-0.559825,-0.026398,-0.371427,-0.232794,0.105915,0.253844,0.08108,3.67,0
6,4.0,1.229658,0.141004,0.045371,1.202613,0.191881,0.272708,-0.005159,0.081213,0.46496,...,-0.167716,-0.27071,-0.154104,-0.780055,0.750137,-0.257237,0.034507,0.005168,4.99,0
7,7.0,-0.644269,1.417964,1.07438,-0.492199,0.948934,0.428118,1.120631,-3.807864,0.615375,...,1.943465,-1.015455,0.057504,-0.649709,-0.415267,-0.051634,-1.206921,-1.085339,40.8,0
8,7.0,-0.894286,0.286157,-0.113192,-0.271526,2.669599,3.721818,0.370145,0.851084,-0.392048,...,-0.073425,-0.268092,-0.204233,1.011592,0.373205,-0.384157,0.011747,0.142404,93.2,0
9,9.0,-0.338262,1.119593,1.044367,-0.222187,0.499361,-0.246761,0.651583,0.069539,-0.736727,...,-0.246914,-0.633753,-0.120794,-0.38505,-0.069733,0.094199,0.246219,0.083076,3.68,0


Carregamento com PySpark:

O arquivo CSV baixado é carregado no ambiente Spark para posterior processamento distribuído:

In [None]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("FraudDetection").getOrCreate()
df_spark = spark.read.csv("/content/dataset.csv", header=True, inferSchema=True)
df_spark.show(5)

+----+------------------+-------------------+----------------+------------------+-------------------+-------------------+-------------------+------------------+------------------+-------------------+------------------+------------------+------------------+------------------+------------------+------------------+------------------+-------------------+------------------+-------------------+--------------------+-------------------+------------------+------------------+------------------+------------------+--------------------+-------------------+------+-----+
|Time|                V1|                 V2|              V3|                V4|                 V5|                 V6|                 V7|                V8|                V9|                V10|               V11|               V12|               V13|               V14|               V15|               V16|               V17|                V18|               V19|                V20|                 V21|                V22|     

4.3 Modelagem dos Dados

Esquema Estrela:

Fato: Transações bancárias

Dimensões: Cliente, Tempo, Tipo de Transação

Criação de Catálogo de Dados:

In [None]:
from pyspark.sql.functions import col
summary = df_spark.describe()
summary.show()

+-------+------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+------------------+--------------------+
|summary|              Time|                  V1|                  V2|                  V3|                  V4|                  V5|                  V6|                  V7|                  V8|                  V9|                 V10|                 V11|                 V12|                 V13|                 V14|                 V15|

4.4 Carga e Processamento (ETL)

Extração: Dados são carregados do arquivo CSV.

Transformação: Remoção de outliers, normalização e criação de novas features.

Carga: Inserção dos dados em formato parquet para compatibilidade com o ambiente Colab.

In [None]:
df_filtered = df_spark.filter(col("Amount") > 0)
df_filtered.write.format("parquet").mode("overwrite").save("/content/transacoes_filtradas")

4.5 Análise de Qualidade dos Dados

Verificação de valores nulos:

In [None]:
from pyspark.sql.functions import col, sum as _sum
df_spark.select([_sum(col(c).isNull().cast("int")).alias(c) for c in df_spark.columns]).show()

+----+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+------+-----+
|Time| V1| V2| V3| V4| V5| V6| V7| V8| V9|V10|V11|V12|V13|V14|V15|V16|V17|V18|V19|V20|V21|V22|V23|V24|V25|V26|V27|V28|Amount|Class|
+----+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+------+-----+
|   0|  0|  0|  0|  0|  0|  0|  0|  0|  0|  0|  0|  0|  0|  0|  0|  0|  0|  0|  0|  0|  0|  0|  0|  0|  0|  0|  0|  0|     0|    0|
+----+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+------+-----+



Distribuição das transações fraudulentas:

In [None]:
df_spark.groupBy("Class").count().show()

+-----+------+
|Class| count|
+-----+------+
|    1|   492|
|    0|284315|
+-----+------+



4.6 Desenvolvimento do Modelo Preditivo

Preparação dos dados:

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split

df = pd.read_csv("/content/dataset.csv")
X = df.drop(columns=["Class"])
y = df["Class"]

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

Treinamento do Modelo:

In [None]:
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

Avaliação do Modelo:

In [None]:
from sklearn.metrics import classification_report
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00     56864
           1       0.94      0.82      0.87        98

    accuracy                           1.00     56962
   macro avg       0.97      0.91      0.94     56962
weighted avg       1.00      1.00      1.00     56962



4.7 Avaliação e Discussão dos Resultados

Métricas de Desempenho:

Precisão, Recall, F1-score e Matriz de Confusão.

Impacto do modelo na redução de fraudes.

4.8 Autoavaliação e Trabalhos Futuros

Desafios encontrados.

Possíveis melhorias, como otimização de hiperparâmetros e uso de redes neurais.

5. Resultados e Discussão

5.1 Métricas de Avaliação

As métricas utilizadas foram: Precisão, Recall, F1-score e Matriz de Confusão. O modelo Random Forest obteve resultados satisfatórios, mesmo com o forte desbalanceamento das classes. No entanto, foram observadas limitações quanto à detecção de todas as instâncias de fraude.

5.2 Limitações e Potenciais Melhorias

Classes desbalanceadas: O desequilíbrio impacta diretamente na sensibilidade do modelo. Técnicas como SMOTE ou algoritmos custo-sensíveis poderão ser exploradas em versões futuras.

Anonimização dos dados: A falta de contexto real nos atributos limita análises causais.

Melhorias no pipeline: Automatizações, versionamento de dados e deployment contínuo são passos seguintes recomendados.

6. Conclusão

A construção do pipeline de dados em ambiente de nuvem para a detecção de fraudes financeiras demonstrou ser uma solução robusta, escalável e eficaz diante dos desafios atuais enfrentados por instituições financeiras.

A utilização da plataforma Databricks, aliada ao framework Spark, proporcionou ganhos significativos em desempenho no tratamento de grandes volumes de dados e favoreceu a integração de múltiplas etapas — desde a coleta até a modelagem preditiva.

O modelo preditivo implementado, baseado em Random Forest, apresentou métricas satisfatórias em relação à precisão e recall, especialmente diante de um problema com classes altamente desbalanceadas.

A utilização de técnicas de engenharia de atributos e normalização contribuiu para a melhora do desempenho do modelo. Ainda assim, observou-se a necessidade de abordagens mais sofisticadas para o balanceamento das classes, como SMOTE ou algoritmos de custo sensível, que serão considerados em trabalhos futuros.

A análise de qualidade dos dados revelou ausência de valores nulos, o que facilitou o processo de preparação. No entanto, o anonimato dos atributos impôs limitações à interpretação dos resultados, destacando a importância de datasets mais representativos e contextualmente ricos para pesquisas futuras.

Este estudo valida o uso de arquiteturas em nuvem para aplicações de ciência de dados em cenários críticos como o de fraudes financeiras. Reforça-se a importância da automação e escalabilidade no ciclo de vida dos dados, bem como a manutenção contínua dos modelos em produção, de forma a garantir a eficácia frente à evolução dos padrões de fraude.