### Descrição do Problema
As transações financeiras online cresceram exponencialmente nos últimos anos, trazendo consigo o aumento de fraudes e atividades suspeitas. Fintechs, bancos digitais e plataformas de pagamento enfrentam diariamente o desafio de identificar e bloquear transações fraudulentas em tempo real, sem impactar a experiência dos usuários legítimos.

Este projeto tem como objetivo desenvolver um modelo de machine learning capaz de identificar transações potencialmente fraudulentas, utilizando um conjunto de dados realista com mais de 51.000 registros. Cada transação é rotulada como fraudulenta ou legítima e acompanhada de informações relevantes como:

* Detalhes da transação: valor, tipo (saque, transferência, pagamento), horário

* Perfil do usuário: histórico de fraudes, idade da conta, número de transações recentes

* Contexto do dispositivo e localização: tipo de dispositivo usado e local da transação

* Método de pagamento utilizado

O principal desafio é ensinar o modelo a identificar padrões sutis de comportamento fraudulento, buscando o equilíbrio entre reduzir falsos positivos (evitar bloquear usuários legítimos) e aumentar a sensibilidade do modelo para capturar fraudes reais com precisão.

### Carregando Bibliotecas

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
from statsmodels.stats.outliers_influence import variance_inflation_factor
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler , LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score , classification_report, f1_score, precision_score, recall_score

### Carregando o conjunto de dados

In [2]:
# Carregando conjunto de dados
df = pd.read_csv('../data/Fraud Detection Dataset.csv')

# Pré-visualizando o conjunto de dados
df.head()

Unnamed: 0,Transaction_ID,User_ID,Transaction_Amount,Transaction_Type,Time_of_Transaction,Device_Used,Location,Previous_Fraudulent_Transactions,Account_Age,Number_of_Transactions_Last_24H,Payment_Method,Fraudulent
0,T1,4174,1292.76,ATM Withdrawal,16.0,Tablet,San Francisco,0,119,13,Debit Card,0
1,T2,4507,1554.58,ATM Withdrawal,13.0,Mobile,New York,4,79,3,Credit Card,0
2,T3,1860,2395.02,ATM Withdrawal,,Mobile,,3,115,9,,0
3,T4,2294,100.1,Bill Payment,15.0,Desktop,Chicago,4,3,4,UPI,0
4,T5,2130,1490.5,POS Payment,19.0,Mobile,San Francisco,2,57,7,Credit Card,0


In [3]:
# Visualizando tipos de dados
df.dtypes

Transaction_ID                       object
User_ID                               int64
Transaction_Amount                  float64
Transaction_Type                     object
Time_of_Transaction                 float64
Device_Used                          object
Location                             object
Previous_Fraudulent_Transactions      int64
Account_Age                           int64
Number_of_Transactions_Last_24H       int64
Payment_Method                       object
Fraudulent                            int64
dtype: object

In [4]:
# Conhecendo o conjunto de dados
print('Visualizando quantidade de linhas do conjunto de dados:', df.shape[0])
print('Visualizando quantidade de colunas do conjunto de dados:', df.shape[1])

Visualizando quantidade de linhas do conjunto de dados: 51000
Visualizando quantidade de colunas do conjunto de dados: 12


#### Observações

* O conjunto de dados possuí um total de 51000 linhas e 12 colunas
* O conjunto também possuí um total de 7 colunas numéricas
* O conjunto também possuí 5 colunas object