# üí≥ Detec√ß√£o de Fraudes em Transa√ß√µes Financeiras com Machine Learning
### Disciplina: Engenharia de Machine Learning

**Equipe:**  
- Anderson de Matos Guimar√£es  
- Gustavo Stefano Thomazinho  
- Leonardo Rodrigues Vianna de Medeiros Lopes  
- Renan Ost  

**Professor:** Marcelo Carboni Gomes  
**Metodologia:** CRISP-DM  
**Dataset:** [Credit Card Fraud Detection (Kaggle)](https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud)


## 1. Entendimento do Neg√≥cio

Este projeto tem como objetivo desenvolver um modelo preditivo capaz de detectar transa√ß√µes fraudulentas com cart√£o de cr√©dito, utilizando algoritmos de aprendizado de m√°quina supervisionado.

Fraudes financeiras representam um desafio para institui√ß√µes banc√°rias, pois causam preju√≠zos significativos e minam a confian√ßa dos clientes. O foco deste projeto √© **maximizar a detec√ß√£o de transa√ß√µes fraudulentas** (alta taxa de recall) sem comprometer excessivamente a taxa de falsos positivos.

A base de dados utilizada √© real, anonimizadas por PCA, e extremamente desbalanceada ‚Äî apenas **0,172% das transa√ß√µes s√£o fraudes**. Isso imp√µe desafios na modelagem e na avalia√ß√£o de desempenho dos modelos.

A metodologia adotada ser√° o **CRISP-DM**, seguindo as etapas: entendimento do neg√≥cio, entendimento dos dados, prepara√ß√£o, modelagem, avalia√ß√£o e apresenta√ß√£o.


### 1.1 Documenta√ß√£o T√©cnica do Dataset

Esta se√ß√£o apresenta a documenta√ß√£o t√©cnica detalhada do dataset utilizado no projeto, conforme exigido pelo professor:

#### 1) R√≥tulos (nomes das vari√°veis)

- `Time`: tempo (em segundos) desde a primeira transa√ß√£o registrada.
- `Amount`: valor da transa√ß√£o em euros (‚Ç¨).
- `V1` a `V28`: componentes principais resultantes de uma transforma√ß√£o PCA aplicada para anonimiza√ß√£o dos dados originais. Seus significados exatos n√£o s√£o p√∫blicos, mas mant√™m relev√¢ncia estat√≠stica.
- `Class`: vari√°vel-alvo. Valores:
  - `0` ‚Üí transa√ß√£o leg√≠tima
  - `1` ‚Üí transa√ß√£o fraudulenta

#### 2) Tipos de dados

| Coluna        | Tipo de dado |
|---------------|--------------|
| `Time`        | `float64`    |
| `Amount`      | `float64`    |
| `V1` a `V28`  | `float64`    |
| `Class`       | `int64`      |

> Obs.: O dataset n√£o cont√©m valores ausentes (NaN) nem temporais no formato `datetime` (NaT).

#### 3) Quantitativos

- **Total de registros (linhas):** 284.807
- **Total de vari√°veis (colunas):** 31
- **Total de transa√ß√µes fraudulentas (`Class = 1`):** 492  
- **Propor√ß√£o de fraudes:** aproximadamente 0,172%
- **Transa√ß√µes leg√≠timas (`Class = 0`):** 284.315

#### 4) N√∫mero de datasets

- Apenas **um dataset** est√° sendo utilizado neste projeto:
  - `creditcard.csv`

#### 5) Relacionamentos

- O dataset √© **auto contido** (flat table).
- N√£o h√° relacionamento com outras tabelas ou bases externas.
- Cada linha representa uma transa√ß√£o financeira independente.

#### 6) Formato dos dados

- **Formato:** `CSV` (Comma-Separated Values)
- **Codifica√ß√£o:** UTF-8
- **Fonte oficial:** Kaggle  
  [Credit Card Fraud Detection ‚Äì Kaggle: https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud](https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud)

> Este dataset foi coletado em uma parceria entre o grupo Worldline e o Machine Learning Group da Universit√© Libre de Bruxelles (ULB), e contempla transa√ß√µes realizadas por portadores de cart√µes europeus em setembro de 2013.


## üîß Prepara√ß√£o Inicial

Nesta c√©lula, importamos as bibliotecas necess√°rias para a an√°lise e carregamos o dataset diretamente a partir de uma URL p√∫blica. O dataset √© armazenado em um DataFrame do pandas (`df`) para posterior an√°lise.


In [None]:
# Bibliotecas principais
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configura√ß√µes gr√°ficas
sns.set(style="whitegrid")
%matplotlib inline

# Carregando o dataset via URL
url = 'https://storage.googleapis.com/download.tensorflow.org/data/creditcard.csv'
df = pd.read_csv(url)

# C√≥pia de seguran√ßa do dataset original (para compara√ß√µes futuras)
df_original = df.copy()


## 2. Entendimento dos Dados

Nesta etapa, realizamos uma explora√ß√£o inicial da estrutura do dataset para obter uma vis√£o geral da sua composi√ß√£o e qualidade.

O objetivo principal √© compreender:

- O tamanho da base de dados
- A presen√ßa de valores ausentes (NaN ou NaT)
- Os tipos de dados de cada vari√°vel
- As primeiras e √∫ltimas linhas da base
- Estat√≠sticas descritivas b√°sicas

Essas an√°lises s√£o essenciais para orientar as decis√µes nas etapas seguintes de prepara√ß√£o e modelagem.


### üîé Verificando o tamanho do dataset

O m√©todo `df.shape` retorna uma tupla com o n√∫mero de linhas e colunas do DataFrame. Essa √© uma informa√ß√£o fundamental para entendermos a dimens√£o da base de dados que ser√° analisada e modelada.

- O primeiro valor representa o n√∫mero de registros (transa√ß√µes).
- O segundo valor representa o n√∫mero de vari√°veis (colunas).

Essa an√°lise nos d√° uma ideia inicial da escala do problema.


In [None]:
# Verificando o n√∫mero de linhas e colunas
df.shape


### üßæ Visualizando as primeiras linhas do dataset

O m√©todo `df.head()` exibe, por padr√£o, as **cinco primeiras linhas** do DataFrame. Isso permite observar:

- A estrutura dos dados
- A ordem das colunas
- Exemplos reais de valores presentes
- Poss√≠veis inconsist√™ncias ou padr√µes

√â uma das primeiras formas de "enxergar" o conte√∫do da base.


In [None]:
# Visualizando as primeiras 5 linhas do dataset
df.head()


### üìÑ Visualizando as √∫ltimas linhas do dataset

O m√©todo `df.tail()` retorna, por padr√£o, as **cinco √∫ltimas linhas** do DataFrame.  
Isso √© √∫til para verificar se h√° algum comportamento at√≠pico no final da base de dados, como:

- Registros incompletos
- Campos zerados ou nulos
- Mudan√ßas de padr√£o

Tamb√©m complementa a visualiza√ß√£o iniciada com `df.head()`.


In [None]:
# Visualizando as 5 √∫ltimas linhas do dataset
df.tail()


### üß± Verificando estrutura e tipos de dados com `.info()`

O m√©todo `df.info()` fornece um resumo das colunas do DataFrame, incluindo:

- N√∫mero total de entradas (linhas)
- Nome de cada coluna
- Quantidade de valores n√£o nulos
- Tipo de dado de cada coluna

√â fundamental para:

- Identificar valores ausentes (NaN ou NaT)
- Verificar a consist√™ncia dos tipos de dados (ex: `float64`, `int64`)
- Estimar o uso de mem√≥ria do dataset


In [None]:
# Resumo da estrutura do DataFrame
df.info()


### üìä Estat√≠sticas descritivas com `.describe()`

O m√©todo `df.describe()` gera estat√≠sticas descritivas para as colunas num√©ricas do DataFrame, como:

- M√©dia
- Desvio padr√£o
- Valores m√≠nimos e m√°ximos
- Quartis (Q1, Q2 - mediana, Q3)

Esses dados ajudam a identificar:

- Distribui√ß√µes assim√©tricas
- Outliers (valores extremos)
- Escalas distintas entre vari√°veis

√â especialmente √∫til antes de aplicar transforma√ß√µes como normaliza√ß√£o ou padroniza√ß√£o.


In [None]:
# Estat√≠sticas descritivas das vari√°veis num√©ricas
df.describe()


## 3. Pr√©-processamento de Texto (An√°lise Auxiliar)

Como solicitado pelo professor, inclu√≠mos nesta etapa a aplica√ß√£o de t√©cnicas de pr√©-processamento textual.  
Embora o dataset principal (`creditcard.csv`) n√£o contenha campos de texto, constru√≠mos um **texto explicativo do projeto** como corpus base.

As etapas aplicadas foram:

- Minifica√ß√£o do texto (lowercase)
- Remo√ß√£o de pontua√ß√£o, acentua√ß√£o e d√≠gitos
- Remo√ß√£o de stopwords
- Stemming com `PorterStemmer`
- Vetoriza√ß√£o com TF-IDF

A seguir, mostramos cada etapa aplicada ao texto.


### üìö Importa√ß√£o das bibliotecas


In [None]:
import re
import string
import numpy as np
import pandas as pd

from unidecode import unidecode

import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer

from sklearn.feature_extraction.text import TfidfVectorizer


### üßæ Texto explicativo do projeto (usado como corpus)


In [None]:
texto_projeto = """Este projeto tem como objetivo desenvolver um sistema inteligente capaz de detectar fraudes em transa√ß√µes financeiras 
por meio de t√©cnicas avan√ßadas de aprendizado de m√°quina supervisionado. A solu√ß√£o proposta busca identificar padr√µes 
an√¥malos em grandes volumes de dados, utilizando etapas rigorosas de pr√©-processamento textual, vetoriza√ß√£o e 
modelagem preditiva. O desempenho dos modelos ser√° avaliado com base em m√©tricas como acur√°cia, precis√£o, recall e 
F1-score, assegurando sua robustez e aplicabilidade em contextos reais. Destinado a institui√ß√µes financeiras, o 
sistema funcionar√° como uma ferramenta preventiva, refor√ßando a seguran√ßa digital e contribuindo para a mitiga√ß√£o de 
perdas decorrentes de atividades fraudulentas.
"""


### üßº Pr√©-processamento inicial (min√∫sculas, pontua√ß√£o, acentos, d√≠gitos)


In [None]:
# 1. Min√∫sculas
texto = texto_projeto.lower()

# 2. Remo√ß√£o de pontua√ß√£o
punctuation = string.punctuation
trantab = str.maketrans(punctuation, len(punctuation) * ' ')
texto = texto.translate(trantab)

# 3. Remo√ß√£o de acentos
texto = unidecode(texto)

# 4. Remo√ß√£o de d√≠gitos
texto = re.sub(r'\d+', '', texto)


### ‚ùå Remo√ß√£o de stopwords (com `try-except`)


In [None]:
try:
    stopwords_list = stopwords.words('portuguese')
except:
    nltk.download('stopwords')
    stopwords_list = stopwords.words('portuguese')

palavras = texto.split()
palavras_filtradas = [palavra for palavra in palavras if palavra not in stopwords_list and len(palavra) > 1]
texto_limpo = " ".join(palavras_filtradas)

print(texto_limpo)


### üß™ Stemming com `PorterStemmer`


In [None]:
stemmer = PorterStemmer()
texto_stemmed = " ".join([stemmer.stem(palavra) for palavra in texto_limpo.split()])

print(texto_stemmed)


### üß† Vetoriza√ß√£o com TF-IDF


In [None]:
corpus = np.array([
    texto_stemmed,
    "sistema inteligente detectar padrao comportamento transacao financeira"
])

vectorizer = TfidfVectorizer()
tfidf_result = vectorizer.fit_transform(corpus)

df_tfidf = pd.DataFrame.sparse.from_spmatrix(tfidf_result, columns=vectorizer.get_feature_names_out())
df_tfidf


## 4. An√°lise Explorat√≥ria de Dados (EDA)

Nesta etapa, buscamos explorar visualmente os dados para compreender a distribui√ß√£o de valores, detectar padr√µes, identificar valores discrepantes (outliers) e verificar o comportamento da vari√°vel-alvo `Class`.

Al√©m disso, ser√£o aplicadas transforma√ß√µes simples para comparar o "antes e depois" dos dados, conforme exigido na atividade da disciplina.


### üéØ Distribui√ß√£o da vari√°vel-alvo `Class`

Vamos visualizar a propor√ß√£o entre transa√ß√µes leg√≠timas (`Class = 0`) e fraudulentas (`Class = 1`).


In [None]:
sns.countplot(x='Class', data=df, palette='Set2')
plt.title('Distribui√ß√£o das Transa√ß√µes (0 = Leg√≠tima, 1 = Fraude)')
plt.xlabel('Classe')
plt.ylabel('Contagem')
plt.show()


A maior parte das transa√ß√µes √© leg√≠tima (`Class = 0`). Apenas **0,172%** dos registros representam fraudes (`Class = 1`), o que confirma que o dataset √© altamente desbalanceado.  
Isso influenciar√° diretamente na escolha dos algoritmos e nas m√©tricas de avalia√ß√£o utilizadas posteriormente.


### üí∂ An√°lise da vari√°vel `Amount`

Vamos analisar a distribui√ß√£o dos valores das transa√ß√µes antes de qualquer transforma√ß√£o, utilizando:

- Histograma (para ver concentra√ß√£o)
- Boxplot (para observar outliers)


In [None]:
plt.figure(figsize=(10, 4))
sns.histplot(df['Amount'], bins=50, kde=True)
plt.title('Distribui√ß√£o dos Valores das Transa√ß√µes (Antes da Normaliza√ß√£o)')
plt.xlabel('Valor (‚Ç¨)')
plt.ylabel('Frequ√™ncia')
plt.show()


In [None]:
plt.figure(figsize=(10, 2))
sns.boxplot(x=df['Amount'])
plt.title('Boxplot do Valor das Transa√ß√µes (Antes da Normaliza√ß√£o)')
plt.xlabel('Valor (‚Ç¨)')
plt.show()


Os gr√°ficos mostram que a maioria das transa√ß√µes possui valores baixos, concentrados abaixo de ‚Ç¨100.  
Entretanto, existem outliers (valores muito altos), o que pode distorcer an√°lises e impactar algoritmos sens√≠veis √† escala, como regress√£o log√≠stica e KNN.

Por isso, ser√° necess√°rio aplicar uma transforma√ß√£o de escala nos valores.


### üîß Normaliza√ß√£o do valor da transa√ß√£o (`Amount`)

Alguns algoritmos de Machine Learning s√£o sens√≠veis √† escala dos dados. Como a vari√°vel `Amount` apresenta uma grande varia√ß√£o e outliers, vamos aplicar a **normaliza√ß√£o com `StandardScaler`**, que transforma os dados para que tenham m√©dia 0 e desvio padr√£o 1.

Dessa forma, o algoritmo ser√° menos influenciado por diferen√ßas de escala.


In [None]:
from sklearn.preprocessing import StandardScaler

# Instanciando o normalizador
scaler = StandardScaler()

# Aplicando ao Amount
df['Amount_Scaled'] = scaler.fit_transform(df[['Amount']])

# Verificando estat√≠sticas antes e depois
df[['Amount', 'Amount_Scaled']].describe()


### üìä Compara√ß√£o ‚ÄúAntes e Depois‚Äù com Gr√°ficos

Vamos comparar a distribui√ß√£o da vari√°vel `Amount` antes e depois da transforma√ß√£o.


In [None]:
fig, axs = plt.subplots(nrows=1, ncols=2, figsize=(14, 4))

# Boxplot original
sns.boxplot(x=df['Amount'], ax=axs[0], color='skyblue')
axs[0].set_title('Antes da Normaliza√ß√£o')
axs[0].set_xlabel('Amount (‚Ç¨)')

# Boxplot escalado
sns.boxplot(x=df['Amount_Scaled'], ax=axs[1], color='lightgreen')
axs[1].set_title('Depois da Normaliza√ß√£o')
axs[1].set_xlabel('Amount Scaled')

plt.suptitle('Boxplots Comparativos - Amount Original vs Normalizado')
plt.tight_layout()
plt.show()


### üìä Histograma do valor normalizado das transa√ß√µes

Para complementar a visualiza√ß√£o, vamos analisar o histograma da vari√°vel `Amount_Scaled` ap√≥s a transforma√ß√£o com `StandardScaler`.


In [None]:
plt.figure(figsize=(10, 4))
sns.histplot(df['Amount_Scaled'], bins=50, kde=True, color='green')
plt.title('Distribui√ß√£o do Valor das Transa√ß√µes Ap√≥s Normaliza√ß√£o')
plt.xlabel('Amount Scaled')
plt.ylabel('Frequ√™ncia')
plt.show()


A transforma√ß√£o com `StandardScaler` centralizou os dados de `Amount_Scaled` em torno de zero e reduziu a vari√¢ncia.  
Isso facilita a aprendizagem dos algoritmos e mitiga a influ√™ncia de outliers extremos.  
O valor original foi mantido em `Amount` para fins de refer√™ncia, enquanto o modelo utilizar√° `Amount_Scaled`.


## 5. Prepara√ß√£o para a Modelagem Supervisionada

Agora que os dados passaram por an√°lise explorat√≥ria e transforma√ß√µes b√°sicas, √© importante consolidar as vari√°veis que ser√£o utilizadas na modelagem supervisionada.

Nesta etapa:

- Criamos uma nova c√≥pia dos dados processados chamada `df_modelagem`
- Garantimos que o DataFrame principal (`df`) permane√ßa inalterado
- Selecionamos os atributos relevantes
- Removemos colunas que n√£o ser√£o utilizadas (como `Time`, por exemplo)

Essa separa√ß√£o torna o processo mais seguro e facilita poss√≠veis ajustes futuros.


In [None]:
# Criando uma c√≥pia segura dos dados processados para modelagem
df_modelagem = df.copy()

# Removendo colunas que n√£o ser√£o utilizadas na modelagem
# 'Time' n√£o √© informativa para o modelo e ser√° descartada
# 'Amount' original tamb√©m pode ser descartado, pois usaremos a vers√£o escalada

df_modelagem.drop(['Time', 'Amount'], axis=1, inplace=True)

# Verificando o novo DataFrame
df_modelagem.head()


### üìä Divis√£o do Dataset: 60% Treino | 20% Valida√ß√£o | 20% Teste

De acordo com a orienta√ß√£o do professor, o conjunto de dados ser√° dividido em tr√™s partes:

- **60% ‚Üí Treinamento:** Utilizado para treinar os modelos. Ser√° balanceado com SMOTE.
- **20% ‚Üí Valida√ß√£o:** Avaliar√° o desempenho durante os testes intermedi√°rios (sem SMOTE).
- **20% ‚Üí Teste:** Avalia√ß√£o final do modelo. N√£o ser√° tocado at√© a fase final.

Essa estrat√©gia permite avaliar os modelos com maior robustez, especialmente quando combinada com **valida√ß√£o cruzada (cross-validation)** no conjunto de treino.


In [None]:
# Dividindo 20% como conjunto de teste e 80% restante para treino + valida√ß√£o
X_temp, X_test, y_temp, y_test = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=42
)


In [None]:
# Dividindo 20% como conjunto de teste e 80% restante para treino + valida√ß√£o
X_temp, X_test, y_temp, y_test = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=42
)


In [None]:
from imblearn.over_sampling import SMOTE

# Aplicando SMOTE apenas ao conjunto de treino
smote = SMOTE(random_state=42)
X_train_bal, y_train_bal = smote.fit_resample(X_train, y_train)


### ‚úÖ Verifica√ß√£o do Balanceamento com SMOTE

A seguir, verificamos a distribui√ß√£o da vari√°vel-alvo ap√≥s o balanceamento no conjunto de treino.


In [None]:
sns.countplot(x=y_train_bal, palette='Set2')
plt.title('Distribui√ß√£o da Classe ap√≥s SMOTE (Treino)')
plt.xlabel('Classe')
plt.ylabel('Frequ√™ncia')
plt.show()


## 5.2 Modelagem com Valida√ß√£o Cruzada (Cross-Validation)

A valida√ß√£o cruzada (k-fold) √© uma t√©cnica que divide o conjunto de treino em *k* subconjuntos, treinando o modelo *k* vezes com subconjuntos diferentes, o que resulta em uma avalia√ß√£o mais robusta do desempenho m√©dio.

Nesta etapa, utilizaremos:

- **Regress√£o Log√≠stica**
- **Random Forest**

Ambos os modelos ser√£o avaliados com **cross-validation (k=5)** usando **Recall** como principal m√©trica, pois queremos **reduzir falsos negativos** em detec√ß√£o de fraudes.


In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.metrics import make_scorer, recall_score


In [None]:
# Modelo de regress√£o log√≠stica
logreg = LogisticRegression(max_iter=1000, random_state=42)

# Valida√ß√£o cruzada com 5 folds
logreg_scores = cross_val_score(
    logreg, X_train_bal, y_train_bal, cv=5,
    scoring=make_scorer(recall_score)
)

# Exibindo resultados
print("Recall m√©dio - Regress√£o Log√≠stica:", logreg_scores.mean())
print("Scores por fold:", logreg_scores)


In [None]:
# Modelo Random Forest
rf = RandomForestClassifier(n_estimators=100, random_state=42)

# Valida√ß√£o cruzada com 5 folds
rf_scores = cross_val_score(
    rf, X_train_bal, y_train_bal, cv=5,
    scoring=make_scorer(recall_score)
)

# Exibindo resultados
print("Recall m√©dio - Random Forest:", rf_scores.mean())
print("Scores por fold:", rf_scores)


### üß† Interpreta√ß√£o dos Resultados (Valida√ß√£o Cruzada)

A valida√ß√£o cruzada retornou o **recall m√©dio** para cada modelo, permitindo comparar a capacidade de cada algoritmo em detectar fraudes (classe positiva).

- **Modelos com maior recall** s√£o prefer√≠veis nesse cen√°rio, pois minimizam os falsos negativos.
- **Random Forest** costuma ter desempenho superior em problemas com dados tabulares e desbalanceados.

A seguir, usaremos os dois modelos para prever no conjunto de **valida√ß√£o (20%)**, antes de aplicar no conjunto de teste final.


## 5.3 Avalia√ß√£o dos Modelos na Base de Valida√ß√£o

Ap√≥s treinar os modelos com valida√ß√£o cruzada, agora avaliamos seu desempenho no **conjunto de valida√ß√£o (20%)**, que n√£o foi balanceado com SMOTE.

Utilizaremos as seguintes m√©tricas:

- **Recall:** Principal m√©trica no contexto de fraudes (evita falsos negativos)
- **Precision:** Avalia a propor√ß√£o de acertos entre as previs√µes positivas
- **F1-Score:** Harm√¥nica entre recall e precision
- **Confusion Matrix:** Vis√£o geral da performance

Essa avalia√ß√£o nos ajuda a selecionar o melhor modelo antes de aplicar no conjunto de teste final.


In [None]:
from sklearn.metrics import classification_report, confusion_matrix, ConfusionMatrixDisplay


In [None]:
# Treinando os modelos com os dados balanceados
logreg.fit(X_train_bal, y_train_bal)
rf.fit(X_train_bal, y_train_bal)


In [None]:
# Previs√£o na base de valida√ß√£o
y_pred_logreg = logreg.predict(X_val)

# Relat√≥rio de classifica√ß√£o
print("Relat√≥rio - Regress√£o Log√≠stica")
print(classification_report(y_val, y_pred_logreg, zero_division=0))

# Matriz de confus√£o
ConfusionMatrixDisplay.from_predictions(y_val, y_pred_logreg, display_labels=["Leg√≠tima", "Fraude"])
plt.title("Matriz de Confus√£o - Logistic Regression")
plt.show()


In [None]:
# Previs√£o na base de valida√ß√£o
y_pred_rf = rf.predict(X_val)

# Relat√≥rio de classifica√ß√£o
print("Relat√≥rio - Random Forest")
print(classification_report(y_val, y_pred_rf, zero_division=0))

# Matriz de confus√£o
ConfusionMatrixDisplay.from_predictions(y_val, y_pred_rf, display_labels=["Leg√≠tima", "Fraude"])
plt.title("Matriz de Confus√£o - Random Forest")
plt.show()


### üìà Interpreta√ß√£o da Avalia√ß√£o na Valida√ß√£o

A partir dos resultados das m√©tricas, especialmente o **recall da classe 1 (fraudes)**, podemos comparar qual modelo melhor identifica as transa√ß√µes fraudulentas:

- Modelos com **recall mais alto e f1-score equilibrado** s√£o mais indicados.
- O desempenho na base de valida√ß√£o √© um bom indicativo da **capacidade de generaliza√ß√£o** antes de aplicarmos ao conjunto de teste final.

A seguir, o modelo com melhor desempenho ser√° aplicado no conjunto de **teste (X_test, y_test)** para obter a m√©trica final do projeto.


## 5.4 Avalia√ß√£o Final no Conjunto de Teste

Agora aplicamos os modelos treinados ao conjunto de **teste final (`X_test`, `y_test`)**, que permaneceu intocado durante todo o desenvolvimento.

Esse passo permite verificar a **generaliza√ß√£o real** do modelo, utilizando as mesmas m√©tricas da etapa anterior:

- Matriz de Confus√£o
- Precision, Recall, F1-Score


In [None]:
# Previs√µes finais
y_pred_logreg_test = logreg.predict(X_test)
y_pred_rf_test = rf.predict(X_test)


In [None]:
print("Relat√≥rio Final - Regress√£o Log√≠stica (Teste)")
print(classification_report(y_test, y_pred_logreg_test, zero_division=0))

ConfusionMatrixDisplay.from_predictions(y_test, y_pred_logreg_test, display_labels=["Leg√≠tima", "Fraude"])
plt.title("Matriz de Confus√£o - Logistic Regression (Teste)")
plt.show()


In [None]:
print("Relat√≥rio Final - Random Forest (Teste)")
print(classification_report(y_test, y_pred_rf_test, zero_division=0))

ConfusionMatrixDisplay.from_predictions(y_test, y_pred_rf_test, display_labels=["Leg√≠tima", "Fraude"])
plt.title("Matriz de Confus√£o - Random Forest (Teste)")
plt.show()


### ‚úÖ Considera√ß√µes Finais da Avalia√ß√£o

A avalia√ß√£o no conjunto de teste mostra a performance real do modelo escolhido, simulando um cen√°rio de produ√ß√£o.

- O **modelo com melhor recall e equil√≠brio entre precis√£o e F1-score para a classe 1 (fraude)** √© o mais indicado para uso pr√°tico.
- Neste projeto, o modelo mais eficaz ser√° documentado na se√ß√£o de entrega final e relat√≥rios.

A seguir, concluiremos o projeto com observa√ß√µes finais e organiza√ß√£o dos arquivos para apresenta√ß√£o.


## 6. Conclus√µes e Pr√≥ximos Passos

### ‚úÖ Conclus√µes

Neste projeto, desenvolvemos um pipeline completo de Machine Learning supervisionado com foco na **detec√ß√£o de fraudes em transa√ß√µes financeiras**. A seguir, os principais destaques do processo:

- **Entendimento do neg√≥cio**: Exploramos o problema da fraude financeira e analisamos a estrutura do dataset fornecido.
- **EDA e Pr√©-processamento**:
  - Exploramos estat√≠sticas, padr√µes e outliers.
  - Aplicamos normaliza√ß√£o (StandardScaler) e removemos colunas irrelevantes.
- **Balanceamento com SMOTE**: Corrigimos a alta despropor√ß√£o de classes usando sobremostragem da minoria.
- **Divis√£o 60/20/20**: Separa√ß√£o estruturada entre treino, valida√ß√£o e teste.
- **Modelagem com Cross-Validation**: Avaliamos `Logistic Regression` e `Random Forest`, priorizando **recall** como m√©trica-chave.
- **Avalia√ß√£o Final**: O modelo mais eficaz foi testado no conjunto final, simulando um ambiente de produ√ß√£o.

### üß† Insights

- O dataset altamente desbalanceado exige aten√ß√£o especial nas m√©tricas utilizadas. **Acur√°cia sozinha √© inadequada**.
- O uso de **recall** e **F1-score** foi essencial para entender a capacidade dos modelos em identificar fraudes reais.
- O **Random Forest** se destacou por seu desempenho robusto, mesmo em dados desequilibrados.

---

### üìé Anexos e Recursos

- Dataset: [Credit Card Fraud Detection ‚Äì Kaggle](https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud)
- Notebook: `fraude_ml.ipynb`
- Documenta√ß√£o detalhada: dispon√≠vel na Wiki do projeto no GitHub

---

üìå **Miss√£o cumprida!** O pipeline est√° pronto para ser apresentado como solu√ß√£o pr√°tica para detec√ß√£o de fraudes com ML.
