# **Introdução**

Link para o Colab: https://colab.research.google.com/drive/1zIF2C62nHFAeUX311wuxmScag00rnxeT?authuser=0

## **Definição do Problema:**

 O *phishing* é uma fraude digital em que sites falsos tentam enganar os usuários para roubar informações sensíveis. A identificação eficaz de URLs fraudulentas é crucial para prevenir roubo de identidade, perdas financeiras e danos à reputação.



## **Objetivo:**

O objetivo deste trabalho é criar um modelo de Machine Learning para classificar novas URLs entre legítimas e fraudulentas. Para isso, será usado o dataset ["PhiUSIIL Phishing URL (Website)"](https://archive.ics.uci.edu/dataset/967/phiusiil+phishing+url+dataset).

## **Descrição do problema**

### **Tipo de problema**

Este é um problema de classificação supervisionada.


## **Premissas e Hipóteses**

#### **Premissas:**

* O dataset fornecido é representativo e contém exemplos suficientes de URLs
legítimas e fraudulentas para treinar um modelo de aprendizado de máquina.

* As características extraídas das URLs são relevantes para o problema de classificação.

#### **Hipóteses:**

* As URLs fraudulentas (phishing) têm padrões específicos e características estruturais (como domínios suspeitos, presença de palavras-chave, comprimento da URL, uso de subdomínios e a presença de HTTPS) que podem ser capturados por modelos de aprendizado de máquina.

* A utilização de algoritmos de aprendizado supervisionado (como regressão logística, árvores de decisão ou redes neurais) será eficaz para classificar as URLs corretamente.


## **Restrições e Condições**

* O modelo depende exclusivamente das informações contidas no dataset "PhiUSIIL Phishing URL (Website)". Caso o dataset seja incompleto, desatualizado ou contenha viés, o desempenho e a generalização do modelo podem ser afetados.

* O modelo deve ser avaliado quanto à sua capacidade de generalizar para URLs coletadas fora do dataset original, especialmente considerando que os padrões de phishing podem evoluir.

## **Dicionário de Dados**

| Coluna                  | Descrição |
|-------------------------|-----------|
| **FILENAME**            | Nome do arquivo de origem dos dados ou nome da página analisada. |
| **URL**                 | URL completa da página sendo analisada. |
| **URLLength**           | Comprimento total da URL, representando o número de caracteres.|
| **Domain**              | Nome do domínio principal da URL. |
| **DomainLength**        | Comprimento do domínio principal.|
| **IsDomainIP**          | Indicador binário (0 ou 1) que mostra se o domínio é um endereço IP em vez de um nome de domínio. |
| **TLD**                 | Domínio de topo (Top-Level Domain) da URL, como .com, .org, .net, etc. |
| **URLSimilarityIndex**  | Índice que mede a similaridade da URL com URLs legítimas, usado para identificar sites suspeitos. |
| **CharContinuationRate**| Taxa de continuação de caracteres na URL, indicando a presença de padrões complexos ou incomuns. |
| **TLDLegitimateProb**   | Probabilidade do TLD (domínio de topo) ser legítimo, baseada em dados históricos ou estatísticas. |
| **URLCharProb**         | Probabilidade dos caracteres presentes na URL serem comuns em URLs legítimas. |
| **TLDLength**           | Comprimento do domínio de topo (TLD). |
| **NoOfSubDomain**       | Número de subdomínios presentes na URL.|
| **HasObfuscation**      | Indicador binário (0 ou 1) que mostra se a URL possui técnicas de ofuscação para ocultar o destino real. |
| **NoOfObfuscatedChar**  | Número de caracteres ofuscados na URL, que podem dificultar a leitura humana e indicar fraude. |
| **ObfuscationRatio**    | Proporção de caracteres ofuscados em relação ao comprimento total da URL. |
| **NoOfLettersInURL**    | Número total de letras presentes na URL. |
| **LetterRatioInURL**    | Proporção de letras em relação ao comprimento total da URL. |
| **NoOfDegitsInURL**     | Número de dígitos na URL, que podem ser usados para ocultar informações ou confundir o usuário. |
| **DegitRatioInURL**     | Proporção de dígitos na URL em relação ao seu comprimento total. |
| **NoOfEqualsInURL**     | Número de sinais de igual (‘=’) presentes na URL, usados em parâmetros e potencialmente indicadores de phishing. |
| **NoOfQMarkInURL**      | Número de sinais de interrogação (‘?’) na URL, geralmente indicando o início de uma sequência de parâmetros. |
| **NoOfAmpersandInURL**  | Número de sinais de ampersand (‘&’) presentes na URL, usados em parâmetros de consultas. |
| **NoOfOtherSpecialCharsInURL** | Número de outros caracteres especiais na URL, que podem ser usados para enganar ou confundir o usuário. |
| **SpacialCharRatioInURL** | Proporção de caracteres especiais em relação ao comprimento total da URL. |
| **IsHTTPS**             | Indicador binário (0 ou 1) que mostra se a URL usa HTTPS, o que é um sinal positivo de segurança. |
| **LineOfCode**          | Número total de linhas de código na página, uma métrica geral de complexidade. |
| **LargestLineLength**   | Comprimento da maior linha de código, que pode indicar a presença de scripts complexos ou ofuscados. |
| **HasTitle**            | Indicador binário (0 ou 1) de se a página possui uma tag de título, comum em sites legítimos. |
| **Title**               | Título da página extraído da tag de título. |
| **DomainTitleMatchScore** | Índice de correspondência entre o domínio e o título da página, podendo indicar se o site está de acordo com o nome do domínio. |
| **URLTitleMatchScore**  | Índice de correspondência entre a URL e o título da página. |
| **HasFavicon**          | Indicador binário (0 ou 1) de se a página possui um favicon, um sinal comum de legitimidade. |
| **Robots**              | Indicador binário (0 ou 1) da presença de um arquivo `robots.txt`, que regula o comportamento de motores de busca. |
| **IsResponsive**        | Indicador binário (0 ou 1) de se a página é responsiva para dispositivos móveis, comum em sites profissionais. |
| **NoOfURLRedirect**     | Número de redirecionamentos de URL que a página faz, uma técnica usada em sites fraudulentos para esconder o destino real. |
| **NoOfSelfRedirect**    | Número de redirecionamentos internos para o mesmo domínio. |
| **HasDescription**      | Indicador binário (0 ou 1) de se a página possui uma meta tag de descrição, o que é comum em sites legítimos. |
| **NoOfPopup**           | Número de pop-ups presentes, que podem indicar práticas de spam ou phishing. |
| **NoOfiFrame**          | Número de `iframes` embutidos, que podem ser usados para conteúdo externo ou malicioso. |
| **HasExternalFormSubmit** | Indicador binário (0 ou 1) de se o formulário da página envia dados para outro domínio, uma prática potencialmente suspeita. |
| **HasSocialNet**        | Indicador binário (0 ou 1) de se a página possui links para redes sociais, comum em sites legítimos. |
| **HasSubmitButton**     | Indicador binário (0 ou 1) de se a página possui um botão de envio, presente em sites com formulários. |
| **HasHiddenFields**     | Indicador binário (0 ou 1) de se a página possui campos ocultos em formulários, que podem ser usados para coletar dados sem o conhecimento do usuário. |
| **HasPasswordField**    | Indicador binário (0 ou 1) de se a página possui um campo de senha, indicando um possível login. |
| **Bank**                | Indicador binário (0 ou 1) de se a página está relacionada a serviços bancários. |
| **Pay**                 | Indicador binário (0 ou 1) de se a página oferece opções de pagamento. |
| **Crypto**              | Indicador binário (0 ou 1) de se a página está relacionada a serviços de criptomoedas. |
| **HasCopyrightInfo**    | Indicador binário (0 ou 1) de se a página contém informações de direitos autorais, geralmente um sinal de legitimidade. |
| **NoOfImage**           | Número de imagens na página, uma métrica de conteúdo visual. |
| **NoOfCSS**             | Número de folhas de estilo CSS usadas, indicando nível de personalização. |
| **NoOfJS**              | Número de arquivos JavaScript, indicando complexidade do site. |
| **NoOfSelfRef**         | Número de referências a URLs internas do mesmo domínio. |
| **NoOfEmptyRef**        | Número de referências vazias (como `href="#"`), que podem ser um sinal de placeholders ou práticas suspeitas. |
| **NoOfExternalRef**     | Número de referências a URLs externas, o que pode indicar conteúdo misto. |
| **label**               | Rótulo da classe (legítima ou fraudulenta), indicando se a página é considerada segura ou maliciosa (sendo 1 - legítimo e 0 - phishing). |

# Pré-Processamento dos Dados

### Importando as bibliotecas

In [None]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns
import plotly.express as px # para o boxplot
from sklearn.pipeline import Pipeline
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from xgboost import XGBClassifier
from imblearn.over_sampling import SMOTE
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler #, FunctionTransformer, RobustScaler
#from scipy.stats.mstats import winsorize
from sklearn.model_selection import StratifiedKFold, train_test_split, cross_val_score, RandomizedSearchCV, learning_curve
from sklearn.metrics import make_scorer, classification_report, accuracy_score, f1_score, precision_score, recall_score, confusion_matrix, roc_curve, auc
from scipy.stats import randint
#import math
#from ydata_profiling import ProfileReport


pd.set_option('display.max_columns', None)

## Carregando o dataset


In [None]:
url = 'https://raw.githubusercontent.com/nanquinote/mvp-pucrio-detector-phishing/refs/heads/main/PhiUSIIL_Phishing_URL_Dataset.csv'
df = pd.read_csv(url)

## Análise exploratória dos dados

### Visão geral e estatísticas

Podemos verificar abaixo que o dataset não possui dados faltantes e que existem variáveis categóricas que precisam ser analisadas, já que não poderão ser usadas na previsão.

In [None]:
display(df.head(5))
display(df.info())
display(df.describe())

### Limpeza dos dados

#### Registros Duplicados


A seguir, é importante verificar se existem dados duplicados no dataset:


In [None]:
print(f'Registros duplicados: { df.duplicated().sum()}')

In [None]:
duplicadas = df[df.duplicated(keep=False)]

frequencia = duplicadas.value_counts()

display(duplicadas)

Para evitar viés no modelo, os dados duplicados serão removidos.

In [None]:
df.drop_duplicates(inplace=True)

df.duplicated().sum()

print(f'Registros duplicados (após drop): { df.duplicated().sum()}')

### Análise das colunas categóricas

Ao analisar as colunas categóricas, podemos verificar que possuem poucos valores únicos, o que pode dificuldar a modelagem sem agregar valor. Sendo assim, optei por dropar essas colunas. O TLD até poderia fornecer informações úteis, porém como no dataset já existem as colunas TLDLegitimateProb e TLDLength não vi necessidade de mantê-la.

In [None]:
# Análise das colunas categóricas
categoricas = df.select_dtypes(exclude=['int64', 'float64']).columns.tolist()
print(f'Lista das {len(categoricas)} colunas categóricas: { categoricas }')

for c in categoricas:
  print(f'\n{c}:\nQtd.: {df[c].size} - Únicos: {df[c].nunique()} - Dif.: {df[c].size - df[c].nunique()}\n')

# frequência
for c in categoricas:
  print(df[c].value_counts().head(2), '\n')


In [None]:
df.drop(columns=['FILENAME', 'URL', 'Domain', 'Title', 'TLD'], inplace=True)

### Verificando o balanceamento do dataset

A seguir, será verificado o balanceamento da classe target.

In [None]:
df['label'].value_counts()

In [None]:
legitimo = df['label'].value_counts()[1] / df['label'].size * 100
phishing = df['label'].value_counts()[0] / df['label'].size * 100

print(f'Legítimo: {legitimo:.2f}%')
print(f'Phishing: {phishing:.2f}%')

Podemos verificar que o dataset apresenta um leve desbalanceamento, o que será tratado mais adiante.

### Análise de outliers

Em seguida, usarei boxplot para verificar se há discrepâncias entre as features quantitativas não booleanas.

In [None]:
def get_continuous_columns(df):
    non_booleans = []

    for col in df.columns:
        tmp = df[col].unique()
        if not set(tmp).issubset({0, 1}):
            non_booleans.append(col)

    return non_booleans

continuous_columns = get_continuous_columns(df)

In [None]:
df_continuous = df[continuous_columns]

df_continuous.describe()

In [None]:
for col in df_continuous.columns:
  boxplot = px.box(df_continuous, y=col)
  boxplot.show()

Verificando a distribuição dos dados

In [None]:
print('\nHistogramas\n')
for col in df_continuous.columns:
  histogram = px.histogram(df_continuous, x=col, y=col)
  histogram.show()

In [None]:
for col in df.columns:
  skewness = df[col].skew()
  print(f"Skewness {col}: {skewness}")

Podemos verificar que existem sim outiers e features com  distribuição assimétrica, porém estes casos podem
revelar padrões e táticas  usadas em URLs de phishing que não seriam capturados se os excluíssemos. A princípio, não pude determinar se esses dados são ruídos e erros de medição. Testei alguns tratamentos como transformação logarítimica e winsorização, porém houve uma piora significativa nas curvas de aprendizado ao aplicar essas técnicas. Sendo assim, optei por manter o modelo com todos os dados.

A seguir, será gerado o mapa de calor para verificar inicialmente as correlações entre as features.

In [None]:
# Correlação e mapa de calor

def gera_heatmap(df, target, k):
  numcols = df.columns.tolist()
  cols = df.corr().nlargest(k, target)[target].index
  cm = df[cols].corr()
  plt.figure(figsize=(12,6))
  sns.heatmap(cm, annot=True, cmap = 'viridis')

gera_heatmap(df, 'label', 15)

# todo excluir multicolinearidade?

Podemos verificar que as features com maior correlação com o target são URLSimilarityIndex (0.86), HasSocialNet (0.78), HasCopyrightInfo (0.74), e HasDescription (0.69). URLTitleMatchScore e DomainTitleMatchScore têm uma forte correlação (0.96), podendo estar fornecendo informações semelhantes sobre o conteúdo da URL. Já CharContinuationRate (0.09) e HasTitle (0.16) tem as menores correlações com o target.

Será utilizado o SelectKBest para filtrar as features.

### Pipeline de Pré-processamento, Modelagem e Treinamento

Optei por utilizar a validação cruzada porque, embora o dataset tenha uma quantidade razoável de observações, será necessário testar diferentes modelos e otimizar hiperparâmetros. Além disso, nos primeiros testes identifiquei sinais de overfitting, e a validação cruzada é uma técnica que permite avaliar o desempenho do modelo de forma mais confiável, ajudando a detectar e mitigar problemas de generalização.

Como foi verificado um pequeno desbalanceamento, será utilizado o Smote para oversampling da classe minoritária.

Realizei o split dos dados em treino, teste e validação. O conjunto de validação será usada na validação cruzada e otimização, enquanto o teste será para verificar o modelo final.

Primeiramente, serão criados os métodos utilizados no pipeline

## Definição do métodos

In [None]:
def prepare_data(df, random_state):
    X = df.drop(columns=['label'])
    y = df['label']

    # Divisão inicial em treino/teste
    X_train_full, X_test, y_train_full, y_test = train_test_split(
        X, y, test_size=0.3, random_state=random_state, stratify=y)

    # Divisão treino/validação a partir do conjunto de treino completo
    X_train, X_val, y_train, y_val = train_test_split(
        X_train_full, y_train_full, test_size=0.2, random_state=random_state, stratify=y_train_full)

    # Balanceamento
    smote = SMOTE(random_state=random_state)
    X_train_resampled, y_train_resampled = smote.fit_resample(X_train, y_train)
    print("Distribuição das classes após SMOTE:\n")
    print(y_train_resampled.value_counts())

    return X_train_resampled, X_val, X_test, y_train_resampled, y_val, y_test


def plot_learning_curve(models, X_train_split, y_train_split):
    for name, pipeline in models.items():
        train_sizes, train_scores, val_scores = learning_curve(
            pipeline, X_train_split, y_train_split,
            train_sizes=np.linspace(0.1, 1.0, 5),
            scoring='accuracy',
            cv=StratifiedKFold(n_splits=5), #None,
            n_jobs=-1
        )

        train_mean = np.mean(train_scores, axis=1)
        val_mean = np.mean(val_scores, axis=1)
        train_std = np.std(train_scores, axis=1)
        val_std = np.std(val_scores, axis=1)

        plt.figure(figsize=(10, 6))
        plt.plot(train_sizes, train_mean, label='Acurácia de Treinamento', color='blue')
        plt.plot(train_sizes, val_mean, label='Acurácia de Validação', color='green')
        plt.fill_between(train_sizes, train_mean - train_std, train_mean + train_std, color='blue', alpha=0.1)
        plt.fill_between(train_sizes, val_mean - val_std, val_mean + val_std, color='green', alpha=0.1)

        plt.title(f"Curva de Aprendizado: {name}")
        plt.xlabel('Tamanho do Conjunto de Treinamento')
        plt.ylabel('Acurácia')
        plt.legend(loc='best')
        plt.grid()
        plt.show()


def cross_validate_models(models, X_train_resampled, y_train_resampled, n_splits, random_state):
    final_results = {}
    skf = StratifiedKFold(n_splits=n_splits, shuffle=True, random_state=random_state)

    for name, pipeline in models.items():
        fold_metrics = {
            "accuracy": [],
            "precision": [],
            "recall": [],
            "f1_score": [],
            "confusion_matrices": [],
            "roc_curves": []
        }

        for fold, (train_index, val_index) in enumerate(skf.split(X_train_resampled, y_train_resampled), start=1):
            print(f"Processando {name}  - fold {fold} de {n_splits}")
            X_train_fold = X_train_resampled.iloc[train_index]
            y_train_fold = y_train_resampled.iloc[train_index]
            X_val_fold = X_train_resampled.iloc[val_index]
            y_val_fold = y_train_resampled.iloc[val_index]

            pipeline.fit(X_train_fold, y_train_fold)
            y_pred = pipeline.predict(X_val_fold)


            fold_metrics["accuracy"].append(accuracy_score(y_val_fold, y_pred))
            fold_metrics["precision"].append(precision_score(y_val_fold, y_pred, average='weighted', zero_division=0))
            fold_metrics["recall"].append(recall_score(y_val_fold, y_pred, average='weighted', zero_division=0))
            fold_metrics["f1_score"].append(f1_score(y_val_fold, y_pred, average='weighted', zero_division=0))

        final_results[name] = {
            "accuracy": np.mean(fold_metrics["accuracy"]),
            "precision": np.mean(fold_metrics["precision"]),
            "recall": np.mean(fold_metrics["recall"]),
            "f1_score": np.mean(fold_metrics["f1_score"]),
        }

    return final_results


A seguir, definirei as variáveis para o SelectKBest, validação cruzada, random state, as variáveis resultantes do holdout e a divisão para a curva de aprendizado.

## Definição de variáveis

In [None]:
# Definição de variáveis
random_state = 12
n_splits = 10
k_values = [5, 10, 15, 20]

# Divisão dos dados
X_train_resampled, X_val, X_test, y_train_resampled, y_val, y_test = prepare_data(df, random_state)

# Divisão para curva de aprendizado
X_train_split, X_val_split, y_train_split, y_val_split = train_test_split(
    X_train_resampled, y_train_resampled, test_size=0.2, random_state=random_state, stratify=y_train_resampled)


## Tratamento de Outliers

Foram feitos tratamentos nos outliers como teste, principalmente para verificar overfitting, porém todas as técnicas pioraram os resultados obtidos nas curvas de aprendizado.

In [None]:
# Testes - Tratamento de outliers

# def iqr_transform(X):
#     Q1 = np.percentile(X, 25, axis=0)
#     Q3 = np.percentile(X, 75, axis=0)
#     IQR = Q3 - Q1
#     lower_bound = Q1 - 1.5 * IQR
#     upper_bound = Q3 + 1.5 * IQR
#     return np.clip(X, lower_bound, upper_bound)
#boolean_columns = [col for col in df.columns if col not in continuous_columns]
# def winsorize_data(X, limits=[0.05, 0.05]):
#     return pd.DataFrame(winsorize(X, limits=limits, axis=0), columns=X.columns)
# log_transformer = FunctionTransformer(np.log1p)
# preprocessor = ColumnTransformer(
#     transformers=[
#         # ('winsorize', FunctionTransformer(lambda X: winsorize_data(X, limits=[0.05, 0.05])), continuous_columns),
#         ('log_transform', log_transformer, continuous_columns)
#     ]
# )


## Pipeline

A seguir, foi criado o pipeline dos modelos, padronização com o StandardScaler para igualar as escalas, o SelectKBest para selecionar as 15 melhores features e a instanciação dos modelos.

Os hiperparâmetros dos modelos foram otimizados para evitar overfitting principalmente por meio de regularização e controle da complexidade do modelo. A regularização (como no caso de penalização L2 na regressão logística e o parâmetro C no SVM) ajuda a prevenir que o modelo se ajuste excessivamente aos dados de treinamento. A limitação da profundidade das árvores, como no Random Forest e XGBoost, e o ajuste de parâmetros como o número de vizinhos no KNN também contribuem para reduzir a complexidade e evitar que o modelo se ajuste de maneira excessiva a variações nos dados de treinamento. Além disso, a seleção de características relevantes com SelectKBest ajuda a melhorar a generalização dos modelos ao reduzir a dimensionalidade dos dados.

Foram escolhidos os modeloos clássicos para problemas de classificação, porém poderiam ser usadas técnicas mais avançadas como ensembles e redes neurais.

In [None]:
# Modelos e pipelines
models = {
    "Logistic Regression": Pipeline([
        #('preprocessor', preprocessor),
        ('scaler', StandardScaler()),
        ('feature_selection', SelectKBest(score_func=f_classif, k=10)),
        ('model', LogisticRegression(max_iter=200, penalty='l2', C=1.0, random_state=random_state))
    ]),
    "K-Nearest Neighbors": Pipeline([
        #('preprocessor', preprocessor),
        ('scaler', StandardScaler()),
        ('feature_selection', SelectKBest(score_func=f_classif, k=10)),
        ('model', KNeighborsClassifier(n_neighbors=10, weights='uniform'))
    ]),
    "Support Vector Machine": Pipeline([
        #('preprocessor', preprocessor),
        ('scaler', StandardScaler()),
        ('feature_selection', SelectKBest(score_func=f_classif, k=10)),
        ('model', SVC(kernel='linear', C=0.5, random_state=random_state)) # c... reduzir penalização por erros... tentando evitar overfitting
    ]),
    "Random Forest": Pipeline([
        #('preprocessor', preprocessor),
        ('scaler', StandardScaler()),
        ('feature_selection', SelectKBest(score_func=f_classif, k=10)),
        ('model', RandomForestClassifier(max_depth=10, min_samples_split=5, min_samples_leaf=4, random_state=random_state))
    ]),
    "XGBoost": Pipeline([
        #('preprocessor', preprocessor),
        ('scaler', StandardScaler()),
        ('feature_selection', SelectKBest(score_func=f_classif, k=10)),
        ('model', XGBClassifier(eval_metric='logloss', max_depth=5, learning_rate=0.1, random_state=random_state))
    ])
}


## Curvas de Aprendizado

Como estava tendo resultados muito altos, implementei as curvas de aprendizado para verificar se não estava ocorrendo overfitting.

In [None]:
# Plotagem da curva de aprendizado
plot_learning_curve(models, X_train_split, y_train_split)

## Validação cruzada

In [None]:
# Validação cruzada
results = cross_validate_models(models, X_train_resampled, y_train_resampled, n_splits, random_state)

# Resultados Validação Cruzada
for model, metrics in results.items():
    print(f"\nModelo: {model}")
    print(f"  Acurácia: {metrics['accuracy']:.4f}")
    print(f"  Precisão: {metrics['precision']:.4f}")
    print(f"  Recall: {metrics['recall']:.4f}")
    print(f"  F1-score: {metrics['f1_score']:.4f}\n")



Todos os modelos apresentaram resultados extremamente altos. Realizei a validação cruzada e plotei as curvas de aprendizado e não identifiquei o overfitting. Pode ter ocorrido também vazamento de dados, ou algum problema relacionado aos outliers que não consegui identificar.

## Modelo Final

In [None]:
# Avaliação do modelo final no conjunto de teste
final_model = models["XGBoost"]
final_model.fit(X_train_resampled, y_train_resampled)
y_test_pred = final_model.predict(X_test)
y_test_prob = final_model.predict_proba(X_test)[:, 1]  # curva ROC

print("\nAvaliação final no conjunto de teste:")
print(f"  Acurácia: {accuracy_score(y_test, y_test_pred):.4f}")
print(f"  Precisão: {precision_score(y_test, y_test_pred, average='weighted', zero_division=0):.4f}")
print(f"  Recall: {recall_score(y_test, y_test_pred, average='weighted', zero_division=0):.4f}")
print(f"  F1-score: {f1_score(y_test, y_test_pred, average='weighted', zero_division=0):.4f}")

labels = [0, 1]

# Matriz de Confusão
cm_test = confusion_matrix(y_test, y_test_pred)
sns.heatmap(cm_test, annot=True, fmt="d", cmap="Blues", xticklabels=labels, yticklabels=labels)
plt.title('\nMatriz de Confusão no Conjunto de Teste')
plt.show()

# Curva ROC
fpr, tpr, _ = roc_curve(y_test, y_test_prob)
roc_auc = auc(fpr, tpr)

print('')
plt.plot(fpr, tpr, label=f'AUC = {roc_auc:.2f}')
plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('Falsos Positivos')
plt.ylabel('Verdadeiros Positivos')
plt.title('Curva ROC')
plt.legend(loc='lower right')
plt.show()




## Considerações Finais

Foi escolhido o modelo XGBoost por ter apresentado boas métricas e uma boa curva de aprendizado sem overfitting, já que a diferença entre as métricas de treino e validação não foi muito grande, o que indica boa generalização.