<p>
  <b style="font-size: 35px; color: yellow;">Algoritmo de Classifica√ß√£o para Manuten√ß√£o Preditiva de Falhas </b> <br>
  <b style="font-size: 30px;">Autor:</b> <span style="font-size: 30px;">Paulo Roberto Garcia Junior</span> <br>
  <span style="font-size: 25px;">Engenheiro de Automa√ß√£o e Controle</span> <br>
</p>

<p style="font-family: 'Times New Roman', Times, serif; font-size: 40px;">
  <b>üè∑Ô∏èInstala√ß√µes e Bibliotecas Necess√°rias</b> 
</p>

In [None]:
#Instala√ß√µes
!pip install xgboost lightgbm
!pip install imbalanced-learn

# Bibliotecas e M√≥dulos Usados
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from xgboost import XGBClassifier
from sklearn.metrics import (
    accuracy_score,
    roc_auc_score,
    roc_curve,
    classification_report,
    confusion_matrix
)
from imblearn.over_sampling import SMOTE
from imblearn.pipeline import Pipeline


<p style="font-family: 'Times New Roman', Times, serif; font-size: 40px;">
  <b>üè∑Ô∏è Pr√©-Processamento Inicial e Codifica√ß√£o de Vari√°veis</b> 
</p>

In [None]:
# Define o nome do arquivo de entrada (dados brutos)
arquivo_entrada = 'predictive_maintenance.csv' 
# Define o nome do arquivo de sa√≠da (dados limpos e transformados)
arquivo_saida = 'predictive_maintenance_final.csv'

try:
    # CARREGAMENTO E SELE√á√ÉO DE DADOS
    # Carrega o arquivo CSV usando ponto e v√≠rgula (;) como separador.
    df = pd.read_csv(arquivo_entrada, sep=';')
    # Seleciona todas as colunas a partir da terceira (√≠ndice 2),
    # removendo colunas de ID ou timestamp irrelevantes.
    df_modificado = df.iloc[:, 2:]

    print("--- DataFrame ANTES das transforma√ß√µes ---")
    print(df_modificado.head())

    # Dicion√°rio para mapear a coluna categ√≥rica 'Type' (L, M, H) para valores ordinais (1, 2, 3).
    mapeamento_ordinal = {'L': 1, 'M': 2, 'H': 3}
    # Aplica o mapeamento √† coluna 'Type'.
    df_modificado['Type'] = df_modificado['Type'].map(mapeamento_ordinal)
    # Renomeia a coluna para indicar que a codifica√ß√£o foi aplicada, melhorando a clareza.
    df_modificado.rename(columns={'Type': 'Type_Encoded'}, inplace=True)

    # LIMPEZA DE DADOS: CORRE√á√ÉO DE SEPARADOR DECIMAL
    print("\n--- Corrigindo separadores decimais (',' -> '.') ---")
    colunas_para_ignorar = ['Type_Encoded', 'Target', 'Failure Type']

    for coluna in df_modificado.columns:
        if coluna not in colunas_para_ignorar:
            # Converte a coluna para string, substitui ',' por '.', e reconverte para float (n√∫mero decimal).
            df_modificado[coluna] = df_modificado[coluna].astype(str).str.replace(',', '.').astype(float)
    
    print("Corre√ß√£o conclu√≠da.")
    # Salva o DataFrame limpo em um novo arquivo CSV.
    df_modificado.to_csv(arquivo_saida, index=False, sep=';')

    print("\n--- DataFrame DEPOIS de TODAS as transforma√ß√µes ---")
    print(df_modificado.head())
    print("\nVerificando os tipos de dados finais:")
    print(df_modificado.info()) 

    print(f"\n‚úÖ Processo conclu√≠do! Arquivo salvo como '{arquivo_saida}'")
    print("A coluna 'Type' foi codificada e os separadores decimais foram corrigidos para '.'.")

#TRATAMENTO DE ERROS
except FileNotFoundError:
    print(f"Erro: O arquivo '{arquivo_entrada}' n√£o foi encontrado. Verifique o nome e o local do arquivo.")
except KeyError as e:
    print(f"Erro: A coluna '{e}' n√£o foi encontrada no dataframe. Verifique se o nome da coluna est√° correto.")
except Exception as e:
    print(f"Ocorreu um erro inesperado: {e}")

<p style="font-family: 'Times New Roman', Times, serif; font-size: 40px;">
  <b>üè∑Ô∏è Separa√ß√£o de Features e Target e Divis√£o em Conjuntos de Treino e Teste</b> 
</p>

In [None]:
# Define o nome do arquivo de entrada, que √© o resultado do pr√©-processamento anterior.
arquivo_entrada = 'predictive_maintenance_final.csv'

try:
    # CARREGAMENTO E SEPARA√á√ÉO DE FEATURES E TARGET
    df = pd.read_csv(arquivo_entrada, sep=';')
    coluna_alvo = 'Target'

    # A coluna 'Failure Type' √© removida pois ela detalha o tipo da falha, mas o modelo deve prever 'Target' (se h√° falha ou n√£o).
    X = df.drop(columns=[coluna_alvo, 'Failure Type'])
    # Separa o Target (y): Cont√©m apenas a coluna alvo 'Target'.
    y = df[coluna_alvo]

    print("--- 1. Dados carregados e separados em X e y ---")
    print("Features (pistas) que ser√£o usadas pelo modelo:")
    print(X.columns.tolist())

    # DIVIS√ÉO EM TREINO E TESTE (80/20)
    # X_train, y_train: Para treinar o modelo (80% dos dados).
    # X_test, y_test: Para testar e avaliar o desempenho (20% dos dados).
    # test_size=0.2: Define 20% dos dados para teste.
    # random_state=42: Garante que a divis√£o seja a mesma sempre que o c√≥digo for executado (reprodutibilidade).
    # stratify=y: √â CRUCIAL para dados desbalanceados. Garante que a propor√ß√£o da classe alvo (y) seja mantida 
    #              tanto no conjunto de treino quanto no de teste. 
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

    print("\n--- 2. Dados divididos em Treino e Teste ---")
    print(f"Tamanho do conjunto de Treino: {len(X_train)} linhas")
    print(f"Tamanho do conjunto de Teste:  {len(X_test)} linhas")
    print("\nA propor√ß√£o de falhas foi mantida em ambos os conjuntos.")

# TRATAMENTO DE ERROS
except FileNotFoundError:
    print(f"ERRO: O arquivo '{arquivo_entrada}' n√£o foi encontrado.")
except KeyError as e:
    print(f"ERRO: Uma coluna esperada ({e}) n√£o foi encontrada no arquivo. Verifique o script de prepara√ß√£o.")
except Exception as e:
    print(f"Ocorreu um erro inesperado: {e}")

<p style="font-family: 'Times New Roman', Times, serif; font-size: 40px;">
  <b>üè∑Ô∏è Escalonamento de Dados, Treinamento e Avalia√ß√£o do Modelo Base (Random Forest)</b> 
</p>

In [None]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("--- 3. Dados de treino e teste escalonados com sucesso! ---")

modelo_base = RandomForestClassifier(n_estimators=100, random_state=42)

print("\n--- 4. Treinando o Modelo Base... ---")

modelo_base.fit(X_train_scaled, y_train)
print("Modelo Base treinado com sucesso!")

print("\n--- 5. Avaliando o desempenho do Modelo Base nos dados de Teste ---")

y_pred_base = modelo_base.predict(X_test_scaled)
# PASSO 1: Calcular as probabilidades para o c√°lculo da AUC
y_proba_base = modelo_base.predict_proba(X_test_scaled)[:, 1]

# PASSO 2: Calcular a AUC
auc_base = roc_auc_score(y_test, y_proba_base)

print(f"\nAcur√°cia: {accuracy_score(y_test, y_pred_base):.4f}")
# PASSO 3: Imprimir o valor da AUC
print(f"AUC (Area Under the Curve): {auc_base:.4f}")
print("\nRelat√≥rio de Classifica√ß√£o:")
print(classification_report(y_test, y_pred_base, target_names=['Sem Falha (0)', 'Falha (1)']))
print("Matriz de Confus√£o:")
cm = confusion_matrix(y_test, y_pred_base)
print(cm)

#plot da Matriz de Confus√£o
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
             xticklabels=['Previsto: Sem Falha', 'Previsto: Falha'], 
             yticklabels=['Real: Sem Falha', 'Real: Falha'])
plt.title('Matriz de Confus√£o - Modelo Base')
plt.ylabel('Valor Real')
plt.xlabel('Valor Previsto')
plt.show()

<p style="font-family: 'Times New Roman', Times, serif; font-size: 40px;">
  <b>üè∑Ô∏è Treinamento e Avalia√ß√£o do Modelo Random Forest com class_weight</b> 
</p>

In [None]:
print("--- 6. Treinando o Modelo Balanceado... ---")

# O par√¢metro class_weight='balanced' ajusta o peso das classes
modelo_balanceado = RandomForestClassifier(n_estimators=100, random_state=42, class_weight='balanced')

modelo_balanceado.fit(X_train_scaled, y_train)

print("Modelo Balanceado treinado com sucesso!")

print("\n--- 7. Avaliando o desempenho do Modelo Balanceado ---")
y_pred_balanceado = modelo_balanceado.predict(X_test_scaled)

# C√°lculo da AUC requer as probabilidades
y_proba_balanceado = modelo_balanceado.predict_proba(X_test_scaled)[:, 1]

# Calculando Acur√°cia e AUC
acuracia_balanceado = accuracy_score(y_test, y_pred_balanceado)
auc_balanceado = roc_auc_score(y_test, y_proba_balanceado)

# Imprimindo as m√©tricas
print(f"\nAcur√°cia (Modelo Balanceado): {acuracia_balanceado:.4f}")
print(f"AUC (Area Under the Curve, Modelo Balanceado): {auc_balanceado:.4f}")

print("\nRelat√≥rio de Classifica√ß√£o (Modelo Balanceado):")
print(classification_report(y_test, y_pred_balanceado, target_names=['Sem Falha (0)', 'Falha (1)']))

print("Matriz de Confus√£o (Modelo Balanceado):")
cm_balanceado = confusion_matrix(y_test, y_pred_balanceado)
print(cm_balanceado)

plt.figure(figsize=(8, 6))
sns.heatmap(cm_balanceado, annot=True, fmt='d', cmap='Greens',
             xticklabels=['Previsto: Sem Falha', 'Previsto: Falha'], 
             yticklabels=['Real: Sem Falha', 'Real: Falha'])
plt.title('Matriz de Confus√£o - Modelo Balanceado')
plt.ylabel('Valor Real')
plt.xlabel('Valor Previsto')
plt.show()

<p style="font-family: 'Times New Roman', Times, serif; font-size: 40px;">
  <b>üè∑Ô∏è Implementa√ß√£o e Avalia√ß√£o do Pipeline com SMOTE e Random Forest</b> 
</p>

In [None]:
print("--- 8. Criando um pipeline com SMOTE e RandomForest ---")

over_sampler = SMOTE(random_state=42)
modelo_final = RandomForestClassifier(n_estimators=100, random_state=42)

pipeline_smote = Pipeline([
    ('oversampling', over_sampler),
    ('model', modelo_final)
])

print("Treinando o Modelo Final com SMOTE...")
pipeline_smote.fit(X_train_scaled, y_train)
print("Modelo Final treinado com sucesso!")

print("\n--- 9. Avaliando o desempenho do Modelo Final ---")
y_pred_smote = pipeline_smote.predict(X_test_scaled)

# C√°lculo da AUC requer as probabilidades, obtidas atrav√©s do pipeline
y_proba_smote = pipeline_smote.predict_proba(X_test_scaled)[:, 1]

# Calculando Acur√°cia e AUC
acuracia_smote = accuracy_score(y_test, y_pred_smote)
auc_smote = roc_auc_score(y_test, y_proba_smote)

# Imprimindo as m√©tricas
print(f"\nAcur√°cia (Modelo com SMOTE): {acuracia_smote:.4f}")
print(f"AUC (Area Under the Curve, Modelo com SMOTE): {auc_smote:.4f}")

print("\nRelat√≥rio de Classifica√ß√£o (Modelo com SMOTE):")
print(classification_report(y_test, y_pred_smote, target_names=['Sem Falha (0)', 'Falha (1)']))

print("Matriz de Confus√£o (Modelo com SMOTE):")
cm_smote = confusion_matrix(y_test, y_pred_smote)
print(cm_smote)

plt.figure(figsize=(8, 6))
sns.heatmap(cm_smote, annot=True, fmt='d', cmap='Reds',
             xticklabels=['Previsto: Sem Falha', 'Previsto: Falha'], 
             yticklabels=['Real: Sem Falha', 'Real: Falha'])
plt.title('Matriz de Confus√£o - Modelo com SMOTE')
plt.ylabel('Valor Real')
plt.xlabel('Valor Previsto')
plt.show()

<p style="font-family: 'Times New Roman', Times, serif; font-size: 40px;">
  <b>üè∑Ô∏è Otimiza√ß√£o de Hiperpar√¢metros com Grid Search e Avalia√ß√£o do Modelo Otimizado (Random Forest)</b> 
</p>

In [None]:
print("--- 10. Ajuste de Hiperpar√¢metros com GridSearchCV ---")

# (O c√≥digo do pipeline e da configura√ß√£o do GridSearchCV permanece o mesmo)
pipeline_smote_for_tuning = Pipeline([
    ('oversampling', SMOTE(random_state=42)),
    ('model', RandomForestClassifier(random_state=42)) 
])

param_grid = {
    'model__n_estimators': [100, 200],
    'model__max_depth': [10, 20, None],
    'model__min_samples_split': [2, 5],
    'model__min_samples_leaf': [1, 2]
}

grid_search = GridSearchCV(estimator=pipeline_smote_for_tuning, 
                           param_grid=param_grid, 
                           cv=5, 
                           scoring='f1', 
                           n_jobs=-1)

print("Iniciando a busca em grade... Isso pode levar alguns minutos.")
grid_search.fit(X_train_scaled, y_train)

print("\nBusca em grade finalizada!")
print(f"Melhor pontua√ß√£o F1 (em valida√ß√£o cruzada): {grid_search.best_score_:.4f}")
print("Melhores hiperpar√¢metros encontrados:")
print(grid_search.best_params_)


# --- AVALIA√á√ÉO FINAL DO MODELO OTIMIZADO (COM M√âTRICAS COMPLETAS) ---
print("\n--- 11. Avaliando o melhor modelo encontrado no conjunto de teste ---")

best_model_rf = grid_search.best_estimator_

# Previs√µes finais (0 ou 1)
y_pred_best_rf = best_model_rf.predict(X_test_scaled)

# NOVO: Para calcular a AUC, precisamos das probabilidades da classe positiva (Falha)
y_proba_best_rf = best_model_rf.predict_proba(X_test_scaled)[:, 1]

# NOVO: Exibindo as m√©tricas adicionais
print(f"\nAcur√°cia (RandomForest Otimizado): {accuracy_score(y_test, y_pred_best_rf):.4f}")
print(f"AUC (RandomForest Otimizado): {roc_auc_score(y_test, y_proba_best_rf):.4f}")

# Relat√≥rio de Classifica√ß√£o (como antes)
print("\nRelat√≥rio de Classifica√ß√£o (RandomForest Otimizado):")
print(classification_report(y_test, y_pred_best_rf, target_names=['Sem Falha (0)', 'Falha (1)']))

# Matriz de Confus√£o (como antes)
print("Matriz de Confus√£o (RandomForest Otimizado):")
cm_best_rf = confusion_matrix(y_test, y_pred_best_rf)

# Gr√°fico da Matriz de Confus√£o (como antes)
plt.figure(figsize=(8, 6))
sns.heatmap(cm_best_rf, annot=True, fmt='d', cmap='Oranges',
            xticklabels=['Previsto: Sem Falha', 'Previsto: Falha'], 
            yticklabels=['Real: Sem Falha', 'Real: Falha'])
plt.title('Matriz de Confus√£o - RandomForest Otimizado')
plt.ylabel('Valor Real')
plt.xlabel('Valor Previsto')
plt.show()

<p style="font-family: 'Times New Roman', Times, serif; font-size: 40px;">
  <b>üè∑Ô∏è Treinamento, Avalia√ß√£o e Compara√ß√£o Gr√°fica do Modelo XGBoost (com SMOTE)</b> 
</p>

In [None]:
# Importa√ß√µes necess√°rias para todos os modelos e m√©tricas
print("--- 12. Treinando e Avaliando o XGBoost ---")

pipeline_xgb = Pipeline([
    ('oversampling', SMOTE(random_state=42)),
    ('model', XGBClassifier(random_state=42, use_label_encoder=False, eval_metric='logloss'))
])

pipeline_xgb.fit(X_train_scaled, y_train)
# Fazendo as previs√µes e obtendo as probabilidades

y_pred_xgb = pipeline_xgb.predict(X_test_scaled)
y_proba_xgb = pipeline_xgb.predict_proba(X_test_scaled)[:, 1]
# Exibindo as m√©tricas

print(f"\nAcur√°cia (XGBoost): {accuracy_score(y_test, y_pred_xgb):.4f}")
print(f"AUC (XGBoost): {roc_auc_score(y_test, y_proba_xgb):.4f}")
print("\nRelat√≥rio de Classifica√ß√£o (XGBoost com SMOTE):")
print(classification_report(y_test, y_pred_xgb, target_names=['Sem Falha (0)', 'Falha (1)']))
print("Matriz de Confus√£o (XGBoost com SMOTE):")
print(confusion_matrix(y_test, y_pred_xgb))

fpr_rf, tpr_rf, _ = roc_curve(y_test, y_proba_best_rf)
auc_rf = roc_auc_score(y_test, y_proba_best_rf)
fpr_xgb, tpr_xgb, _ = roc_curve(y_test, y_proba_xgb)
auc_xgb = roc_auc_score(y_test, y_proba_xgb)

plt.figure(figsize=(10, 8))
plt.plot(fpr_rf, tpr_rf, label=f'RandomForest Otimizado (AUC = {auc_rf:.4f})', color='orange')
plt.plot(fpr_xgb, tpr_xgb, label=f'XGBoost (AUC = {auc_xgb:.4f})', color='blue')
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--', label='Modelo Aleat√≥rio')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Taxa de Falsos Positivos')
plt.ylabel('Taxa de Verdadeiros Positivos (Recall)')
plt.title('Compara√ß√£o da Curva ROC entre Modelos Finais')
plt.legend(loc="lower right")
plt.grid(True)
plt.show()

cm_xgb = confusion_matrix(y_test, y_pred_xgb)

print("Matriz de Confus√£o (XGBoost com SMOTE):")
print(cm_xgb)

plt.figure(figsize=(8, 6))
sns.heatmap(cm_xgb, annot=True, fmt='d', cmap='Blues',
            xticklabels=['Previsto: Sem Falha (0)', 'Previsto: Falha (1)'], 
            yticklabels=['Real: Sem Falha (0)', 'Real: Falha (1)'])
plt.title('Matriz de Confus√£o - XGBoost com SMOTE')
plt.ylabel('Valor Real')
plt.xlabel('Valor Previsto')
plt.show()


<p style="font-family: 'Times New Roman', Times, serif; font-size: 40px;">
  <b>üè∑Ô∏è Treinamento e Avalia√ß√£o dos Modelos SVM (Kernel Linear e RBF) </b> 
</p>

In [None]:
# --- 15. TREINANDO E AVALIANDO O MODELO SVM (KERNEL LINEAR) ---
print("--- 15. Treinando e Avaliando o SVM com Kernel Linear ---")

# Criamos o pipeline com SMOTE e o SVC com kernel='linear'
# probability=True √© necess√°rio para calcular a AUC, mas torna o treino mais lento.
pipeline_svm_linear = Pipeline([
    ('oversampling', SMOTE(random_state=42)),
    ('model', SVC(kernel='linear', random_state=42, probability=True))
])

# Treinamos o pipeline
# ASSUMIR: X_train_scaled e y_train est√£o definidos
pipeline_svm_linear.fit(X_train_scaled, y_train)

# Avaliamos no conjunto de teste
# ASSUMIR: X_test_scaled e y_test est√£o definidos
y_pred_svm_linear = pipeline_svm_linear.predict(X_test_scaled)
y_proba_svm_linear = pipeline_svm_linear.predict_proba(X_test_scaled)[:, 1]

# M√©tricas
print(f"\nAcur√°cia (SVM Linear): {accuracy_score(y_test, y_pred_svm_linear):.4f}")
print(f"AUC (SVM Linear): {roc_auc_score(y_test, y_proba_svm_linear):.4f}")
print("\nRelat√≥rio de Classifica√ß√£o (SVM Linear):")
print(classification_report(y_test, y_pred_svm_linear, target_names=['Sem Falha (0)', 'Falha (1)']))
cm_svm_linear = confusion_matrix(y_test, y_pred_svm_linear)
print("Matriz de Confus√£o (SVM Linear):")
print(cm_svm_linear)


# --- 16. TREINANDO E AVALIANDO O MODELO SVM (KERNEL RBF) ---

print("\n\n--- 16. Treinando e Avaliando o SVM com Kernel RBF ---")
print("(Este modelo pode demorar um pouco mais para treinar...)")

# Criamos o pipeline com SMOTE e o SVC com kernel='rbf' (o padr√£o)
pipeline_svm_rbf = Pipeline([
    ('oversampling', SMOTE(random_state=42)),
    ('model', SVC(kernel='rbf', random_state=42, probability=True))
])

# Treinamos o pipeline
pipeline_svm_rbf.fit(X_train_scaled, y_train)

# Avaliamos no conjunto de teste
y_pred_svm_rbf = pipeline_svm_rbf.predict(X_test_scaled)
y_proba_svm_rbf = pipeline_svm_rbf.predict_proba(X_test_scaled)[:, 1]

# M√©tricas
print(f"\nAcur√°cia (SVM RBF): {accuracy_score(y_test, y_pred_svm_rbf):.4f}")
print(f"AUC (SVM RBF): {roc_auc_score(y_test, y_proba_svm_rbf):.4f}")
print("\nRelat√≥rio de Classifica√ß√£o (SVM RBF):")
print(classification_report(y_test, y_pred_svm_rbf, target_names=['Sem Falha (0)', 'Falha (1)']))
cm_svm_rbf = confusion_matrix(y_test, y_pred_svm_rbf)
print("Matriz de Confus√£o (SVM RBF):")
print(cm_svm_rbf)


# --- 17. PLOTAGEM DAS MATRIZES DE CONFUS√ÉO (SVMs) ---

print("\n\n--- 17. Plotando as Matrizes de Confus√£o para SVM Linear e SVM RBF ---")

plt.figure(figsize=(14, 6))

# 1. Matriz de Confus√£o para SVM Linear
plt.subplot(1, 2, 1) # Cria uma grade 1 linha, 2 colunas, e seleciona a 1¬™ posi√ß√£o
sns.heatmap(cm_svm_linear, annot=True, fmt='d', cmap='Blues',
            xticklabels=['Previsto: Sem Falha (0)', 'Previsto: Falha (1)'], 
            yticklabels=['Real: Sem Falha (0)', 'Real: Falha (1)'])
plt.title('Matriz de Confus√£o: SVM Linear')
plt.ylabel('Valor Real')
plt.xlabel('Valor Previsto')

# 2. Matriz de Confus√£o para SVM RBF
plt.subplot(1, 2, 2) # Seleciona a 2¬™ posi√ß√£o
sns.heatmap(cm_svm_rbf, annot=True, fmt='d', cmap='Reds',
            xticklabels=['Previsto: Sem Falha (0)', 'Previsto: Falha (1)'], 
            yticklabels=['Real: Sem Falha (0)', 'Real: Falha (1)'])
plt.title('Matriz de Confus√£o: SVM RBF')
plt.ylabel('Valor Real')
plt.xlabel('Valor Previsto')

plt.tight_layout() # Ajusta automaticamente os par√¢metros do subplot
plt.show()

<p style="font-family: 'Times New Roman', Times, serif; font-size: 40px;">
  <b>üè∑Ô∏è Visualiza√ß√£o da Curva ROC para Compara√ß√£o Final de Todos os Modelos</b> 
</p>

In [None]:
# --- 17. GR√ÅFICO FINAL: COMPARANDO TODOS OS MODELOS ---
print("--- 17. Gerando Gr√°fico de Compara√ß√£o Final da Curva ROC ---")

# (Certifique-se que as probabilidades de todos os modelos est√£o carregadas na mem√≥ria)
# y_proba_best_rf, y_proba_xgb, y_proba_lgbm, y_proba_svm_linear, y_proba_svm_rbf

# Calculando os dados da curva para todos os modelos
fpr_rf, tpr_rf, _ = roc_curve(y_test, y_proba_best_rf)
auc_rf = roc_auc_score(y_test, y_proba_best_rf)

fpr_xgb, tpr_xgb, _ = roc_curve(y_test, y_proba_xgb)
auc_xgb = roc_auc_score(y_test, y_proba_xgb)

fpr_svm_linear, tpr_svm_linear, _ = roc_curve(y_test, y_proba_svm_linear)
auc_svm_linear = roc_auc_score(y_test, y_proba_svm_linear)

fpr_svm_rbf, tpr_svm_rbf, _ = roc_curve(y_test, y_proba_svm_rbf)
auc_svm_rbf = roc_auc_score(y_test, y_proba_svm_rbf)

# Configura√ß√µes de Estilo
plt.figure(figsize=(14, 10))
plt.style.use('seaborn-v0_8-darkgrid')
plt.rcParams.update({'font.size': 12})

# Plotando todas as curvas
plt.plot(fpr_rf, tpr_rf, label=f'RandomForest Otimizado (AUC = {auc_rf:.4f})', 
         color='darkorange', linewidth=2)
         
plt.plot(fpr_xgb, tpr_xgb, label=f'XGBoost (AUC = {auc_xgb:.4f})', 
         color='dodgerblue', linewidth=2)
         
         
plt.plot(fpr_svm_linear, tpr_svm_linear, label=f'SVM Linear (AUC = {auc_svm_linear:.4f})', 
         color='cyan', linewidth=2, linestyle=':')

plt.plot(fpr_svm_rbf, tpr_svm_rbf, label=f'SVM RBF (AUC = {auc_svm_rbf:.4f})', 
         color='red', linewidth=2, linestyle='--') # Destaque para o campe√£o de Recall

plt.plot([0, 1], [0, 1], color='gray', lw=2, linestyle=':', label='Modelo Aleat√≥rio (AUC = 0.50)')

# Finalizando o gr√°fico
plt.xlim([-0.02, 1.02])
plt.ylim([-0.02, 1.02])
plt.xlabel('Taxa de Falsos Positivos', fontsize=14, labelpad=10)
plt.ylabel('Taxa de Verdadeiros Positivos (Recall)', fontsize=14, labelpad=10)
plt.title('Compara√ß√£o Final da Curva ROC entre Todos os Modelos', fontsize=18, pad=20)
plt.legend(loc="lower right", fontsize=12, frameon=True, shadow=True, borderpad=1)
plt.grid(True, linestyle=':', alpha=0.7)
plt.tight_layout()
plt.show()