In [1]:
# ==============================================================================
# Notebook 3 (v2): Otimização, SHAP e Interpretação
# ==============================================================================

# ------------------------------------------------------------------------------
# 1. Configuração e Carregamento de Bibliotecas e Dados
# ------------------------------------------------------------------------------
import pandas as pd
import numpy as np
import joblib
import os
import matplotlib.pyplot as plt
import seaborn as sns
import json
import shap # <-- Importação da biblioteca SHAP

from sklearn.metrics import classification_report, roc_curve, roc_auc_score, f1_score
from imblearn.over_sampling import SMOTE
from sklearn.model_selection import RandomizedSearchCV # <-- Importação para otimização
from sklearn.ensemble import RandomForestClassifier # <-- Importação do modelo 

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# --- Definindo os caminhos conforme a estrutura de diretórios ---
ROOT_DIR = os.path.abspath(os.path.join(os.getcwd(), '..'))

PROCESSED_SPLIT_PATH = os.path.join(ROOT_DIR, 'data', 'processed', 'split')
FINAL_MODEL_PATH = os.path.join(ROOT_DIR, 'models', 'final_model_v2') # <-- Novo diretório para a v2
REPORTS_PATH = os.path.join(ROOT_DIR, 'reports', 'v2') # <-- Novo diretório para relatórios da v2
PLOTS_PATH = os.path.join(ROOT_DIR, 'reports', 'v2', 'plots') # <-- Novo diretório para gráficos da v2

In [3]:
# Criando os diretórios se não existirem
os.makedirs(FINAL_MODEL_PATH, exist_ok=True)
os.makedirs(REPORTS_PATH, exist_ok=True)
os.makedirs(PLOTS_PATH, exist_ok=True)

In [4]:
# Carregando os conjuntos de treino e teste salvos no Notebook 2
print("Carregando conjuntos de treino e teste salvos...")
try:
    X_train = pd.read_csv(os.path.join(PROCESSED_SPLIT_PATH, 'X_train.csv'))
    X_test = pd.read_csv(os.path.join(PROCESSED_SPLIT_PATH, 'X_test.csv'))
    y_train = pd.read_csv(os.path.join(PROCESSED_SPLIT_PATH, 'y_train.csv')).squeeze()
    y_test = pd.read_csv(os.path.join(PROCESSED_SPLIT_PATH, 'y_test.csv')).squeeze()
    print("✅ Dados de treino e teste carregados com sucesso.")
except FileNotFoundError:
    print(f"❌ Erro: Arquivos de split não encontrados. Certifique-se de ter executado o Notebook 2.")
    X_train, X_test, y_train, y_test = None, None, None, None

Carregando conjuntos de treino e teste salvos...
✅ Dados de treino e teste carregados com sucesso.


In [5]:
if X_train is not None:
    # ------------------------------------------------------------------------------
    # 2. Tratamento de Classes Desbalanceadas (SMOTE)
    # ------------------------------------------------------------------------------
    print("\nTratando o desbalanceamento de classes com SMOTE...")
    smote = SMOTE(random_state=42)
    X_train_res, y_train_res = smote.fit_resample(X_train, y_train)
    print("✅ SMOTE aplicado. Dimensão do conjunto de treino após SMOTE:")
    print(f"X_train_res: {X_train_res.shape} | y_train_res: {y_train_res.shape}")


Tratando o desbalanceamento de classes com SMOTE...
✅ SMOTE aplicado. Dimensão do conjunto de treino após SMOTE:
X_train_res: (7228, 30) | y_train_res: (7228,)


In [6]:
# ------------------------------------------------------------------------------
# 3. Otimização de Hiperparâmetros (Randomized Search)
# ------------------------------------------------------------------------------
print("\nIniciando a otimização de hiperparâmetros com Randomized Search...")
    
# Modelo base para a otimização
model_base = RandomForestClassifier(random_state=42)

# Parâmetros para Randomized Search
param_dist = {
    'n_estimators': [100, 200, 300],
    'max_depth': [10, 20, 30, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

random_search = RandomizedSearchCV(
    model_base,
    param_distributions=param_dist,
    n_iter=10, 
    cv=3, 
    scoring='f1',
    random_state=42,
    n_jobs=-1,
    verbose=1
)
    
random_search.fit(X_train_res, y_train_res)
best_model_tuned = random_search.best_estimator_

print("\n✅ Otimização concluída.")
print(f"Melhores hiperparâmetros encontrados: {random_search.best_params_}")


Iniciando a otimização de hiperparâmetros com Randomized Search...
Fitting 3 folds for each of 10 candidates, totalling 30 fits

✅ Otimização concluída.
Melhores hiperparâmetros encontrados: {'n_estimators': 300, 'min_samples_split': 2, 'min_samples_leaf': 1, 'max_depth': None}


In [7]:
# ------------------------------------------------------------------------------
# 4. Avaliação e Interpretação do Modelo Otimizado
# ------------------------------------------------------------------------------
print("\n--- Avaliação Final do Modelo Otimizado ---")
    
y_pred_proba = best_model_tuned.predict_proba(X_test)[:, 1]
    
# Otimização do limiar
fpr, tpr, thresholds = roc_curve(y_test, y_pred_proba)
f1_scores = [f1_score(y_test, y_pred_proba > t, zero_division=0) for t in thresholds]
best_threshold = thresholds[np.argmax(f1_scores)]
y_pred_optimized = (y_pred_proba >= best_threshold).astype(int)
    
# Gerando métricas de forma estruturada para JSON
report_dict = classification_report(y_test, y_pred_optimized, output_dict=True)
final_metrics = {
    'accuracy': report_dict['accuracy'],
    'precision': report_dict['macro avg']['precision'],
    'recall': report_dict['macro avg']['recall'],
    'f1-score': report_dict['macro avg']['f1-score'],
    'auc_score': roc_auc_score(y_test, y_pred_proba),
    'best_threshold': best_threshold,
    'best_params': random_search.best_params_
}
    
with open(os.path.join(REPORTS_PATH, 'final_model_metrics_v2.json'), 'w') as f:
    json.dump(final_metrics, f, indent=4)
print("✅ Métricas do modelo final v2 salvas em 'final_model_metrics_v2.json'.")


--- Avaliação Final do Modelo Otimizado ---
✅ Métricas do modelo final v2 salvas em 'final_model_metrics_v2.json'.


In [27]:
# ------------------------------------------------------------------------------
# 5. Interpretação do Modelo com SHAP (Versão Robustecida)
# ------------------------------------------------------------------------------
print("\n--- Interpretação do Modelo com SHAP ---")

try:
    # 1. Criação do Explainer com verificação
    explainer = shap.TreeExplainer(best_model_tuned)
    shap_values = explainer.shap_values(X_test)
    
    # Verificação de compatibilidade
    print("\n=== VERIFICAÇÃO DE COMPATIBILIDADE ===")
    print(f"Número de features no modelo: {best_model_tuned.n_features_in_}")
    print(f"Número de features em X_test: {X_test.shape[1]}")
    
    assert best_model_tuned.n_features_in_ == X_test.shape[1], \
        f"ERRO: Modelo foi treinado com {best_model_tuned.n_features_in_} features mas X_test tem {X_test.shape[1]}"
    print("✅ Compatibilidade de features confirmada")
    
    # 2. Processamento dos SHAP values com detecção automática
    print("\n=== PROCESSAMENTO DOS SHAP VALUES ===")
    if isinstance(shap_values, list):
        # Modelo multiclasse
        print(f"Detectado modelo multiclasse com {len(shap_values)} classes")
        shap_values_plot = shap_values[1]  # Seleciona classe 1 (ajuste conforme necessidade)
    elif len(shap_values.shape) == 3:
        # Modelo binário (formato numpy array 3D)
        print("Detectado modelo binário (formato 3D)")
        shap_values_plot = shap_values[:,:,1]  # Seleciona classe positiva
    else:
        # Modelo de regressão ou binário (formato 2D)
        print("Detectado modelo de regressão ou binário (formato 2D)")
        shap_values_plot = shap_values
    
    print(f"Shape final dos SHAP values: {shap_values_plot.shape}")
    
    # 3. Verificação final de dimensões
    if shap_values_plot.shape[1] != X_test.shape[1]:
        print("Ajustando dimensões...")
        min_features = min(shap_values_plot.shape[1], X_test.shape[1])
        shap_values_plot = shap_values_plot[:, :min_features]
        X_test_plot = X_test.iloc[:, :min_features]
    else:
        X_test_plot = X_test
    
    # 4. Geração do gráfico com tratamento de erros
    print("\nGerando gráfico SHAP...")
    shap.summary_plot(
        shap_values_plot,
        features=X_test_plot,
        feature_names=X_test_plot.columns.tolist(),
        show=False
    )
    
    plt.tight_layout()
    plot_path = os.path.join(PLOTS_PATH, 'shap_summary_plot_v2.png')
    plt.savefig(plot_path, bbox_inches='tight', dpi=300)
    plt.close()
    print(f"✅ Gráfico SHAP salvo em: {plot_path}")
    
    # 5. Salvamento dos artefatos
    explainer_path = os.path.join(FINAL_MODEL_PATH, 'shap_explainer_v2.pkl')
    joblib.dump(explainer, explainer_path)
    print(f"✅ Explainer SHAP salvo em: {explainer_path}")
    
    model_path = os.path.join(FINAL_MODEL_PATH, 'random_forest_final_v2.pkl')
    joblib.dump(best_model_tuned, model_path)
    print(f"✅ Modelo final salvo em: {model_path}")

except Exception as e:
    print(f"\n❌ ERRO NA INTERPRETAÇÃO SHAP: {str(e)}")
    print("\nDIAGNÓSTICO DO ERRO:")
    
    if 'shap_values' in locals():
        print(f"\nTipo dos SHAP values: {type(shap_values)}")
        if hasattr(shap_values, 'shape'):
            print(f"Shape dos SHAP values: {shap_values.shape}")
        elif isinstance(shap_values, list):
            print(f"Número de classes: {len(shap_values)}")
            for i, sv in enumerate(shap_values):
                print(f"Classe {i} shape: {sv.shape}")
    
    print("\nSUGESTÕES PARA CORREÇÃO:")
    print("1. Verifique se todas as colunas de X_test são numéricas")
    print("2. Confira o pré-processamento dos dados de teste")
    print("3. Experimente usar X_test.values em vez do DataFrame")
    print("4. Para modelos binários, use shap_values[:,:,0] ou shap_values[:,:,1]")
    
    raise  # Remove esta linha se não quiser interromper a execução

print("\n✅ Processo do Notebook 3 concluído com sucesso!")


--- Interpretação do Modelo com SHAP ---

=== VERIFICAÇÃO DE COMPATIBILIDADE ===
Número de features no modelo: 30
Número de features em X_test: 30
✅ Compatibilidade de features confirmada

=== PROCESSAMENTO DOS SHAP VALUES ===
Detectado modelo binário (formato 3D)
Shape final dos SHAP values: (2110, 30)

Gerando gráfico SHAP...
✅ Gráfico SHAP salvo em: c:\temp\Telecom_X_PrevendoChurn\reports\v2\plots\shap_summary_plot_v2.png
✅ Explainer SHAP salvo em: c:\temp\Telecom_X_PrevendoChurn\models\final_model_v2\shap_explainer_v2.pkl
✅ Modelo final salvo em: c:\temp\Telecom_X_PrevendoChurn\models\final_model_v2\random_forest_final_v2.pkl

✅ Processo do Notebook 3 concluído com sucesso!
