
# üìò Feature_Importance_SHAP.ipynb
# Etapa 1: Imports

In [None]:
import pandas as pd
import numpy as np
import xgboost as xgb
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from pathlib import Path
import warnings
import sys
warnings.filterwarnings('ignore')

# Importa configura√ß√µes do projeto

In [None]:
try:
    from src.config import BASE_DIR, DATA_PATH, FIGURES_PATH, MODELS_PATH
    print(f"‚úÖ Configura√ß√µes importadas do config.py")
    print(f"üìÅ Base do projeto: {BASE_DIR}")
except (ModuleNotFoundError, ImportError) as e:
    print(f"‚ö†Ô∏è  Erro ao importar config.py: {e}")
    # Fallback: define caminhos manualmente
    BASE_DIR = Path.cwd()
    if BASE_DIR.name == 'notebooks':
        BASE_DIR = BASE_DIR.parent
    DATA_PATH = BASE_DIR / "data" / "BankChurners.csv"
    FIGURES_PATH = BASE_DIR / "reports" / "figures"
    MODELS_PATH = BASE_DIR / "models"
    FIGURES_PATH.mkdir(parents=True, exist_ok=True)
    print(f"üìÅ BASE_DIR definido como: {BASE_DIR}")

# Etapa 2: Fun√ß√£o de feature engineering (inline)

In [None]:
#Etapa 2: Fun√ß√£o de feature engineering (inline)
def criar_variaveis_derivadas(df):
    """
    Cria vari√°veis derivadas para melhorar o poder preditivo do modelo
    """
    df = df.copy()
    
    # LTV Proxy (Lifetime Value aproximado)
    df['LTV_Proxy'] = df['Customer_Age'] * df['Total_Trans_Amt']
    
    # Raz√£o de transa√ß√µes por relacionamento
    df['Trans_Per_Month'] = df['Total_Trans_Ct'] / df['Months_on_book']
    
    # Ticket m√©dio
    df['Avg_Transaction_Value'] = df['Total_Trans_Amt'] / (df['Total_Trans_Ct'] + 1)
    
    # Utiliza√ß√£o ajustada por limite
    df['Utilization_Efficiency'] = df['Avg_Utilization_Ratio'] * df['Credit_Limit']
    
    # Idade do cart√£o vs idade do cliente
    df['Card_Age_Ratio'] = df['Months_on_book'] / (df['Customer_Age'] + 1)
    
    return df


# Etapa 3: Leitura e prepara√ß√£o dos dados

In [None]:
print("\n" + "=" * 60)
print("PREPARA√á√ÉO DOS DADOS")
print("=" * 60)

# Define caminhos usando as vari√°veis do config.py

In [None]:
base_tratada_path = BASE_DIR / "data" / "base_tratada.csv"
bank_churners_path = DATA_PATH  # J√° definido no config.py

# Verifica qual arquivo usar

In [None]:
use_raw = False
if base_tratada_path.exists():
    file_path = base_tratada_path
    print(f"‚úÖ Usando base tratada: {file_path.name}")
elif bank_churners_path.exists():
    file_path = bank_churners_path
    use_raw = True
    print(f"‚úÖ Usando base raw: {file_path.name}")
else:
    # Debug: mostra o que existe no diret√≥rio data/
    data_dir = BASE_DIR / "data"
    if data_dir.exists():
        print(f"\nüìÇ Conte√∫do de {data_dir}:")
        for item in data_dir.iterdir():
            print(f"   - {item.name}")
    else:
        print(f"\n‚ùå Diret√≥rio n√£o encontrado: {data_dir}")
    
    raise FileNotFoundError(
        f"\n‚ùå Nenhum arquivo de dados encontrado!\n"
        f"   Procurado em:\n"
        f"   - {base_tratada_path}\n"
        f"   - {bank_churners_path}\n"
        f"\nüí° Certifique-se de que um desses arquivos existe no diret√≥rio data/"
    )

print(f"üìÇ Lendo arquivo: {file_path.resolve()}")
df = pd.read_csv(file_path)
print(f"‚úÖ Arquivo carregado! Shape inicial: {df.shape}")

# Se for o arquivo raw, aplica feature engineering e prepara target

In [None]:
if use_raw:
    print("\nüîß Aplicando feature engineering...")
    df = criar_variaveis_derivadas(df)
    
    # Remove colunas desnecess√°rias (√∫ltimas 2 s√£o do Naive Bayes)
    df = df.iloc[:, :-2]
    
    # Cria vari√°vel target
    if 'Attrition_Flag' in df.columns:
        df['Attrition'] = (df['Attrition_Flag'] == 'Attrited Customer').astype(int)
        df = df.drop('Attrition_Flag', axis=1)
    
    print(f"‚úÖ Feature engineering conclu√≠do! Nova shape: {df.shape}")

# Etapa 4: Sele√ß√£o de vari√°veis

In [None]:
print("\n" + "=" * 60)
print("PREPARA√á√ÉO DO MODELO")
print("=" * 60)


In [None]:
features = [
    'Customer_Age', 'Dependent_count', 'Credit_Limit', 
    'Total_Trans_Amt', 'Total_Trans_Ct',
    'Avg_Utilization_Ratio', 'Total_Ct_Chng_Q4_Q1', 'Total_Amt_Chng_Q4_Q1',
    'LTV_Proxy', 'Trans_Per_Month', 'Avg_Transaction_Value'
]

# Filtra apenas features que existem no dataframe

In [None]:
available_features = [f for f in features if f in df.columns]
print(f"üìä Features dispon√≠veis: {len(available_features)}/{len(features)}")
print(f"   {', '.join(available_features)}")

X = df[available_features]
y = df['Attrition']

print(f"\nüìà Distribui√ß√£o do target:")
print(f"   N√£o-Churn: {(y==0).sum()} ({(y==0).sum()/len(y)*100:.1f}%)")
print(f"   Churn: {(y==1).sum()} ({(y==1).sum()/len(y)*100:.1f}%)")


# Split estratificado

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, stratify=y, test_size=0.3, random_state=42
)
print(f"\n‚úÖ Split realizado:")
print(f"   Treino: {X_train.shape[0]} amostras")
print(f"   Teste: {X_test.shape[0]} amostras")


# Etapa 5: Treinamento do modelo XGBoost

In [None]:
print("\n" + "=" * 60)
print("TREINAMENTO DO MODELO")
print("=" * 60)

# Configura√ß√£o expl√≠cita para compatibilidade com SHAP
model = xgb.XGBClassifier(
    use_label_encoder=False, 
    eval_metric="logloss", 
    random_state=42,
    max_depth=6,
    learning_rate=0.1,
    n_estimators=100,
    base_score=0.5  # Define explicitamente como float para compatibilidade com SHAP
)

model.fit(X_train, y_train)
print("‚úÖ Modelo XGBoost treinado com sucesso!")

# Avalia√ß√£o b√°sica

In [None]:
from sklearn.metrics import accuracy_score, roc_auc_score
y_pred = model.predict(X_test)
y_pred_proba = model.predict_proba(X_test)[:, 1]

accuracy = accuracy_score(y_test, y_pred)
auc = roc_auc_score(y_test, y_pred_proba)

print(f"\nüìä Performance do modelo:")
print(f"   Accuracy: {accuracy:.4f}")
print(f"   AUC-ROC: {auc:.4f}")

In [None]:
try:
    import shap
    print("‚úÖ Biblioteca SHAP carregada com sucesso!")
    
    print("üîç Calculando valores SHAP...")
    
    # Limpa dados de teste
    X_test_clean = X_test.apply(pd.to_numeric, errors='coerce').fillna(0)
    
    # Tenta usar TreeExplainer com tratamento de erro
    try:
        # Usa TreeExplainer espec√≠fico para XGBoost
        explainer = shap.TreeExplainer(model)
        shap_values = explainer.shap_values(X_test_clean)
        
        # Para classifica√ß√£o bin√°ria, pega apenas os valores da classe positiva
        if isinstance(shap_values, list):
            shap_values_display = shap_values[1]  # Classe 1 (Churn)
        else:
            shap_values_display = shap_values
            
    except (ValueError, AttributeError) as e:
        print(f"‚ö†Ô∏è  TreeExplainer falhou: {str(e)[:100]}")
        print("   Tentando m√©todo alternativo com predict...")
        
        # M√©todo alternativo: usa modelo como fun√ß√£o de predi√ß√£o
        explainer = shap.Explainer(model.predict_proba, X_train)
        shap_values_obj = explainer(X_test_clean)
        shap_values_display = shap_values_obj.values[:, 1]  # Classe positiva
    
    print("‚úÖ Valores SHAP calculados!")
    
    # Usa FIGURES_PATH do config.py
    print(f"\nüìä Salvando gr√°ficos em: {FIGURES_PATH}")
    
    # Visualiza√ß√£o 1: Summary Plot
    print("\nüìä Gerando Summary Plot...")
    plt.figure(figsize=(10, 8))
    shap.summary_plot(shap_values_display, X_test_clean, show=False)
    plt.tight_layout()
    plt.savefig(FIGURES_PATH / "shap_summary_plot.png", dpi=300, bbox_inches='tight')
    plt.show()
    print(f"   ‚úÖ Salvo em: {FIGURES_PATH / 'shap_summary_plot.png'}")
    
    # Visualiza√ß√£o 2: Bar Plot
    print("\nüìä Gerando Bar Plot...")
    plt.figure(figsize=(10, 6))
    shap.summary_plot(shap_values_display, X_test_clean, plot_type="bar", show=False)
    plt.tight_layout()
    plt.savefig(FIGURES_PATH / "shap_bar_plot.png", dpi=300, bbox_inches='tight')
    plt.show()
    print(f"   ‚úÖ Salvo em: {FIGURES_PATH / 'shap_bar_plot.png'}")
    
    # Visualiza√ß√£o 3: Dependence Plot para feature mais importante
    most_important_feature = X_test_clean.columns[
        np.abs(shap_values_display).mean(0).argmax()
    ]
    print(f"\nüìä Gerando Dependence Plot para '{most_important_feature}'...")
    plt.figure(figsize=(10, 6))
    shap.dependence_plot(
        most_important_feature, 
        shap_values_display, 
        X_test_clean, 
        show=False
    )
    plt.tight_layout()
    plt.savefig(
        FIGURES_PATH / f"shap_dependence_{most_important_feature}.png", 
        dpi=300, 
        bbox_inches='tight'
    )
    plt.show()
    print(f"   ‚úÖ Salvo em: {FIGURES_PATH / f'shap_dependence_{most_important_feature}.png'}")
    
    # Feature importance summary
    print("\n" + "=" * 60)
    print("TOP 5 FEATURES MAIS IMPORTANTES")
    print("=" * 60)
    
    feature_importance = pd.DataFrame({
        'feature': X_test_clean.columns,
        'importance': np.abs(shap_values_display).mean(0)
    }).sort_values('importance', ascending=False)
    
    for idx, row in feature_importance.head(5).iterrows():
        print(f"{row['feature']:30s} | {row['importance']:.4f}")
    
except ModuleNotFoundError:
    print("\n‚ùå A biblioteca SHAP n√£o est√° instalada!")
    print("   Execute: pip install shap")
    print("\nüí° Continuando com feature importance do XGBoost...")
    
    # Feature importance alternativa usando XGBoost nativo
    importance_df = pd.DataFrame({
        'feature': available_features,
        'importance': model.feature_importances_
    }).sort_values('importance', ascending=False)
    
    plt.figure(figsize=(10, 6))
    plt.barh(importance_df['feature'], importance_df['importance'])
    plt.xlabel('Importance')
    plt.title('Feature Importance (XGBoost)')
    plt.tight_layout()
    plt.savefig(FIGURES_PATH / "xgb_feature_importance.png", dpi=300, bbox_inches='tight')
    plt.show()
    
    print("\nüìä Feature Importance (XGBoost):")
    print(importance_df.to_string(index=False))

# Conclus√£o
print("\n" + "=" * 60)
print("INSIGHTS E RECOMENDA√á√ïES")
print("=" * 60)
print("""
‚úÖ An√°lise conclu√≠da com sucesso!

üìå PRINCIPAIS INSIGHTS:
‚Ä¢ As vari√°veis relacionadas a transa√ß√µes (Total_Trans_Ct, Total_Trans_Amt) 
  t√™m alto poder preditivo para churn
‚Ä¢ Mudan√ßas no comportamento transacional (Q4 vs Q1) s√£o indicadores importantes
‚Ä¢ Vari√°veis derivadas (LTV_Proxy, Trans_Per_Month) agregam valor ao modelo

üí° RECOMENDA√á√ïES PARA RETEN√á√ÉO:
1. Monitorar clientes com queda abrupta no n√∫mero de transa√ß√µes
2. Criar campanhas direcionadas para clientes com baixa atividade transacional
3. Priorizar clientes com alto LTV_Proxy em programas de fidelidade
4. Investigar mudan√ßas sazonais no comportamento (Q4 vs Q1)
""")