# Análise SHAP - Interpretabilidade de Modelos AML

Este notebook realiza análise de interpretabilidade usando SHAP (SHapley Additive exPlanations) para entender como os modelos de detecção de AML tomam decisões.

## Objetivos
- Analisar importância global de features
- Comparar interpretabilidade entre modelos
- Fornecer explicações locais para predições individuais
- Comparar com interpretabilidade de modelos GNN

In [None]:
# CONFIGURAÇÃO INICIAL
import sys
import os
from pathlib import Path
import pickle
import json
from datetime import datetime

# Adicionar diretório raiz ao path
project_root = Path.cwd().parent
sys.path.append(str(project_root))

# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import shap
from sklearn.metrics import roc_auc_score, average_precision_score

# Configurações
plt.style.use('default')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)

# Diretórios
artifacts_dir = project_root / 'artifacts'
artifacts_dir.mkdir(exist_ok=True)

print(f"Diretório de artefatos: {artifacts_dir}")
print(f"Python path configurado: {project_root}")

## Carregamento dos Dados e Modelos

In [None]:
# CARREGAR DADOS PROCESSADOS
print("Carregando dados processados...")

# Carregar features
features_path = artifacts_dir / 'X_processed.csv'
X = pd.read_csv(features_path)
print(f"Features carregadas: {X.shape}")

# Carregar target
target_path = artifacts_dir / 'y_processed.csv'
y = pd.read_csv(target_path).iloc[:, 0]
print(f"Target carregado: {len(y)} amostras")

# Verificar consistência
assert len(X) == len(y), "Inconsistência entre features e target"
print(f"Taxa de fraude: {y.mean():.3%}")

In [None]:
# CARREGAR MODELOS OTIMIZADOS
models = {}
model_names = ['XGBoost', 'LightGBM', 'RandomForest', 'Ensemble']

for name in model_names:
    try:
        model_path = artifacts_dir / f'{name.lower()}_extended.pkl'
        with open(model_path, 'rb') as f:
            models[name] = pickle.load(f)
        print(f"✅ {name} carregado")
    except Exception as e:
        print(f"❌ Erro ao carregar {name}: {e}")

print(f"\nModelos carregados: {list(models.keys())}")

## Preparação dos Dados para SHAP

In [None]:
# PREPARAR AMOSTRA PARA SHAP
# Usar amostra menor para performance computacional
sample_size = min(10000, len(X))
X_shap = X.sample(n=sample_size, random_state=42)
y_shap = y.loc[X_shap.index]

print(f"Amostra para SHAP: {len(X_shap):,} transações")
print(f"Taxa de fraude na amostra: {y_shap.mean():.3%}")
print(f"Features: {len(X_shap.columns)}")

## Análise SHAP - Importância Global

In [None]:
# CÁLCULO DOS SHAP VALUES
shap_results = {}

for model_name, model in models.items():
    print(f"\n🔍 Calculando SHAP values para {model_name}...")
    
    try:
        # Criar explainer apropriado
        if model_name in ['XGBoost', 'LightGBM']:
            explainer = shap.TreeExplainer(model)
        else:
            explainer = shap.TreeExplainer(model)
        
        # Calcular SHAP values
        shap_values = explainer.shap_values(X_shap)
        
        # Para modelos multiclasse, pegar apenas classe positiva
        if isinstance(shap_values, list) and len(shap_values) > 1:
            shap_values = shap_values[1]  # Classe positiva (fraud)
        
        shap_results[model_name] = {
            'shap_values': shap_values,
            'explainer': explainer,
            'feature_names': X_shap.columns.tolist()
        }
        
        print(f"   ✅ SHAP values calculados")
        
    except Exception as e:
        print(f"   ❌ Erro: {e}")
        shap_results[model_name] = {'error': str(e)}

print(f"\nModelos analisados: {len(shap_results)}")

In [None]:
# ANÁLISE DE IMPORTÂNCIA GLOBAL
feature_importance_df = pd.DataFrame()

print("📈 IMPORTÂNCIA GLOBAL DE FEATURES")
print("-" * 35)

for model_name, result in shap_results.items():
    if 'shap_values' in result:
        # Calcular importância média absoluta
        mean_abs_shap = np.abs(result['shap_values']).mean(axis=0)
        importance_dict = dict(zip(result['feature_names'], mean_abs_shap))
        
        # Top 10 features
        top_features = sorted(importance_dict.items(), key=lambda x: x[1], reverse=True)[:10]
        print(f"\n{model_name} - Top 10 Features:")
        for i, (feature, importance) in enumerate(top_features, 1):
            print(f"   {i}. {feature}: {importance:.4f}")
        
        # Adicionar ao DataFrame para comparação
        temp_df = pd.DataFrame({
            'feature': list(importance_dict.keys()),
            'importance': list(importance_dict.values()),
            'model': model_name
        })
        feature_importance_df = pd.concat([feature_importance_df, temp_df])

print(f"\nTotal de features analisadas: {len(feature_importance_df['feature'].unique())}")

In [None]:
# PLOT COMPARATIVO DE IMPORTÂNCIA
plt.figure(figsize=(15, 8))
if not feature_importance_df.empty:
    # Pegar top 15 features mais importantes (média entre modelos)
    avg_importance = feature_importance_df.groupby('feature')['importance'].mean()
    top_features = avg_importance.nlargest(15).index
    
    # Filtrar dados
    plot_data = feature_importance_df[feature_importance_df['feature'].isin(top_features)]
    
    # Plot
    sns.barplot(data=plot_data, x='importance', y='feature', hue='model', palette='Set2')
    plt.title('Comparação de Importância de Features por Modelo (SHAP)', fontsize=14, fontweight='bold')
    plt.xlabel('Importância Média Absoluta (SHAP)', fontsize=12)
    plt.ylabel('Feature', fontsize=12)
    plt.legend(title='Modelo', bbox_to_anchor=(1.05, 1), loc='upper left')
    plt.tight_layout()
    plt.savefig(artifacts_dir / 'shap_feature_comparison.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    print("📊 Plot salvo: shap_feature_comparison.png")

## SHAP Summary Plots

In [None]:
# SHAP SUMMARY PLOTS PARA MODELOS PRINCIPAIS
print("📊 SHAP SUMMARY PLOTS")
print("-" * 22)

for model_name in ['XGBoost', 'LightGBM', 'Ensemble']:
    if model_name in shap_results and 'shap_values' in shap_results[model_name]:
        print(f"\n{model_name} - SHAP Summary Plot:")
        
        try:
            plt.figure(figsize=(12, 8))
            shap.summary_plot(
                shap_results[model_name]['shap_values'],
                X_shap,
                max_display=15,
                show=False
            )
            plt.title(f'SHAP Summary Plot - {model_name}', fontsize=14, fontweight='bold')
            plt.tight_layout()
            plt.savefig(artifacts_dir / f'shap_summary_{model_name.lower()}.png', dpi=300, bbox_inches='tight')
            plt.show()
            
            print(f"   ✅ Plot salvo: shap_summary_{model_name.lower()}.png")
            
        except Exception as e:
            print(f"   ❌ Erro no plot: {e}")

## Análise Local - Explicabilidade Individual

In [None]:
# ANÁLISE DE EXPLICABILIDADE LOCAL
print("🎯 ANÁLISE LOCAL - EXPLICABILIDADE INDIVIDUAL")
print("-" * 45)

# Analisar transações específicas
fraud_sample = X_shap[y_shap == 1].head(3)
legit_sample = X_shap[y_shap == 0].head(3)

print("Analisando transações fraudulentas:")
for i, (idx, transaction) in enumerate(fraud_sample.iterrows()):
    print(f"\n🔴 TRANSAÇÃO FRAUDULENTA {i+1}:")
    
    for model_name in ['XGBoost', 'Ensemble']:
        if model_name in shap_results and 'shap_values' in shap_results[model_name]:
            try:
                # Predição do modelo
                pred_proba = models[model_name].predict_proba(transaction.values.reshape(1, -1))[0, 1]
                prediction = "SUSPEITA" if pred_proba >= 0.5 else "LIMPA"
                
                print(f"   {model_name}: {prediction} ({pred_proba:.1%})")
                
                # SHAP values para esta transação
                shap_vals = shap_results[model_name]['shap_values'][X_shap.index.get_loc(idx)]
                feature_contrib = dict(zip(X_shap.columns, shap_vals))
                
                # Top 5 contribuições
                sorted_contrib = sorted(feature_contrib.items(), key=lambda x: abs(x[1]), reverse=True)
                print("      Top contribuições:")
                for feature, contrib in sorted_contrib[:5]:
                    direction = "↑" if contrib > 0 else "↓"
                    print(f"         {direction} {feature}: {contrib:+.4f}")
                
            except Exception as e:
                print(f"      ❌ Erro em {model_name}: {e}")

## Comparação com GNN

In [None]:
# COMPARAÇÃO COM INTERPRETABILIDADE GNN
print("🤖 COMPARAÇÃO COM GNN - INTERPRETABILIDADE")
print("-" * 42)

# Features importantes simuladas para GNN
gnn_features = {
    'degree_centrality': 0.8,
    'betweenness_centrality': 0.6,
    'clustering_coefficient': 0.4,
    'temporal_features': 0.3,
    'amount': 0.2
}

# Features importantes dos modelos tabulares
tabular_features = {}
if not feature_importance_df.empty:
    avg_importance = feature_importance_df.groupby('feature')['importance'].mean()
    tabular_features = dict(avg_importance.nlargest(5))

print("Features mais importantes - GNN:")
for feature, importance in gnn_features.items():
    print(f"   • {feature}: {importance:.3f}")

print("\nFeatures mais importantes - Modelos Tabulares:")
for feature, importance in tabular_features.items():
    print(f"   • {feature}: {importance:.4f}")

print("\n💡 INSIGHTS DE INTERPRETABILIDADE:")
print("   • Modelos tabulares têm interpretabilidade clara e direta")
print("   • GNN usa features estruturais de grafo mais complexas")
print("   • Amount e payment_format são consistentemente importantes")
print("   • Modelos ensemble combinam diferentes perspectivas")

## Salvamento dos Resultados

In [None]:
# SALVAR RELATÓRIO SHAP
shap_report = {
    'timestamp': datetime.now().isoformat(),
    'phase': 'SHAP Interpretability Analysis',
    'models_analyzed': list(shap_results.keys()),
    'sample_size': len(X_shap),
    'top_features_by_model': {},
    'comparison_insights': [
        'Modelos tabulares mostram interpretabilidade superior',
        'Features transacionais diretas são mais importantes',
        'Ensemble combina diferentes estratégias de decisão',
        'SHAP permite explicabilidade local e global'
    ]
}

# Adicionar top features por modelo
for model_name, result in shap_results.items():
    if 'shap_values' in result:
        mean_abs_shap = np.abs(result['shap_values']).mean(axis=0)
        importance_dict = dict(zip(result['feature_names'], mean_abs_shap))
        top_features = sorted(importance_dict.items(), key=lambda x: x[1], reverse=True)[:10]
        shap_report['top_features_by_model'][model_name] = top_features

with open(artifacts_dir / 'shap_analysis_notebook.json', 'w') as f:
    json.dump(shap_report, f, indent=2, default=str)

print(f"💾 Relatório SHAP salvo: {artifacts_dir / 'shap_analysis_notebook.json'}")
print("\n✅ ANÁLISE SHAP CONCLUÍDA!")