In [None]:
# ============================================================================
# EXEMPLO 1: OTIMIZA√á√ÉO DE HIPERPAR√ÇMETROS PARA DETEC√á√ÉO DE FRAUDES
# Modelagem Matem√°tica Aplicada √† Otimiza√ß√£o em An√°lise de Dados
# Prof. Maurizio Prizzi - CEUB
# ============================================================================

"""
OBJETIVO: Demonstrar como otimizar hiperpar√¢metros de modelos de Machine Learning
para maximizar a detec√ß√£o de fraudes financeiras minimizando falsos positivos.

CONCEITOS MATEM√ÅTICOS:
- Otimiza√ß√£o multi-objetivo
- Busca em grade (Grid Search) ou busca aleat√≥ria (Randomized Search)
- Valida√ß√£o cruzada estratificada
- Fun√ß√£o de fitness customizada
- An√°lise de trade-offs

VERS√ÉO REVISADA: Inclui corre√ß√µes de erros, melhorias de robustez e efici√™ncia.
"""

# Importando bibliotecas necess√°rias
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV, StratifiedKFold
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score
from sklearn.metrics import precision_score, recall_score, f1_score, roc_curve
from sklearn.datasets import make_classification
import matplotlib.pyplot as plt
import seaborn as sns
import joblib
import time
import warnings
warnings.filterwarnings('ignore')

print("=" * 80)
print("EXEMPLO 1: OTIMIZA√á√ÉO DE HIPERPAR√ÇMETROS PARA DETEC√á√ÉO DE FRAUDES")
print("=" * 80)

# ============================================================================
# 1. GERA√á√ÉO DE DATASET SINT√âTICO DE TRANSA√á√ïES FINANCEIRAS
# ============================================================================

def criar_dataset_transacoes_financeiras():
    """
    Cria um dataset sint√©tico que simula transa√ß√µes banc√°rias reais
    com caracter√≠sticas t√≠picas de detec√ß√£o de fraude
    """
    print("\nüìä Gerando dataset sint√©tico de transa√ß√µes banc√°rias...")
    
    # Par√¢metros para simular dados realistas de transa√ß√µes
    n_transacoes = 15000  # 15 mil transa√ß√µes
    n_features = 18       # 18 caracter√≠sticas por transa√ß√£o
    n_informativas = 14   # 14 features realmente √∫teis
    
    # Distribui√ß√£o desbalanceada t√≠pica: 96% leg√≠timas, 4% fraudulentas
    weights = [0.96, 0.04]
    
    # Gerando dados com padr√µes complexos
    X, y = make_classification(
        n_samples=n_transacoes,
        n_features=n_features,
        n_informative=n_informativas,
        n_redundant=2,
        n_clusters_per_class=2,  # M√∫ltiplos padr√µes de fraude
        weights=weights,
        flip_y=0.02,  # 2% de ru√≠do nos labels
        random_state=42
    )
    
    # Nomes das features baseados em dados banc√°rios reais
    feature_names = [
        'valor_transacao_log',     # Log do valor da transa√ß√£o
        'hora_do_dia',             # Hora da transa√ß√£o (0-23)
        'dia_da_semana',           # Dia da semana (1-7)
        'freq_transacoes_hora',    # Frequ√™ncia de transa√ß√µes na √∫ltima hora
        'valor_medio_30d',         # Valor m√©dio das transa√ß√µes nos √∫ltimos 30 dias
        'desvio_padrao_valores',   # Variabilidade hist√≥rica dos valores
        'tempo_ultima_transacao',  # Minutos desde a √∫ltima transa√ß√£o
        'tentativas_login_24h',    # Tentativas de login nas √∫ltimas 24h
        'localizacao_habitual',    # Se a localiza√ß√£o √© habitual (0-1)
        'dispositivo_conhecido',   # Se o dispositivo √© conhecido (0-1)
        'idade_conta_meses',       # Idade da conta em meses
        'saldo_medio_30d',        # Saldo m√©dio dos √∫ltimos 30 dias
        'limite_credito_utilizado',  # % do limite de cr√©dito utilizado
        'score_comportamental',    # Score do contexto (0-100)
        'num_cartoes_ativos',      # N√∫mero de cart√µes ativos
        'transacoes_int_30d',      # Transa√ß√µes internacionais nos √∫ltimos 30 dias
        'velocidade_digitacao',    # Velocidade de digita√ß√£o normalizada
        'padr√£o_normalizado'         # Score de padr√£o normalizado
    ]
    
    # Criando DataFrame
    df = pd.DataFrame(X, columns=feature_names)
    df['e_fraude'] = y  # 0 = leg√≠tima, 1 = fraude
    
    # For√ßando features categ√≥ricas a serem bin√°rias
    df['localizacao_habitual'] = (df['localizacao_habitual'] > 0).astype(int)
    df['dispositivo_conhecido'] = (df['dispositivo_conhecido'] > 0).astype(int)
    
    # Verifica√ß√£o da propor√ß√£o de fraudes
    fraude_ratio = df['e_fraude'].mean()
    if not (0.03 <= fraude_ratio <= 0.05):
        print(f"‚ö†Ô∏è Aviso: Propor√ß√£o de fraudes ({fraude_ratio:.2f}) fora do intervalo esperado (0.03-0.05).")
    
    # Valida√ß√£o de features categ√≥ricas
    for col in ['localizacao_habitual', 'dispositivo_conhecido']:
        if not df[col].isin([0, 1]).all():
            print(f"‚ö†Ô∏è Erro: A coluna {col} cont√©m valores n√£o bin√°rios.")
            raise ValueError(f"A coluna {col} deve conter apenas valores 0 ou 1.")
    
    # Estat√≠sticas do dataset
    total = len(df)
    fraudulentas = len(df[df['e_fraude'] == 1])
    legitimas = len(df[df['e_fraude'] == 0])
    
    print(f"‚úÖ Dataset criado com sucesso!")
    print(f"   üìà Total de transa√ß√µes: {total:,}")
    print(f"   ‚úÖ Transa√ß√µes leg√≠timas: {legitimas:,} ({legitimas/total*100:.2f}%)")
    print(f"   üö® Transa√ß√µes fraudulentas: {fraudulentas:,} ({fraudulentas/total*100:.2f}%)")
    
    return df

# Criando o dataset
df_transacoes = criar_dataset_transacoes_financeiras()

# ============================================================================
# 2. FUN√á√ÉO OBJETIVO MULTI-CRITERIO PARA OTIMIZA√á√ÉO
# ============================================================================

def funcao_objetivo_fintech(y_true, y_pred, peso_deteccao=0.5, peso_precisao=0.3, peso_experiencia=0.2):
    """
    Fun√ß√£o objetivo que simula os crit√©rios de neg√≥cio de uma fintech
    
    Par√¢metros:
    - y_true: Labels verdadeiros
    - y_pred: Predi√ß√µes do modelo
    - peso_deteccao: Peso para recall (detectar fraudes)
    - peso_precisao: Peso para precis√£o (evitar alarmes falsos)
    - peso_experiencia: Peso para experi√™ncia do usu√°rio (baixo FPR)
    
    Retorna: Score que queremos MAXIMIZAR
    """
    # Valida√ß√£o dos pesos
    if not (0 <= peso_deteccao <= 1 and 0 <= peso_precisao <= 1 and 0 <= peso_experiencia <= 1):
        print("‚ö†Ô∏è Erro: Os pesos devem estar entre 0 e 1.")
        raise ValueError("Os pesos devem estar entre 0 e 1.")
    if abs(peso_deteccao + peso_precisao + peso_experiencia - 1.0) > 1e-10:
        print("‚ö†Ô∏è Erro: Os pesos devem somar 1.")
        raise ValueError("Os pesos devem somar 1.")
    
    # Calculando m√©tricas fundamentais
    recall = recall_score(y_true, y_pred, zero_division=0)
    precision = precision_score(y_true, y_pred, zero_division=0)
    
    # Taxa de falsos positivos (impacta experi√™ncia do usu√°rio)
    tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel()
    fpr = fp / (fp + tn) if (fp + tn) > 0 else 0
    
    # Alertas para casos extremos
    if (fp + tn) == 0:
        print("‚ö†Ô∏è Aviso: Nenhuma transa√ß√£o negativa detectada. FPR ajustado para 0.")
    if sum(y_pred) == 0:
        print("‚ö†Ô∏è Aviso: Nenhuma previs√£o positiva feita. Precision ajustada para 0.")
    
    # Score de experi√™ncia do usu√°rio (1 - FPR)
    experiencia_usuario = 1 - fpr
    
    # Combina√ß√£o linear ponderada dos objetivos
    score_final = (peso_deteccao * recall + 
                   peso_precisao * precision + 
                   peso_experiencia * experiencia_usuario)
    
    return score_final

# Fun√ß√£o de scoring para GridSearchCV/RandomizedSearchCV
def score_customizado_fintech(estimator, X, y):
    """Wrapper da fun√ß√£o objetivo para uso no GridSearchCV/RandomizedSearchCV"""
    y_pred = estimator.predict(X)
    return funcao_objetivo_fintech(y_true=y, y_pred=y_pred)

# ============================================================================
# 3. PREPARA√á√ÉO E DIVIS√ÉO DOS DADOS
# ============================================================================

print("\n=== Preparando os dados para modelagem ===")

# Separando features (X) e target (y)
X = df_transacoes.drop('e_fraude', axis=1)
y = df_transacoes['e_fraude']

# Divis√£o estratificada para manter propor√ß√£o de fraudes
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.25,      # 25% para teste
    random_state=42, 
    strategy=y           # Estratifica√ß√£o
)

# Normaliza√ß√£o apenas para features num√©ricas
colunas_numericas = [col for col in X.columns if col not in ['localizacao_habitual', 'dispositivo_conhecido']]
scaler = StandardScaler()
X_train_norm = X_train.copy()
X_test_norm = X_test.copy()
X_train_norm[colunas_numericas] = scaler.fit_transform(X_train[colunas_numericas])
X_test_norm[colunas_numericas] = scaler.transform(X_test[colunas_numericas])

print(f"\n‚úÖ Dados preparados com sucesso:")
print(f"Conjunto de treinamento: {X_train.shape[0]:,} transa√ß√µes")
print(f"Conjunto de teste: {X_test.shape[0]:,} transa√ß√µes")
print(f"Features por transa√ß√£o: {X_train.shape[1]}")

# ============================================================================
# 4. DEFINI√á√ÉO DO ESPA√áO DE BUSCA PARA OTIMIZA√á√ÉO
# ===========================================================================

print("\n=== Definindo o espa√ßo de busca para otimiza√ß√£o ===")

# Modelo base: Random Forest com peso de classe
modelo_rf = RandomForestClassifier(random_state=42, n_jobs=-1, class_weight='balanced')

# Grid de hiperpar√¢metros
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [10, 15, None],  # Ajustado para incluir profundidade menor
    'criterion': ['gini', 'entropy'],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 3, 5],
    'max_features': ['sqrt', 'log2', max(1, int(0.6 * X.shape[1]))]  # Corre√ß√£o
}

# Flag para escolher entre GridSearchCV e RandomizedSearchCV
use_random_search = True

total_combinacoes = 1 if use_random_search else np.prod([len(v) for v in param_grid.values()])
if use_random_search:
    total_combinacoes = 50  # N√∫mero de itera√ß√µes para RandomizedSearchCV

print(f"\n‚úÖ Espa√ßo de busca definido:")
print(f"Total de combina√ß√µes' if not use_random_search else 'itera√ß√µes': {total_combinacoes:,}")
print(f"Estimativa de tempo: ~{total_combinacoes * 0.2:.0f} segundos")

# ===========================================================================
# 5. EXECU√á√ÉO DA OTIMIZA√á√ÉO
# ===========================================================================

print("\n==== Iniciando a otimiza√ß√£o de hiperpar√¢metros ===")

# Configurando o SearchCV
if use_random_search:
    searcher_cv = RandomizedSearchCV(
        estimator=modelo_rf,
        param_distributions=param_grid,
        n_iter=50,
        scoring=scorer_customizado_fintech_score,
        cv=StratifiedKFold(n_splits=5, shuffle=True, random_state=42),
        n_jobs=-1,
        verbose=1,
        random_state=42,
        return_train_score=True
    )
else:
    searcher_cv = GridSearchCV(
        estimator=modelo_rf_rf,
        param_grid=param_grid_grid,
        scoring=scorer_customizado_fintech_score,
        cv=StratifiedKFold(n_splits=5, shuffle=True, random_state=42),
        n_jobs=-1,
        verbose=1,
        return_train_score=True
    )

# Executando a busca com medi√ß√£o de tempo
print("Executando busca (pode levar alguns minutos)...")
start_time = time.time()
searcher_cv.fit(X_train_norm, y_train)
elapsed_time = time.time() - start_time

print(f"\n‚úÖ Otimiza√ß√£o conclu√≠da em {elapsed_time:.2f} segundos!")
print(f"Melhor score (CV): {searcher_cv.best_score_:.4f}")

print(f"\nMelhor hiperpar√¢metros encontrados:")
for param, value in searcher_cv.best_params_.items():
    print(f"  {param}: {value}")

# Salvando modelo, scaler e resultados
joblib.dump(searcher_cv.best_estimator_, 'modelo_fraudes_rf.pkl')
joblib.dump(scaler, 'scaler_fraudes.pkl')
resultados_cv = pd.DataFrame(searcher_cv.cv_results_)
resultados_cv.to_csv('resultados_search_cv.csv', index=False)
print("\nüíæ Modelo, scaler e resultados salvos como 'modelo_fraudes_rf.pkl', 'scaler_fraudes.pkl' e 'resultados_search_cv.csv'")

# ===========================================================================
# 6. AVALIA√á√ÉO DO MODELO OTIMIZADO
# ===========================================================================

print("\n=== Avaliando a performance do modelo otimizado ===")

# Modelo com melhores hiperpar√¢metros
modelo_optimizado = searcher_cv.best_estimator_

# Predi√ß√µes no conjunto de teste
y_pred_test = modelo_optimizado.predict(X_test_norm)
y_proba_test = modelo_optimizado.predict_proba(X_test_norm)[:, 1]

# M√©tricas detalhadas
recall_final = recall_score(y_test, y_pred_test)
precision_final = precision_score(y_test, y_pred_test)
f1_final = f1_score(y_test, y_pred_test)
auc_final = roc_auc_score(y_test, y_proba_test)

print(f"\nüìà M√©tricas de Performance Final:")
print(f"Recall (Detec√ß√£o de Fraudes): {recall_final:.4f}")
print(f"Precis√£o (Qualidade): {precision_final:.4f}")
print(f"F1-Score: {f1_final:.4f}")
print(f"AUC-ROC: {auc_final:.4f}")

# Relat√≥rio detalhado de classifica√ß√£o
print("\nRelat√≥rio Detalhado de Classifica√ß√£o:")
print(classification_report(y_true=y_test, y_pred=y_pred_test, 
                          target_names=['Leg√≠tima', 'Fraude'], 
                          digits=4))

# ===========================================================================
# 7. VISUALIZA√á√ïES ESPEC√çFICAS
# ===========================================================================

# Configura√ß√£o global para plots
plt.style.use('default')
plt.rcParams['figure.figsize'] = [12, 12]
plt.rcParams['font.size'] = 10

# Criando subplots
fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2)

# Plot 1: Matriz de Confus√£o
cm = confusion_matrix(y_test, y_pred_test)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', ax=ax1,
            xticklabels=['Leg√≠tima', 'Fraude'],
            yticklabels=['Leg√≠tima', 'Fraude'])
ax1.set_title('Predi√ß√£o Matriz de Confus√£o', fontsize=12, fontweight='bold')
ax1.set_xlabel('Predi√ß√£o')
ax1.set_ylabel('Real')

# Plot 2: Import√¢ncia das Features
feature_importance_df = pd.DataFrame({
    'feature': X.columns,
    'score': modelo_optmodelo_score.importances_
}).sort_values('score', ascending=False).head(10)

ax2.barh(range(len(feature_importance_df))),
feature_importance_df['score'],
)
ax2.set_yticks(range(len(feature_importance_df)))
ax2.set_yticklabels(feature_importance_df['feature'])
ax2.set_title('Top 10 Features Mais Importantes')
ax2.set_xlabel('Import√¢ncia')
ax2.grid(axis='x', alpha=0.2)

# Plot 3: Curva ROC
fpr, tpr, _ = roc_curve(y_test, y_proba_test)
ax3.plot(fpr, tpr, color='blue', linewidth=2, label=f'ROC (AUC={auc_final:.4f})')
ax3.plot([0, 1], [0, 1], 'r--', alpha=0.5, label='Random')
ax3.set_xlabel('Taxa de Falsos Positivos')
ax3.set_ylabel('Taxa de Verdadeiros Positivos')
ax3.set_title('Curva ROC')
ax3.legend()
ax3.grid(alpha=0.2)

# Plot 4: An√°lise de Converg√™ncia (dispers√£o)
scores_mean = resultados_cv['mean_test_score']
ax4.scatter(range(len(scores_mean)), scores_mean, c=scores_mean, cmap='viridis', alpha=0.7)
ax4.axhline(y=searcher_cv.best_score_, color='red', linestyle='--', 
            label=f'Melhor Score: {searcher_cv.best_score_:.4f}')
ax4.set_xlabel('Configura√ß√£o de Hiperpar√¢metros')
ax4.set_ylabel('Score Cross-Validation')
ax4.set_title('Converg√™ncia da Otimiza√ß√£o')
ax4.legend()
ax4.grid(alpha=0.2)

plt.tight_layout()
plt.show()

# ===========================================================================
# 8. AN√ÅLISE DE TRADE-OFFS DE NEG√ìCIO
# ===========================================================================

print("\n=== An√°lise de Trade-offs de Neg√≥cio ===")

# Calculando impacto financeiro hipot√©tico
total_transacoes_teste = len(y_test)
fraudes_reais = sum(y_test)
legitimas_reais = total_transacoes_teste - fraudes_reais

# Valores m√©dios hipot√©ticos por transa√ß√£o
valor_medio_fraude = 850.0     # R$ 850 por fraude
custo_falso_positivo = 12.0    # R$ 12 de custo operacional por FP

# Calculando custos
tn, fp, fn, tp = cm.ravel()

# Benef√≠cios: fraudes detectadas
beneficio_deteccao = tp * valor_medio_fraude

# Custos: fraudes n√£o detectadas + falsos positivos
custo_fraudes_perdidas = fn * valor_medio_fraude
custo_falsos_positivos = fp * custo_falso_positivo
custo_total = custo_fraudes_perdidas + custo_falsos_positivos

# ROI do sistema
if custo_total > 0:
    roi = (beneficio_deteccao - custo_total) / custo_total * 100
else:
    roi = 0 if beneficio_deteccao == 0 else float('inf')

print(f"\nImpacto Financeiro Estimado (no conjunto de teste):")
print(f"Benef√≠cio - Fraudes detectadas: R$ {beneficio_deteccao:,.2f}")
print(f"Custo - Fraudes n√£o detectadas: R$ {custo_fraudes_perdidas:,.2f}")
print(f"Custo - Falsos positivos: R$ {custo_falsos_positivos:,.2f}")
print(f"ROI do Sistema: {roi:.1f}%{' (infinito)' if roi == float('inf') else ''}")

# ===========================================================================
# 9. INSIGHTS E CONCLUS√ïES
# ===========================================================================

print(f"\n{'='*80}")
print("INSIGHTS E CONCLUS√ïES - EXEMPLO 1")
print(f"{'='*80}")

print(f"""
RESULTADOS DA OTIMIZA√á√ÉO:

‚úÖ Performance Alcan√ßada:
   ‚Ä¢ Recall (Detec√ß√£o): {recall_final:.1%} das fraudes identificadas
   ‚Ä¢ Precision (Qualidade): {precision_final:.1%} das detec√ß√µes s√£o corretas  
   ‚Ä¢ F1-Score Balanceado: {f1_final:.4f}
   ‚Ä¢ AUC-ROC: {auc_final:.4f} (excelente discrimina√ß√£o)

üîß Hiperpar√¢metros Otimizados:
   ‚Ä¢ N√∫mero de √°rvores: {searcher_cv.best_params_['n_estimators']}
   ‚Ä¢ Profundidade m√°xima: {searcher_cv.best_params_['max_depth']}
   ‚Ä¢ Crit√©rio de divis√£o: {searcher_cv.best_params_['criterion']}

üí° APLICA√á√ïES PR√ÅTICAS:

1. Otimiza√ß√£o Cont√≠nua:
   ‚Ä¢ Re-execu√ß√£o autom√°tica da busca com novos dados
   ‚Ä¢ Adapta√ß√£o a mudan√ßas nos padr√µes de fraude
   ‚Ä¢ Monitoramento de performance em produ√ß√£o

2. Balanceamento de Objetivos:
   ‚Ä¢ Trade-off entre detec√ß√£o e experi√™ncia do usu√°rio
   ‚Ä¢ Minimiza√ß√£o de custos operacionais
   ‚Ä¢ Maximiza√ß√£o do ROI do sistema antifraude

3. Escalabilidade:
   ‚Ä¢ Paraleliza√ß√£o da busca de hiperpar√¢metros
   ‚Ä¢ Otimiza√ß√£o distribu√≠da para grandes volumes
   ‚Ä¢ AutoML para ajuste autom√°tico

üî¨ CONCEITOS MATEM√ÅTICOS DEMONSTRADOS:

‚Ä¢ Otimiza√ß√£o combinatorial discreta (Grid/Random Search)
‚Ä¢ Fun√ß√£o objetivo multi-crit√©rio com pesos ajust√°veis
‚Ä¢ Valida√ß√£o cruzada estratificada
‚Ä¢ An√°lise de import√¢ncia por impureza de Gini
‚Ä¢ Trade-off bias-vari√¢ncia em ensemble methods
""")

print(f"\nüìö Pr√≥ximo: Exemplo 2 - Otimiza√ß√£o Cont√≠nua de Threshold")
print(f"üîó Reposit√≥rio: https://github.com/maurizioprizzi/otimizacao-aplicada-ciencia-dados")
print(f"{'='*80}")

EXEMPLO 1: OTIMIZA√á√ÉO DE HIPERPAR√ÇMETROS PARA DETEC√á√ÉO DE FRAUDES
T√©cnicas inspiradas na Feedzai e outras fintechs l√≠deres

üìä Gerando dataset sint√©tico de transa√ß√µes banc√°rias...
‚ö†Ô∏è Aviso: Propor√ß√£o de fraudes (0.051) fora do intervalo esperado (0.03-0.05).
‚úÖ Dataset criado com sucesso!
   üìà Total de transa√ß√µes: 15,000
   ‚úÖ Transa√ß√µes leg√≠timas: 14,242 (94.9%)
   üö® Transa√ß√µes fraudulentas: 758 (5.1%)

üîß Preparando dados para modelagem...
‚úÖ Dados preparados:
   üìö Conjunto de treino: 11,250 transa√ß√µes
   üß™ Conjunto de teste: 3,750 transa√ß√µes
   üî¢ Features por transa√ß√£o: 18

üéØ Definindo espa√ßo de busca para otimiza√ß√£o de hiperpar√¢metros...
‚úÖ Espa√ßo de busca definido:
   üîç Total de combina√ß√µes: 486
   ‚è±Ô∏è Estimativa de tempo: ~49 segundos

üöÄ Iniciando otimiza√ß√£o de hiperpar√¢metros...
   ‚ö° Executando busca (pode levar alguns minutos)...
Fitting 5 folds for each of 486 candidates, totalling 2430 fits


KeyboardInterrupt: 