#Configura√ß√µes e Instala√ß√£o de pacotes

In [0]:
%pip install --quiet --upgrade scikit-learn==1.4.2 tensorflow==2.16.1 scikeras==0.13.0 joblib

print("Depend√™ncias de MLOps instaladas/verificadas.")
print("Vers√µes compat√≠veis: scikit-learn==1.4.2, tensorflow==2.16.1, scikeras==0.13.0")
print("Reiniciando o kernel Python agora para carregar as novas bibliotecas...")


# Esta fun√ß√£o nativa do Databricks reinicia o kernel Python.
# Todas as vari√°veis ser√£o limpas, o que √© o comportamento esperado 
# ao instalar bibliotecas.

In [0]:
%restart_python

# Configura√ß√£o

In [0]:
# --- Imports ---
import numpy as np
import pandas as pd
import tensorflow as tf
import mlflow
import joblib
import json
import os
import warnings
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, lit
from scikeras.wrappers import KerasClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder, FunctionTransformer, LabelEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.base import clone
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, recall_score, precision_score, f1_score
from sklearn.impute import SimpleImputer
from tensorflow.keras.callbacks import EarlyStopping
from mlflow.models.signature import infer_signature
from datetime import datetime

# --- Configura√ß√µes Globais ---
# A View de features que j√° existe e ser√° lida
VIEW_NAME = "transacoes_db.feature_store.in_live_features"

# --- MUDAN√áA PRINCIPAL AQUI ---
# Diret√≥rio em seu Volume do Unity Catalog para salvar os artefatos
# (Assumindo que voc√™ queira manter uma subpasta 'pix_fraud' dentro do volume)
MODEL_ARTIFACTS_DIR = "/Volumes/transacoes_db/copper/files/pix_fraud/production_artifacts/"
# --- FIM DA MUDAN√áA ---

# Semente para reprodutibilidade
SEED = 42

# --- Configura√ß√µes de Ambiente ---
warnings.filterwarnings('ignore')

# Garantir que o diret√≥rio de artefatos exista no Volume
os.makedirs(MODEL_ARTIFACTS_DIR, exist_ok=True)
print(f"Diret√≥rio de artefatos garantido: {MODEL_ARTIFACTS_DIR}")

# --- Sementes de Aleatoriedade ---
np.random.seed(SEED)
tf.random.set_seed(SEED)
os.environ['PYTHONHASHSEED'] = str(SEED)

# Inicializar SparkSession
spark = SparkSession.builder.getOrCreate()

In [0]:
%sql
/* CONTEXTO DA VIEW: transacoes_db.feature_store.in_live_features
(Esta c√©lula %sql √© apenas para documenta√ß√£o, a view j√° existe)

Esta view agrega dados transacionais com perfis e features de janela temporal.
*
SELECT
  -- Colunas da transa√ß√£o
  ft.valor AS valor_transacao,
  ft.data AS data_transacao,
  ft.id_conta_origem AS id_conta_pagador,
  ft.id_conta_destino AS id_conta_recebedor,
  ft.id_tipo_iniciacao_pix AS tipo_iniciacao_pix_id,
  ft.id_finalidade_pix AS finalidade_pix_id,
  
  -- Targets (R√≥tulos)
  ft.is_fraud AS transacao_fraudulenta, -- (Bin√°rio: 0 ou 1)
  ft.fraud_type AS tipo_fraude,         -- (Multiclasse: 'scam', 'roubo', etc.)

  -- Perfis (Pagador e Recebedor)
  conta_orig.saldo AS pagador_saldo,
  conta_orig.aberta_em AS pagador_conta_aberta_em,
  conta_orig.id_tipo_conta AS pagador_tipo_conta_id,
  cliente_orig.id_natureza AS pagador_natureza_id,
  cliente_orig.nascido_em AS pagador_data_nascimento,
  conta_dest.saldo AS recebedor_saldo,
  conta_dest.aberta_em AS recebedor_conta_aberta_em,
  conta_dest.id_tipo_conta AS recebedor_tipo_conta_id,
  cliente_dest.id_natureza AS recebedor_natureza_id,
  cliente_dest.nascido_em AS recebedor_data_nascimento,

  -- Features de Tempo Real (Window Functions)
  ft.pagador_txs_ultimas_24h,
  ft.pagador_valor_ultimas_24h,
  ft.recebedor_txs_ultima_1h,
  ft.recebedor_valor_ultima_1h,
  ft.pagador_segundos_desde_ultima_tx
FROM
  transacoes_db.feature_store.in_live_features AS ft
... (JOINS com tabelas copper de perfis) ...
limit 1 */


## Carregamento e Pre-Processamento de dados

In [0]:
print(f"Carregando dados da view: {VIEW_NAME}...")
# 1. Carregar dados do Delta Lake (Spark)
df_spark = spark.read.table(VIEW_NAME)

# 2. Converter para Pandas
# Assumindo que o dataset cabe na mem√≥ria do driver para treinamento com Sklearn/Keras
df_pandas = df_spark.toPandas()
print(f"Dados carregados. Total de {len(df_pandas)} registros.")

# 3. Separar Features (X) e Targets (y)
# IDs n√£o s√£o features para o modelo
features_to_drop = ['transacao_fraudulenta', 'tipo_fraude', 'id_conta_pagador', 'id_conta_recebedor']
X = df_pandas.drop(columns=features_to_drop)
y_binary = df_pandas['transacao_fraudulenta']
y_multiclass = df_pandas['tipo_fraude'] # Este ainda √© string ('scam', 'legitimo', etc.)

# 4. Divis√£o em Treino (70%), Valida√ß√£o (15%) e Teste (15%)
# Primeiro, 70% treino e 30% tempor√°rio (para val/teste)
X_train, X_temp, y_train_binary, y_temp_binary, y_train_multiclass, y_temp_multiclass = train_test_split(
    X, y_binary, y_multiclass, 
    test_size=0.30, 
    random_state=SEED, 
    stratify=y_binary # Garantir propor√ß√£o de fraude
)

# Segundo, dividir os 30% tempor√°rios em 15% valida√ß√£o e 15% teste (50% de 30% = 15%)
X_val, X_test, y_val_binary, y_test_binary, y_val_multiclass, y_test_multiclass = train_test_split(
    X_temp, y_temp_binary, y_temp_multiclass, 
    test_size=0.50, # 50% do temp (que era 30% do total)
    random_state=SEED, 
    stratify=y_temp_binary # Garantir propor√ß√£o de fraude
)

# Verificar as propor√ß√µes
print("--- Divis√£o dos Dados ---")
print(f"Treino:   {X_train.shape[0]} amostras")
print(f"Valida√ß√£o: {X_val.shape[0]} amostras")
print(f"Teste:    {X_test.shape[0]} amostras")

print("\n--- Propor√ß√£o de Fraude (Bin√°rio) ---")
print(f"Treino:    {y_train_binary.value_counts(normalize=True)[1]:.4f}")
print(f"Valida√ß√£o: {y_val_binary.value_counts(normalize=True)[1]:.4f}")
print(f"Teste:     {y_test_binary.value_counts(normalize=True)[1]:.4f}")

#Fun√ß√µes para Treinamento do Modelo / Defini√ß√£o de Features


In [0]:
# --- Fun√ß√µes Customizadas para Engenharia de Features de Data/Hora ---

def feature_engineer_datetimes(df_in: pd.DataFrame) -> pd.DataFrame:
    """
    Recebe um DataFrame com as colunas de data/hora e retorna
    um DataFrame com features num√©ricas de engenharia.
    """
    # Criar c√≥pia para evitar SettingWithCopyWarning
    df = df_in.copy()
    
    # DataFrame de sa√≠da
    df_out = pd.DataFrame(index=df.index)
    
    # Timestamp atual para c√°lculos de idade
    now = datetime.now()

    # 1. 'data_transacao'
    dt_tx = pd.to_datetime(df['data_transacao'])
    df_out['tx_hora_do_dia'] = dt_tx.dt.hour
    df_out['tx_dia_da_semana'] = dt_tx.dt.dayofweek
    df_out['tx_mes'] = dt_tx.dt.month

    # 2. Idade das Contas (em dias)
    # df_out['pagador_idade_conta_dias'] = (now - pd.to_datetime(df['pagador_conta_aberta_em'])).dt.days    # REMOVIDO: Agora vem diretamente do SQL
    df_out['recebedor_idade_conta_dias'] = (now - pd.to_datetime(df['recebedor_conta_aberta_em'])).dt.days
    
    # 3. Idade dos Clientes (em anos)
    df_out['pagador_idade_anos'] = ((now - pd.to_datetime(df['pagador_data_nascimento'])).dt.days / 365.25).astype(int)
    df_out['recebedor_idade_anos'] = ((now - pd.to_datetime(df['recebedor_data_nascimento'])).dt.days / 365.25).astype(int)

    # Lidar com poss√≠veis nulos que podem ter sido gerados (ex: datas inv√°lidas)
    df_out = df_out.fillna(0)
    
    return df_out

# --- Defini√ß√£o das Listas de Colunas ---

# Colunas num√©ricas que entram direto no scaler
numeric_features = [
    'valor_transacao', 
    'pagador_saldo', 
    'recebedor_saldo',
    'pagador_txs_ultimas_24h',
    'pagador_valor_ultimas_24h',
    'recebedor_txs_ultima_1h',
    'recebedor_valor_ultima_1h',
    'pagador_segundos_desde_ultima_tx',
    
    # --- Novas Features (Adicionadas do SQL) ---
    'primeira_interacao',
    'pagador_interacoes_com_recebedor',
    'recebedor_num_pagadores_unicos_24h',
    'recebedor_idade_conta_dias',
    'pagador_idade_conta_dias',
    'valor_vs_media_pagador_30d',
    'valor_vs_saldo_pagador'
]

# Colunas categ√≥ricas para One-Hot Encoding
categorical_features = [
    'tipo_iniciacao_pix_id', 
    'finalidade_pix_id', 
    'pagador_tipo_conta_id', 
    'pagador_natureza_id',
    'recebedor_tipo_conta_id', 
    'recebedor_natureza_id'
]

# Colunas de data/hora para o transformador customizado
datetime_features = [
    'data_transacao', 
    'pagador_conta_aberta_em', 
    'pagador_data_nascimento',
    'recebedor_conta_aberta_em', 
    'recebedor_data_nascimento'
]

# --- Cria√ß√£o dos Pipelines de Transforma√ß√£o ---

# Pipeline para features num√©ricas
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')), # ADICIONADO para tratar NULLs
    ('scaler', StandardScaler())
])

# Pipeline para features categ√≥ricas
categorical_transformer = Pipeline(steps=[
    ('onehot', OneHotEncoder(handle_unknown='ignore', sparse_output=False))
])

# Pipeline para features de data/hora
datetime_transformer = Pipeline(steps=[
    ('feature_eng', FunctionTransformer(feature_engineer_datetimes)),
    ('scaler', StandardScaler()) # Escalonar as features de data/hora criadas
])

# --- Montagem do ColumnTransformer (Pr√©-processador) ---

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features),
        ('date', datetime_transformer, datetime_features)
    ],
    remainder='drop' # Ignorar colunas n√£o listadas (ex: IDs)
)

print("Pipeline de pr√©-processamento 'preprocessor' definido com sucesso.")

## Fun√ß√µes de Cria√ß√£o de modelo Keras

In [0]:
# --- Fun√ß√£o Factory para Modelo Bin√°rio ---
def build_binary_model(meta):
    """Constr√≥i o modelo bin√°rio para o KerasClassifier."""
    # scikeras injeta n_features_in_ automaticamente
    n_features_in = meta["n_features_in_"]
    
    # Garantir que a semente do TF seja definida dentro da fun√ß√£o
    # para reprodutibilidade quando o KerasClassifier for clonado
    tf.random.set_seed(SEED) 

    model = tf.keras.Sequential([
        tf.keras.layers.Dense(64, activation='relu', input_shape=(n_features_in,)),
        tf.keras.layers.Dropout(0.3),
        tf.keras.layers.Dense(32, activation='relu'),
        tf.keras.layers.Dropout(0.3),
        tf.keras.layers.Dense(1, activation='sigmoid') # Sa√≠da sigmoide para bin√°rio
    ])

    model.compile(
        loss='binary_crossentropy', 
        optimizer=tf.keras.optimizers.Adam(learning_rate=0.001), 
        metrics=['AUC', tf.keras.metrics.Recall(name='recall'), tf.keras.metrics.Precision(name='precision')]
    )
    return model

# --- Fun√ß√£o Factory para Modelo Multiclasse ---
def build_multiclass_model(meta):
    """Constr√≥i o modelo multiclasse para o KerasClassifier."""
    n_features_in = meta["n_features_in_"]
    # scikeras injeta o n√∫mero de classes √∫nicas (ex: 3 tipos de fraude)
    n_classes_out = meta["n_classes_"]
    
    tf.random.set_seed(SEED)

    model = tf.keras.Sequential([
        tf.keras.layers.Dense(64, activation='relu', input_shape=(n_features_in,)),
        tf.keras.layers.Dropout(0.3),
        tf.keras.layers.Dense(32, activation='relu'),
        tf.keras.layers.Dense(n_classes_out, activation='softmax') # Sa√≠da softmax
    ])

    model.compile(
        loss='sparse_categorical_crossentropy', # Usar sparse pois os labels s√£o inteiros (0, 1, 2)
        optimizer=tf.keras.optimizers.Adam(learning_rate=0.001), 
        metrics=['accuracy']
    )
    return model

print("Fun√ß√µes de constru√ß√£o de modelo Keras ('build_binary_model', 'build_multiclass_model') definidas.")

# Treinamento do modelo Binario 

In [0]:
# Definir callback de Early Stopping
# Parar o treino se a perda na valida√ß√£o (val_loss) n√£o melhorar ap√≥s 5 √©pocas
early_stopping = EarlyStopping(
    monitor='val_loss', 
    patience=5, 
    restore_best_weights=True,
    verbose=1
)

# 1. Iniciar experimento MLflow
mlflow.set_experiment(f"/Users/{dbutils.notebook.entry_point.getDbutils().notebook().getContext().userName().get()}/Pix_Fraud_Detection")

with mlflow.start_run(run_name="Fraud_Binary_Classifier") as run_binary:
    print(f"Iniciando Run MLflow: {run_binary.info.run_id}")
    
    # --- CORRE√á√ÉO AQUI ---
    # O 'scikeras.wrappers' moderno usa o argumento 'model' e n√£o 'build_fn'
    keras_binary_model = KerasClassifier(
        model=build_binary_model,  # <-- MUDAN√áA DE 'build_fn' PARA 'model'
        epochs=50, 
        batch_size=256, 
        verbose=1,
        random_state=SEED
    )
    # --- FIM DA CORRE√á√ÉO ---

    # 3. Criar o Pipeline completo
    pipeline_binary = Pipeline([
        ('preprocessor', preprocessor), 
        ('model', keras_binary_model)
    ])

    # 4. Pr√©-processar dados de valida√ß√£o para Early Stopping
    # O pipeline.fit n√£o transforma automaticamente os dados passados para 'model__validation_data'
    print("Pr√©-ajustando o processador para transformar dados de valida√ß√£o...")
    # Usamos clone() para n√£o "sujar" o preprocessor do pipeline antes do .fit()
    preprocessor_for_val = clone(preprocessor).fit(X_train)
    X_val_processed = preprocessor_for_val.transform(X_val)
    print(f"Dimens√µes dos dados de valida√ß√£o processados: {X_val_processed.shape}")
    
    # 5. Treinar o pipeline
    print("Iniciando treinamento do pipeline bin√°rio...")
    pipeline_binary.fit(
        X_train, y_train_binary, 
        model__validation_data=(X_val_processed, y_val_binary), 
        model__callbacks=[early_stopping]
    )
    print("Treinamento bin√°rio conclu√≠do.")

    # 6. Avaliar no set de teste
    y_pred_binary_proba = pipeline_binary.predict_proba(X_test)[:, 1]
    y_pred_binary = (y_pred_binary_proba >= 0.5).astype(int)

    # 7. Logar m√©tricas (Foco em Recall)
    recall = recall_score(y_test_binary, y_pred_binary)
    precision = precision_score(y_test_binary, y_pred_binary)
    f1 = f1_score(y_test_binary, y_pred_binary)
    roc_auc = roc_auc_score(y_test_binary, y_pred_binary_proba)

    mlflow.log_metric("test_recall", recall)
    mlflow.log_metric("test_precision", precision)
    mlflow.log_metric("test_f1", f1)
    mlflow.log_metric("test_roc_auc", roc_auc)
    
    print("\n--- M√©tricas de Teste (Bin√°rio) ---")
    print(f"Recall:    {recall:.4f}")
    print(f"Precision: {precision:.4f}")
    print(f"F1-Score:  {f1:.4f}")
    print(f"ROC AUC:   {roc_auc:.4f}")
    print(classification_report(y_test_binary, y_pred_binary))

    # 8. Salvamento Cr√≠tico do Artefato (usar√° o caminho do Volume)
    binary_pipeline_path = os.path.join(MODEL_ARTIFACTS_DIR, "fraud_binary_pipeline.pkl")
    joblib.dump(pipeline_binary, binary_pipeline_path)
    print(f"Pipeline bin√°rio salvo em: {binary_pipeline_path}")

    # 9. Logar no MLflow (modelo e artefato)
    signature = infer_signature(X_train, pipeline_binary.predict(X_train))
    mlflow.sklearn.log_model(
        pipeline_binary, 
        "binary_model", 
        signature=signature,
        input_example=X_train.head(5).to_dict(orient='records')
    )
    mlflow.log_artifact(binary_pipeline_path)

print("C√©lula 6 conclu√≠da.")

## Analise Visual

In [0]:
from sklearn.model_selection import learning_curve
import numpy as np
import matplotlib.pyplot as plt

# 1. Defini√ß√£o da Fun√ß√£o (J√° ajustada para imprimir resultados)
def plot_learning_curve(model, X, y, title="Curva de Aprendizado", 
                        cv=5, 
                        train_sizes=np.linspace(0.1, 1.0, 5),
                        scoring='f1'): # Adicionado 'scoring' como par√¢metro para clareza
    """
    Plota a curva de aprendizado e imprime os scores m√©dios.
    """
    
    # Informa quantos treinamentos ser√£o feitos
    total_fits = len(train_sizes) * cv
    print(f"Calculando curva de aprendizado... Total de {total_fits} treinamentos.")

    # A fun√ß√£o learning_curve retorna os tamanhos absolutos usados
    train_sizes_abs, train_scores, val_scores = learning_curve(
        model, X, y, cv=cv, scoring=scoring, n_jobs=-1,
        train_sizes=train_sizes, shuffle=True, random_state=42
    )

    train_mean = np.mean(train_scores, axis=1)
    val_mean = np.mean(val_scores, axis=1)

    # --- O "Resultado Direto" ---
    print("\n--- Resultados (M√©dias) ---")
    print(f"{'Tamanho Treino':<15} | {'F1 Treino':<10} | {'F1 Valida√ß√£o':<10}")
    print("-" * 47)
    for i, size in enumerate(train_sizes_abs):
        print(f"{size:<15} | {train_mean[i]:<10.4f} | {val_mean[i]:<10.4f}")
    print("---------------------------\n")
    # -----------------------------

    plt.figure(figsize=(8,6))
    plt.plot(train_sizes_abs, train_mean, 'o-', label="Treino", linewidth=2)
    plt.plot(train_sizes_abs, val_mean, 'o-', label="Valida√ß√£o", linewidth=2)
    plt.title(title, fontsize=14)
    plt.xlabel("Tamanho do conjunto de treino (N¬∫ de amostras)")
    plt.ylabel("F1-Score")
    plt.legend()
    plt.grid(True, linestyle='--', alpha=0.6)
    plt.show()

# --- 2. Defini√ß√£o dos par√¢metros para rodar r√°pido ---
cv_rapido = 3
tamanhos_rapidos = np.linspace(0.25, 1.0, 3) # 3 pontos (25%, 62.5%, 100%)




In [0]:
# plot_learning_curve(
#     pipeline_binary, 
#     X_train, 
#     y_train_binary, 
#     title="Curva de Aprendizado - Modelo Bin√°rio (R√°pida)", 
#     cv=cv_rapido, 
#     train_sizes=tamanhos_rapidos,
#     scoring='f1' # Scoring correto para o bin√°rio
# )

In [0]:
# üìä COMPARATIVO DE M√âTRICAS ENTRE TREINO E TESTE - MODELO BIN√ÅRIO
import seaborn as sns
import pandas as pd

# Calcular m√©tricas no treino
y_pred_train = pipeline_binary.predict(X_train)
y_pred_train_proba = pipeline_binary.predict_proba(X_train)[:, 1]

recall_train = recall_score(y_train_binary, y_pred_train)
precision_train = precision_score(y_train_binary, y_pred_train)
f1_train = f1_score(y_train_binary, y_pred_train)
roc_auc_train = roc_auc_score(y_train_binary, y_pred_train_proba)

metrics_data = {
    'Conjunto': ['Treino', 'Teste'],
    'Recall': [recall_train, recall],
    'Precision': [precision_train, precision],
    'F1-Score': [f1_train, f1],
    'ROC AUC': [roc_auc_train, roc_auc]
}

df_metrics = pd.DataFrame(metrics_data)
df_metrics_melt = df_metrics.melt(id_vars='Conjunto', var_name='M√©trica', value_name='Valor')

plt.figure(figsize=(8,6))
sns.barplot(x='M√©trica', y='Valor', hue='Conjunto', data=df_metrics_melt, palette='viridis')
plt.title('Comparativo de M√©tricas - Treino vs Teste (Modelo Bin√°rio)', fontsize=14)
plt.ylim(0.85, 1.0)
plt.grid(True, linestyle='--', alpha=0.5)
plt.show()


In [0]:
# üìà DISPERS√ÉO DAS PROBABILIDADES PREDITAS - MODELO BIN√ÅRIO
plt.figure(figsize=(8,6))
sns.scatterplot(x=range(len(y_test_binary)), y=y_pred_binary_proba,
                hue=y_test_binary, palette=['#2ecc71','#e74c3c'], alpha=0.6)
plt.title('Dispers√£o das Probabilidades Previstas - Modelo Bin√°rio', fontsize=14)
plt.xlabel('√çndice da Amostra')
plt.ylabel('Probabilidade Prevista de Fraude')
plt.legend(title='Classe Real', labels=['N√£o Fraude','Fraude'])
plt.grid(True, linestyle='--', alpha=0.5)
plt.show()


In [0]:
# üß© MATRIZ DE CONFUS√ÉO ESTILIZADA - MODELO BIN√ÅRIO
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

cm = confusion_matrix(y_test_binary, y_pred_binary)
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
fig, ax = plt.subplots(figsize=(6,6))
disp.plot(cmap='Blues', values_format='d', ax=ax, colorbar=False)
plt.title('Matriz de Confus√£o - Modelo Bin√°rio')
plt.show()


# Treinamento do Modelo Multiclasse

In [0]:
print("Iniciando prepara√ß√£o para o Modelo 2 (Multiclasse)...")

# 1. Filtrar dados para incluir apenas transa√ß√µes fraudulentas
train_fraud_mask = (y_train_binary == 1)
val_fraud_mask = (y_val_binary == 1)
test_fraud_mask = (y_test_binary == 1)

X_train_fraud = X_train[train_fraud_mask]
y_train_multiclass_fraud = y_train_multiclass[train_fraud_mask]

X_val_fraud = X_val[val_fraud_mask]
y_val_multiclass_fraud = y_val_multiclass[val_fraud_mask]

X_test_fraud = X_test[test_fraud_mask]
y_test_multiclass_fraud = y_test_multiclass[test_fraud_mask]

print(f"Total de amostras de fraude para treino: {len(X_train_fraud)}")
print(f"Total de amostras de fraude para valida√ß√£o: {len(X_val_fraud)}")
print(f"Total de amostras de fraude para teste: {len(X_test_fraud)}")

# 2. Usar LabelEncoder para converter labels string em inteiros
label_encoder = LabelEncoder()
y_train_multiclass_encoded = label_encoder.fit_transform(y_train_multiclass_fraud)
y_val_multiclass_encoded = label_encoder.transform(y_val_multiclass_fraud)
y_test_multiclass_encoded = label_encoder.transform(y_test_multiclass_fraud)

print(f"Classes de fraude encontradas: {label_encoder.classes_}")

# 3. Salvamento Cr√≠tico (Mapeamento de Labels) (usar√° o caminho do Volume)
# Criar mapa {0: 'scam', 1: 'roubo', 2: 'lavagem'}
label_map = {i: str(cls) for i, cls in enumerate(label_encoder.classes_)}
label_map_path = os.path.join(MODEL_ARTIFACTS_DIR, "fraud_type_label_map.json")

with open(label_map_path, 'w') as f:
    json.dump(label_map, f, indent=4)
print(f"Mapa de labels salvo em: {label_map_path}")

# --- Treinamento do Modelo Multiclasse ---

# Callback para o modelo multiclasse
early_stopping_multi = EarlyStopping(
    monitor='val_loss', 
    patience=5, 
    restore_best_weights=True,
    verbose=1
)

with mlflow.start_run(run_name="Fraud_Type_Classifier") as run_multiclass:
    print(f"Iniciando Run MLflow: {run_multiclass.info.run_id}")
    

    keras_multiclass_model = KerasClassifier(
        model=build_multiclass_model, # <-- MUDAN√áA DE 'build_fn' PARA 'model'
        epochs=50, 
        batch_size=128, 
        verbose=1,
        random_state=SEED
    )
    # --- FIM DA CORRE√á√ÉO ---

    # 5. Criar o Pipeline completo
    pipeline_multiclass = Pipeline([
        ('preprocessor', preprocessor), 
        ('model', keras_multiclass_model)
    ])
    
    # 6. Pr√©-processar dados de valida√ß√£o (apenas de fraude)
    print("Pr√©-ajustando o processador (multiclasse) nos dados de treino de fraude...")
    # Usamos clone() para n√£o "sujar" o preprocessor do pipeline antes do .fit()
    preprocessor_multi_for_val = clone(preprocessor).fit(X_train_fraud)
    X_val_fraud_processed = preprocessor_multi_for_val.transform(X_val_fraud)
    print(f"Dimens√µes dos dados de valida√ß√£o (fraude) processados: {X_val_fraud_processed.shape}")

    # 7. Treinar o pipeline (APENAS com dados de fraude)
    print("Iniciando treinamento do pipeline multiclasse...")
    pipeline_multiclass.fit(
        X_train_fraud, y_train_multiclass_encoded, 
        model__validation_data=(X_val_fraud_processed, y_val_multiclass_encoded), 
        model__callbacks=[early_stopping_multi]
    )
    print("Treinamento multiclasse conclu√≠do.")

    # 8. Avaliar no set de teste (filtrado)
    y_pred_multiclass_encoded = pipeline_multiclass.predict(X_test_fraud)
    
    print("\n--- M√©tricas de Teste (Multiclasse) ---")
    report_text = classification_report(
        y_test_multiclass_encoded, 
        y_pred_multiclass_encoded, 
        target_names=label_encoder.classes_
    )
    print(report_text)
    
    # Logar m√©tricas
    mlflow.log_text(report_text, "classification_report.txt")
    f1_micro = f1_score(y_test_multiclass_encoded, y_pred_multiclass_encoded, average='micro')
    mlflow.log_metric("test_f1_micro", f1_micro)

    # 9. Salvamento Cr√≠tico (usar√° o caminho do Volume)
    multiclass_pipeline_path = os.path.join(MODEL_ARTIFACTS_DIR, "fraud_type_pipeline.pkl")
    joblib.dump(pipeline_multiclass, multiclass_pipeline_path)
    print(f"Pipeline multiclasse salvo em: {multiclass_pipeline_path}")

    # 10. Logar no MLflow
    signature_multi = infer_signature(X_train_fraud, pipeline_multiclass.predict(X_train_fraud))
    mlflow.sklearn.log_model(
        pipeline_multiclass, 
        "multiclass_model", 
        signature=signature_multi,
        input_example=X_train_fraud.head(5).to_dict(orient='records')
    )
    mlflow.log_artifact(multiclass_pipeline_path)
    mlflow.log_artifact(label_map_path) # Importante logar o mapa tamb√©m

print("C√©lula 7 conclu√≠da.")

## Analise Visual

In [0]:
# plot_learning_curve(
#     pipeline_multiclass, 
#     X_train, 
#     y_train_binary, 
#     title="urva de Aprendizado - Modelo Multiclasse", 
#     cv=cv_rapido, 
#     train_sizes=tamanhos_rapidos
#     #scoring='f1' # Scoring correto para o bin√°rio
# )

In [0]:
# üìä COMPARATIVO DE M√âTRICAS ENTRE TREINO E TESTE - MODELO MULTICLASSE
import seaborn as sns
import pandas as pd
from sklearn.metrics import f1_score, precision_score, recall_score

# Previs√µes no treino
y_pred_train_multiclass = pipeline_multiclass.predict(X_train_fraud)

# M√©tricas no treino
recall_train = recall_score(y_train_multiclass_encoded, y_pred_train_multiclass, average='macro')
precision_train = precision_score(y_train_multiclass_encoded, y_pred_train_multiclass, average='macro')
f1_train = f1_score(y_train_multiclass_encoded, y_pred_train_multiclass, average='macro')

# M√©tricas no teste (usando vari√°veis j√° calculadas)
recall_test = recall_score(y_test_multiclass_encoded, y_pred_multiclass_encoded, average='macro')
precision_test = precision_score(y_test_multiclass_encoded, y_pred_multiclass_encoded, average='macro')
f1_test = f1_score(y_test_multiclass_encoded, y_pred_multiclass_encoded, average='macro')

metrics_data = {
    'Conjunto': ['Treino', 'Teste'],
    'Recall (Macro)': [recall_train, recall_test],
    'Precision (Macro)': [precision_train, precision_test],
    'F1-Score (Macro)': [f1_train, f1_test]
}

df_metrics = pd.DataFrame(metrics_data)
df_metrics_melt = df_metrics.melt(id_vars='Conjunto', var_name='M√©trica', value_name='Valor')

plt.figure(figsize=(8,6))
sns.barplot(x='M√©trica', y='Valor', hue='Conjunto', data=df_metrics_melt, palette='mako')
plt.title('Comparativo de M√©tricas - Treino vs Teste (Modelo Multiclasse)', fontsize=14)
plt.ylim(0.7, 1.0)
plt.grid(True, linestyle='--', alpha=0.5)
plt.show()


In [0]:
# üìà DISPERS√ÉO DAS PREDI√á√ïES POR CLASSE - MODELO MULTICLASSE
from sklearn.decomposition import PCA

# Reduz dimensionalidade para 2D para visualiza√ß√£o
X_test_fraud_transformed = pipeline_multiclass.named_steps['preprocessor'].transform(X_test_fraud)
pca = PCA(n_components=2, random_state=42)
X_2d = pca.fit_transform(X_test_fraud_transformed)

plt.figure(figsize=(8,6))
sns.scatterplot(x=X_2d[:,0], y=X_2d[:,1], hue=[label_encoder.classes_[i] for i in y_pred_multiclass_encoded],
                palette='tab10', alpha=0.7)
plt.title('Dispers√£o das Predi√ß√µes por Tipo de Fraude (PCA 2D)', fontsize=14)
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.legend(title='Classe Prevista', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True, linestyle='--', alpha=0.5)
plt.show()


In [0]:
# üß© MATRIZ DE CONFUS√ÉO - MODELO MULTICLASSE
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

cm_multi = confusion_matrix(y_test_multiclass_encoded, y_pred_multiclass_encoded)
fig, ax = plt.subplots(figsize=(8,7))
disp = ConfusionMatrixDisplay(confusion_matrix=cm_multi, display_labels=label_encoder.classes_)
disp.plot(cmap='Purples', ax=ax, colorbar=False)
plt.title('Matriz de Confus√£o - Modelo Multiclasse')
plt.xticks(rotation=30)
plt.show()


# Avalia√ß√£o Final

In [0]:
print("--- Iniciando Avalia√ß√£o Final (P√≥s-Treino) com Artefatos Salvos ---")

# 1. Carregar artefatos do Volume
try:
    loaded_pipeline_binary = joblib.load(os.path.join(MODEL_ARTIFACTS_DIR, "fraud_binary_pipeline.pkl"))
    loaded_pipeline_multiclass = joblib.load(os.path.join(MODEL_ARTIFACTS_DIR, "fraud_type_pipeline.pkl"))
    
    map_path = os.path.join(MODEL_ARTIFACTS_DIR, "fraud_type_label_map.json")
    with open(map_path, 'r') as f:
        # Converter chaves JSON (string) de volta para inteiros
        loaded_label_map_str = json.load(f)
        loaded_label_map = {int(k): v for k, v in loaded_label_map_str.items()}
        
    print("Artefatos (2 pipelines, 1 mapa) carregados com sucesso do Volume.")

except Exception as e:
    print(f"Erro fatal ao carregar artefatos do Volume: {e}")
    # Se falhar aqui, n√£o podemos continuar
    raise e

# --- Avalia√ß√£o Modelo 1: Classifica√ß√£o Bin√°ria ---
print("\n--- Avalia√ß√£o Modelo 1: Classifica√ß√£o Bin√°ria (em X_test) ---")

# Usar os dados de teste reais (y_test_binary)
y_pred_binary_loaded = loaded_pipeline_binary.predict(X_test)

print(classification_report(y_test_binary, y_pred_binary_loaded, target_names=['Legitimo', 'Fraude']))
print("Matriz de Confus√£o (Bin√°rio):")
print(confusion_matrix(y_test_binary, y_pred_binary_loaded))


# --- Avalia√ß√£o Modelo 2: Classifica√ß√£o Multiclasse ---
print("\n--- Avalia√ß√£o Modelo 2: Classifica√ß√£o Multiclasse (em X_test ONDE y_test==1) ---")

# Filtrar o X_test para incluir apenas as fraudes VERDADEIRAS
# (para avaliar o qu√£o bem o 2¬∫ modelo classifica os tipos de fraude reais)
X_test_true_fraud = X_test[y_test_binary == 1]

# --- CORRE√á√ÉO AQUI ---
# Usamos 'y_test_multiclass' (o split de teste)
# Em vez de 'y_multiclass' (o dataset completo)
y_test_true_fraud_labels = y_test_multiclass[y_test_binary == 1]
# --- FIM DA CORRE√á√ÉO ---


if not X_test_true_fraud.empty:
    # Prever os √≠ndices (0, 1, 2)
    y_pred_multiclass_idx = loaded_pipeline_multiclass.predict(X_test_true_fraud)
    
    # Mapear os √≠ndices de volta para os labels string ('scam', 'roubo')
    y_pred_multiclass_labels = [loaded_label_map.get(idx, 'unknown') for idx in y_pred_multiclass_idx]
    
    # Classes reais para o relat√≥rio
    true_labels_list = list(loaded_label_map.values())
    
    print(classification_report(y_test_true_fraud_labels, y_pred_multiclass_labels, labels=true_labels_list))
    print("Matriz de Confus√£o (Multiclasse):")
    print(confusion_matrix(y_test_true_fraud_labels, y_pred_multiclass_labels, labels=true_labels_list))
else:
    print("N√£o foram encontradas fraudes verdadeiras no conjunto de teste para avaliar o modelo multiclasse.")

print("\nC√©lula 8 conclu√≠da. Avalia√ß√£o final completa.")