In [21]:
# 📦 Importações
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 🔹 1. Lendo o dataset
print("🔹 1. Lendo o dataset...")
caminho_dataset = '../data/raw/dataset.csv'

try:
    df = pd.read_csv(caminho_dataset)
    print(f"✅ Dataset carregado: {df.shape}")
except FileNotFoundError:
    print(f"❌ Arquivo não encontrado no caminho: {caminho_dataset}")
    raise

# 🔹 2. Tratamento de valores nulos
print("🔹 2. Preenchendo valores nulos...")
df = df.fillna(0)

# 🔹 3. Separar a variável alvo
print("🔹 3. Separando variável alvo...")
y = df['status_fraude']
X = df.drop('status_fraude', axis=1)

# 🔹 4. Identificar colunas categóricas
print("🔹 4. Identificando colunas categóricas...")
colunas_categoricas = X.select_dtypes(include='object').columns.tolist()
print(f"✅ Colunas categóricas: {colunas_categoricas}")

# 🔹 5. One-Hot Encoding
print("🔹 5. Aplicando One-Hot Encoding...")
X_encoded = pd.get_dummies(X, columns=colunas_categoricas, drop_first=True)
print(f"✅ Novo shape após encoding: {X_encoded.shape}")

# 🔹 6. Escalonamento
print("🔹 6. Escalando os dados...")
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_encoded)
print("✅ Dados escalados.")

# 🔹 7. Split treino/teste
print("🔹 7. Dividindo em treino e teste...")
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.3, random_state=42, stratify=y
)
print("✅ Divisão concluída.")


🔹 1. Lendo o dataset...
✅ Dataset carregado: (50000, 13)
🔹 2. Preenchendo valores nulos...
🔹 3. Separando variável alvo...
🔹 4. Identificando colunas categóricas...
✅ Colunas categóricas: ['tipo_estabelecimento', 'dispositivo', 'primeira_compra_estabelecimento']
🔹 5. Aplicando One-Hot Encoding...
✅ Novo shape após encoding: (50000, 17)
🔹 6. Escalando os dados...
✅ Dados escalados.
🔹 7. Dividindo em treino e teste...
✅ Divisão concluída.


In [23]:
# 📦 Importações
import pandas as pd
import pickle
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# 🔹 1. Carregar dados preparados (ajuste o caminho conforme necessário)
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Opcional: caso queira carregar de um arquivo intermediário salvo, use pickle
# with open('../data/processed/preprocessed_data.pkl', 'rb') as f:
#     X_train, X_test, y_train, y_test = pickle.load(f)

# Caso esteja rodando direto após pré-processamento, use as variáveis geradas
# Se preferir segurança, copie o pré-processamento aqui também

# 🔹 2. Treinar o modelo
print("🔹 Treinando modelo RandomForest...")
modelo = RandomForestClassifier(n_estimators=100, random_state=42)
modelo.fit(X_train, y_train)
print("✅ Treinamento concluído.")

# 🔹 3. Avaliação
print("🔹 Avaliando o modelo...")
y_pred = modelo.predict(X_test)

print("\n📊 Classification Report:")
print(classification_report(y_test, y_pred))

print("\n✅ Accuracy:", accuracy_score(y_test, y_pred))

# 🔹 4. Matriz de confusão
print("\n🧩 Matriz de Confusão:")
print(confusion_matrix(y_test, y_pred))

# 🔹 5. Salvar o modelo treinado
print("💾 Salvando modelo em: ../models/modelo_fraude.pkl")
with open('../models/modelo_fraude.pkl', 'wb') as f:
    pickle.dump(modelo, f)

print("✅ Modelo salvo com sucesso.")


🔹 Treinando modelo RandomForest...
✅ Treinamento concluído.
🔹 Avaliando o modelo...

📊 Classification Report:
              precision    recall  f1-score   support

         Não       1.00      1.00      1.00     14850
         Sim       0.99      0.97      0.98       150

    accuracy                           1.00     15000
   macro avg       1.00      0.99      0.99     15000
weighted avg       1.00      1.00      1.00     15000


✅ Accuracy: 0.9996666666666667

🧩 Matriz de Confusão:
[[14849     1]
 [    4   146]]
💾 Salvando modelo em: ../models/modelo_fraude.pkl
✅ Modelo salvo com sucesso.


In [19]:
# 🔥 Bibliotecas necessárias
import os
import joblib
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from xgboost import XGBClassifier


# 🔹 Cria a pasta 'modelos' caso não exista
os.makedirs('../modelos', exist_ok=True)


# 🔹 Exemplo de pipeline de pré-processamento (substitua pelo seu pipeline real)
pipeline_preprocessamento = Pipeline([
    ('scaler', StandardScaler())
])


# 🔹 Exemplo de modelo XGBoost (ajuste os hiperparâmetros se necessário)
modelo_xgboost = XGBClassifier(
    n_estimators=100,
    max_depth=5,
    learning_rate=0.1,
    random_state=42
)


# ✅ Salvar o pipeline de pré-processamento
joblib.dump(pipeline_preprocessamento, '../models/pipeline_preprocessamento.joblib')
print("✅ Pipeline de pré-processamento salvo em models/pipeline_preprocessamento.joblib")


# ✅ Salvar o modelo XGBoost
joblib.dump(modelo_xgboost, '../models/modelo_xgboost.joblib')
print("✅ Modelo XGBoost salvo em models/modelo_xgboost.joblib")


✅ Pipeline de pré-processamento salvo em models/pipeline_preprocessamento.joblib
✅ Modelo XGBoost salvo em models/modelo_xgboost.joblib
