In [47]:
# 📦 Importações
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 🔹 1. Lendo o dataset
print("🔹 1. Lendo o dataset...")
caminho_dataset = '../data/raw/dataset.csv'

try:
    df = pd.read_csv(caminho_dataset)
    print(f"✅ Dataset carregado: {df.shape}")
except FileNotFoundError:
    print(f"❌ Arquivo não encontrado no caminho: {caminho_dataset}")
    raise

# 🔹 2. Tratamento de valores nulos
print("🔹 2. Preenchendo valores nulos...")
df = df.fillna(0)

# 🔹 3. Separar a variável alvo
print("🔹 3. Separando variável alvo...")
y = df['status_fraude']
X = df.drop('status_fraude', axis=1)

# 🔹 4. Identificar colunas categóricas
print("🔹 4. Identificando colunas categóricas...")
colunas_categoricas = X.select_dtypes(include='object').columns.tolist()
print(f"✅ Colunas categóricas: {colunas_categoricas}")

# 🔹 5. One-Hot Encoding
print("🔹 5. Aplicando One-Hot Encoding...")
X_encoded = pd.get_dummies(X, columns=colunas_categoricas, drop_first=True)
print(f"✅ Novo shape após encoding: {X_encoded.shape}")

# 🔹 6. Escalonamento
print("🔹 6. Escalando os dados...")
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_encoded)
print("✅ Dados escalados.")

# 🔹 7. Split treino/teste
print("🔹 7. Dividindo em treino e teste...")
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.3, random_state=42, stratify=y
)
print("✅ Divisão concluída.")


🔹 1. Lendo o dataset...
✅ Dataset carregado: (50000, 13)
🔹 2. Preenchendo valores nulos...
🔹 3. Separando variável alvo...
🔹 4. Identificando colunas categóricas...
✅ Colunas categóricas: ['tipo_estabelecimento', 'dispositivo', 'primeira_compra_estabelecimento']
🔹 5. Aplicando One-Hot Encoding...
✅ Novo shape após encoding: (50000, 17)
🔹 6. Escalando os dados...
✅ Dados escalados.
🔹 7. Dividindo em treino e teste...
✅ Divisão concluída.
