In [4]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import HistGradientBoostingClassifier
from sklearn.metrics import accuracy_score, mean_squared_error

# Carregar os dados
arquivo = "dados_amr.xlsx"
df = pd.read_excel(arquivo)

# Criar a variável binária: 1 para lucro, -1 para prejuízo
df['lucro_binario'] = df['lucro'].apply(lambda x: 1 if x > 0 else -1)

# Definir target e features
y = df['lucro_binario']
X = df.drop(columns=['lucro', 'lucro_binario', 'id_pedido', 'nome_cliente', 'data_pedido', 'mes_ano'])

# Codificar variáveis categóricas
X_encoded = pd.get_dummies(X, drop_first=True)

# Dividir em treino, validação e teste
X_temp, X_test, y_temp, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X_temp, y_temp, test_size=0.25, random_state=42)

# Treinar o modelo
model = HistGradientBoostingClassifier(random_state=42)
model.fit(X_train, y_train)





# Avaliação na validação
y_val_pred = model.predict(X_val)
print("\nValidação")
print("Acurácia:", accuracy_score(y_val, y_val_pred))
print("MSE:", mean_squared_error(y_val, y_val_pred))

# Avaliação no teste final
y_test_pred = model.predict(X_test)
print("\nTeste Final")
print("Acurácia:", accuracy_score(y_test, y_test_pred))
print("MSE:", mean_squared_error(y_test, y_test_pred))




Validação
Acurácia: 0.9484742371185593
MSE: 0.2061030515257629

Teste Final
Acurácia: 0.9389694847423712
MSE: 0.24412206103051526


In [5]:
import joblib
joblib.dump(model, 'modelo_lucro.pkl')
modelo_carregado = joblib.load('modelo_lucro.pkl')