In [1]:
import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.ensemble import RandomForestRegressor
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder

# Carregar dados
df = pd.read_csv("../data/livros_vendidos.csv")

# Separar colunas categóricas e numéricas
cat_cols = ["NM_GENERO", "NM_AUTOR", "NM_EDITORA"]
num_cols = ["NR_VALOR_VENDA"]

X = df[cat_cols + num_cols]
y = df["NR_UNIDADES_VENDIDAS"]

# Pré-processamento: One-Hot para categóricas, manter numéricas
preprocessor = ColumnTransformer([("cat", OneHotEncoder(handle_unknown="ignore"), cat_cols)], remainder="passthrough")

# Pipeline: pré-processamento + modelo
model_rf = Pipeline(
    [("preprocess", preprocessor), ("regressor", RandomForestRegressor(n_estimators=200, random_state=42))]
)

# Treinar modelo
model_rf.fit(X, y)

# Novos livros para previsão
novos = pd.DataFrame(
    {
        "NM_GENERO": ["Ciência"],
        "NM_AUTOR": ["Rafael Gomes"],
        "NR_VALOR_VENDA": [30],
        "NM_EDITORA": ["Editora E"],
    }
)

# Prever NR_UNIDADES_VENDIDAS
pred_rf = model_rf.predict(novos)
print("Random Forest →", pred_rf)

Random Forest → [34.035]
