In [122]:
# Importando bibliotecas
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn.compose import ColumnTransformer
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.metrics.pairwise import cosine_distances
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder
from xgboost import XGBRegressor

In [123]:
df_livros_vendidos = pd.read_csv("../data/livros_vendidos.csv").drop(columns="preco")

df_livros = df_livros_vendidos[["livro", "genero", "autor", "editora"]]
df_vendas_totais = df_livros_vendidos.groupby("autor")["vendas"].sum().reset_index()
df_vendas_por_livraria = df_livros_vendidos.groupby(["autor", "livraria"])["vendas"].sum().reset_index()

# print(f"df_livros_vendidos:    ", df_livros_vendidos.columns.to_list())
# print(f"df_livros:             ", df_livros.columns.to_list())
# print(f"df_vendas_totais:      ", df_vendas_totais.columns.to_list())
# print(f"df_vendas_por_livraria:", df_vendas_por_livraria.columns.to_list())

In [124]:
# df_livros_vendidos:     ['livro', 'genero', 'autor', 'editora', 'livraria', 'vendas']
# df_livros:              ['livro', 'genero', 'autor', 'editora']
# df_vendas_totais:       ['autor', 'vendas']
# df_vendas_por_livraria: ['autor', 'livraria', 'vendas']

# ===========================================
# 2. Exemplo: unindo as tabelas
# ===========================================
df_base = df_vendas_por_livraria.merge(df_livros, on="autor", how="left")
df_base = df_base.merge(df_vendas_totais, on="autor", how="left", suffixes=("", "_total"))

In [125]:
# ===========================================
# 3. Cria√ß√£o de features
# ===========================================
# Propor√ß√£o de vendas do autor por livraria
df_base["prop_vendas_livraria"] = df_base["vendas"] / df_base["vendas_total"]

# Popularidade da editora e genero
popularidade_autor = df_base.groupby("autor")["vendas_total"].mean().rename("pop_autor")
popularidade_livraria = df_base.groupby("livraria")["vendas_total"].mean().rename("pop_livraria")
popularidade_editora = df_base.groupby("editora")["vendas_total"].mean().rename("pop_editora")
popularidade_tema = df_base.groupby("genero")["vendas_total"].mean().rename("pop_genero")

df_base = df_base.merge(popularidade_autor, on="autor", how="left")
df_base = df_base.merge(popularidade_livraria, on="livraria", how="left")
df_base = df_base.merge(popularidade_editora, on="editora", how="left")
df_base = df_base.merge(popularidade_tema, on="genero", how="left")
# ===========================================
# 4. Sele√ß√£o de vari√°veis
# ===========================================
features = ["autor", "livraria", "genero", "editora", "pop_autor", "pop_livraria", "pop_editora", "pop_genero"]
target = "vendas"

X = df_base[features]
y = df_base[target]
# ===========================================
# 5. Pr√©-processamento (OneHotEncoder para vari√°veis categ√≥ricas)
# ===========================================
categorical_features = ["autor", "livraria", "genero", "editora"]
numeric_features = ["pop_autor", "pop_livraria", "pop_editora", "pop_genero"]

preprocessor = ColumnTransformer(
    transformers=[
        ("cat", OneHotEncoder(handle_unknown="ignore"), categorical_features),
        ("num", "passthrough", numeric_features),
    ]
)
# ===========================================
# 6. Modelo (XGBoost)
# ===========================================
model = XGBRegressor(n_estimators=300, learning_rate=0.1, max_depth=6, random_state=42)

# Pipeline completo
pipeline = Pipeline(steps=[("preprocessor", preprocessor), ("model", model)])
# ===========================================
# 7. Treinamento e avalia√ß√£o
# ===========================================
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

pipeline.fit(X_train, y_train)
y_pred = pipeline.predict(X_test)


mae = mean_absolute_error(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

# - MAE (erro m√©dio absoluto):
#       m√©dia do erro em unidades de vendas (ex: ‚Äúem m√©dia o modelo erra por 50 c√≥pias‚Äù).
# - RMSE (erro quadr√°tico m√©dio):
#       penaliza mais grandes erros ‚Äî √∫til para identificar instabilidade.
# - R¬≤ (coeficiente de determina√ß√£o): varia de 0 a 1.
#           0.8 ‚Üí modelo muito bom.
#       0.5~0.8 ‚Üí razo√°vel.
#       < 0.5 ‚Üí precisa de ajuste (talvez falta de vari√°veis).

print(f"MAE: {mae:.2f}")
print(f"RMSE: {rmse:.2f}")
print(f"R¬≤: {r2:.2f}")
# ===========================================
# 8. Previs√£o para um novo livro
# ===========================================
aut = "Jo√£o Silva"
liv = "Livraria Fnac"
gen = "Romance"
edi = "Editora Record"
novo_livro = pd.DataFrame(
    [
        {
            "autor": aut,
            "livraria": liv,
            "genero": gen,
            "editora": edi,
            "pop_autor": df_base[df_base["autor"] == aut]["pop_autor"].mean(),
            "pop_livraria": df_base[df_base["livraria"] == liv]["pop_livraria"].mean(),
            "pop_editora": df_base[df_base["editora"] == edi]["pop_editora"].mean(),
            "pop_genero": df_base[df_base["genero"] == gen]["pop_genero"].mean(),
        }
    ]
)

previsao = pipeline.predict(novo_livro)[0]
print(f"üìò Previs√£o de vendas do novo livro: {previsao:.0f} c√≥pias")

In [None]:
# üîé 3. Avalia√ß√£o local (confiabilidade por previs√£o)
# Para medir o quanto o modelo est√° confiante em uma previs√£o espec√≠fica, h√° v√°rias estrat√©gias complementares:
# a) Desvio entre previs√µes de √°rvores (XGBoost)
# O XGBoost permite estimar a variabilidade entre √°rvores ‚Äî se as √°rvores divergem muito, a incerteza √© alta.

# N√∫mero de √°rvores
ntree = model.n_estimators

# Obter predi√ß√µes de cada √°rvore individual
predicoes_por_arvore = np.array(
    [
        model.predict(pipeline.named_steps["preprocessor"].transform(novo_livro), iteration_range=(i, i + 1))
        for i in range(ntree)
    ]
).flatten()

media = predicoes_por_arvore.mean()
desvio = predicoes_por_arvore.std()

print(f"Previs√£o m√©dia: {media:.0f}")
print(f"Desvio entre √°rvores: {desvio:.1f}")

if desvio / media < 0.1:
    print("‚úÖ Alta confian√ßa na previs√£o")
elif desvio / media < 0.25:
    print("‚ö†Ô∏è Confian√ßa moderada")
else:
    print("‚ùå Baixa confian√ßa ‚Äî resultado incerto")

In [None]:
# b) Dist√¢ncia do novo caso em rela√ß√£o aos dados de treino
# Verifique se o novo livro √© similar aos exemplos que o modelo viu:

# Extrair vetores de features (j√° processadas)
X_train_transf = pipeline.named_steps["preprocessor"].transform(X_train)
novo_transf = pipeline.named_steps["preprocessor"].transform(novo_livro)

# Calcular dist√¢ncia m√©dia ao conjunto de treino
distancias = cosine_distances(novo_transf, X_train_transf)
distancia_min = np.min(distancias)

print(f"Dist√¢ncia m√≠nima ao conjunto de treino: {distancia_min:.3f}")

if distancia_min < 0.1:
    print("‚úÖ Novo livro √© similar a casos conhecidos ‚Äî previs√£o confi√°vel")
elif distancia_min < 0.3:
    print("‚ö†Ô∏è Novo livro √© parcialmente similar ‚Äî previs√£o moderadamente confi√°vel")
else:
    print("‚ùå Novo livro muito diferente ‚Äî previs√£o incerta")

In [None]:
# c) Visualiza√ß√£o: previs√µes vs. reais
# Um gr√°fico r√°pido para inspecionar se o modelo √© consistente:
plt.scatter(y_test, y_pred, alpha=0.6)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], "r--")
plt.xlabel("Vendas reais")
plt.ylabel("Vendas previstas")
plt.title("Acur√°cia das previs√µes por autor/livraria")
plt.show()

In [None]:
# üß© 4. Dica pr√°tica: criar uma ‚Äúfaixa de previs√£o‚Äù
# Voc√™ pode combinar a m√©dia e o desvio entre √°rvores para dar uma faixa de confian√ßa, por exemplo:
ic_inferior = media - 1.96 * desvio
ic_superior = media + 1.96 * desvio

print(f"Intervalo de confian√ßa 95%: {ic_inferior:.0f} a {ic_superior:.0f} c√≥pias")