# Leitura e tratamento dos dados

In [1]:
import pandas as pd

df = pd.read_csv("/content/books.csv")
df.head()

Unnamed: 0,title,price,review/helpfulness,review/summary,review/text,description,authors,categories,popularity
0,We Band of Angels: The Untold Story of America...,10.88,2/3,A Great Book about women in WWII,I have alway been a fan of fiction books set i...,"In the fall of 1941, the Philippines was a gar...",'Elizabeth Norman','History',Unpopular
1,Prayer That Brings Revival: Interceding for Go...,9.35,0/0,Very helpful book for church prayer groups and...,Very helpful book to give you a better prayer ...,"In Prayer That Brings Revival, best-selling au...",'Yong-gi Cho','Religion',Unpopular
2,The Mystical Journey from Jesus to Christ,24.95,17/19,Universal Spiritual Awakening Guide With Some ...,The message of this book is to find yourself a...,THE MYSTICAL JOURNEY FROM JESUS TO CHRIST Disc...,'Muata Ashby',"'Body, Mind & Spirit'",Unpopular
3,Death Row,7.99,0/1,Ben Kincaid tries to stop an execution.,The hero of William Bernhardt's Ben Kincaid no...,"Upon receiving his execution date, one of the ...",'Lynden Harris','Social Science',Unpopular
4,Sound and Form in Modern Poetry: Second Editio...,32.5,18/20,good introduction to modern prosody,There's a lot in this book which the reader wi...,An updated and expanded version of a classic a...,"'Harvey Seymour Gross', 'Robert McDowell'",'Poetry',Unpopular


In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15719 entries, 0 to 15718
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   title               15719 non-null  object 
 1   price               15719 non-null  float64
 2   review/helpfulness  15719 non-null  object 
 3   review/summary      15718 non-null  object 
 4   review/text         15719 non-null  object 
 5   description         15719 non-null  object 
 6   authors             15719 non-null  object 
 7   categories          15719 non-null  object 
 8   popularity          15719 non-null  object 
dtypes: float64(1), object(8)
memory usage: 1.1+ MB


In [3]:
df["popularity"].value_counts(normalize=True)

Unnamed: 0_level_0,proportion
popularity,Unnamed: 1_level_1
Unpopular,0.667345
Popular,0.332655


Verificamos o balanceamento da variável alvo para decidir
se precisaremos de técnicas como class_weight.

In [4]:
df = df.groupby("categories").filter(lambda x: len(x) > 100)

In [5]:
df[["num_helpful", "num_total"]] = df["review/helpfulness"].str.split("/", expand=True)
df["num_helpful"] = df["num_helpful"].astype(int)
df["num_total"] = df["num_total"].astype(int)

df["perc_helpful"] = df["num_helpful"] / df["num_total"]
df["perc_helpful"] = df["perc_helpful"].fillna(0)

df.drop(columns=["review/helpfulness"], inplace=True)


In [6]:
# Lowercase dos textos
for col in ["review/text", "review/summary", "description"]:
    df[col] = df[col].str.lower()


Medida de positividade textual

In [7]:
from sklearn.feature_extraction.text import CountVectorizer

palavras_positivas = [
    "great","excellent","good","interesting","enjoy","helpful","useful","like",
    "love","beautiful","fantastic","perfect","wonderful","impressive","amazing"
]

vectorizer = CountVectorizer(vocabulary=palavras_positivas)

df["pos_text"] = vectorizer.fit_transform(df["review/text"].fillna("")).sum(axis=1)
df["pos_sum"] = vectorizer.fit_transform(df["review/summary"].fillna("")).sum(axis=1)
df["pos_desc"] = vectorizer.fit_transform(df["description"].fillna("")).sum(axis=1)


Remover textos brutos

In [8]:
df.drop(columns=["review/text", "review/summary", "description"], inplace=True)

One-hot encoding de categorias

In [9]:
df = pd.get_dummies(df, columns=["categories"], drop_first=True)

Agora os dados numéricos e categóricos estão prontos para modelagem.


In [10]:
from sklearn.model_selection import train_test_split

# Definir features e alvo
X = df.drop(columns=["title", "authors", "popularity"])
y = df["popularity"]

# Separar treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.25,
    random_state=42,
    stratify=y
)

X_train.shape, X_test.shape


((10410, 40), (3471, 40))

Os dados foram tratados com:

- limpeza textual
- engenharia de atributos
- variáveis sentimentais
- one-hot encoding
- normalização lógica de métricas

Agora treinaremos modelos.

# — Modelagem: Três Modelos de Classificação

Nesta etapa, vamos treinar três modelos diferentes para prever a variável **popularity**:

1. Regressão Logística — modelo linear, interpretável, usado como baseline.
2. Random Forest — modelo de árvores, não linear, robusto.
3. Gradient Boosting — modelo de boosting, que combina várias árvores fracas de forma sequencial.

Ao final, construiremos um **ensemble** combinando as previsões dos três modelos
para verificar se a combinação melhora a performance.


## Modelo 1 — Regressão Logística

A Regressão Logística é usada como **modelo baseline** para este problema de classificação.

Motivos da escolha:
- É simples e rápida;
- Fornece uma boa linha de base para comparação;
- É interpretável, mostrando o efeito (log-odds) das variáveis sobre a probabilidade de um livro ser popular.

In [11]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

log_reg = LogisticRegression(max_iter=1000)

log_reg.fit(X_train, y_train)

y_pred_log = log_reg.predict(X_test)

acc_log = accuracy_score(y_test, y_pred_log)
print("Acurácia - Regressão Logística:", acc_log)

print("\nRelatório de classificação - Regressão Logística:")
print(classification_report(y_test, y_pred_log))


Acurácia - Regressão Logística: 0.6695476807836358

Relatório de classificação - Regressão Logística:
              precision    recall  f1-score   support

     Popular       0.53      0.09      0.15      1157
   Unpopular       0.68      0.96      0.79      2314

    accuracy                           0.67      3471
   macro avg       0.60      0.52      0.47      3471
weighted avg       0.63      0.67      0.58      3471



## Modelo 2 — Random Forest Classifier

A Random Forest é um modelo baseado em **múltiplas árvores de decisão**.

Por que escolher Random Forest?

- Captura relações não lineares;
- Lida bem com variáveis categóricas transformadas em dummies;
- É robusta a outliers;
- Consegue modelar interações entre variáveis sem que a gente precise criá-las manualmente.

In [12]:
from sklearn.ensemble import RandomForestClassifier

rf_clf = RandomForestClassifier(
    n_estimators=200,
    max_depth=None,
    min_samples_split=2,
    random_state=42,
    class_weight="balanced"
)

rf_clf.fit(X_train, y_train)

y_pred_rf = rf_clf.predict(X_test)

acc_rf = accuracy_score(y_test, y_pred_rf)
print("Acurácia - Random Forest:", acc_rf)

print("\nRelatório de classificação - Random Forest:")
print(classification_report(y_test, y_pred_rf))

Acurácia - Random Forest: 0.7058484586574474

Relatório de classificação - Random Forest:
              precision    recall  f1-score   support

     Popular       0.59      0.38      0.46      1157
   Unpopular       0.74      0.87      0.80      2314

    accuracy                           0.71      3471
   macro avg       0.66      0.62      0.63      3471
weighted avg       0.69      0.71      0.69      3471



## Modelo 3 — GradientBoostingClassifier

O Gradient Boosting é um modelo de **boosting**, que treina várias árvores fracas em sequência.

Ideia principal:
- Cada nova árvore tenta corrigir os erros das anteriores;
- O modelo vai ajustando gradualmente os resíduos;
- Costuma ter excelente desempenho em dados tabulares, capturando padrões complexos.

Ele é complementar à Random Forest:
- RF = várias árvores independentes, média das previsões;
- GB = árvores em série, uma corrigindo a outra.

In [13]:
from sklearn.ensemble import GradientBoostingClassifier

gb_clf = GradientBoostingClassifier(
    n_estimators=150,
    learning_rate=0.1,
    max_depth=3,
    random_state=42
)

gb_clf.fit(X_train, y_train)

y_pred_gb = gb_clf.predict(X_test)

acc_gb = accuracy_score(y_test, y_pred_gb)
print("Acurácia - Gradient Boosting:", acc_gb)

print("\nRelatório de classificação - Gradient Boosting:")
print(classification_report(y_test, y_pred_gb))


Acurácia - Gradient Boosting: 0.6825122443099971

Relatório de classificação - Gradient Boosting:
              precision    recall  f1-score   support

     Popular       0.60      0.15      0.24      1157
   Unpopular       0.69      0.95      0.80      2314

    accuracy                           0.68      3471
   macro avg       0.64      0.55      0.52      3471
weighted avg       0.66      0.68      0.61      3471



## Ensemble — Combinação de Três Modelos

Vamos utilizar um ensemble de **voto por probabilidade** (soft voting):

1. Cada modelo produz uma distribuição de probabilidade para cada classe.
2. Fazemos a média das probabilidades.
3. A classe escolhida é aquela com maior probabilidade média.

A ideia é que modelos diferentes cometem erros diferentes.
Ao combiná-los, podemos suavizar erros individuais e ganhar estabilidade.


In [15]:
import numpy as np
from sklearn.metrics import accuracy_score

# Probabilidades dos três modelos
proba_log = log_reg.predict_proba(X_test)
proba_rf = rf_clf.predict_proba(X_test)
proba_gb = gb_clf.predict_proba(X_test)

# Média das probabilidades
proba_ensemble_mean = (proba_log + proba_rf + proba_gb) / 3

# Índice da classe com maior probabilidade
idx_max = np.argmax(proba_ensemble_mean, axis=1)

# Mapear índices de volta para os rótulos originais
class_labels = log_reg.classes_   # ['Popular', 'Unpopular'] ou parecido
y_pred_ensemble = class_labels[idx_max]

# Agora y_pred_ensemble é array de strings, igual ao y_test
acc_ensemble = accuracy_score(y_test, y_pred_ensemble)
print("Acurácia - Ensemble (média):", acc_ensemble)


Acurácia - Ensemble (média): 0.700086430423509


# Comparador de recall da classe popular

In [16]:
from sklearn.metrics import classification_report
from sklearn.ensemble import RandomForestClassifier
from imblearn.over_sampling import SMOTE
import pandas as pd
import numpy as np

resultados_recall = []

# Função para extrair recall da classe Popular
def recall_popular(y_true, y_pred):
    report = classification_report(y_true, y_pred, output_dict=True)
    if 'Popular' in report:
        return report['Popular']['recall']
    else:
        # fallback para classe 1 se estiver numérico
        return report['1']['recall']


# ==============================
# MODELO BASE (Random Forest atual)
# ==============================

rf_base = rf_clf
y_pred_base = rf_base.predict(X_test)

resultados_recall.append(["RF Base", recall_popular(y_test, y_pred_base)])


# ==============================
# THRESHOLD TUNING
# ==============================

proba_rf = rf_base.predict_proba(X_test)[:,1]
thresholds = np.arange(0.15, 0.55, 0.05)

for t in thresholds:
    y_pred_thresh = np.where(proba_rf >= t, "Popular", "Unpopular")
    resultados_recall.append([f"RF Threshold = {round(t,2)}", recall_popular(y_test, y_pred_thresh)])


# ==============================
# WEIGHT TUNING
# ==============================

rf_weighted = RandomForestClassifier(
    n_estimators=200,
    random_state=42,
    class_weight={"Unpopular":1, "Popular":3}
)

rf_weighted.fit(X_train, y_train)
y_pred_weighted = rf_weighted.predict(X_test)

resultados_recall.append(["RF Weight=1:3", recall_popular(y_test, y_pred_weighted)])


# ==============================
# SMOTE
# ==============================

sm = SMOTE(random_state=42)
X_train_sm, y_train_sm = sm.fit_resample(X_train, y_train)

rf_smote = RandomForestClassifier(n_estimators=200, random_state=42)
rf_smote.fit(X_train_sm, y_train_sm)

y_pred_smote = rf_smote.predict(X_test)
resultados_recall.append(["RF com SMOTE", recall_popular(y_test, y_pred_smote)])


# ==============================
# RESULTADOS
# ==============================

df_resultados = pd.DataFrame(resultados_recall, columns=["Modelo", "Recall Popular"])
df_resultados.sort_values(by="Recall Popular", ascending=False)


Unnamed: 0,Modelo,Recall Popular
1,RF Threshold = 0.15,0.959378
2,RF Threshold = 0.2,0.942092
3,RF Threshold = 0.25,0.910977
4,RF Threshold = 0.3,0.871219
5,RF Threshold = 0.35,0.820225
6,RF Threshold = 0.4,0.770959
7,RF Threshold = 0.45,0.713051
8,RF Threshold = 0.5,0.624892
10,RF com SMOTE,0.442524
0,RF Base,0.375108


## Otimização da Classe Popular via Threshold Tuning

Como a classe "Popular" é minoritária, o modelo apresentava baixo recall (≈ 38%)
ao usar o threshold padrão de 0.5.

Testamos vários thresholds e observamos:

- Threshold = 0.50 → Recall = 0.62
- Threshold = 0.35 → Recall ≈ 0.82
- Threshold = 0.30 → Recall ≈ 0.87
- Threshold = 0.20 → Recall ≈ 0.94
- Threshold = 0.15 → Recall ≈ 0.96

Conclusão:
Ajustar o threshold é a técnica mais eficaz para esse problema.

Entretanto, valores muito baixos causam excesso de falsos positivos.

Foi escolhido:

Threshold = 0.30 (balanceamento ótimo entre recall e precisão)


# Modelo Final — Random Forest com Threshold Otimizado

Após comparar três modelos (Regressão Logística, Random Forest e Gradient Boosting)
e testar diferentes estratégias para melhorar a classe **Popular**,
o melhor compromisso entre desempenho geral e recall da classe Popular
foi obtido com Random Forest Classifier + ajuste de threshold para a classe Popular (0.30)

Em vez de usar o limiar padrão de 0.5 para decidir a classe,
passamos a classificar um livro como Popular quando:

$[
P(\text{Popular}) \ge 0{,}30
]$

Isso aumenta de forma significativa o recall da classe Popular,
mantendo uma acurácia geral aceitável.


In [22]:
import numpy as np
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Índice da classe "Popular" no vetor de probabilidades
classes_rf = rf_clf.classes_
idx_popular = np.where(classes_rf == "Popular")[0][0]

# Probabilidade da classe Popular
proba_popular = rf_clf.predict_proba(X_test)[:, idx_popular]

# Threshold ideal escolhido (a partir da tabela comparativa)
threshold_final = 0.30

# Regra de decisão final
y_pred_final = np.where(proba_popular >= threshold_final, "Popular", "Unpopular")

# Métricas finais
acc_final = accuracy_score(y_test, y_pred_final)
print("Acurácia - Modelo Final RF (threshold = 0.30):", acc_final)

print("\nRelatório de classificação - Modelo Final:")
print(classification_report(y_test, y_pred_final))

cm = confusion_matrix(y_test, y_pred_final, labels=["Popular", "Unpopular"])
cm


Acurácia - Modelo Final RF (threshold = 0.30): 0.6940363007778738

Relatório de classificação - Modelo Final:
              precision    recall  f1-score   support

     Popular       0.53      0.69      0.60      1157
   Unpopular       0.82      0.70      0.75      2314

    accuracy                           0.69      3471
   macro avg       0.67      0.69      0.68      3471
weighted avg       0.72      0.69      0.70      3471



array([[ 799,  358],
       [ 704, 1610]])

## Avaliação Final do Modelo

O modelo final escolhido foi o Random Forest com threshold ajustado (0.30)

Esse ajuste produziu:

- Recall da classe Popular ≈ 69%;
- F1-score Popular = 60%;
- Acurácia global = 69,4%;

Comparativamente:

- O modelo original (threshold 0.50) possuía recall Popular ≈ 38%;
- O modelo final mais que dobrou a taxa de acerto da classe crítica.

Apesar de pequena queda na acurácia geral, houve ganho significativo na detecção de livros populares, o que é mais relevante em aplicações reais.

O ensemble foi usado para comparar se a combinação de modelos poderia superar o melhor classificador individual. Entretanto, após aplicada a técnica de threshold tuning, a análise deixa de ser comparável entre modelos.