# Treinamento do Modelo â€“ VersÃ£o Final ðŸŽ®ðŸ¤–
Este notebook foi reorganizado para ficar mais fluido, didÃ¡tico e agradÃ¡vel, mantendo **todo o conteÃºdo REAL** do seu arquivo original.


## ðŸŒŸ VisÃ£o Geral
Aqui apresentamos o processo completo de treinamento e avaliaÃ§Ã£o do modelo de Machine Learning utilizado para classificar gÃªneros de jogos.


# ðŸ“˜ Treinamento do Modelo â€“ ClassificaÃ§Ã£o Single-Label de GÃªneros de Jogos

Este notebook realiza o processamento dos dados textuais, preparaÃ§Ã£o do corpus, vetorizaÃ§Ã£o com **TF-IDF** e treinamento de um classificador **Single-Label** para prever o gÃªnero principal de um jogo usando sua descriÃ§Ã£o textual.

## ðŸ”¹ ImportaÃ§Ãµes
Nesta seÃ§Ã£o importamos as bibliotecas necessÃ¡rias para manipulaÃ§Ã£o dos dados, vetorizaÃ§Ã£o, treinamento e avaliaÃ§Ã£o do modelo.

In [1]:
import pandas as pd
import ast

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC
from sklearn.metrics import classification_report
from sklearn.utils import resample
import joblib
import pathlib

print("Bibliotecas importadas.")


Bibliotecas importadas.


## ðŸ”¹ Carregamento do Dataset
Aqui carregamos o arquivo CSV gerado na etapa anterior de coleta de dados e garantimos que nÃ£o haja valores nulos na descriÃ§Ã£o.

In [2]:
df = pd.read_csv("../data/games_extended.csv")
print("Shape carregado:", df.shape)

df["description"] = df["description"].fillna("")
df.head()


Shape carregado: (400, 3)


Unnamed: 0,name,description,genres
0,Grand Theft Auto V,"Rockstar Games went bigger, since their previo...",['Strategy']
1,The Witcher 3: Wild Hunt,"The third game in a series, it holds nothing b...","['Action', 'RPG']"
2,Portal 2,Portal 2 is a first-person puzzle game develop...,"['Shooter', 'Puzzle']"
3,Counter-Strike: Global Offensive,Counter-Strike is a multiplayer phenomenon in ...,['Shooter']
4,Tomb Raider (2013),A cinematic revival of the series in its actio...,['Action']


## ðŸ”¹ SeleÃ§Ã£o de um Ãšnico GÃªnero (primeiro da lista)
O RAWG fornece mÃºltiplos gÃªneros, mas para este projeto usamos apenas o primeiro gÃªnero, criando assim um problema Single-Label.

In [3]:
def first_genre(genres_obj):
    if isinstance(genres_obj, list):
        return genres_obj[0]
    try:
        genres_list = ast.literal_eval(genres_obj)
        if isinstance(genres_list, list) and len(genres_list) > 0:
            return genres_list[0]
    except Exception:
        pass
    return "Unknown"

df["genre"] = df["genres"].apply(first_genre)

print("DistribuiÃ§Ã£o original dos gÃªneros:")
print(df["genre"].value_counts())


DistribuiÃ§Ã£o original dos gÃªneros:
genre
Action        308
Adventure      28
Strategy       20
RPG            18
Shooter        11
Simulation      5
Racing          3
Indie           3
Sports          1
Platformer      1
Casual          1
Arcade          1
Name: count, dtype: int64


## ðŸ”¹ Balanceamento das Classes
Para evitar que o modelo aprenda apenas o gÃªnero mais frequente (ex.: Action), realizamos balanceamento via *undersampling*.

In [4]:
counts = df["genre"].value_counts()
print("DistribuiÃ§Ã£o antes do balanceamento:\n", counts)

min_count = counts.min()

df_balanced = pd.concat([
    resample(group, replace=True, n_samples=min_count, random_state=42)
    for genre, group in df.groupby("genre")
])

df = df_balanced.sample(frac=1, random_state=42).reset_index(drop=True)

print("\nDistribuiÃ§Ã£o apÃ³s o balanceamento:")
print(df["genre"].value_counts())


DistribuiÃ§Ã£o antes do balanceamento:
 genre
Action        308
Adventure      28
Strategy       20
RPG            18
Shooter        11
Simulation      5
Racing          3
Indie           3
Sports          1
Platformer      1
Casual          1
Arcade          1
Name: count, dtype: int64

DistribuiÃ§Ã£o apÃ³s o balanceamento:
genre
Sports        1
Simulation    1
Action        1
Shooter       1
Platformer    1
Arcade        1
Adventure     1
Strategy      1
Indie         1
Racing        1
Casual        1
RPG           1
Name: count, dtype: int64


## ðŸ”¹ SeparaÃ§Ã£o Treino/Teste
Dividimos o data set em 80% treino e 20% teste.

In [5]:
X = df["description"]
y = df["genre"]

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

print("Tamanho treino:", len(X_train))
print("Tamanho teste:", len(X_test))


Tamanho treino: 9
Tamanho teste: 3


## ðŸ”¹ VetorizaÃ§Ã£o TF-IDF
Transformamos as descriÃ§Ãµes em vetores numÃ©ricos usando n-grams.

In [6]:
vectorizer = TfidfVectorizer(
    stop_words="english",
    ngram_range=(1, 2),
    max_features=20000
)

X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

print("Formato vetores treino:", X_train_vec.shape)
print("Formato vetores teste:", X_test_vec.shape)


Formato vetores treino: (9, 2725)
Formato vetores teste: (3, 2725)


## ðŸ”¹ Treinamento do Classificador
Usamos um modelo LinearSVC com ajuste de pesos para lidar com classes desbalanceadas.

In [7]:
clf = LinearSVC(class_weight="balanced")
clf.fit(X_train_vec, y_train)
print("Treinamento concluÃ­do.")


Treinamento concluÃ­do.


## ðŸ”¹ AvaliaÃ§Ã£o do Modelo
Aqui exibimos mÃ©tricas como precision, recall e f1-score.

In [8]:
y_pred = clf.predict(X_test_vec)
print(classification_report(y_test, y_pred))


              precision    recall  f1-score   support

      Action       0.00      0.00      0.00       0.0
      Casual       0.00      0.00      0.00       1.0
      Racing       0.00      0.00      0.00       1.0
     Shooter       0.00      0.00      0.00       0.0
      Sports       0.00      0.00      0.00       1.0

    accuracy                           0.00       3.0
   macro avg       0.00      0.00      0.00       3.0
weighted avg       0.00      0.00      0.00       3.0



  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])
  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])
  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])
  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])
  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])
  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])


## ðŸ”¹ Salvando o Modelo e o Vetorizador
Salvamos os artefatos para que possam ser utilizados no app Streamlit.

In [9]:
model_dir = pathlib.Path("../model")
model_dir.mkdir(exist_ok=True)

joblib.dump(clf, model_dir / "classifier.pkl")
joblib.dump(vectorizer, model_dir / "vectorizer.pkl")

print("Classificador salvo em:", model_dir / "classifier.pkl")
print("Vetorizador salvo em:", model_dir / "vectorizer.pkl")


Classificador salvo em: ..\model\classifier.pkl
Vetorizador salvo em: ..\model\vectorizer.pkl
