# ðŸ“Œ Treinamento do Modelo â€“ ExplicaÃ§Ã£o Geral
Este notebook treina um classificador de gÃªneros de jogos usando TFâ€‘IDF e SVM.

## ðŸ”¹ Carregando o Dataset
Carregamos o CSV com descriÃ§Ãµes e gÃªneros dos jogos.

In [24]:
import pandas as pd
import ast

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC
import joblib

# Carrega o CSV gerado no notebook de coleta
df = pd.read_csv("../data/games_extended.csv")
print("Shape carregado do CSV:", df.shape)
df.head()


Shape carregado do CSV: (400, 3)


Unnamed: 0,name,description,genres
0,Grand Theft Auto V,"Rockstar Games went bigger, since their previo...",['Strategy']
1,The Witcher 3: Wild Hunt,"The third game in a series, it holds nothing b...","['Action', 'RPG']"
2,Portal 2,Portal 2 is a first-person puzzle game develop...,"['Shooter', 'Puzzle']"
3,Counter-Strike: Global Offensive,Counter-Strike is a multiplayer phenomenon in ...,['Shooter']
4,Tomb Raider (2013),A cinematic revival of the series in its actio...,['Action']


## ðŸ”¹ SeparaÃ§Ã£o Treino/Teste
Dividimos os dados em treino e teste para avaliar o modelo.

## ðŸ”¹ PreparaÃ§Ã£o: SeparaÃ§Ã£o Treino/Teste
O dataset Ã© dividido em treino e teste para validar a performance do modelo.

## ðŸ”¹ VetorizaÃ§Ã£o TFâ€‘IDF
Transformamos o texto das descriÃ§Ãµes em vetores numÃ©ricos.

In [25]:
# Garante que a descriÃ§Ã£o nÃ£o Ã© nula
df["description"] = df["description"].fillna("")

def first_genre(genres_obj):
    """
    Converte a coluna 'genres' (lista ou string de lista) e retorna apenas
    o primeiro gÃªnero, para simplificar o problema de classificaÃ§Ã£o.
    """
    # Se jÃ¡ veio como lista
    if isinstance(genres_obj, list):
        return genres_obj[0] if len(genres_obj) > 0 else "Unknown"
    # Se veio como string representando lista
    try:
        genres_list = ast.literal_eval(genres_obj)
        if isinstance(genres_list, list) and len(genres_list) > 0:
            return genres_list[0]
    except Exception:
        pass
    return "Unknown"

df["genre"] = df["genres"].apply(first_genre)

# Remove descriÃ§Ãµes extremamente curtas
df = df[df["description"].str.len() > 10]

print("Shape depois do tratamento:", df.shape)
print("DistribuiÃ§Ã£o de gÃªneros:")
print(df["genre"].value_counts())
df[["name", "genre"]].head()


Shape depois do tratamento: (400, 4)
DistribuiÃ§Ã£o de gÃªneros:
genre
Action        308
Adventure      28
Strategy       20
RPG            18
Shooter        11
Simulation      5
Racing          3
Indie           3
Sports          1
Platformer      1
Casual          1
Arcade          1
Name: count, dtype: int64


Unnamed: 0,name,genre
0,Grand Theft Auto V,Strategy
1,The Witcher 3: Wild Hunt,Action
2,Portal 2,Shooter
3,Counter-Strike: Global Offensive,Shooter
4,Tomb Raider (2013),Action


## ðŸ”¹ AvaliaÃ§Ã£o do Modelo
Medimos a acurÃ¡cia no conjunto de teste.

In [26]:
# AvaliaÃ§Ã£o simples de acurÃ¡cia no conjunto de teste
X_test_vec = vectorizer.transform(X_test)
accuracy = clf.score(X_test_vec, y_test)
print("AcurÃ¡cia no conjunto de teste:", accuracy)


AcurÃ¡cia no conjunto de teste: 0.7375


## ðŸ”¹ Salvando o Modelo Treinado
O modelo e o vetorizador serÃ£o salvos na pasta `../model/`.

In [27]:
import pathlib, joblib

model_dir = pathlib.Path("../model")
model_dir.mkdir(exist_ok=True)

classifier_path = model_dir / "classifier.pkl"
vectorizer_path = model_dir / "vectorizer.pkl"

joblib.dump(clf, classifier_path)
joblib.dump(vectorizer, vectorizer_path)

print("Modelo salvo em:", classifier_path)
print("Vetorizador salvo em:", vectorizer_path)


Modelo salvo em: ..\model\classifier.pkl
Vetorizador salvo em: ..\model\vectorizer.pkl
