# <center>Prevendo Nota de Games</center>

<br>

# 📌 **1️⃣ Descrição Geral**
Este projeto tem como objetivo **analisar os fatores que influenciam as avaliações médias (`Average`)** de jogos de tabuleiro, utilizando um conjunto de dados contendo informações de jogos registrados no **BoardGameGeek**.  

O conjunto de dados inclui características como **ano de lançamento, quantidade de usuários que avaliaram, média bayesiana e ranking**.  

A partir dessa análise, será desenvolvido um **modelo de regressão** para prever a média de avaliações (`Average`) de um jogo de tabuleiro com base em suas características.

---

# 🎯 **2️⃣ Objetivo do Projeto**
✔️ Explorar e **tratar o conjunto de dados**, corrigindo valores inconsistentes e lidando com valores ausentes.  
✔️ Realizar **análise exploratória** para compreender a distribuição dos dados e correlações entre as variáveis.  
✔️ **Pré-processar os dados**, aplicando transformações como **codificação de variáveis categóricas** e **tratamento de outliers**.  
✔️ Treinar e avaliar **modelos de Machine Learning** para prever a **média de avaliação (`Average`)** de um jogo de tabuleiro.  
✔️ Interpretar os resultados, destacando os **fatores mais relevantes** para a predição.  

---

# 📊 **3️⃣ Descrição do Dataset**
O conjunto de dados contém **41.161 registros** e **10 atributos**, conforme descrito abaixo:

| **Coluna**      | **Descrição**                                               | **Tipo de Dado** | **Valores Ausentes** |
|----------------|-------------------------------------------------------------|------------------|----------------------|
| `Unnamed: 0`   | Índice do dataset                                          | `int64`          | Nenhum               |
| `ID`           | Identificador único do jogo                                | `int64`          | Nenhum               |
| `Name`         | Nome do jogo                                               | `object`         | Nenhum               |
| `Year`         | Ano de lançamento do jogo                                  | `int64`          | Nenhum               |
| `Rank`         | Posição no ranking do BoardGameGeek                        | `int64`          | Nenhum               |
| `Average`      | Média das avaliações dos usuários (**Variável Alvo**)      | `float64`        | Nenhum               |
| `Bayes average`| Média bayesiana das avaliações                            | `float64`        | Nenhum               |
| `Users rated`  | Número de usuários que avaliaram o jogo                   | `int64`          | Nenhum               |
| `URL`          | Link para a página do jogo                                | `object`         | Nenhum               |
| `Thumbnail`    | URL da imagem do jogo                                     | `object`         | 19 valores ausentes  |

### **📌 Variável Alvo**
A variável **`Average`** representa a **média de avaliações** dos usuários para um jogo de tabuleiro.  
O objetivo do modelo preditivo será **estimar essa nota** com base nas demais características do jogo.

### **📌 Observações sobre o Dataset**
✔️ A coluna **`Rank`** pode ter **correlação com `Average`**, pois jogos mais bem ranqueados tendem a ter **avaliações mais altas**.  
✔️ A coluna **`Users rated`** pode impactar a previsão, pois **jogos com mais avaliações** podem ter **médias mais estáveis**.  
✔️ As colunas **`URL`** e **`Thumbnail`** são apenas **informativas** e **não serão utilizadas no modelo**.  
✔️ A variável **`Year`** pode ser transformada para representar a **"idade do jogo"** (`2025 - Year`).  

---

# 🔄 **4️⃣ Fluxograma do Processo**

## **1️⃣ Carregamento dos Dados**
✔️ **Importação das bibliotecas** necessárias (`pandas`, `numpy`, `matplotlib`, `seaborn`, `sklearn`).  
✔️ **Carregamento dos datasets** e **remoção de duplicatas**.  
✔️ **Verificação das primeiras amostras** (`df.head()`).  
✔️ **Inspeção dos tipos de dados e valores ausentes** (`df.info()`, `df.describe()`).  

---

## **2️⃣ Análise Exploratória dos Dados (EDA)**
✔️ **Exploração da estrutura e tipos das colunas** (`df.dtypes`).  
✔️ **Identificação de valores ausentes e inconsistências** (`df.isnull().sum()`).  
✔️ **Análise estatística descritiva** (`df.describe()`).  
✔️ **Geração de visualizações** para compreender distribuições e correlações:  
   - **Histogramas** para analisar a distribuição das variáveis.  
   - **Gráficos de dispersão** para identificar padrões entre variáveis.  
   - **Matriz de correlação** para verificar relações entre os atributos.  

---

## **3️⃣ Pré-Processamento**
✔️ **Tratamento da coluna `Year`**: converter para **Idade do Jogo (`2025 - Year`)**.  
✔️ **Remoção das colunas `Unnamed: 0`, `URL` e `Thumbnail`** (não relevantes para a predição).  
✔️ **Tratamento da variável categórica `Name`** (verificar se será utilizada ou descartada).  
✔️ **Tratamento de valores ausentes** na coluna `Thumbnail` (se necessário).  
✔️ **Identificação e tratamento de outliers** nas variáveis numéricas.  
✔️ **Normalização das variáveis numéricas**, se necessário.  

---

## **4️⃣ Divisão dos Dados**
✔️ **Separação do dataset** em:  
   - **Conjunto de Treino**: 80%  
   - **Conjunto de Teste**: 20%  
✔️ Uso da função **`train_test_split()`** do `sklearn`.  

---

## **5️⃣ Construção do Modelo**
✔️ **Seleção de modelos de Machine Learning** para predição de `Average`:  
   - **Regressão Linear** como modelo base.  
   - **Random Forest Regressor** para melhorar a performance.  
   - **XGBoost** como alternativa mais otimizada.  
✔️ **Treinamento de duas versões de cada modelo**:  
   - **Versão 1**: Modelo sem ajuste de hiperparâmetros.  
   - **Versão 2**: Modelo com ajuste de hiperparâmetros via **`GridSearchCV`** ou **`RandomizedSearchCV`**.  

---

## **6️⃣ Avaliação do Modelo**
✔️ **Teste do modelo** nos **dados de validação**.  
✔️ **Cálculo das métricas de desempenho**:  
   - **Erro Médio Absoluto (MAE)**  
   - **Erro Quadrático Médio (MSE)**  
   - **Raiz do Erro Quadrático Médio (RMSE)**  
   - **R² (Coeficiente de Determinação)**  
✔️ **Análise da importância das variáveis** para a previsão (`feature_importances_` no caso de modelos baseados em árvores).  

---

## **7️⃣ Criação de Novos Dados Fictícios**
✔️ **Geração de um conjunto de dados sintéticos**, contendo:  
   - **As mesmas variáveis preditoras** do conjunto original.  
   - **Valores respeitando os intervalos estatísticos** das variáveis numéricas.  

---

## **8️⃣ Transformação dos Novos Dados**
✔️ Aplicação do **mesmo pipeline de pré-processamento**:  
   - **Conversão da variável `Year` para Idade do Jogo**.  
   - **Normalização de variáveis numéricas** (se aplicável).  

---

## **9️⃣ Teste do Modelo com Novos Dados**
✔️ Aplicação do **modelo treinado** nos **novos dados fictícios**.  
✔️ **Previsão da variável `Average`** para os novos dados.  
✔️ Comparação dos **resultados gerados** com os dados reais (se disponíveis).  

---

# 🔟 **Análise e Comunicação dos Resultados**
✔️ **Identificação de padrões e tendências** nos dados preditivos.  
✔️ **Geração de visualizações** para demonstrar os **insights do modelo**.  
✔️ **Criação de um relatório final** com as principais conclusões:  
   - **Importância das variáveis no modelo**.  
   - **Fatores que mais influenciam a nota média dos jogos**.  
   - **Possíveis aplicações dos resultados para a indústria de jogos de tabuleiro**.  


<br><br><br>

---

<br><br>

# Importando Pacotes

# **1️⃣ Carregamento dos Dados**

In [1]:
import pandas as pd

# Carregar os dois datasets
df1 = pd.read_csv("dados/2020-08-19.csv")
df2 = pd.read_csv("dados/2022-01-08.csv")

# Concatenar os dataframes e remover duplicatas
df = pd.concat([df1, df2]).drop_duplicates()

# Exibir o número total de linhas após remoção de duplicatas
print(f"Total de linhas após remoção de duplicatas: {df.shape[0]}")

# Verificar se a junção foi bem-sucedida
df.info()


RuntimeError: module was compiled against NumPy C-API version 0x10 (NumPy 1.23) but the running NumPy has C-API version 0xf. Check the section C-API incompatibility at the Troubleshooting ImportError section at https://numpy.org/devdocs/user/troubleshooting-importerror.html#c-api-incompatibility for indications on how to solve this problem.

Total de linhas após remoção de duplicatas: 41161
<class 'pandas.core.frame.DataFrame'>
Index: 41161 entries, 0 to 21830
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Unnamed: 0     41161 non-null  int64  
 1   ID             41161 non-null  int64  
 2   Name           41161 non-null  object 
 3   Year           41161 non-null  int64  
 4   Rank           41161 non-null  int64  
 5   Average        41161 non-null  float64
 6   Bayes average  41161 non-null  float64
 7   Users rated    41161 non-null  int64  
 8   URL            41161 non-null  object 
 9   Thumbnail      41142 non-null  object 
dtypes: float64(2), int64(5), object(3)
memory usage: 3.5+ MB


# **2️⃣ Análise Exploratória dos Dados (EDA)**

# **3️⃣ Pré-Processamento**

# **4️⃣ Divisão dos Dados**

# **5️⃣ Construção dos Modelos**

# **6️⃣ Avaliação dos Modelos**

# **7️⃣ Criação de Novos Dados Fictícios**

# **8️⃣ Transformação dos Novos Dados**

# **9️⃣ Teste do Modelo com Novos Dados**

# 🔟 **Análise e Comunicação dos Resultados**