# An√°lise de Vendas de Video Games com Machine Learning üéÆ

Neste projeto, utilizarei um dataset p√∫blico com informa√ß√µes sobre vendas globais de jogos eletr√¥nicos. O objetivo √© entender os fatores que influenciam o sucesso de vendas de um jogo, utilizando t√©cnicas de Machine Learning para prever se um jogo ser√° ou n√£o um sucesso (com base em suas caracter√≠sticas como g√™nero, plataforma e regi√£o de vendas).

Este notebook ser√° desenvolvido para a etapa:
1. Visualiza√ß√£o e gera√ß√£o de insights
2. An√°lises
3. Conclus√£o geral das an√°lises de acur√°cia

In [1]:
import joblib
import pandas as pd
from sklearn.metrics import classification_report
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.model_selection import train_test_split

df_model = pd.read_csv("C:/data/Video Game Sales/video_game_sales_com_target.csv")

# Carregar o pipeline salvo
pipeline_rf = joblib.load('C:/ML/modelos/vgchartz_model_random_forest.joblib')

In [2]:
# Separar features e target
X = df_model.drop(columns=['Sucesso'])
y = df_model['Sucesso']

# Dividir os dados (sem aplicar transforma√ß√µes)
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.3,
    random_state=42,
    stratify=y
)

In [3]:
# Previs√µes com o pipeline, que j√° tem pr√©-processamento embutido
y_pred = pipeline_rf.predict(X_test)

In [4]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00      4751
           1       1.00      0.99      0.99       439

    accuracy                           1.00      5190
   macro avg       1.00      0.99      1.00      5190
weighted avg       1.00      1.00      1.00      5190



In [5]:
df_completo = df_model.loc[X_test.index].copy()
df_completo['Previsao_Sucesso'] = y_pred

## **An√°lises**

### **Quais g√™neros t√™m maior chance de sucesso?**

Avaliei a **propor√ß√£o de jogos bem-sucedidos por g√™nero**, com base nas previs√µes geradas pelo modelo de Machine Learning. Para isso, calculei a m√©dia da vari√°vel `Previsao_Sucesso` agrupada por g√™nero.

Os resultados mostram que:

- O g√™nero **Sandbox** se destacou com **100% de chance de sucesso**, sendo o √∫nico com todas as amostras classificadas como bem-sucedidas.
- Em seguida, vieram os g√™neros **Action-Adventure (21%)**, **Shooter (18%)** e **MMO (12%)**, apresentando desempenho consideravelmente acima da m√©dia geral.
- G√™neros como **Party**, **Education**, **Board Game** e **Visual Novel** apresentaram **0% de chance de sucesso**, ou seja, nenhuma amostra desses g√™neros foi prevista como bem-sucedida.

Esse resultado sugere que certos g√™neros t√™m maior potencial de sucesso comercial, o que pode refletir tend√™ncias de mercado, prefer√™ncias do p√∫blico ou estrat√©gias adotadas pelos desenvolvedores.

> üîé **Observa√ß√£o**: O modelo pode estar influenciado pelo volume e equil√≠brio de amostras em cada g√™nero, bem como por poss√≠veis correla√ß√µes com vari√°veis como plataforma, data de lan√ßamento e regi√£o de vendas. Por isso, os dados devem ser interpretados com cautela.


In [6]:
df_genero_sucesso = df_completo.groupby('genre')['Previsao_Sucesso'].mean().sort_values(ascending=False).round(2)
print(df_genero_sucesso)

genre
Sandbox             1.00
Action-Adventure    0.21
Shooter             0.18
MMO                 0.12
Sports              0.11
Fighting            0.10
Racing              0.09
Action              0.09
Misc                0.07
Simulation          0.07
Platform            0.07
Role-Playing        0.05
Adventure           0.04
Music               0.02
Puzzle              0.02
Strategy            0.02
Party               0.00
Education           0.00
Board Game          0.00
Visual Novel        0.00
Name: Previsao_Sucesso, dtype: float64


### **An√°lise de acur√°cia por G√™nero**

Avaliei a acur√°cia por g√™nero comparando as previs√µes do modelo com os r√≥tulos reais dos dados de teste.

In [7]:
df_avaliacao = df_completo.copy()
df_avaliacao['Real_Sucesso'] = y_test

# Calculando acur√°cia por plataforma
df_acerto_por_genero = df_avaliacao.groupby('genre').apply(
    lambda df: (df['Previsao_Sucesso'] == df['Real_Sucesso']).mean().round(2)
).sort_values(ascending=False)

print(df_acerto_por_genero)

genre
Action              1.00
Action-Adventure    1.00
Strategy            1.00
Sports              1.00
Simulation          1.00
Shooter             1.00
Sandbox             1.00
Role-Playing        1.00
Racing              1.00
Platform            1.00
Party               1.00
Music               1.00
Misc                1.00
MMO                 1.00
Fighting            1.00
Education           1.00
Board Game          1.00
Adventure           1.00
Visual Novel        1.00
Puzzle              0.99
dtype: float64


  df_acerto_por_genero = df_avaliacao.groupby('genre').apply(


### **An√°lise da Chance de Sucesso e Acur√°cia por G√™nero**

In [8]:
# Unido os dois Series em um √∫nico DataFrame
df_analise_genero = pd.concat([df_genero_sucesso, df_acerto_por_genero], axis=1)

# Renomeando colunas
df_analise_genero.columns = ['Chance de Sucesso', 'Acur√°cia']

# Reset do √≠ndice para deixar o g√™nero como coluna comum
df_analise_genero = df_analise_genero.reset_index()
df_analise_genero = df_analise_genero.rename(columns={'index': 'G√™nero'})

# Ordenar por Chance de Sucesso, do maior para o menor
df_analise_genero = df_analise_genero.sort_values(by='Chance de Sucesso', ascending=False)

print(df_analise_genero)

               genre  Chance de Sucesso  Acur√°cia
0            Sandbox               1.00      1.00
1   Action-Adventure               0.21      1.00
2            Shooter               0.18      1.00
3                MMO               0.12      1.00
4             Sports               0.11      1.00
5           Fighting               0.10      1.00
6             Racing               0.09      1.00
7             Action               0.09      1.00
9         Simulation               0.07      1.00
10          Platform               0.07      1.00
8               Misc               0.07      1.00
11      Role-Playing               0.05      1.00
12         Adventure               0.04      1.00
13             Music               0.02      1.00
14            Puzzle               0.02      0.99
15          Strategy               0.02      1.00
16             Party               0.00      1.00
17         Education               0.00      1.00
18        Board Game               0.00      1.00

### **Quais consoles apresentaram maior propor√ß√£o de jogos bem-sucedidos?**

Avaliei a propor√ß√£o de sucesso prevista para os jogos em cada console, com base nas previs√µes do modelo. Os consoles que apresentaram maior propor√ß√£o de jogos bem-sucedidos foram o **NES** (47%) e o **Mega Drive (GEN)** com 43%. J√° consoles mais recentes como **Xbox 360**, **PlayStation 4** e **PlayStation 3** tiveram propor√ß√µes mais modestas, entre 13% e 18%. A maioria dos demais consoles obteve propor√ß√µes de sucesso inferiores a 10%.

In [9]:
df_console_sucesso = df_completo.groupby('console')['Previsao_Sucesso'].mean().sort_values(ascending=False).round(2)
print(df_console_sucesso)

console
NES     0.47
GEN     0.43
X360    0.18
PS4     0.16
GB      0.15
PS3     0.15
PS      0.14
XOne    0.13
PS2     0.10
SNES    0.09
Wii     0.07
N64     0.06
DC      0.06
GBA     0.05
XB      0.05
PC      0.05
PSP     0.04
DS      0.03
GC      0.03
NS      0.03
SAT     0.02
PSV     0.02
3DS     0.01
WiiU    0.00
GG      0.00
VC      0.00
SCD     0.00
NG      0.00
3DO     0.00
Name: Previsao_Sucesso, dtype: float64


### **An√°lise de acur√°cia por Console**

Avaliei a acur√°cia das previs√µes do modelo para cada console, verificando a propor√ß√£o de acertos entre as previs√µes e os valores reais de sucesso. No resultado, a maioria dos consoles obteve acur√°cia de **100%**, indicando que o modelo acertou todas as previs√µes para esses grupos. Apenas tr√™s consoles ‚Äî **N64**,

In [10]:
df_avaliacao = df_completo.copy()
df_avaliacao['Real_Sucesso'] = y_test

# Calculando acur√°cia por console
df_acerto_por_console = df_avaliacao.groupby('console').apply(
    lambda df: (df['Previsao_Sucesso'] == df['Real_Sucesso']).mean().round(2)
).sort_values(ascending=False)

print(df_acerto_por_console)

console
3DO     1.00
PS2     1.00
XB      1.00
X360    1.00
WiiU    1.00
Wii     1.00
VC      1.00
SNES    1.00
SCD     1.00
SAT     1.00
PSV     1.00
PSP     1.00
PS4     1.00
PS3     1.00
XOne    1.00
3DS     1.00
PC      1.00
NS      1.00
NG      1.00
NES     1.00
GG      1.00
GEN     1.00
GBA     1.00
GB      1.00
DS      1.00
DC      1.00
N64     0.99
GC      0.99
PS      0.99
dtype: float64


  df_acerto_por_console = df_avaliacao.groupby('console').apply(


### **An√°lise da Chance de Sucesso e Acur√°cia por Console**

In [11]:
# Unido os dois Series em um √∫nico DataFrame
df_analise_console = pd.concat([df_console_sucesso, df_acerto_por_console], axis=1)

# Renomeando colunas
df_analise_console.columns = ['Chance de Sucesso', 'Acur√°cia']

# Reset do √≠ndice para deixar o g√™nero como coluna comum
df_analise_console = df_analise_console.reset_index()
df_analise_console = df_analise_console.rename(columns={'index': 'G√™nero'})

# Ordenar por Chance de Sucesso, do maior para o menor
df_analise_console = df_analise_console.sort_values(by='Chance de Sucesso', ascending=False)

print(df_analise_console)

   console  Chance de Sucesso  Acur√°cia
0      NES               0.47      1.00
1      GEN               0.43      1.00
2     X360               0.18      1.00
3      PS4               0.16      1.00
4       GB               0.15      1.00
5      PS3               0.15      1.00
6       PS               0.14      0.99
7     XOne               0.13      1.00
8      PS2               0.10      1.00
9     SNES               0.09      1.00
10     Wii               0.07      1.00
11     N64               0.06      0.99
12      DC               0.06      1.00
15      PC               0.05      1.00
14      XB               0.05      1.00
13     GBA               0.05      1.00
16     PSP               0.04      1.00
17      DS               0.03      1.00
18      GC               0.03      0.99
19      NS               0.03      1.00
20     SAT               0.02      1.00
21     PSV               0.02      1.00
22     3DS               0.01      1.00
23    WiiU               0.00      1.00

### **Quais fabricantes apresentaram maior propor√ß√£o de jogos bem-sucedidos?**
Calculei a m√©dia das previs√µes de sucesso para os jogos de cada fabricante, revelando quais apresentaram maior propor√ß√£o de t√≠tulos bem-sucedidos segundo o modelo. A **Microsoft** lidera com 13% dos jogos previstos como sucesso, seguida por **Sony** com 10%. **Sega**, **Nintendo** e o grupo classificado como **Outros** aparecem com propor√ß√µes menores, enquanto a **SNK** n√£o teve jogos classificados como bem-sucedidos.

In [12]:
df_fabricante_sucesso = df_completo.groupby('console_fabricator')['Previsao_Sucesso'].mean().sort_values(ascending=False).round(2)
print(df_fabricante_sucesso)

console_fabricator
Microsoft    0.13
Sony         0.10
Sega         0.07
Nintendo     0.05
Outros       0.05
SNK          0.00
Name: Previsao_Sucesso, dtype: float64


### **An√°lise de acur√°cia por Fabricante**
Avaliei a acur√°cia das previs√µes do modelo agrupando os resultados por fabricante de console. Todos os fabricantes apresentaram **100% de acerto** nas amostras testadas, o que indica que o modelo conseguiu prever corretamente o sucesso ou fracasso dos jogos de forma consistente em todos os grupos.


In [13]:
df_avaliacao = df_completo.copy()
df_avaliacao['Real_Sucesso'] = y_test

# Calculando acur√°cia por fabricante de console
df_acerto_por_fabricante_console = df_avaliacao.groupby('console_fabricator').apply(
    lambda df: (df['Previsao_Sucesso'] == df['Real_Sucesso']).mean().round(2)
).sort_values(ascending=False)

print(df_acerto_por_fabricante_console)

console_fabricator
Microsoft    1.0
Nintendo     1.0
Outros       1.0
SNK          1.0
Sega         1.0
Sony         1.0
dtype: float64


  df_acerto_por_fabricante_console = df_avaliacao.groupby('console_fabricator').apply(


### **An√°lise da Chance de Sucesso e Acur√°cia por Fabricante de Console**

In [14]:
# Unido os dois Series em um √∫nico DataFrame
df_analise_fabricante_console = pd.concat([df_fabricante_sucesso, df_acerto_por_fabricante_console], axis=1)

# Renomeando colunas
df_analise_fabricante_console.columns = ['Chance de Sucesso', 'Acur√°cia']

# Reset do √≠ndice para deixar o g√™nero como coluna comum
df_analise_fabricante_console = df_analise_fabricante_console.reset_index()
df_analise_fabricante_console = df_analise_fabricante_console.rename(columns={'index': 'Fabricante'})

# Ordenar por Chance de Sucesso, do maior para o menor
df_analise_fabricante_console = df_analise_fabricante_console.sort_values(by='Chance de Sucesso', ascending=False)

print(df_analise_fabricante_console)

  console_fabricator  Chance de Sucesso  Acur√°cia
0          Microsoft               0.13       1.0
1               Sony               0.10       1.0
2               Sega               0.07       1.0
3           Nintendo               0.05       1.0
4             Outros               0.05       1.0
5                SNK               0.00       1.0


### **Qual regi√£o apresenta maior propor√ß√£o de jogos bem-sucedidos?**
Os jogos classificados como sucesso pelo modelo apresentam maior desempenho comercial na Am√©rica do Norte e Europa, enquanto as vendas no Jap√£o e em outras regi√µes s√£o significativamente menores.


In [15]:
# Filtrar jogos bem-sucedidos
df_analise_regiao_sucesso = df_completo[df_completo['Previsao_Sucesso'] == 1]

# Calcular a m√©dia de vendas por regi√£o
df_analise_regiao_sucesso = df_analise_regiao_sucesso[['na_sales', 'pal_sales', 'jp_sales', 'other_sales']].mean().round(2)

# Converter Series para DataFrame
df_analise_regiao_sucesso = df_analise_regiao_sucesso.reset_index()
df_analise_regiao_sucesso.columns = ['regiao_sigla', 'vendas']

# Mapear siglas para nomes completos
mapa_regioes = {
    'na_sales': 'Am√©rica do Norte',
    'pal_sales': 'Europa',
    'jp_sales': 'Jap√£o',
    'other_sales': 'Outras regi√µes'
}

# Criar nova coluna com nomes completos
df_analise_regiao_sucesso['regiao_nome'] = df_analise_regiao_sucesso['regiao_sigla'].map(mapa_regioes)

# Reorganizar colunas
df_analise_regiao_sucesso = df_analise_regiao_sucesso[['regiao_sigla', 'regiao_nome', 'vendas']]

print("M√©dia de vendas em milh√µs: ")
print(df_analise_regiao_sucesso)

M√©dia de vendas em milh√µs: 
  regiao_sigla       regiao_nome  vendas
0     na_sales  Am√©rica do Norte    1.10
1    pal_sales            Europa    0.86
2     jp_sales             Jap√£o    0.10
3  other_sales    Outras regi√µes    0.28


Apesar do Jap√£o ser uma pot√™ncia em desenvolvimento e consumo de jogos, os t√≠tulos bem-sucedidos segundo nosso modelo apresentaram, em m√©dia, vendas significativamente menores nessa regi√£o. Isso pode ser explicado pelo foco local de muitos desenvolvedores japoneses, que criam jogos voltados majoritariamente para o p√∫blico interno, sem priorizar a tradu√ß√£o ou a distribui√ß√£o internacional. Com isso, esses jogos acabam tendo menor express√£o nos dados globais e, por consequ√™ncia, menor impacto na m√©trica de sucesso usada pelo modelo.

### **Conclus√£o geral das an√°lises de acur√°cia**

Avaliando os resultados por console e por fabricante, observei que a acur√°cia do modelo foi extremamente alta, alcan√ßando 100% na maioria das categorias. Isso indica que o modelo conseguiu capturar com precis√£o os padr√µes que definem o sucesso de um jogo, com desempenho consistente entre diferentes plataformas e fabricantes.

Apesar da alta acur√°cia, √© importante destacar que esse valor pode estar relacionado ao balanceamento ou √† simplicidade da vari√°vel alvo. Ainda assim, os resultados obtidos refor√ßam a confiabilidade do modelo nas previs√µes realizadas.

Essas an√°lises contribuem para validar a abordagem adotada e fortalecem a confian√ßa nos insights extra√≠dos a partir das previs√µes.



## An√°lise de Erros do Modelo

Seis jogos que tiveram sucesso foram previstos como n√£o sucesso e dois jogos que n√£o foram sucesso foram previstos como sucesso pelo modelo. Isso evidencia a presen√ßa defalsos positivos e falsos negativos, que indicam que o modelo n√£o est√° apenas replicando padr√µes √≥bvios, mas tentando generalizar, com uma margem de erro aceit√°vel para um projeto inicial.

#### Tabela com Falsos Positivos (FP)

In [20]:
df_completo[(df_completo['Sucesso'] == 1) & (df_completo['Previsao_Sucesso'] == 0)]

Unnamed: 0,title,console,console_fabricator,genre,publisher,developer,release_date,ano,total_sales,na_sales,jp_sales,pal_sales,other_sales,Sucesso,Previsao_Sucesso
1226,Brave Fencer Musashi,PS,Sony,Role-Playing,Square,SquareSoft,1998-10-31,1998,1.14,0.25,0.65,0.17,0.07,1,0
1221,Hot Shots Golf: Out of Bounds,PS3,Sony,Sports,Sony Computer Entertainment,Clap Hanz,2008-03-18,2008,1.14,0.31,0.76,0.03,0.04,1,0
1407,Bomberman 64,N64,Nintendo,Puzzle,Hudson Soft,Hudson Soft,1997-12-02,1997,1.04,0.5,0.31,0.2,0.03,1,0
1469,Breath of Fire III,PS,Sony,Role-Playing,Capcom,Capcom,1998-04-30,1998,1.01,0.29,0.46,0.19,0.07,1,0
1425,Dragon Ball Z: Budokai Tenkaichi 3,Wii,Nintendo,Fighting,Atari,Spike / Bandai Namco Games,2007-12-03,2007,1.02,0.32,0.26,0.36,0.08,1,0
1429,Shrek 2,GC,Nintendo,Platform,Activision,"Luxoflux, Inc.",2004-04-28,2004,1.03,0.73,0.01,0.26,0.03,1,0


#### Tabela com Falsos Negativos (FN)

In [19]:
df_completo[(df_completo['Sucesso'] == 0) & (df_completo['Previsao_Sucesso'] == 1)]

Unnamed: 0,title,console,console_fabricator,genre,publisher,developer,release_date,ano,total_sales,na_sales,jp_sales,pal_sales,other_sales,Sucesso,Previsao_Sucesso
1804,FIFA Soccer 08,DS,Nintendo,Sports,EA Sports,EA Canada,2007-10-09,2007,0.86,0.1,0.0,0.65,0.11,0,1
1454,F1 2012,PS3,Sony,Racing,Codemasters,Codemasters Birmingham,2012-09-18,2012,1.0,0.12,0.05,0.65,0.18,0,1


### **Exporta√ß√£o dos Resultados das An√°lises**

In [None]:
df_analise_genero.to_csv('analise_genero_sucesso_acuracia.csv', index=True)
df_analise_console.to_csv('analise_console_sucesso_acuracia.csv', index=True)
df_analise_fabricante_console.to_csv('analise_fabricante_previsao_acuracia.csv', index=True)
df_analise_regiao_sucesso.to_csv('analise_regiao_sucesso.csv', index=True)