# Análise de Vendas de Video Games com Machine Learning 🎮

Neste projeto, utilizarei um dataset público com informações sobre vendas globais de jogos eletrônicos. O objetivo é entender os fatores que influenciam o sucesso de vendas de um jogo, utilizando técnicas de Machine Learning para prever se um jogo será ou não um sucesso (com base em suas características como gênero, plataforma e região de vendas).

Este notebook será desenvolvido para as etapas:
1. Entendimento e exploração dos dados
2. Limpeza e transformação
3. Criação da variável-alvo (target)
4. Criar tabela calendário para uso posterior no Power Bi

In [1]:
import pandas as pd

In [2]:
# Importação
df_vgchartz = pd.read_csv("C:/data/Video Game Sales/raw/vgchartz-2024.csv")
df_vg_data_dictionary = pd.read_csv("C:/data/Video Game Sales/raw/vg_data_dictionary.csv")

## Entendimento Inicial dos Dados

In [3]:
df_vg_data_dictionary

Unnamed: 0,Field,Description
0,img,URL slug for the box art at vgchartz.com
1,title,Game title
2,console,Console the game was released for
3,genre,Genre of the game
4,publisher,Publisher of the game
5,developer,Developer of the game
6,critic_score,Metacritic score (out of 10)
7,total_sales,Global sales of copies in millions
8,na_sales,North American sales of copies in millions
9,jp_sales,Japanese sales of copies in millions


In [4]:
df_vgchartz.info()
df_vgchartz.describe()
df_vgchartz.isnull().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 64016 entries, 0 to 64015
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   img           64016 non-null  object 
 1   title         64016 non-null  object 
 2   console       64016 non-null  object 
 3   genre         64016 non-null  object 
 4   publisher     64016 non-null  object 
 5   developer     63999 non-null  object 
 6   critic_score  6678 non-null   float64
 7   total_sales   18922 non-null  float64
 8   na_sales      12637 non-null  float64
 9   jp_sales      6726 non-null   float64
 10  pal_sales     12824 non-null  float64
 11  other_sales   15128 non-null  float64
 12  release_date  56965 non-null  object 
 13  last_update   17879 non-null  object 
dtypes: float64(6), object(8)
memory usage: 6.8+ MB


img                 0
title               0
console             0
genre               0
publisher           0
developer          17
critic_score    57338
total_sales     45094
na_sales        51379
jp_sales        57290
pal_sales       51192
other_sales     48888
release_date     7051
last_update     46137
dtype: int64

In [5]:
df_vgchartz.head()

Unnamed: 0,img,title,console,genre,publisher,developer,critic_score,total_sales,na_sales,jp_sales,pal_sales,other_sales,release_date,last_update
0,/games/boxart/full_6510540AmericaFrontccc.jpg,Grand Theft Auto V,PS3,Action,Rockstar Games,Rockstar North,9.4,20.32,6.37,0.99,9.85,3.12,2013-09-17,
1,/games/boxart/full_5563178AmericaFrontccc.jpg,Grand Theft Auto V,PS4,Action,Rockstar Games,Rockstar North,9.7,19.39,6.06,0.6,9.71,3.02,2014-11-18,2018-01-03
2,/games/boxart/827563ccc.jpg,Grand Theft Auto: Vice City,PS2,Action,Rockstar Games,Rockstar North,9.6,16.15,8.41,0.47,5.49,1.78,2002-10-28,
3,/games/boxart/full_9218923AmericaFrontccc.jpg,Grand Theft Auto V,X360,Action,Rockstar Games,Rockstar North,,15.86,9.06,0.06,5.33,1.42,2013-09-17,
4,/games/boxart/full_4990510AmericaFrontccc.jpg,Call of Duty: Black Ops 3,PS4,Shooter,Activision,Treyarch,8.1,15.09,6.18,0.41,6.05,2.44,2015-11-06,2018-01-14


## Limpeza e Transformação dos Dados

#### Seleção de colunas
##### Conversão da release_date para datetime, Criação da coluna Ano e Seleção das colunas relevantes para a análise, mantendo apenas os campos considerados essenciais: `title`, `console`, `genre`, `publisher`, `developer` e `release_date`.

In [6]:
df_vgchartz["release_date"] = pd.to_datetime(df_vgchartz["release_date"], errors="coerce")
# O parametro errors="coerce" faz com que ignore erros e transforma valores inválidos em NaT (Not a Time)
df_vgchartz["ano"] = df_vgchartz["release_date"].dt.year.astype('Int64')

df_vgchartz.head()

Unnamed: 0,img,title,console,genre,publisher,developer,critic_score,total_sales,na_sales,jp_sales,pal_sales,other_sales,release_date,last_update,ano
0,/games/boxart/full_6510540AmericaFrontccc.jpg,Grand Theft Auto V,PS3,Action,Rockstar Games,Rockstar North,9.4,20.32,6.37,0.99,9.85,3.12,2013-09-17,,2013
1,/games/boxart/full_5563178AmericaFrontccc.jpg,Grand Theft Auto V,PS4,Action,Rockstar Games,Rockstar North,9.7,19.39,6.06,0.6,9.71,3.02,2014-11-18,2018-01-03,2014
2,/games/boxart/827563ccc.jpg,Grand Theft Auto: Vice City,PS2,Action,Rockstar Games,Rockstar North,9.6,16.15,8.41,0.47,5.49,1.78,2002-10-28,,2002
3,/games/boxart/full_9218923AmericaFrontccc.jpg,Grand Theft Auto V,X360,Action,Rockstar Games,Rockstar North,,15.86,9.06,0.06,5.33,1.42,2013-09-17,,2013
4,/games/boxart/full_4990510AmericaFrontccc.jpg,Call of Duty: Black Ops 3,PS4,Shooter,Activision,Treyarch,8.1,15.09,6.18,0.41,6.05,2.44,2015-11-06,2018-01-14,2015


##### Conversão da release_date para datetime

In [7]:
df_vgchartz["release_date"] = pd.to_datetime(df_vgchartz["release_date"], errors="coerce")
# O parametro errors="coerce" faz com que ignore erros e transforma valores inválidos em NaT (Not a Time)

##### Criação da coluna Ano

In [8]:
df_vgchartz["ano"] = df_vgchartz["release_date"].dt.year.astype('Int64')
df_vgchartz.head()

Unnamed: 0,img,title,console,genre,publisher,developer,critic_score,total_sales,na_sales,jp_sales,pal_sales,other_sales,release_date,last_update,ano
0,/games/boxart/full_6510540AmericaFrontccc.jpg,Grand Theft Auto V,PS3,Action,Rockstar Games,Rockstar North,9.4,20.32,6.37,0.99,9.85,3.12,2013-09-17,,2013
1,/games/boxart/full_5563178AmericaFrontccc.jpg,Grand Theft Auto V,PS4,Action,Rockstar Games,Rockstar North,9.7,19.39,6.06,0.6,9.71,3.02,2014-11-18,2018-01-03,2014
2,/games/boxart/827563ccc.jpg,Grand Theft Auto: Vice City,PS2,Action,Rockstar Games,Rockstar North,9.6,16.15,8.41,0.47,5.49,1.78,2002-10-28,,2002
3,/games/boxart/full_9218923AmericaFrontccc.jpg,Grand Theft Auto V,X360,Action,Rockstar Games,Rockstar North,,15.86,9.06,0.06,5.33,1.42,2013-09-17,,2013
4,/games/boxart/full_4990510AmericaFrontccc.jpg,Call of Duty: Black Ops 3,PS4,Shooter,Activision,Treyarch,8.1,15.09,6.18,0.41,6.05,2.44,2015-11-06,2018-01-14,2015


##### Seleção dos consoles mais relevantes para a análise e dicionário de mapeamento por fabricante de console

In [9]:
# Esta lista irá filtrar os consoles mais representativos do mercado de games
consoles_validos = ['PS', 'PS2', 'PS3', 'PS4', 'PS5', 'PSP', 'PSP', 'PSV', 
        'XB', 'X360', 'XOne', 'XS', 'XBL', 'Wii', 'WiiU', 'NS', 'DS', '3DS',
       'GBA', 'GB', 'NES', 'SNES', 'N64', 'GC', 'DSiW', 'VB', 'VC', 'GBC',
       'DS', 'GEN', 'SAT', 'DC', 'NG', 'SCD', 'GG', 'MS', 'Linux', 'PC',
        'And', 'iOS', '3DO']


# Dicionário de mapeamento por fabricante de console
fabricante_consoles = {
    # Sony
    'PS': 'Sony', 'PS2': 'Sony', 'PS3': 'Sony',
    'PS4': 'Sony', 'PS5': 'Sony', 'PSP': 'Sony', 'PSV': 'Sony',
    
    # Microsoft
    'XB': 'Microsoft', 'X360': 'Microsoft', 'XOne': 'Microsoft', 
    'XS': 'Microsoft', 'XBL': 'Microsoft', 

    # Nintendo
    'Wii': 'Nintendo', 'WiiU': 'Nintendo', 'NS': 'Nintendo',
    'DS': 'Nintendo', '3DS': 'Nintendo', 'GBA': 'Nintendo',
    'GB': 'Nintendo', 'NES': 'Nintendo', 'SNES': 'Nintendo',
    'N64': 'Nintendo', 'GC': 'Nintendo', 'DSiW' :'Nintendo',
    'VB' :'Nintendo', 'VC' :'Nintendo', 'GBC' :'Nintendo',
    'DS' :'Nintendo',

    # Sega
    'GEN': 'Sega', 'SAT': 'Sega', 'DC': 'Sega',
    'MS': 'Sega', 'GG': 'Sega', 'SCD': 'Sega',

    # SNK
    'NG': 'SNK'
}

In [10]:
# Criação da coluna 'fabricante' para agrupar os consoles por empresa desenvolvedora
# (Sony, Microsoft, Nintendo, Sega ou Outros).
df_vgchartz['console_fabricator'] = df_vgchartz['console'].map(fabricante_consoles).fillna('Outros')
df_vgchartz = df_vgchartz[["title", "console", "console_fabricator", "genre", "publisher", "developer", "release_date", "ano", "total_sales", "na_sales", "jp_sales", "pal_sales", "other_sales"]]

In [11]:
df_vgchartz_filtrado = df_vgchartz[df_vgchartz['console'].isin(consoles_validos)].copy()

In [12]:
df_vgchartz_filtrado.head()

Unnamed: 0,title,console,console_fabricator,genre,publisher,developer,release_date,ano,total_sales,na_sales,jp_sales,pal_sales,other_sales
0,Grand Theft Auto V,PS3,Sony,Action,Rockstar Games,Rockstar North,2013-09-17,2013,20.32,6.37,0.99,9.85,3.12
1,Grand Theft Auto V,PS4,Sony,Action,Rockstar Games,Rockstar North,2014-11-18,2014,19.39,6.06,0.6,9.71,3.02
2,Grand Theft Auto: Vice City,PS2,Sony,Action,Rockstar Games,Rockstar North,2002-10-28,2002,16.15,8.41,0.47,5.49,1.78
3,Grand Theft Auto V,X360,Microsoft,Action,Rockstar Games,Rockstar North,2013-09-17,2013,15.86,9.06,0.06,5.33,1.42
4,Call of Duty: Black Ops 3,PS4,Sony,Shooter,Activision,Treyarch,2015-11-06,2015,15.09,6.18,0.41,6.05,2.44


In [13]:
# Adiciona o conteúdo de "Não informado" nos 17 registros nulos da coluna develope
df_vgchartz_filtrado["developer"] = df_vgchartz_filtrado["developer"].fillna("Não informado")

In [14]:
df_vgchartz_filtrado.isnull().sum()

title                     0
console                   0
console_fabricator        0
genre                     0
publisher                 0
developer                 0
release_date           6648
ano                    6648
total_sales           38152
na_sales              44417
jp_sales              50209
pal_sales             44233
other_sales           41936
dtype: int64

### 📌 Tratamento de Valores Ausentes

Durante a análise inicial, foi possível observar uma grande quantidade de valores ausentes em colunas importantes como `release_date`, `critic_score`, `total_sales` e nas colunas de vendas regionais: `na_sales`, `jp_sales`, `pal_sales` e `other_sales`. Essas informações são essenciais tanto para a criação da variável alvo (`total_sales`) quanto para a construção de modelos de Machine Learning com uma base consistente.

#### ✅ Decisões tomadas:

1. **Remoção de linhas com `release_date` e `ano` ausentes**  
   Essas colunas são fundamentais para análises temporais e identificação de tendências de vendas ao longo dos anos. Como o preenchimento artificial de datas poderia comprometer a integridade da análise, optei por remover os registros com esses campos nulos.

2. **Substituição de valores ausentes por zero nas colunas de vendas regionais**  
   Para lidar com os valores nulos nas colunas `na_sales`, `jp_sales`, `pal_sales` e `other_sales`, foi realizada a substituição (`fillna(0)`), assumindo que a ausência de dado poderia indicar ausência de vendas naquela região. Com isso, foi possível gerar um valor válido para a coluna `total_sales`.

3. **Recriação da coluna `total_sales`**  
   A coluna `total_sales` foi recalculada como a soma das vendas por região. Isso permitiu recuperar registros que originalmente tinham valor ausente em `total_sales`, mas com informações regionais válidas.

4. **Remoção de linhas com `total_sales = 0`**  
   Por fim, foram removidos os registros que, mesmo após o preenchimento, continuavam com valor zero na soma total de vendas — o que indica que não há dados úteis de vendas para esse jogo.

#### 📊 Resultado final

- Total de registros originais: **56.000+**
- Após limpeza e transformações: **17.298 registros válidos**

Embora tenha havido uma redução considerável no número de dados, os registros restantes são suficientemente representativos para fins de **aprendizado** e construção de um projeto de **portfólio** com qualidade e coerência analítica.

In [15]:
# Deletando linhas sem registros em release_date e ano
df_vgchartz_filtrado.dropna(subset=["release_date", "ano"], inplace=True)
df_vgchartz_filtrado.isnull().sum()

title                     0
console                   0
console_fabricator        0
genre                     0
publisher                 0
developer                 0
release_date              0
ano                       0
total_sales           31592
na_sales              37785
jp_sales              43599
pal_sales             37631
other_sales           35343
dtype: int64

In [16]:
# Substituir todos os NaN do DataFrame por 0

# Lista de colunas de vendas regionais
colunas_vendas = ['na_sales', 'jp_sales', 'pal_sales', 'other_sales']

# Substituindo NaN por 0 apenas nessas colunas
df_vgchartz_filtrado[colunas_vendas] = df_vgchartz_filtrado[colunas_vendas].fillna(0)

# Atualizando a coluna total_sales com a soma das colunas regionais
df_vgchartz_filtrado['total_sales'] = df_vgchartz_filtrado[colunas_vendas].sum(axis=1)

In [17]:
df_vgchartz_filtrado.isnull().sum()

title                 0
console               0
console_fabricator    0
genre                 0
publisher             0
developer             0
release_date          0
ano                   0
total_sales           0
na_sales              0
jp_sales              0
pal_sales             0
other_sales           0
dtype: int64

In [18]:
# Removendo linhas onde total_sales é 0
df_vgchartz_filtrado = df_vgchartz_filtrado[df_vgchartz_filtrado['total_sales'] > 0].reset_index(drop=True)

In [19]:
df_vgchartz_filtrado.isnull().sum()
df_vgchartz_filtrado.info()
df_vgchartz_filtrado.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17298 entries, 0 to 17297
Data columns (total 13 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   title               17298 non-null  object        
 1   console             17298 non-null  object        
 2   console_fabricator  17298 non-null  object        
 3   genre               17298 non-null  object        
 4   publisher           17298 non-null  object        
 5   developer           17298 non-null  object        
 6   release_date        17298 non-null  datetime64[ns]
 7   ano                 17298 non-null  Int64         
 8   total_sales         17298 non-null  float64       
 9   na_sales            17298 non-null  float64       
 10  jp_sales            17298 non-null  float64       
 11  pal_sales           17298 non-null  float64       
 12  other_sales         17298 non-null  float64       
dtypes: Int64(1), datetime64[ns](1), float64(5), ob

Unnamed: 0,release_date,ano,total_sales,na_sales,jp_sales,pal_sales,other_sales
count,17298,17298.0,17298.0,17298.0,17298.0,17298.0,17298.0
mean,2008-06-03 23:00:18.730489344,2007.85137,0.376567,0.189244,0.039457,0.110371,0.037496
min,1984-11-14 00:00:00,1984.0,0.01,0.0,0.0,0.0,0.0
25%,2004-09-28 00:00:00,2004.0,0.05,0.0,0.0,0.0,0.0
50%,2008-10-28 00:00:00,2008.0,0.13,0.06,0.0,0.02,0.01
75%,2011-11-23 18:00:00,2011.0,0.38,0.19,0.02,0.09,0.03
max,2020-12-31 00:00:00,2020.0,20.33,9.76,2.13,9.85,3.12
std,,5.767091,0.836385,0.436114,0.11627,0.344294,0.118976


### Criação do Target
Para fins de modelagem e simplificação do problema, defini como ‘sucesso’ os jogos que venderam mais de 1 milhão de unidades no mundo. Esse número, embora arbitrário, é frequentemente usado como referência no mercado de games como um marco significativo de desempenho comercial. Além disso, ele corresponde a aproximadamente 8,5% da base de dados, o que oferece um bom desafio de classificação.

In [20]:
df_vgchartz_filtrado['Sucesso'] = (df_vgchartz_filtrado['total_sales'] > 1.0).astype(int)
df_vgchartz_filtrado['Sucesso'].value_counts(normalize=True)

Sucesso
0    0.915424
1    0.084576
Name: proportion, dtype: float64

### Criação de tabela calendário

In [21]:
data_min = df_vgchartz_filtrado['release_date'].min()
data_max = df_vgchartz_filtrado['release_date'].max()

df_tabela_calendario = pd.DataFrame({
    'date': pd.date_range(start=data_min, end=data_max, freq='D')
})

df_tabela_calendario['ano'] = df_tabela_calendario['date'].dt.year
df_tabela_calendario['mes'] = df_tabela_calendario['date'].dt.month
df_tabela_calendario['nome_mes'] = df_tabela_calendario['date'].dt.month_name()
df_tabela_calendario['trimestre'] = df_tabela_calendario['date'].dt.to_period('Q').astype(str)
df_tabela_calendario['dia_da_semana'] = df_tabela_calendario['date'].dt.day_name()
df_tabela_calendario['fim_de_semana'] = df_tabela_calendario['date'].dt.weekday >= 5
df_tabela_calendario['ano_mes'] = df_tabela_calendario['date'].dt.to_period('M').astype(str)

## Exportação de dados transformados

In [22]:
df_vgchartz_filtrado.to_csv("video_game_sales_com_target.csv", index=False, encoding="utf-8")
df_tabela_calendario.to_csv("tabela_calendario.csv", index=False, encoding="utf-8")