# An√°lise Explorat√≥ria

Este notebook apresenta a etapa inicial de an√°lise explorat√≥ria do Steam Games Dataset, disponibilizado em:
https://www.kaggle.com/datasets/fronkongames/steam-games-dataset
.

Para assegurar a reprodutibilidade e organiza√ß√£o do projeto, todos os arquivos utilizados na an√°lise foram previamente armazenados no diret√≥rio `/datasets`.

---

## Configura√ß√£o do Ambiente

As bibliotecas necess√°rias s√£o carregadas e algumas configura√ß√µes s√£o ajustadas para facilitar o tratamento e a visualiza√ß√£o dos dados. Em particular, amplia-se o limite de caracteres dos campos CSV, evitando truncamento de linhas extensas, e permite-se que o pandas exiba todas as colunas do DataFrame durante a inspe√ß√£o.

In [8]:
import csv
import sys
import pandas

# Remove limite padr√£o de tamanho de campos em arquivos CSV
csv.field_size_limit(sys.maxsize)

# Permite a visualiza√ß√£o de todas as colunas do DataFrame
pandas.set_option('display.max_columns', None)

dataset_csv_path = "./datasets/games.csv"
dataset_csv_fixed_path = "./datasets/games_fixed.csv"

## Corre√ß√£o do Dataset

O arquivo original (`games.csv`) apresenta inconsist√™ncias estruturais que impedem sua leitura direta pelo pandas. Em particular, o n√∫mero de colunas definido no cabe√ßalho n√£o corresponde ao n√∫mero de campos presentes em algumas linhas do arquivo. Esse tipo de problema √© comum em bases de dados grandes e heterog√™neas oriundas de web scraping ou integra√ß√µes automatizadas.

Durante a inspe√ß√£o inicial, identificou-se que a coluna `DiscountDLC count` estava incorretamente delimitada, ocasionando uma fus√£o indevida entre dois atributos distintos. Assim, procedeu-se √† corre√ß√£o manual do cabe√ßalho, assegurando a correta separa√ß√£o entre as colunas `discount` e `dlc_count`.

Al√©m disso, os nomes das colunas foram normalizados para um formato mais adequado ao processamento em Python: todos os caracteres foram convertidos para min√∫sculas, acentos e espa√ßos foram removidos ou substitu√≠dos, e adotou-se o padr√£o `snake_case`.

In [9]:
# Exibe as primeiras linhas do arquivo original para inspe√ß√£o
with open(dataset_csv_path, 'r', encoding='utf-8') as f:
    for i in range(5):
        print(f.readline())

# Leitura completa do arquivo
with open(dataset_csv_path, 'r', encoding='utf-8') as f:
    linhas = f.readlines()

# Corre√ß√£o do cabe√ßalho
header = linhas[0]

# Ajuste espec√≠fico da coluna problem√°tica
header = header.replace('DiscountDLC count', 'Discount,DLC count')

# Normaliza√ß√£o dos nomes das colunas
colunas = header.strip().split(',')
colunas_normalizadas = [
    c.strip().lower().replace(" ", "_")
    for c in colunas
]

# Reconstru√ß√£o do cabe√ßalho corrigido
linhas[0] = ",".join(colunas_normalizadas) + "\n"

# Salvamento do arquivo corrigido
with open(dataset_csv_fixed_path, 'w', encoding='utf-8') as f:
    f.writelines(linhas)

print("‚úÖ Arquivo corrigido salvo como:", dataset_csv_fixed_path)
print("üìù Colunas normalizadas:", colunas_normalizadas)

AppID,Name,Release date,Estimated owners,Peak CCU,Required age,Price,DiscountDLC count,About the game,Supported languages,Full audio languages,Reviews,Header image,Website,Support url,Support email,Windows,Mac,Linux,Metacritic score,Metacritic url,User score,Positive,Negative,Score rank,Achievements,Recommendations,Notes,Average playtime forever,Average playtime two weeks,Median playtime forever,Median playtime two weeks,Developers,Publishers,Categories,Genres,Tags,Screenshots,Movies

20200,"Galactic Bowling","Oct 21, 2008","0 - 20000",0,0,19.99,0,0,"Galactic Bowling is an exaggerated and stylized bowling game with an intergalactic twist. Players will engage in fast-paced single and multi-player competition while being submerged in a unique new universe filled with over-the-top humor, wild characters, unique levels, and addictive game play. The title is aimed at players of all ages and skill sets. Through accessible and intuitive controls and game-play, Galactic Bowling allows you to j

## Carregamento do Dataset

Ap√≥s a corre√ß√£o estrutural, o conjunto de dados √© carregado no pandas para dar in√≠cio √† an√°lise explorat√≥ria. Utiliza-se o par√¢metro `engine="python"` para ampliar a robustez na leitura de arquivos CSV possivelmente irregulares, e define-se a codifica√ß√£o `"utf-8-sig"` para garantir a correta interpreta√ß√£o dos caracteres especiais.

In [10]:
games_dataset = pandas.read_csv(
  dataset_csv_fixed_path,
  sep=",",
  quotechar='"',
  quoting=csv.QUOTE_MINIMAL,
  engine="python",
  encoding="utf-8-sig",
)

## An√°lise inicial