## Medias

### Médias do SteamDB

In [14]:
import pandas as pd

df = pd.read_csv('games_data.csv')


media_total_reviews = df['total reviews'].mean()
media_positiva_reviews = df['positive ratings'].mean()
media_negativa_reviews = df['negative ratings'].mean()

print(f'Média das Reviews Totais: {media_total_reviews:.2f}')
print(f'Média das Reviews Positivas: {media_positiva_reviews:.2f}')
print(f'Média das Reviews Negativas: {media_negativa_reviews:.2f}\n')



Média das Reviews Totais: 39759.45
Média das Reviews Positivas: 38218.62
Média das Reviews Negativas: 1540.84



Com esses dados podemos afirmar que a média de um jogo para reviews positivas é de aprox. 38 mil.
Já as reviews negativas tem como média aprox. 1500 avaliações.
No todo, um jogo em média, detém aprox 40 mil avaliações.

### Médias das informações do IGDB

In [52]:
import pandas as pd

df = pd.read_csv('games_data.csv')

# Limpeza: remover espaços em branco e substituir valores não numéricos por NaN
df['public_rating_igdb'] = df['public_rating_igdb'].str.strip()  # Remove espaços em branco
df['public_rating_igdb'] = pd.to_numeric(df['public_rating_igdb'], errors='coerce')  # Converte para float, substitui não numéricos por NaN


media_aggregated_rating = df['aggregated_rating'].mean()
media_aggregated_rating_count = df['aggregated_rating_count'].mean()
media_public_rating_igdb = df['public_rating_igdb'].mean()
media_public_rating_count = df['public_rating_count'].mean()

print(f"Média dos críticos para todos os jogos: {media_aggregated_rating}")
print(f"Em média da quantidade de críticos que votaram em cada jogo: {media_aggregated_rating_count}")
print(f"Média da nota pública dos jogos: {media_public_rating_igdb}")
print(f"Média da contagem de votantes públicos em cada jogo: {media_public_rating_count}")


Média dos críticos para todos os jogos: 8.69670588235294
Em média da quantidade de críticos que votaram em cada jogo: 6.738823529411765
Média da nota pública dos jogos: 7.806638418079095
Média da contagem de votantes públicos em cada jogo: 183.1923620933522


Temos como média da nota dos críticos 8.69, já do público 7.80. Respectivamente, cada nota dos críticos - em média - tiveram 6 veículos de comunicação. Já do público, houveram - em média 183 votantes.

## Medianas

### Mediana das informações do SteamDB

In [53]:
import pandas as pd
df = pd.read_csv('games_data.csv')

mediana_positiva_reviews = df['positive ratings'].median()
mediana_negativa_reviews = df['negative ratings'].median()
mediana_total = df['total reviews'].median()


print(f'Mediana das Reviews Positivas: {mediana_positiva_reviews:.2f}')
print(f'Mediana das Reviews Negativas: {mediana_negativa_reviews:.2f}')
print(f'Mediana do Total de Reviews: {mediana_total:.2f}\n')

Mediana das Reviews Positivas: 7687.00
Mediana das Reviews Negativas: 268.00
Mediana do Total de Reviews: 8004.50



Com a mediana, podemos deduzir que provavelmente o nosso dataset de jogos apresenta dados assimétricos a presença forte de outliers. Haja vista que a mediana das reviews positivas é de apenas 7687, de negativas 268 e totais de 8004.5 reviews o que difere bastante das médias apresentadas anteriormente.

### Mediana das informações do IGDB

In [56]:
import pandas as pd
df = pd.read_csv('games_data.csv')


# Limpeza: remover espaços em branco e substituir valores não numéricos por NaN
df['public_rating_igdb'] = df['public_rating_igdb'].str.strip()  # Remove espaços em branco
df['public_rating_igdb'] = pd.to_numeric(df['public_rating_igdb'], errors='coerce')  # Converte para float, substitui não numéricos por NaN

mediana_aggregated_rating = df['aggregated_rating'].median()
mediana_aggregated_rating_count = df['aggregated_rating_count'].median()
mediana_public_rating_igdb = df['public_rating_igdb'].median()
mediana_public_rating_count = df['public_rating_count'].median()

print(f"Mediana dos críticos para todos os jogos: {mediana_aggregated_rating}")
print(f"Mediana da quantidade de críticos que votaram em cada jogo: {mediana_aggregated_rating_count}")
print(f"Mediana da nota pública dos jogos: {mediana_public_rating_igdb}")
print(f"Mediana da contagem de votantes públicos em cada jogo: {mediana_public_rating_count}")

Mediana dos críticos para todos os jogos: 8.4
Mediana da quantidade de críticos que votaram em cada jogo: 4.0
Mediana da nota pública dos jogos: 8.0
Mediana da contagem de votantes públicos em cada jogo: 33.0


Mediana dos críticos para os jogos é 8.4 que é relativamente próximo da média o que indica uma possível dispersão pequena.
Já da quantidade de veículos de crítica é 4 e a média foi 6 que já é um pouco diferente mas não tão dispare.
A mediana da nota pública é maior do que a média (7,8) mas ainda sim, próxima.
a mediana da contagem de público votante é 5.45 vezes menor que a média (183)


### Generos de jogos com mais reviews positivas e com mais reviews negativas

#### Listar os Gêneros

In [32]:
import pandas as pd
import ast

df = pd.read_csv('games_data.csv')

# Converte a coluna 'genres' para listas, caso seja uma string
df['genres'] = df['genres'].apply(lambda x: ast.literal_eval(x) if isinstance(x, str) else x)

# Expande a coluna de gêneros
all_genres = df['genres'].explode()

# Remove duplicatas e valores nulos
unique_genres = all_genres.unique()

# Imprime cada gênero em uma nova linha
for genre in unique_genres:
    print(genre)


Shooter
Puzzle
Adventure
Role-playing (RPG)
Simulator
Strategy
Indie
Arcade
hack and slash or beat em up
Platform
Real Time Strategy (RTS)
Point-and-click
Fighting
Roguelike
Tactical
Racing
Visual Novel
Music
Turn-based strategy (TBS)
Card & Board Game
Sport
Casual
Simulation
nan
QuizTrivia
Action
Visual Nove;
Pinball
Text


### Observar quais generos apresentam o maior numero de reviews positivas e negativas na Steam

In [43]:
import pandas as pd
import ast

df = pd.read_csv('games_data.csv')

df['genres'] = df['genres'].apply(lambda x: ast.literal_eval(x) if isinstance(x, str) else x)

expanded_df = df.explode('genres')

grouped_genres = expanded_df.groupby('genres').agg({
    'positive ratings': 'sum',
    'negative ratings': 'sum'
}).reset_index()

max_positive_genre = grouped_genres.loc[grouped_genres['positive ratings'].idxmax()]
max_negative_genre = grouped_genres.loc[grouped_genres['negative ratings'].idxmax()]

print(f'Gênero com mais Reviews Positivas: {max_positive_genre["genres"]} ({max_positive_genre["positive ratings"]})')
print(f'Gênero com mais Reviews Negativas: {max_negative_genre["genres"]} ({max_negative_genre["negative ratings"]})\n')


Gênero com mais Reviews Positivas: Adventure (23020354)
Gênero com mais Reviews Negativas: Adventure (960209)



Descobrimos aqui que o gênero com mais avaliações tanto positivas quanto negativas é o gênero de aventura.