# 03_Steam_Analyse_Macro

---

In [0]:
from pyspark.sql import functions as F
from pyspark.sql import Row

### Chargement du dataset

In [0]:
df_steam_flat = spark.read.json("/dbfs/FileStore/export/steam_flat_prep.json")

---

### Analyse "macro" des données

Quel éditeur a publié le plus de jeux sur Steam?

In [0]:
display(df_steam_flat.groupBy("publisher").agg(F.countDistinct("appid").alias("nb_games")).orderBy(F.desc("nb_games")).limit(5).toPandas())

publisher,nb_games
Big Fish Games,422
8floor,202
Strategy First,150
SEGA,143
Choice of Games,140


Databricks visualization. Run in Databricks to view.

L’éditeur ayant publié le plus de jeux sur Steam est **Big Fish Games** avec 422 titres, suivi de **8floor** avec 202 jeux.

Comparé au nombre total de jeux disponibles sur la plateforme (environ 50 000), ces chiffres restent relativement faibles. Cela suggère une forte diversité d’éditeurs sur Steam, sans qu’un acteur ne domine massivement le marché.

---

Quels sont les jeux les mieux notés ?

In [0]:
display(df_steam_flat.select("name", "positive").orderBy(F.desc("positive")).limit(10).toPandas())

name,positive
Counter-Strike: Global Offensive,5943345
Dota 2,1534895
Grand Theft Auto V,1229265
PUBG: BATTLEGROUNDS,1185361
Terraria,1014711
Tom Clancy's Rainbow Six Siege,942910
Garry's Mod,861240
Team Fortress 2,846407
Left 4 Dead 2,643836
Among Us,586302


Databricks visualization. Run in Databricks to view.

Le jeu le mieux noté — et de loin — est Counter-Strike: Global Offensive, avec près de 6 millions de commentaires positifs.

Il est suivi par Dota 2 et Grand Theft Auto V, qui comptabilisent respectivement environ 1,5 million et 1,2 million de commentaires positifs.

---

Y a-t-il eu plus de sorties de jeux certaines années ? Y a-t-il eu plus ou moins de sorties de jeux pendant le Covid par exemple ?

Je crée la colonne `year_release`

In [0]:
from pyspark.sql.functions import year

df_steam_flat = df_steam_flat.withColumn("year_release", year(F.col("release_date")))
df_steam_flat.limit(5).toPandas()

Unnamed: 0,appid,categories,ccu,developer,discount,genre,header_image,initialprice,languages,name,...,positive,price,publisher,release_date,required_age,short_description,tags,type,website,year_release
0,686260,"[Multi-player, Single-player, Co-op, Steam Clo...",6,Petroglyph,80.0,"Indie, Simulation, Strategy",https://cdn.akamai.steamstatic.com/steam/apps/...,999.0,"English, French, German, Spanish - Spain, Kore...",Forged Battalion,...,613,199.0,Team17 Digital Ltd,2018-08-14T00:00:00.000Z,0,Customize your unique faction in a new take on...,"{'1980s': None, '1990's': None, '2.5D': None, ...",game,http://www.petroglyphgames.com/games,2018
1,686270,"[Single-player, Partial Controller Support]",0,"Alexandre Rozier, Corentin Serrie, Sarah Gross...",0.0,"Adventure, Free to Play, Indie",https://cdn.akamai.steamstatic.com/steam/apps/...,0.0,English,Kiitsu,...,2,0.0,Alexandre Rozier,2018-04-18T00:00:00.000Z,0,"In this beautiful low-poly world, the water of...","{'1980s': None, '1990's': None, '2.5D': None, ...",game,https://kiitsu.l4th.fr/,2018
2,686290,"[Single-player, Stats, Steam Achievements, Ste...",0,DL Softworks,0.0,"Action, Adventure, Casual, Indie, Sports, Stra...",https://cdn.akamai.steamstatic.com/steam/apps/...,699.0,English,RADical ROACH: Infinity,...,1,699.0,DL Softworks,2022-02-11T00:00:00.000Z,0,A Uniquely Radicalized Adventure Every Flight!,"{'1980s': 134.0, '1990's': None, '2.5D': None,...",game,,2022
3,686300,"[Single-player, Steam Achievements]",0,Mantis Games,0.0,"Action, Casual, Indie",https://cdn.akamai.steamstatic.com/steam/apps/...,99.0,English,Neon Coliseum,...,2,99.0,Displacement Studios,2017-09-04T00:00:00.000Z,0,Neon Сoliseum is a fun and simple but at the s...,"{'1980s': None, '1990's': None, '2.5D': None, ...",game,,2017
4,686340,[Single-player],0,Threevol,0.0,"Adventure, Free to Play, Indie",https://cdn.akamai.steamstatic.com/steam/apps/...,0.0,English,Insanity VR: Last Score,...,143,0.0,Threevol,2017-08-15T00:00:00.000Z,0,Insanity VR combines an immersive and intuitiv...,"{'1980s': None, '1990's': None, '2.5D': None, ...",game,http://insanity.vlyn.at/,2017


In [0]:
display(df_steam_flat.groupBy("year_release").agg(F.countDistinct("appid").alias("nb_games")).orderBy(F.desc("nb_games")).limit(10).toPandas())

year_release,nb_games
2021,8566
2020,8110
2018,7535
2022,7214
2019,6794
2017,5898
2016,4110
2015,2521
2014,1516
2013,461


Databricks visualization. Run in Databricks to view.

Les années ayant vu le plus grand nombre de sorties de jeux sur Steam sont 2020 et 2021, avec plus de 8 000 jeux publiés chaque année. Ce pic coïncide avec la période de la pandémie de Covid-19.

On observe également une tendance générale à la hausse du nombre de jeux disponibles sur la plateforme, bien que des baisses aient été enregistrées en 2019 et 2022.

---

Existe-t-il beaucoup de jeux avec une réduction ?

In [0]:
display(df_steam_flat.withColumn("has_discount", F.when(F.col("discount") > 0, "Avec réduction").otherwise("Sans réduction")).groupBy("has_discount").count())

has_discount,count
Avec réduction,2460
Sans réduction,52014


Databricks visualization. Run in Databricks to view.

Seuls 4,52 % des jeux bénéficient actuellement d’une réduction, contre 95,48 % qui ne sont pas en promotion.

---

Quels langages sont les plus représentés ?

In [0]:
df_steam_flat.select("languages").limit(5).toPandas()

Unnamed: 0,languages
0,"English, French, German, Spanish - Spain, Kore..."
1,English
2,English
3,English
4,English


Les langages sont stockés comme une chaine de caractère, chacun séparé par une virgule. 

Je vais tout d'abord en faire une liste, puis j'explode cette colonne.

In [0]:
df_steam_languages = df_steam_flat \
    .withColumn("languages_list", F.split(F.col("languages"), ",")) \
    .withColumn("languages_list", F.expr("transform(languages_list, x -> trim(x))")) \
    .drop("languages")
df_steam_languages.select("languages_list").limit(5).toPandas()

Unnamed: 0,languages_list
0,"[English, French, German, Spanish - Spain, Kor..."
1,[English]
2,[English]
3,[English]
4,[English]


In [0]:
df_steam_languages_exploded = df_steam_languages.withColumn("lang", F.explode("languages_list"))
display(df_steam_languages_exploded.select("lang").distinct().toPandas())

lang
Urdu
Portuguese - Portugal
Turkish
Persian
Spanish - Spain
Finnish
Malay
Thai
Indonesian
Belarusian


In [0]:
display(df_steam_languages_exploded.groupBy("lang").agg(F.countDistinct("appid").alias("nb_games")).orderBy(F.desc("nb_games")).limit(10).toPandas())

lang,nb_games
English,53917
German,13352
French,12752
Russian,12455
Simplified Chinese,12206
Spanish - Spain,11615
Japanese,9719
Italian,8778
Portuguese - Brazil,6383
Korean,6168


Databricks visualization. Run in Databricks to view.

La **langue anglaise** domine largement la plateforme, avec 53 917 jeux disponibles.

Elle est suivie par l’allemand et le français, avec respectivement 13 352 et 12 752 jeux.

---

Y a-t-il beaucoup de jeux interdit aux enfants de moins de 16/18 ans ?

Je compte le nombre de jeux par âge requis.

In [0]:
df_steam_flat.groupBy("required_age").agg(F.countDistinct("appid").alias("nb_games")).orderBy(F.desc("nb_games")).toPandas()

Unnamed: 0,required_age,nb_games
0,0,53919
1,15,210
2,18,188
3,16,37
4,17,34
5,12,31
6,13,25
7,14,8
8,10,6
9,7,3


In [0]:
display(df_steam_flat.withColumn(
    "age_category",
    F.when(F.col("required_age") >= 18, "18+")
     .when(F.col("required_age") >= 17, "17")
     .when(F.col("required_age") >= 16, "16")
     .otherwise("<16")
).groupBy("age_category").count())

age_category,count
16,37
18+,191
17,34
<16,54212


Databricks visualization. Run in Databricks to view.

Pour plus de visibilité, je ne vais pas afficher les moins de 16 ans

In [0]:
df_filtered_age = df_steam_flat.filter(F.col("required_age") >= 16)

display(df_filtered_age.withColumn(
    "age_category",
    F.when(F.col("required_age") >= 18, "18+")
     .when(F.col("required_age") >= 17, "17")
     .otherwise("16")
).groupBy("age_category").count())

age_category,count
16,37
18+,191
17,34


Databricks visualization. Run in Databricks to view.

Sur l’ensemble des jeux disponibles sur la plateforme (environ 50 000), **très peu sont interdits aux mineurs**.
Seuls 37 jeux sont interdits aux moins de 16 ans, 34 aux moins de 17 ans, et 191 aux moins de 18 ans.