In [0]:
from pyspark.sql import functions as F
from functools import reduce

filepath = 's3://full-stack-bigdata-datasets/Big_Data/Project_Steam/steam_game_output.json'

Nous chargeons le fichier dans un dataframe pyspark et nous affichons ses 5 premiers √©l√©ments pour se faire une id√©e du contenu.

Dans le cas pr√©sent il n'y a que 2 colonnes : une colonne "id" et une colonne "data". Cette derni√®re semble contenir l'int√©gralit√© des donn√©es exploitables.

In [0]:
df = (spark.read.format('json')\
             .option('header', 'true')\
             .load(filepath))

df.show(5)

+--------------------+-------+
|                data|     id|
+--------------------+-------+
|{10, [Multi-playe...|     10|
|{1000000, [Single...|1000000|
|{1000010, [Single...|1000010|
|{1000030, [Multi-...|1000030|
|{1000040, [Single...|1000040|
+--------------------+-------+
only showing top 5 rows



Nous nous int√©ressons maintenant au contenu de la colonne "data", en commen√ßant par afficher le sch√©ma du dataframe.

Comme pressenti, la colonne "data" contient les donn√©es qui nous int√©ressent. Elle contient aussi un champ "tags" qui lui-m√™me renferme plus de 400 sous-colonnes.

Apr√®s renseignement, les champs "tags" correspondent aux avis des joueurs (sous la forme de votes) concernant les cat√©gories auxquelles un jeu appartient. Ces champs sont √† contraster avec ceux apparaissant dans la colonne "genre" qui contient la m√™me information mais du point de vue de l'√©diteur du jeu. Source : https://store.steampowered.com/tag/

In [0]:
df.printSchema()

root
 |-- data: struct (nullable = true)
 |    |-- appid: long (nullable = true)
 |    |-- categories: array (nullable = true)
 |    |    |-- element: string (containsNull = true)
 |    |-- ccu: long (nullable = true)
 |    |-- developer: string (nullable = true)
 |    |-- discount: string (nullable = true)
 |    |-- genre: string (nullable = true)
 |    |-- header_image: string (nullable = true)
 |    |-- initialprice: string (nullable = true)
 |    |-- languages: string (nullable = true)
 |    |-- name: string (nullable = true)
 |    |-- negative: long (nullable = true)
 |    |-- owners: string (nullable = true)
 |    |-- platforms: struct (nullable = true)
 |    |    |-- linux: boolean (nullable = true)
 |    |    |-- mac: boolean (nullable = true)
 |    |    |-- windows: boolean (nullable = true)
 |    |-- positive: long (nullable = true)
 |    |-- price: string (nullable = true)
 |    |-- publisher: string (nullable = true)
 |    |-- release_date: string (nullable = true)
 |    |-

L'objectif est d√©sormais d'aplatir le contenu de la colonne "data" pour le r√©partir en plusieurs colonnes (pour rendre ces informations exploitables).

La premi√®re √©tape est de g√©n√©rer automatiquement une liste du nom des colonnes √† r√©cup√©rer.

In [0]:
field_names = [field.name for field in next(field for field in df.schema.fields if field.name=="data").dataType.fields]

for field in field_names:
    print(field)

appid
categories
ccu
developer
discount
genre
header_image
initialprice
languages
name
negative
owners
platforms
positive
price
publisher
release_date
required_age
short_description
tags
type
website


Nous pouvons donc aplatir la colonne "data" en fonction des noms de champs r√©cup√©r√©s pr√©c√©demment, puis nous d√©barasser des colonnes "data" (dont nous venons d'extraire les donn√©es) et "tags" (que nous n'utiliserons pas pour le moment). La fonction reduce() est particuli√®rement bien adapt√©e, nous allons donc l'utiliser.

In [0]:
def flatten(memo_df, my_col):
    return memo_df.withColumn(my_col, F.col("data").getField(my_col))

flat_df = reduce(flatten, field_names, df).drop('data').drop('tags')

In [0]:
flat_df.printSchema()
display(flat_df.limit(10))

root
 |-- id: string (nullable = true)
 |-- appid: long (nullable = true)
 |-- categories: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- ccu: long (nullable = true)
 |-- developer: string (nullable = true)
 |-- discount: string (nullable = true)
 |-- genre: string (nullable = true)
 |-- header_image: string (nullable = true)
 |-- initialprice: string (nullable = true)
 |-- languages: string (nullable = true)
 |-- name: string (nullable = true)
 |-- negative: long (nullable = true)
 |-- owners: string (nullable = true)
 |-- platforms: struct (nullable = true)
 |    |-- linux: boolean (nullable = true)
 |    |-- mac: boolean (nullable = true)
 |    |-- windows: boolean (nullable = true)
 |-- positive: long (nullable = true)
 |-- price: string (nullable = true)
 |-- publisher: string (nullable = true)
 |-- release_date: string (nullable = true)
 |-- required_age: string (nullable = true)
 |-- short_description: string (nullable = true)
 |-- type: string (nul

id,appid,categories,ccu,developer,discount,genre,header_image,initialprice,languages,name,negative,owners,platforms,positive,price,publisher,release_date,required_age,short_description,type,website
10,10,"List(Multi-player, Valve Anti-Cheat enabled, Online PvP, Shared/Split Screen PvP, PvP)",13990,Valve,0,Action,https://cdn.akamai.steamstatic.com/steam/apps/10/header.jpg?t=1666823513,999,"English, French, German, Italian, Spanish - Spain, Simplified Chinese, Traditional Chinese, Korean",Counter-Strike,5199,"10,000,000 .. 20,000,000","List(true, true, true)",201215,999,Valve,2000/11/1,0,Play the world's number 1 online action game. Engage in an incredibly realistic brand of terrorist warfare in this wildly popular team-based game. Ally with teammates to complete strategic missions. Take out enemy sites. Rescue hostages. Your role affects your team's success. Your team's success affects your role.,game,
1000000,1000000,"List(Single-player, Partial Controller Support, Steam Achievements, Steam Cloud)",0,IndigoBlue Game Studio,0,"Action, Adventure, Indie",https://cdn.akamai.steamstatic.com/steam/apps/1000000/header.jpg?t=1655723048,999,"English, Korean, Simplified Chinese",ASCENXION,5,"0 .. 20,000","List(false, false, true)",27,999,PsychoFlux Entertainment,2021/05/14,0,"ASCENXION is a 2D shoot 'em up game where you explore the field to progress. Players must overcome puzzles, traps, elite units, boss fights, and other various obstacles while navigating the field. Grow stronger through rewards earned, to uncover the truth of this world.",game,
1000010,1000010,"List(Single-player, Partial Controller Support, Steam Achievements, Steam Cloud, Steam Trading Cards)",99,NEXT Studios,70,"Adventure, Indie, RPG, Strategy",https://cdn.akamai.steamstatic.com/steam/apps/1000010/header.jpg?t=1655724189,1999,"Simplified Chinese, English, Japanese, Traditional Chinese, French, German, Spanish - Spain, Russian, Portuguese - Brazil",Crown Trick,646,"200,000 .. 500,000","List(false, false, true)",4032,599,"Team17, NEXT Studios",2020/10/16,0,"Enter a labyrinth that moves as you move, where mastering the elements is key to defeating enemies and uncovering the mysteries of this underground world. With a new experience awaiting every time you enter the dungeon, let the power bestowed by the crown guide you in this challenging adventure!",game,
1000030,1000030,"List(Multi-player, Single-player, Co-op, Steam Achievements, Steam Cloud, Shared/Split Screen, Full controller support, Steam Trading Cards, Shared/Split Screen Co-op, Remote Play on Phone, Remote Play on Tablet, Remote Play on TV, Remote Play Together)",76,Vertigo Gaming Inc.,0,"Action, Indie, Simulation, Strategy",https://cdn.akamai.steamstatic.com/steam/apps/1000030/header.jpg?t=1660866300,1999,English,"Cook, Serve, Delicious! 3?!",115,"100,000 .. 200,000","List(false, true, true)",1575,1999,Vertigo Gaming Inc.,2020/10/14,0,"Cook, serve and manage your food truck as you dish out hundreds of different foods across war-torn America in this massive sequel to the million-selling series!",game,http://www.cookservedelicious.com
1000040,1000040,List(Single-player),0,DoubleC Games,0,"Action, Casual, Indie, Simulation",https://cdn.akamai.steamstatic.com/steam/apps/1000040/header.jpg?t=1627033870,199,Simplified Chinese,ÁªÜËÉûÊàò‰∫â,1,"0 .. 20,000","List(false, false, true)",0,199,DoubleC Games,2019/03/30,0,ËøôÊòØ‰∏ÄÊ¨æÊâìÂáªÊÑüÂçÅË∂≥ÁöÑÁªÜËÉû‰∏ªÈ¢òÊ∏∏ÊàèÔºÅÊìç‰ΩúÁÆÄÂçï‰ΩÜÊ¥ª‰∏ãÂéªÂç¥‰∏çÁÆÄÂçïÔºå‚Äú‰Ω†‚Äù‰Ωú‰∏∫‰æµÂÖ•‰∫∫‰ΩìÁöÑÁªÜËèåÁóÖÊØíÔºåÈÄöËøá‰∏éÁªÜËÉû‰πãÈó¥ÁöÑÊàòÊñóÊù•Ëé∑ÂæóÂü∫Âõ†ÂèòÂºÇÁÇπÊï∞ÂíåËøõÂÖ•‰∏ã‰∏ÄÂÖ≥ÁöÑËµÑÊ†ºÔºåÊØèÁßçÁªÜËèåÁóÖÊØíÈÉΩÊúâÁã¨ÁâπÁöÑËÉΩÂäõÂíåÊîªÂáªÊïàÊûúÔºå‰Ω†ÊòØÂê¶ÂèØ‰ª•Á†¥Âùè‰∫îÂ§ßÂô®ÂÆòÂπ∂Âç†È¢Ü‰∫∫‰ΩìÂë¢ÔºÅÔºü,game,
1000080,1000080,"List(Multi-player, Single-player, Steam Achievements, Full controller support, Steam Trading Cards)",3,IndieLeague Studio,60,"Action, Adventure, Indie, RPG",https://cdn.akamai.steamstatic.com/steam/apps/1000080/header.jpg?t=1667062553,1999,"Simplified Chinese, English, Traditional Chinese, Japanese, Korean",Zengeon,462,"100,000 .. 200,000","List(false, true, true)",1018,799,2P Games,2019/06/24,0,Zengeon is an anime infused Action RPG and Roguelite with a selection of unique characters and varying play-styles. Slaughter your way through demonic hordes and colossal bosses with hundreds of combination and skill possibilities!,game,
1000100,1000100,"List(Single-player, Steam Achievements, Steam Cloud)",0,‰∏ÉÊúà‰πùÊó•,0,"Adventure, Indie, RPG, Strategy",https://cdn.akamai.steamstatic.com/steam/apps/1000100/header.jpg?t=1561522270,1299,"Japanese, Simplified Chinese, Traditional Chinese",Âπ≤ÊîØ„Çª„Éà„É©„ÄÄÈôΩ„ÉéÂç∑ÔΩúÂπ≤ÊîØetc.„ÄÄÈôΩ‰πãÂç∑,6,"0 .. 20,000","List(false, false, true)",18,1299,Starship Studio,2019/01/24,0,ËÄêÁî®Âπ¥Êï∞„ÇíË∂Ö„Åà„Å¶Á∂ª„Å≥„ÇÜ„ÅèÈÉΩÂ∏ÇÈ¢®Ê∞¥„Çí‰øÆÂæ©„Åô„Çã„Åü„ÇÅ„ÄÅÊ¨°‰ª£„ÅÆÈ¢®Ê∞¥Â∏´ÂÄôË£ú„Å´ÈÅ∏„Å∞„Çå„Åü‰∏ª‰∫∫ÂÖ¨„ÄÇ Á∂ª„Å≥„Åã„ÇâË•≤„ÅÑÊù•„ÇãÂ¶ñÁï∞„ÇíË®é„Å°Á•ì„ÅÑ„ÄÅÂçäÂπ¥Âæå„ÅÆË™çÂÆöË©¶È®ì„Å´Êåë„ÇÄ„Åü„ÇÅ‰∏é„Åà„Çâ„Çå„Åü„ÅÆ„ÅØ„ÄÅÂçÅ‰∫åÊîØ‚Äï‚ÄïÈô∞ÈôΩ‰∫îË°å„ÅÆÂåñË∫´„Åß„ÅÇ„ÇãÔºëÔºí‰∫∫„ÅÆÁî∑ÈÅî„Å†„Å£„Åü„ÄÇ „Åù„Çå„ÅØ„ÄÅ400Âπ¥„Å´Ê∏°„ÇãÈ¶ñÈÉΩÁπÅÊ†Ñ„ÅÆÁµÇÁÑâ„ÄÇ,game,http://0709.noor.jp/etc
1000110,1000110,"List(Multi-player, Single-player, Co-op, Online PvP, Online Co-op, PvP)",0,ÈáçÂ∫ÜÁéØÊ∏∏ËÄÖÁΩëÁªúÁßëÊäÄ,0,"Action, Adventure, Casual, Free to Play, Massively Multiplayer",https://cdn.akamai.steamstatic.com/steam/apps/1000110/header.jpg?t=1562917106,0,"English, Simplified Chinese, Traditional Chinese",Jumping Master(Ë∑≥Ë∑≥Â§ßÂíñ),34,"20,000 .. 50,000","List(false, false, true)",50,0,ÈáçÂ∫ÜÁéØÊ∏∏ËÄÖÁΩëÁªúÁßëÊäÄ,2019/04/8,0,Jumping Master is a innovative casual competitive game fully merged with classic gameplay of mushroom game. It aims to help us revisit the classic mushroom game in our chlidhood.,game,http://www.huanyz.com/bzjj/
1000130,1000130,"List(Single-player, Steam Achievements, Steam Leaderboards)",0,Simon Codrington,0,"Casual, Indie",https://cdn.akamai.steamstatic.com/steam/apps/1000130/header.jpg?t=1646024900,299,English,Cube Defender,0,"0 .. 20,000","List(false, true, true)",6,299,Simon Codrington,2019/01/6,0,Build turrets and destroy wave after wave of cube enemies in this minimalist and addictive tower defence game. Battle it out with a bunch of cube enemies and blast them off the map with a range of unique turrets.,game,
1000280,1000280,List(Single-player),0,Villain Role,0,"Indie, RPG",https://cdn.akamai.steamstatic.com/steam/apps/1000280/header.jpg?t=1649211613,1399,"English, Simplified Chinese, Traditional Chinese",Tower of Origin2-Worm's Nest,12,"0 .. 20,000","List(false, false, true)",32,1399,Villain Role,2021/09/9,0,"As the protagonistÔºåthe Balrog Princess‚Äî HongYe, after helping humans assess the rebellion. She thought she couldhave a stable life, but unexpectedly fell into a bigger crisis. What kind of ‚ôÇhardships ‚ôÇ will she experience this time, and how ‚ôÇinteresting experiences‚ôÇ she will encounter.",game,https://weibo.com/u/7623414897


In [0]:
display(flat_df.summary())

summary,id,appid,ccu,developer,discount,genre,header_image,initialprice,languages,name,negative,owners,positive,price,publisher,release_date,required_age,short_description,type,website
count,55691.0,55691.0,55691.0,55691,55691.0,55691,55691,55691.0,55691,55691,55691.0,55691,55691.0,55691.0,55691,55691,55691,55691,55691,55691
mean,1025603.0926720656,1025603.0926720656,138.9596164550825,67392.0,2.603777989262179,,,797.5663033524268,,Infinity,241.8376937027527,,1470.8755992889337,773.2849832109317,2001.0,,0.1978882344490734,,,
stddev,522784.968328345,522784.968328345,6002.067909130765,210681.70504552333,12.887080174743176,,,1104.762477841338,,,5765.413761559615,,30982.733479534887,1093.13458272345,1921.8937275510318,,2.2962924614818236,,,
min,10.0,10.0,0.0,,0.0,,https://cdn.akamai.steamstatic.com/steam/apps/10/header.jpg?t=1666823513,0.0,,Fieldrunners 2,0.0,"0 .. 20,000",0.0,0.0,,,0,,game,
25%,598530.0,598530.0,0.0,125.0,0.0,,,199.0,,103.0,1.0,,5.0,129.0,123.0,,0.0,,,
50%,986320.0,986320.0,0.0,773.0,0.0,,,499.0,,1010.0,6.0,,19.0,499.0,2054.0,,0.0,,,
75%,1427920.0,1427920.0,1.0,2015.0,0.0,,,999.0,,2021.0,32.0,,106.0,999.0,3909.0,,0.0,,,
max,999990.0,2190950.0,874053.0,Ôºº‰∏äÔºè,90.0,Web Publishing,https://cdn.akamai.steamstatic.com/steam/apps/999990/header.jpg?t=1610733322,9999.0,Turkish,ÔΩûDaydreamÔΩûËù∂„ÅåËàû„ÅÜÈ†É„Å´,908515.0,"500,000 .. 1,000,000",5943345.0,9999.0,Ôº¨ÔΩÖÔΩçÔΩèÔΩé„ÄÄÔº¢ÔΩÅÔΩåÔΩç,2022/11/7,MA 15+,"üöó Take part in a roller coaster of emotions with Louise embarking on a road trip of a lifetime through the late 1960s USA, trying to show her son Mitch how to navigate the often cruel modern world. Your choices matter! ‚úÖ",hardware,www.windybeard.com


Nous pouvons d√©sormais nous int√©resser √† chacune des colonnes et d√©cider si elle sera √† priori utile ou non pour la suite.

In [0]:
# l'information contenue dans id et appid est-elle redondante ? OUI

print(flat_df.select('id').distinct().count())
print(flat_df.select('appid').distinct().count())

55691
55691


In [0]:
# tous les jeux ont-ils une image de pr√©sentation ? OUI

flat_df.filter(F.col('header_image').isNull()).count()

Out[9]: 0

In [0]:
# que contient vraiment la colonne 'owmers' ?
# nous nous apercevons que cette colonne comporte 13 classes signalant le nombre d'unit√©s du jeu vendues
# par contre si 'owners' vaut "100,000 .. 200,000", entre 100 000 et 200 000 exemplaires du jeu ont √©t√© vendus

display(flat_df.select('owners').distinct())

owners
"100,000 .. 200,000"
"1,000,000 .. 2,000,000"
"20,000,000 .. 50,000,000"
"5,000,000 .. 10,000,000"
"0 .. 20,000"
"20,000 .. 50,000"
"2,000,000 .. 5,000,000"
"50,000,000 .. 100,000,000"
"200,000,000 .. 500,000,000"
"500,000 .. 1,000,000"


In [0]:
# dans quel format est la date de sortie ? STRING

flat_df.select('release_date').describe()

Out[11]: DataFrame[summary: string, release_date: string]

In [0]:
# que contient le champ required_age ? une information a priori peu pertinente, mais √† approfondir

display(flat_df.groupBy('required_age').count())
display(flat_df.groupBy('required_age').max('ccu'))

required_age,count
7,2
15,264
3,3
8,3
16,38
35,1
0,55030
21+,1
5,1
18,223


required_age,max(ccu)
7,34
15,273088
3,0
8,365
16,2429
35,2
0,874053
21+,0
5,0
18,50989


In [0]:
# tous les jeux ont-ils un type et si oui lequel ?
# tous les jeux sont des jeux (!!!) sauf un (Steamlink)

display(flat_df.groupBy('type').count())
display(flat_df.filter("type == 'hardware'"))

type,count
hardware,1
game,55690


id,appid,categories,ccu,developer,discount,genre,header_image,initialprice,languages,name,negative,owners,platforms,positive,price,publisher,release_date,required_age,short_description,type,website
353380,353380,"List(Full controller support, Remote Play Together)",0,,0,,https://cdn.akamai.steamstatic.com/steam/apps/353380/header.jpg?t=1617990330,0,,Steam Link,1771,"500,000 .. 1,000,000","List(true, true, true)",5803,0,Anima Locus,2015/11/10,0,"Extend your Steam gaming experience to your mobile device, TV, or another PC - all you need is a local network or internet connection. In addition, the Steam Link app now supports Remote Play Together. Now you can join games hosted on a friend‚Äôs PC just by clicking a link.",hardware,https://store.steampowered.com/remoteplay



### id / appid

Il y a autant d'id distinctes que d'appid distinctes que de lignes dans notre table. Cette information est donc redondante et semble un id interne dans Steam. Cela ne nous sera a priori pas n√©cessaire, nous pouvons donc retirer cette colonne et garder seulement id.

Plut√¥t que de retirer les colonnes une par une tout au long de cette analyse, nous allons ajouter son nom √† une liste que nous utiliserons avec la commande .drop() pour nettoyer la table √† la fin.

### categories

Une liste de cat√©gories concernant le type de jeu, par exemple PvP ou multiplayer. Cette information est tr√®s importante pour notre √©tude mais nous ne pouvons pas y acc√©der facilement. Il faudra la distribuer via une duplication des lignes, potentiellement dans un deuxi√®me temps.

### ccu

CCU signifie "Concurrent Connected Users", dans notre datatrame c'est le nombre maximal de joueurs en train de jouer au jeu au m√™me moment. C'est un indicateur important du succ√®s d'un jeu √† son apog√©e, nous d√©cidons donc de conserver cette colonne.

### developer / name / publisher

Le nom du jeu ainsi que celui du studio ayant d√©velopp√© le jeu et celui de l'√©diteur, des informations tr√®s importantes que nous conservons donc.

### discount

Indique en % si une r√©duction est appliqu√©e √† l'heure actuelle. Information importante pour les politiques de prix.

### genre

Une string contenant une liste des cat√©gories auxquelles ce jeu appartient (RPG, FPS, Horreur...), une information importante pour pouvoir segmenter l'information. Nous devrons distribuer cette liste dans un second temps ("explode").

### header_image

Une image associ√©e au jeu, tous les jeux en ont une. Cette information ne semble pas pertinente.

### initalprice / price

Informations utiles pour cette √©tude.

### languages

Liste des langues dans lequel le jeu est disponible. A conserver pour le moment, √† aplatir quand nous en aurons besoin.

### negative / positive

Nombres de votes n√©gatifs ou positifs qu'un jeu a re√ßu de la part des joueurs. Cette information est tr√®s utile pour d√©terminer le succ√®s d'un jeu et devrait nous permettre d'attribuer une note au jeu.

### owners

Nombre d'exemplaires du jeu vendus, divis√©s en 13 classes. Il pourrait √™tre utile de diviser ces classes en 2 colonnes min/max pour faire des calculs (par exemple estimation du chiffre d'affaires)

### platforms

Une liste de 3 bool√©ens indiquant la disponibilit√© du jeu sur les 3 plateformes principales (ordre de la liste : linux, mac, windows). √Ä r√©partir sur 3 colonnes distinctes. 

### release_date

Date de sortie du jeu, √† transformer en format date correct √† partir d'un format string.

### required_age

Le champ required_age est compos√© de plusieurs cat√©gories, mais une d'entre elle ('0') domine les d√©bats (environ 55 030 jeux sur les 55 691 jeux pr√©sents dans notre dataframe). N√©anmoins des jeux ayant des restrictions d'√¢ge atteignent des ccu importants (de l'ordre de 50 000 √† 100 000 ccu, alors que le record est de 875 000 environ), il pourrait √™tre int√©resser de regarder quels jeux sont concern√©s.

### short_description

Une description du jeu qui ne pr√©sente que peu d'int√©r√™t pour nous a priori (et occupe comparativement beaucoup de place).

### type

Tous les jeux r√©f√©renc√©s sont du type "game" sauf un, nous allons donc ignorer cette colonne

### website

Le site web du jeu, a priori sans int√©r√™t pour nous.

Nous proc√©dons au retrait des donn√©es sans int√©r√™t ainsi qu'√† la tranformation d'autres colonnes :
- passage de la colonne 'release_date' au format date
- cr√©ation de 3 colonnes √† partir de la colonne 'platforms'

In [0]:
to_be_dropped = ['appid', 'header_image', 'short_description', 'type', 'website']

flat_df = flat_df.drop(*to_be_dropped)

In [0]:
flat_df = flat_df.withColumn("release_date", F.to_date(F.col("release_date"), format="y/M/d"))

In [0]:
platforms = ['linux', 'mac', 'windows']

for platform in platforms:
    flat_df = flat_df.withColumn(platform, F.col("platforms").getField(platform))

flat_df = flat_df.drop('platforms')

In [0]:
flat_df.printSchema()

root
 |-- id: string (nullable = true)
 |-- categories: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- ccu: long (nullable = true)
 |-- developer: string (nullable = true)
 |-- discount: string (nullable = true)
 |-- genre: string (nullable = true)
 |-- initialprice: string (nullable = true)
 |-- languages: string (nullable = true)
 |-- name: string (nullable = true)
 |-- negative: long (nullable = true)
 |-- owners: string (nullable = true)
 |-- positive: long (nullable = true)
 |-- price: string (nullable = true)
 |-- publisher: string (nullable = true)
 |-- release_date: date (nullable = true)
 |-- required_age: string (nullable = true)
 |-- linux: boolean (nullable = true)
 |-- mac: boolean (nullable = true)
 |-- windows: boolean (nullable = true)




## Analyse des donn√©es g√©n√©rales

Voici quelques questions que nous sommes susceptibles de nous poser :

### Question 1 : Quel √©diteur a publi√© le plus de jeux sur Steam ?

Cette question peut aussi se poser pour les studios de d√©veloppement.

### Question 2 : Quels sont les jeux les mieux not√©s ?

Steam ne publie pas de note √† proprement parler, nous devrons donc la d√©duire des autres colonnes. Nous retenons la formule suivante : note = 100 * positive / (positive + negative)
La note est donc le pourcentage de votes positifs. Cependant cette note peut facilement mettre en avant des jeux ayant tr√®s peu de notes. Pour s√©lectionner les jeux les mieux not√©s il faudrait donc veiller √† cr√©er un sous-ensemble de jeux "qualifi√©s", par exemple les jeux ayant re√ßu un nombre minimum de votes au total.

Par ailleurs un jue bien not√© n'est pas forc√©ment un jeu populaire. Nous nous int√©resserons donc aussi au 'ccu' (concurrent connected users) qui est potentiellement plus r√©v√©lateur du succ√®s r√©el d'un jeu.

Pour finir, le nombre d'exemplaires vendus est aussi un bon indicateur et nous regarderons si l'on trouve les m√™mes jeux.

### Question 3 : Y a-t-il des ann√©es pendant lesquelles plus de jeux sont sortis ? Ou d'autres p√©riodes, comme celle du Covid ?

Pour r√©pondre √† cette question nous commencerons par regarder la r√©partition par ann√©es puis lors d'√©v√©nements sp√©cifiques (Covid) ou √† l'int√©rieur d'une ann√©e (par exemple la p√©riode de No√´l).

### Question 4 : Comment les prix des jeux sont-ils distribu√©s et qu'en est-il des r√©ductions de prix ?

Nous regarderons le contenu des colonnes 'price' et 'discount'.

### Question 5 : Quels langages sont les plus repr√©sent√©s ?

Il sera temps de regarder la colonne 'languages' et de r√©cup√©rer les diff√©rentes valeurs pr√©sentes dans la liste. Cependant cela ne correspond pas forc√©ment √† la langue d'origine du jeu (ou du studio, ou de l'√©diteur). Il sera int√©ressant de regarder si beaucoup de jeux sont disponibles dans de nombreuses langues.

### Question 6 : Y a-t-il beaucoup de jeux interdits aux moins de 18 ans ? au moins de 16 ans ?

Cela sera une opportunit√© pour regarder de quel type de jeux il s'agit et d'√©valuer leur succ√®s.

### Question 1 : Quel √©diteur a publi√© le plus de jeux sur Steam ?

In [0]:
print("Top 10 des √©diteurs (par nombre de jeux)")
display(flat_df.groupBy('publisher').count().sort('count', ascending=False).take(10))
print("Top 10 des d√©velopeurs (par nombre de jeux)")
display(flat_df.groupBy('developer').count().sort('count', ascending=False).take(10))

Top 10 des √©diteurs (par nombre de jeux)


publisher,count
Big Fish Games,422
8floor,202
SEGA,165
Strategy First,151
Square Enix,141
Choice of Games,140
Sekai Project,132
HH-Games,132
,132
Ubisoft,127


Top 10 des d√©velopeurs (par nombre de jeux)


developer,count
Choice of Games,140
,127
Creobit,122
Laush Dmitriy Sergeevich,108
Sokpop Collective,98
"KOEI TECMO GAMES CO., LTD.",90
Reforged Group,89
Boogygames Studios,80
Hosted Games,79
Elephant Games,75


Nous remarquons que les plus gros √©diteurs et les plus gros studios ont publi√© plusieurs centaines de jeux sur Steam.

L'√©diteur "Big Fish Game" a publi√© largement plus de jeux que n'importe qui d'autre sur Steam (plus de 2 fois plus que l'√©diteur arrivant en seconde position) mais il n'appara√Æt pas dans le top 10 des d√©velopeurs.

√Ä l'inverse "Choice of Games" a √©dit√© et d√©velopp√© 140 jeux : ce studio a (a priori) √©dit√© lui-m√™me tous les jeux qu'il a d√©velopp√©s. C'est aussi le studio ayant d√©velopp√© le plus de jeux.

Pour mieux comprendre le lien entre √©diteur et d√©velopeur, penchons-nous par exemple sur le cas de Square Enix :

In [0]:
display(flat_df.select('publisher', 'developer').filter(F.col('publisher') == 'Square Enix').limit(10))
display(flat_df.select('publisher').filter((F.col('publisher') == 'Square Enix') & (F.col('developer') == 'Square Enix')).count())

publisher,developer
Square Enix,Square Enix
Square Enix,"Square Enix, KOEI TECMO GAMES CO., LTD."
Square Enix,Eidos-Montr√©al
Square Enix,Original Fire Games
Square Enix,"Square Enix, Toylogic Inc."
Square Enix,Square Enix
Square Enix,"Square Enix, D4Enterprise Co.,Ltd."
Square Enix,Square Enix
Square Enix,Square Enix
Square Enix,Square Enix


42

Sur 141 jeux, Square Enix en a d√©velopp√© 41 en solo mais le nom de Square Enix appara√Æt souvent conjoitement avec un autre studio du c√¥t√© d√©veloppement.

Nous pouvons aussi regarder le nombre de jeux pour lequel l'√©diteur est le m√™me que le d√©veloppeur :

In [0]:
display(flat_df.groupby('publisher', 'developer').count().sort('count', ascending = False).limit(10))

publisher,developer,count
Choice of Games,Choice of Games,140
Laush Studio,Laush Dmitriy Sergeevich,105
Sokpop Collective,Sokpop Collective,98
8floor,Creobit,94
Reforged Group,Reforged Group,89
"KOEI TECMO GAMES CO., LTD.","KOEI TECMO GAMES CO., LTD.",86
Hosted Games,Hosted Games,79
Boogygames Studios,Boogygames Studios,78
Big Fish Games,Elephant Games,73
Blender Games,Blender Games,70


### Question 2 : Quels sont les jeux les mieux not√©s ?



In [0]:
# R√©ponse 1 : jeux ayant le plus d'avis positifs
# R√©ponse 2 : jeux ayant la meilleure "note" : 100 * votes_positifs / (nombre total de votes)
# R√©ponse 3 : jeux ayant eu le plus de ccu (concurrent connected users)

# Nous commen√ßons par ajouter une colonne "rating" avec notre note
# Nous √©liminons tous les jeux n'ayant pas atteint une certaine quantit√© de votes positifs (outliers dans ce cas)

min_nb_reviews = 50000

top_df = flat_df \
    .select('*')\
    .filter((flat_df.positive + flat_df.negative) > min_nb_reviews)\
    .withColumn('rating', F.format_number(100 * flat_df.positive / (flat_df.positive + flat_df.negative), 2))

# R√©ponse 1

top_df1 = top_df.select('name', 'positive', 'rating', 'ccu').sort('positive', ascending = False)

# R√©ponse 2

top_df2 = top_df.select('name', 'positive', 'rating', 'ccu'). sort('rating', ascending = False)

# R√©ponse 3

top_df3 = top_df.select('name', 'positive', 'rating', 'ccu').sort('ccu', ascending = False)

In [0]:
print("Top 20 des jeux ayant eu le plus de votes positifs")
top_df1.show(20)
print("Top 20 des jeux ayant eu la meilleure note d'apr√®s notre d√©finition")
top_df2.show(20)
print("Top 20 des jeux ayant eu le nombre de joueurs au m√™me temps le plus √©lev√©")
top_df3.show(20)

Top 20 des jeux ayant eu le plus de votes positifs
+--------------------+--------+------+------+
|                name|positive|rating|   ccu|
+--------------------+--------+------+------+
|Counter-Strike: G...| 5943345| 88.31|874053|
|              Dota 2| 1534895| 82.84|852995|
|  Grand Theft Auto V| 1229265| 85.21|140671|
| PUBG: BATTLEGROUNDS| 1185361| 56.61|339287|
|            Terraria| 1014711| 97.84| 58984|
|Tom Clancy's Rain...|  942910| 86.81| 31239|
|         Garry's Mod|  861240| 96.63| 39043|
|     Team Fortress 2|  846407| 93.65|108900|
|                Rust|  732513| 86.72|121146|
|       Left 4 Dead 2|  643836| 97.45| 19084|
|The Witcher 3: Wi...|  632627| 96.16| 22812|
|            Among Us|  586302| 91.79|  8479|
|Euro Truck Simula...|  572368| 97.34| 39651|
|    Wallpaper Engine|  561096| 98.07|109428|
|            PAYDAY 2|  532013| 89.40| 40874|
|    Dead by Daylight|  509637| 81.41| 43211|
|      Stardew Valley|  497558| 98.17| 32996|
|       Rocket League|  49649

En conclusion nous pouvons observer qu'il est rare qu'un jeu apparaisse dans les 3 cat√©gories et que le r√©sultat d√©pendra donc fortement de la m√©trique retenue.

### Question 3 : Y a-t-il des ann√©es pendant lesquelles plus de jeux sont sortis ? Ou d'autres p√©riodes, comme celle du Covid ?

In [0]:
time_df = flat_df \
    .select('*')\
    .withColumn('year', F.year('release_date'))\
    .withColumn('month', F.month('release_date'))

time_df.select('name', 'release_date', 'year', 'month').limit(10)

Out[23]: DataFrame[name: string, release_date: date, year: int, month: int]

In [0]:
display(time_df.groupBy('year').count().sort('year'))

year,count
,222
1997.0,2
1998.0,1
1999.0,3
2000.0,2
2001.0,4
2002.0,1
2003.0,3
2004.0,6
2005.0,6


Databricks visualization. Run in Databricks to view.

In [0]:
display(time_df.groupBy('month').count().sort('month'))

month,count
,222
1.0,3868
2.0,4214
3.0,4697
4.0,4461
5.0,4719
6.0,4206
7.0,4754
8.0,5064
9.0,5166


Databricks visualization. Run in Databricks to view.

Databricks visualization. Run in Databricks to view.

√Ä la vue de ces grpahes le mois qui compte le plus de sorties de jeux est le mois d'octobre. Aucun "effet No√´l" n'est apparent car les mois de novembre, d√©cembre et janvier semblent plus calmes que la moyenne. Ceci dit il faudrait consulter le d√©partement Marketing : il est possible que le mois d'Octobre soit pr√©f√©r√© (par rapport √† No√´l), le temps qu'un jeu accumule suffisamment de bonne r√©putation, de recommandations ou de joueurs avant No√´l.

In [0]:
display(time_df.filter((time_df.month > 2) & (time_df.month < 7) & (time_df.year >= 2019) & (time_df.year <= 2021)).groupBy('month', 'year').count().sort('month', 'year'))

month,year,count
3,2019,559
3,2020,564
3,2021,824
4,2019,603
4,2020,630
4,2021,704
5,2019,645
5,2020,693
5,2021,661
6,2019,483


√Ä la vue de ces chiffres il ne semble pas que le Covid ait eu une quelconque importance, hormis peut-√™tre le mois de mai. Ceci peut potentiellement s'expliquer par le fait que les cycles de d√©veloppement de jeux vid√©o sont tr√®s longs et que les dates de sortie sont anticip√©es des mois voire des ann√©es √† l'avance. Les √©diteurs n'ont donc probablement pas eu le temps de r√©agir pour sortir plus de jeux, d'autant plus que leurs √©quipes √©taient elles aussi affect√©es par la situation. On ne note pas non plus de baisse significative pour les m√™mes raisons (les jeux √©tant sortis sur cette p√©riode √©tant pr√™ts depuis longtemps).

Il serait int√©ressant de regarder l'impact du Covid sur les "concurrent users" mais ces donn√©es ne sont pas disponibles dans ce dataset.

### Question 4 : Comment les prix des jeux sont-ils distribu√©s et qu'en est-il des r√©ductions de prix ?

In [0]:
flat_df.select('initialprice').distinct().count()
flat_df.select('price').distinct().count()

Out[27]: 385

In [0]:
display(flat_df.select('initialprice').describe())
display(flat_df.select('price').describe())

summary,initialprice
count,55691.0
mean,797.5663033524268
stddev,1104.762477841338
min,0.0
max,9999.0


summary,price
count,55691.0
mean,773.2849832109317
stddev,1093.13458272345
min,0.0
max,9999.0


In [0]:
display(flat_df.select('initialprice').sort('initialprice', ascending=False).limit(5))

initialprice
9999
9999
9999
9999
9999


Nous pouvons constater que :
- il y a trop de prix diff√©rents (203) pour pouvoir faire une analyse pertinente √† ce stade
- les prix sont en centimes et non en euros
- les prix vont de 0 √† 99.99 euros avec une moyenne de 7.98 et un √©cart-type de 11.05

Nous allons donc proc√©der √† 2 op√©rations pour rendre ces donn√©es exploitables :
- passer les prix en euros
- les r√©partir en classes

Ces 2 transformations seront aussi effectu√©es sur la colonne "price" qui contient le prix actuel (apr√®s remise).

In [0]:
#display(flat_df.limit(5))

from pyspark.sql.types import FloatType

price_df = flat_df.withColumn('initialprice', flat_df.initialprice.cast(FloatType()) / 100)\
                  .withColumn('price', flat_df.price / 100)

display(price_df.select('initialprice').sort('initialprice', ascending=False).limit(5))
display(price_df.select('price').sort('price', ascending=False).limit(5))

initialprice
999.0
299.9
269.99
249.0
199.99


price
999.0
299.9
269.99
249.0
199.99


In [0]:
display(price_df.select('initialprice').sort('initialprice', ascending=False).limit(5))

initialprice
999.0
299.9
269.99
249.0
199.99


In [0]:
from pyspark.ml.feature import Bucketizer

my_bucket = Bucketizer()
my_bucket.setSplitsArray([[x for x in range(0, 110, 10)], [x for x in range(0, 110, 10)]])   # classes de prix de 10 en 10 entre 0 et 100 euros
 

price_df = flat_df.withColumn('initialprice', flat_df.initialprice / 100)\
                  .withColumn('price', flat_df.price / 100)

my_bucket.setInputCols(['initialprice', 'price'])
my_bucket.setOutputCols(['init_price_bucket', 'price_bucket'])

price_df2 = my_bucket.transform(price_df)
display(price_df2.select('initialprice', 'price', 'init_price_bucket', 'price_bucket'))

### Question 5 : Quelles langues sont les plus repr√©sent√©es ?

In [0]:
result_lang = flat_df.withColumn('languages_splited', F.explode(F.split(flat_df['languages'], ', '))) \
    .groupBy('languages_splited') \
    .count() \
    .orderBy(F.desc('count'))
    
result_lang.limit(5).toPandas()

Unnamed: 0,languages_splited,count
0,English,55116
1,German,14019
2,French,13426
3,Russian,12922
4,Simplified Chinese,12782


### Question 6 : Y a-t-il beaucoup de jeux interdits aux moins de 18 ans ? au moins de 16 ans ?

In [0]:
from pyspark.sql.types import LongType

def convert_str_to_int(df,str_col_name):
    df = df.withColumn(str_col_name, df[str_col_name].cast(LongType()))
    return df

def check_type(df,str_col_name):
    print(type(df.select(str_col_name).head()[str_col_name]))

convert_str_to_int(flat_df,'required_age')
check_type(flat_df,'required_age')

<class 'str'>


In [0]:
def distribution(df,select_list_col,groupby_col,order_by_col):
    result_df = df.select(*select_list_col) \
        .groupBy(*groupby_col) \
        .count() \
        .withColumnRenamed('count', f'count_by_{groupby_col[0]}') \
        .orderBy(F.col(*order_by_col).desc())
    return result_df

distribution_age = distribution(flat_df,['required_age'],['required_age'],['required_age'])

required_age,count_by_required_age
9,1
8,3
7,2
6,4
5,1
35,1
3,3
20,1
18,223
17,38


In [0]:
display(distribution_age.filter(F.col('required_age')<99).sort('required_age'))

required_age,count_by_required_age
0,55030
10,7
12,32
13,26
14,10
15,264
16,38
17,38
18,223
20,1


### Autres questions pertinentes

### Question 7 : Quels genres sont les plus repr√©sent√©s ?

In [0]:
genre_df = flat_df.withColumn('genres_exploded', F.explode(F.split(flat_df['genre'], ', ')))

genre_counts = genre_df.select('genres_exploded') \
    .groupBy('genres_exploded') \
    .count() \
    .withColumnRenamed('count', 'genre_count') \
    .orderBy(F.desc('genre_count'))

display(genre_counts.limit(5)) #top5

genres_exploded,genre_count
Indie,39681
Action,23759
Casual,22086
Adventure,21431
Strategy,10895


On s'aper√ßoit qu'il est difficile de conclure car il y a (logiquement) plus de jeux ind√©pendants m√™me si cette cat√©gorie reste tr√®s vague.

### Quelle est la r√©partition des syst√®mes d'exploitation / plateformes ?

In [0]:
cols = ['windows','mac','linux']

os_df = flat_df.select(
    *(F.col(c).cast("integer").alias(c) for c in cols)
) \
.groupBy() \
.agg(
    F.sum(F.col('windows')).alias('total_windows'),
    F.sum(F.col('mac')).alias('total_mac'),
    F.sum(F.col('linux')).alias('total_linux')
)

# Showing the result
os_df.show()

+-------------+---------+-----------+
|total_windows|total_mac|total_linux|
+-------------+---------+-----------+
|        55676|    12770|       8458|
+-------------+---------+-----------+



Sans surprise Windows domine largement le march√© des jeux vid√©o, m√™me si on remarque qu'un nombre important de jeux sont disponibles sous Mac ou Linux (notamment via l'influence de Proton et aujourd'hui du SteamDeck)