In [2]:
import pandas as pd
df = pd.read_csv('../data/gk_full_dataset.csv')

In [3]:
# Suppression des colonnes 'Unnamed'
df.drop(['Unnamed: 0', 'Unnamed: 0.1'], axis=1, inplace=True)


# Remplacement des NA par 0 
df['Date_sortie'].fillna(0, inplace=True)
df['Editeur'].fillna(0, inplace=True)
df['Licence'].fillna(0, inplace=True)


# Remplacement des NA de la colonne [0] par -1 et transformation en float
df.loc[df['0']=='-', '0'] = '-1'
df['0'].fillna('-1', inplace=True)
df['0'] = df['0'].astype('float')


# Remplacement des NA de la colonne [Note_GK] par les valeurs de la colonne [0]
# transformation en float
df['Note_GK'].fillna(df['0'], inplace=True)
df['Note_GK'] = df['Note_GK'].astype('float')


# Suppression de la colonne [0]
df.drop(['0'], axis=1, inplace=True)


# Transformation de la colonne [Date_note_GK] en format datetime
df['jour_test'] = df['Date_note_GK'].str.split(' ', expand=True).get(0)
df['mois_test'] = df['Date_note_GK'].str.split(' ', expand=True).get(1)
df['annee_test'] = df['Date_note_GK'].str.split(' ', expand=True).get(2)
df = df.replace(
    to_replace = ['janvier','février', 'mars', 'avril', 'mai', 'juin', 'juillet', 'août', 'septembre', 'octobre', 'novembre', 'décembre'],
    value = ['01', '02', '03', '04', '05', '06', '07', '08', '09', '10', '11', '12'])
df['Date_Test_GK'] = df['annee_test'].str.cat(df['mois_test'], sep='/').str.cat(df['jour_test'], sep='/')
df['Date_Test_GK'] = pd.to_datetime(df['Date_Test_GK'])

# et suppression des colonnes utilisées en stand-by 
df.drop(['Date_note_GK', 'jour_test', 'mois_test', 'annee_test'], axis=1, inplace=True)


# Récupération de la plateforme sur laquelle a été fait le test
df['Platform_test'] = df['Url'].str.split('/', expand=True).get(3)
df['Platform_test'] = df['Platform_test'].str.split('-', expand=True).get(1)
df['Platform_test'] = df['Platform_test'].str.split('.', expand=True).get(0)
df['Platform_test'] = df['Platform_test'].fillna('')
df['Platform_test'] = df['Platform_test'].apply(lambda x: str(x). upper())


# Récupération du nb dans la colonne [Nb_avis]
df['Nb_avis'] = df['Nb_avis'].apply(lambda x: x[:-5])
df['Nb_avis'] = df['Nb_avis'].astype('int')


# Renommage et repositionnement des colonnes notes
df['Note_Test_GK'] = df['Note_GK']
df['Note_Users'] = df['Note_joueurs']
df['Nb_Note_Users'] = df['Nb_avis']
df.drop(['Note_GK', 'Note_joueurs', 'Nb_avis'], axis=1, inplace=True)


# Explosion du dataset en fonction de la colonne [Platform]
df['Platform'] = df['Platform'].str.split('\n')
df = df.explode('Platform')

# Rajout de l'année de sortie
df['Annee_sortie'] = df['Date_sortie'].apply(lambda x: str(x)[-4:])
df['Annee_sortie'] = df['Annee_sortie'].replace(['évue'], ['0'])
df['Annee_sortie'] = df['Annee_sortie'].astype('int')

In [4]:
df.head(20)

Unnamed: 0,Name,Url,Genre,Date_sortie,Platform,Editeur,Licence,Date_Test_GK,Platform_test,Note_Test_GK,Note_Users,Nb_Note_Users,Annee_sortie
0,F.C. Manager 2007,/jeux/f-c-manager-2007-3010002408/test-x360.html,"Gestion, Sport",22 septembre 2006,PC,Codemasters,F.C. Manager,2006-10-05,X360,5.0,6.0,1,2006
0,F.C. Manager 2007,/jeux/f-c-manager-2007-3010002408/test-x360.html,"Gestion, Sport",22 septembre 2006,X360,Codemasters,F.C. Manager,2006-10-05,X360,5.0,6.0,1,2006
0,F.C. Manager 2007,/jeux/f-c-manager-2007-3010002408/test-x360.html,"Gestion, Sport",22 septembre 2006,PS2,Codemasters,F.C. Manager,2006-10-05,X360,5.0,6.0,1,2006
1,Sonic Mega Collection Plus,/jeux/sonic-mega-collection-plus-3010001353/te...,Compilation,21 mars 2003,NGC,Atari,Sonic,2005-02-02,PS2,6.0,6.9,34,2003
1,Sonic Mega Collection Plus,/jeux/sonic-mega-collection-plus-3010001353/te...,Compilation,21 mars 2003,PS2,Atari,Sonic,2005-02-02,PS2,6.0,6.9,34,2003
1,Sonic Mega Collection Plus,/jeux/sonic-mega-collection-plus-3010001353/te...,Compilation,21 mars 2003,XBOX,Atari,Sonic,2005-02-02,PS2,6.0,6.9,34,2003
1,Sonic Mega Collection Plus,/jeux/sonic-mega-collection-plus-3010001353/te...,Compilation,21 mars 2003,PC,Atari,Sonic,2005-02-02,PS2,6.0,6.9,34,2003
2,Final Fantasy II,/jeux/final-fantasy-ii-3010001572/test.html,Jeu de rôles,0,PS,Squaresoft,Final Fantasy,2008-02-20,,6.0,7.0,23,0
2,Final Fantasy II,/jeux/final-fantasy-ii-3010001572/test.html,Jeu de rôles,0,NES,Squaresoft,Final Fantasy,2008-02-20,,6.0,7.0,23,0
2,Final Fantasy II,/jeux/final-fantasy-ii-3010001572/test.html,Jeu de rôles,0,PSP,Squaresoft,Final Fantasy,2008-02-20,,6.0,7.0,23,0


In [139]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 26917 entries, 0 to 8623
Data columns (total 13 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Name           26917 non-null  object        
 1   Url            26917 non-null  object        
 2   Genre          26903 non-null  object        
 3   Date_sortie    26917 non-null  object        
 4   Platform       26917 non-null  object        
 5   Editeur        26917 non-null  object        
 6   Licence        26917 non-null  object        
 7   Date_Test_GK   26917 non-null  datetime64[ns]
 8   Platform_test  26917 non-null  object        
 9   Note_Test_GK   26917 non-null  float64       
 10  Note_Users     26917 non-null  float64       
 11  Nb_Note_Users  26917 non-null  int64         
 12  Annee_sortie   26917 non-null  int64         
dtypes: datetime64[ns](1), float64(2), int64(2), object(8)
memory usage: 2.9+ MB


In [5]:
df['Genre'].unique()

array(['Gestion,                             Sport', 'Compilation',
       'Jeu de rôles', 'FPS', 'Aventure-Point & click', 'Sport',
       'Stratégie temps réel', 'Action,                             FPS',
       'Action-Aventure,                             Plates-formes',
       'TPS',
       'Jeu de rôles,                             Stratégie temps réel',
       'Stratégie tour par tour', 'Puzzle Game', "Jeu d'adresse",
       'Simulation de vie', 'Action-Aventure',
       'Tactique,                             TPS', 'Action-RPG',
       'Action,                             TPS',
       'Action,                             Course', 'MOBA', 'Musique',
       'Infiltration', 'Réflexion',
       'Action-Aventure,                             Roguelike/Roguelite',
       'Action', 'Aventure,                             Inclassable',
       'Course', 'Inclassable', 'Plates-formes',
       'Réflexion,                             Inclassable',
       'Action,                             W