## Base de données


Le but de se projet est de concevoir une modele statistique qui predit le succes d'un jeu video (i.e le nombre de vente) en fonction des variables explicatives suivantes :

1. Platform : Console sur laquelle le jeu fonctionne
2. Year of release : Année de sortie du jeu
3. Genre
4. Publisher
5. JP_sales : Nombre de ventes du jeu au Japon en millions d’unités
6. Other sales : Nombre de ventes du jeu ailleurs dans le monde : Afrique, Asie sans le Japon, Europe sans l’Union Européenne et Amérique du Sud en millions d’unités
7. Critic_score : Score donné par Metacritic
8. Critic_count : Nombre de critiques prises en compte pour estimer le Critic_score
9. User_Score : Score donné par les usagers de Metacritic
10. User_Count : Nombre d’usagers considérés pour estimer le User_Score
11. Developer : Compagnie créatrice du jeu
12. Rating : Classement ESRB (Entertainment Software Rating Board) ie à qui s’addresse le jeu (tout public, majeur, adolescents, etc)

On utilisera la base de donnée train3.csv disponible sur le projet kaggle pour effectuer toute notre analyse et ensuite tester sur test3.csv

## Importation des libraires dont on aura besoin

In [1]:
# On importe Pandas et numpy for la manipulation des données
import pandas as pd
import numpy as np
np.random.seed(19)

 
# on importe Matplotlib et seaborn pour tracer des graphiques
import matplotlib.pyplot as plt
%matplotlib inline

import matplotlib
matplotlib.rcParams['font.size'] = 16
matplotlib.rcParams['figure.figsize'] = (9, 9)

import seaborn as sns

from IPython.core.pylabtools import figsize

# des fonctions statistiques qui vont nous aider depuis Scipy
from scipy.stats import percentileofscore
from scipy import stats

In [2]:
# faire des comparaisons avec différents modèles
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.linear_model import ElasticNet
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import ExtraTreesRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.svm import SVR

# Diviser nos données en entraînement et test
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

# différents métriques pour nos modèles
from sklearn.metrics import mean_squared_error, mean_absolute_error, median_absolute_error

# Pour les distributions statistiques
import scipy

In [3]:
# librairie python pour inférence bayésienne
import pymc3 as pm



## Lecture de la base de données

In [137]:
#Path du fichier de la base de données
pathTest = "kaggle_videogames/train3.csv"

df = pd.read_csv(pathTest, sep=',', index_col=0)

# On enleve la colonne Name qui ne sert pas a l'analyse
df = df.drop(['Name','Developer'],axis=1)

df.head()

Unnamed: 0_level_0,Platform,Year_of_Release,Genre,Publisher,JP_Sales,Other_Sales,Critic_Score,Critic_Count,User_Score,User_Count,Rating,NA_Sales,Global_Sales
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1,DS,2004.0,Puzzle,Ignition Entertainment,0.050524,0.010024,74.0,40.0,7.5,13.0,E,0.101432,0.172605
2,DS,2010.0,Action,Namco Bandai Games,0.039211,0.001791,,,,,,0.00044,0.043251
3,DS,2006.0,Sports,System 3 Arcade Software,0.000374,0.001797,,,,,E,0.030829,0.041271
4,PS2,2002.0,Platform,THQ,0.001382,0.14001,,,6.6,41.0,E,0.52833,1.080821
5,PSV,2014.0,Action,Tecmo Koei,0.069422,0.009535,67.0,19.0,7.5,61.0,M,0.020629,0.131074


## Prétraitement de la base de données

In [138]:
# traitement des données manquantes

strat_imputation = ["drop_na", "mean", "median", "most_frequent", "hot_deck", "cold_deck"]

def impute_data(data, nom_colonne, method = "drop_na"):
    """
    On remplace les valeurs manquantes dans la colonne sélectionnée suivant l'une des stratégie ci-dessous:
    - drop_na :  On supprime simplement les lignes avec des valeurs manquantes
    - moyenne/médiane/mode : on remplace les valeurs manquantes par la moyenne, médiane ou mode de la colonne respectivement
    - hot_deck : on cherche des données avec des caractéristiques similaires à la ligne avec la valeur manquante et
                  on lui donne une valeur aléatoire de celles-ci
    - cold_deck : on cherche des données avec des caractéristiques similaires à la ligne avec la valeur manquante et
                  on lui donne une valeur particulière parmi celles-ci

    
    retourne la base de données imputée
    """
    
    if method == "drop_na":
        return data.dropna(subset = [nom_colonne])
    
    if method == "mean" or method == "median" or method == "most_frequent":
        from sklearn.preprocessing import Imputer
        imputer = Imputer(strategy = method)
        imputed = data.copy()
        imputed[nom_colonne] = imputer.fit_transform(data[[nom_colonne]])
        return imputed
    
    if method == "hot_deck" :
        #on itère sur la colonne, et si on trouve une valeur manquante, on cherche toutes les observations avec les
        # ... mêmes valeurs de platform et genre ainsi qu'une valeur proche de other_sales. Puis on choisis une valeur
        # ... aléatoire parmi celles-ci pour imputer notre valeur manquante.
        imputed = data.copy()
        for i in range(1,len(imputed.values)):
            try:
                if np.isnan(imputed.at[i, nom_colonne]):
                    platform = imputed.at[i, 'Platform']
                    genre = imputed.at[i, 'Genre']
                    other_sales = imputed.at[i, 'Other_Sales']
                    A = imputed.loc[(imputed[nom_colonne].notna()) & (imputed['Platform'] == platform) & (imputed['Genre'] == genre) & (imputed['Other_Sales'] < other_sales + 0.1) & (imputed['Other_Sales'] > other_sales - 0.1)]
                    if len(A) == 0:
                        continue
                    else:
                        imputed.at[i, nom_colonne] = np.random.choice(A[nom_colonne])
            except:
                continue
        imputed = imputed.dropna(subset = [nom_colonne])
        return imputed
    
    if method == "cold_deck":
        #même méthode que pour le hot_deck, sauf que cette fois_ci on ne choisis pas aléatoirement pour ne pas
        #... ajouter de la variabilité au modèle. On choisit de manière déterministe, dans notre cas la première
        imputed = data.copy()
        for i in range(1,len(imputed.values)):
            if np.isnan(imputed.at[i, nom_colonne]):
                platform = imputed.at[i, 'Platform']
                genre = imputed.at[i, 'Genre']
                other_sales = imputed.at[i, 'Other_Sales']
                A = imputed.loc[(imputed[nom_colonne].notna()) & (imputed['Platform'] == platform) & (imputed['Genre'] == genre) & (imputed['other_sales'] < other_sales + 0.05) & (imputed['other_sales'] > other_sales - 0.05)]
                if len(A) == 0:
                    continue
                else:
                    imputed.at[i, nom_colonne] = A.values[0]
        imputed = imputed.dropna(subset = [nom_colonne])
        return imputed
    
    
        
        
        

In [139]:
clean_data = df.copy()
clean_data = impute_data(clean_data, 'Publisher', 'drop_na')
missing_labels = ['Year_of_Release', 'Critic_Score', 'Critic_Count', 'User_Score', 'User_Count', 'Rating']
for e in missing_labels:
    clean_data = impute_data(clean_data, e, 'hot_deck')

clean_data.head()

Unnamed: 0_level_0,Platform,Year_of_Release,Genre,Publisher,JP_Sales,Other_Sales,Critic_Score,Critic_Count,User_Score,User_Count,Rating,NA_Sales,Global_Sales
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1,DS,2004.0,Puzzle,Ignition Entertainment,0.050524,0.010024,74.0,40.0,7.5,13.0,E,0.101432,0.172605
2,DS,2010.0,Action,Namco Bandai Games,0.039211,0.001791,64.0,16.0,3.1,8.0,E10+,0.00044,0.043251
3,DS,2006.0,Sports,System 3 Arcade Software,0.000374,0.001797,51.0,6.0,6.1,4.0,E,0.030829,0.041271
4,PS2,2002.0,Platform,THQ,0.001382,0.14001,70.0,24.0,6.6,41.0,E,0.52833,1.080821
5,PSV,2014.0,Action,Tecmo Koei,0.069422,0.009535,67.0,19.0,7.5,61.0,M,0.020629,0.131074


In [140]:
#On vérifie que l'on a plus de NaN dans notre base de données ainsi que combien de valeurs il nous reste
print(clean_data.shape)
print(clean_data.isna().any())

(12084, 13)
Platform           False
Year_of_Release    False
Genre              False
Publisher          False
JP_Sales           False
Other_Sales        False
Critic_Score       False
Critic_Count       False
User_Score         False
User_Count         False
Rating             False
NA_Sales           False
Global_Sales       False
dtype: bool


In [121]:
# Sources for imputing algorithms:
# https://www.theanalysisfactor.com/seven-ways-to-make-up-data-common-methods-to-imputing-missing-data/
# https://www.theanalysisfactor.com/missing-data-two-recommended-solutions/
# https://www.kaggle.com/residentmario/simple-techniques-for-missing-data-imputation    