In [1]:
# On importe les librairies
import numpy as np # calcul matriciel
import pandas as pd # structure des donnees

# Chemin vers les jeux de donnees en format csv
pathTest = "./test3.csv"
pathTrain = "./train3.csv"

# On importe les jeux de donnees
df_test = pd.read_csv(pathTest, sep=',', index_col=0)
df_train = pd.read_csv(pathTrain, sep=',', index_col=0)

# On enleve la colonne Name qui ne sert pas a l'analyse
df_train = df_train.drop(['Name'],axis=1)


# --- Variables Explicatives ---

#    Name : Nom du jeu
#    Platform : Console sur laquelle le jeu fonctionne
#    Year_of_Release : Année de sortie du jeu
#    Genre
#    Publisher
#    JP_Sales : Nombre de ventes du jeu au Japon en millions d’unités
#    Other_Sales : Nombre de ventes du jeu ailleurs dans le monde : Afrique, Asie sans le Japon, Europe sans l’Union Européenne et Amérique du Sud en millions d’unités
#    Critic_Score : Score donné par Metacritic
#    Critic_Count : Nombre de critiques prises en compte pour estimer le Critic_score
#    User_Score : Score donné par les usagers de Metacritic
#    User_Count : Nombre d’usagers considérés pour estimer le User_Score
#    Developer : Compagnie créatrice du jeu
#    Rating : Classement ESRB (Entertainment Software Rating Board) ie à qui s’addresse le jeu (tout public, majeur, adolescents, etc) 


# --- Variables d'Interet ---

#    NA_sales : Nombre de ventes du jeu en Amérique du Nord en millions d’unités
#    Global_Sales : Nombre de ventes total du jeu en millions d’unités

In [2]:
"""

Regression de Ridge (L2) par methode des moindres carres permettant la penalisation du surapprentissage.

Arguments :

    y : Variable d'interet (dimension : n x 1)
    x : matrice contenant nos variables explicatives (dimension : n x (p+1))
    l : facteur qui permet de diminuer l'amplitude des coefficients de regression
    
    ou,
        n : nombre d'observation
        p : nombre de variable explicative       
        

Retourne : 

    B = Matrices de nos coefficiants de regression (dimension (p+1) x 1)

    Pour estimer la valeur de y_new avec de nouvelles observations (i.e. x_new) on a,
        y_new = np.dot(x_new,B)

"""

def ridge_regression(y,x,l):
    
    # Nombre de variable explicative + colonne de 1
    nbr = len(x.T)
    
    # Matrice identite de taille p+1
    identi = l*np.identity(nbr) 
    identi[0][0] = 0 # on met un zero vis a vis le coeff b0 qui est l'ordonnee a l'origine
    
    # On calcule la matrice de variance-covariance avec un biais de penalite
    C = np.linalg.inv(np.dot(x.T,x) + np.dot(l,identi))
    
    # On calcule les coefficients de regression
    B = np.dot(np.dot(C,x.T),y)
    
    return B

In [3]:
"""

Fonction permettant de transformer une matrice pour que ses colonnes aient une moyenne = 0 et une variance = 1

Argument:
    dataset : le jeu de donnees a transformer
    
Retourne :
    dataset_std : le jeu de donnees transforme

"""
def scaler(dataset):
    
    # On calcule la moyenne pour chaque colonne
    u = np.array([np.mean(dataset, axis=0)])
    
    # On soustrait les colonnes du jeu de donnees par ses moyennes
    dataset_std = dataset - u
    
    # On calcule la variance pour chaque colonne
    sigma = np.array([np.std(dataset_std, axis=0)])
    
    # On divise les colonnes du jeu de donnees par ses variances
    dataset_std = dataset_std/sigma
    
    # Si contient des NaN cause par une division par 0 (si la variance etait de 0)
    if(np.isnan(dataset_std).any()):
        print("Error will contain NaN") # On affiche le message d'erreur
        return np.all(np.isnan(dataset_std),axis=0) # On retourne les index ou il y a presence de NaN
    
    return dataset_std
    

In [4]:
"""
--- Variable Qualitative -> Table Binaire --- 

Afin de traiter nos variables qualitatives, nous avons une fonction qui la tranforme en table binaire 
avec un one bit encoder. 

    Disons que la variable explicative peut prendre 4 valeurs {Bleu, Vert, Jaune, Rouge},
        
          ID        X1
        ----------------
          1        Bleu
          2        Bleu
          3        Vert
          4        Jaune
          5        Vert
          6        Rouge          
         ...
    
    Suite a un encodage en 1 bit notre variable explicative X1 devient,
    
          ID        Bleu        Vert        Jaune        Rouge
        -------------------------------------------------------
          1          1           0            0            0
          2          1           0            0            0
          3          0           1            0            0
          4          0           0            1            0
          5          0           1            0            0
          6          0           0            0            1
                                ...
                                

Nous nous basons sur la fonction get_dummies() de la librairie Panda pour faire ceci.


Arguments,

    trainSet : le jeu de donnees de training
    testSet : le jeu de donnees de test
    varName : la variable qualitative que nous souhaitons transformer en tableau binaire
    
    
Retourne, 
    trainSet_new : le jeu de donnees de training ou la variable qualitative a ete remplacee par un tableau binaire
    testSet_new : le jeu de donnees de test ou la variable qualitative a ete remplacee par un tableau binaire

"""

def qualiToBinary(trainSet, testSet, varName):
    
    # Genere la table binaire de la variable qualitative
    trainVar_binary = pd.get_dummies(trainSet[varName],prefix=varName)
    testVar_binary = pd.get_dummies(testSet[varName],prefix=varName)
    
    # On convertit nos tableaux binaires en Dataframe
    trainVar_binary = pd.DataFrame(trainVar_binary)
    testVar_binary = pd.DataFrame(testVar_binary)
    
    # On enleve la variable qualitative de nos jeux de donnees
    trainSet_new = trainSet.drop([varName], axis=1)
    testSet_new = testSet.drop([varName], axis=1)   

    # On ajoute les nouvelles colonnes a nos jeux de donnees
    trainSet_new = pd.concat([trainSet_new,trainVar_binary],axis=1)
    testSet_new = pd.concat([testSet_new,testVar_binary],axis=1)
    
    # On identifie les colonnes manquantes dans le jeu de donnees test
    missing_categories = set(trainSet_new) - set(testSet_new)

    # On ajoute ces colonnes manquantes avec une valeur par defaut de 0
    for c in missing_categories:
        testSet_new[c] = 0

    # On identifie les colonnes manquantes dans le jeu de donnees training
    missing_categories = set(testSet_new) - set(trainSet_new)

    # On ajoute ces colonnes manquantes avec une valeur par defaut de 0
    for c in missing_categories:
        trainSet_new[c] = 0


    # On aligne nos jeux de donnees pour que les memes colonnes soient aux memes endroits
    trainSet_new, testSet_new = trainSet_new.align(testSet_new, axis=1)
    
    # On retourne les jeux de donnees
    return trainSet_new, testSet_new

In [5]:
"""

L'algorithme R2_prev implemente une validation croise sur l'ensemble du jeu de donnees fournis

Arguments:
    Y : La variable d'interet
    W : Notre estimation de la variable d'interet
    X : Nos variables explicatives
    


Retourne:

    R2_prev : Une mesure bornee entre [-inf, 1] qui represente le pouvoir predictif de nos estimations

"""

def R2_prev(Y,W,X):
    
    # The variance-covariance
    C = np.linalg.inv(np.dot(X.T,X))
    
    # Hat Matrix (X*B = H*Y)
    H = np.dot(np.dot(X,C),X.T)
    
    # We are only interested in the (i,i) values
    H = np.diagonal(H)
    
    # Mean of Y
    y_S = np.sum(Y)/float(len(Y))
    
    num = 0.0
    for i in range(len(Y)):
        num += ((Y[i] - W[i])/float(1 - H[i]))**2

    denom = 0.0
    for i in range(len(Y)):
        denom += (Y[i] - y_S)**2
    
    R2_prev = (1 - num/denom)
    
    return R2_prev
    

In [6]:
"""

Selon le document MTH3302_CriteresProjet.pdf nous sommes evalues par notre root mean squared error (RMSE).
On trouve ici son implementation.

Arguments :
    Y : La variable d'interet
    W : Notre estimation de la variable d'interet
    
    
Retourne:
    rmse : L'erreur moyenne de nos predictions

"""

def RMSE(Y,W):

    n = len(Y)

    total = 0.0
    for i in range(n):
        total += (Y[i] - W[i])**2
        
    rmse = total/float(n)
        
    return rmse

In [7]:
# Variable Qualitative #1 : Platform
print("Nbr. of categories (train) : %d" %(df_train.Platform.nunique()))
print("Nbr. of categories (test) : %d" %(df_test.Platform.nunique()))

df_train, df_test = qualiToBinary(df_train, df_test, 'Platform') # On binairise

Nbr. of categories (train) : 30
Nbr. of categories (test) : 27


In [8]:
# Variable Qualitative #2 : Genre
print("Nbr. of categories (train) : %d" %(df_train.Genre.nunique()))
print("Nbr. of categories (test) : %d" %(df_test.Genre.nunique()))

df_train, df_test = qualiToBinary(df_train, df_test,'Genre') # On binairise

Nbr. of categories (train) : 12
Nbr. of categories (test) : 12


In [9]:
# Variable Qualitative #3 : Publisher
print("Nbr. of categories (train) : %d" %(df_train.Publisher.nunique()))
print("Nbr. of categories (test) : %d" %(df_test.Publisher.nunique()))

df_train, df_test = qualiToBinary(df_train, df_test, 'Publisher') # On binairise
#df_test = df_test.drop(['Publisher'],axis=1)
#df_train = df_train.drop(['Publisher'],axis=1)

Nbr. of categories (train) : 552
Nbr. of categories (test) : 280


In [10]:
# Variable Qualitative #4 : Developer
print("Nbr. of categories (train) : %d" %(df_train.Developer.nunique()))
print("Nbr. of categories (test) : %d" %(df_test.Developer.nunique()))

df_train, df_test = qualiToBinary(df_train, df_test,'Developer') # On binairise
#df_test = df_test.drop(['Developer'],axis=1)
#df_train = df_train.drop(['Developer'],axis=1)

Nbr. of categories (train) : 1593
Nbr. of categories (test) : 677


In [11]:
# Variable Qualitative #5 : Rating
print("Nbr. of categories (train) : %d" %(df_train.Rating.nunique()))
print("Nbr. of categories (test) : %d" %(df_test.Rating.nunique()))

df_train, df_test = qualiToBinary(df_train, df_test,'Rating') # On binairise

Nbr. of categories (train) : 8
Nbr. of categories (test) : 5


In [12]:
# On ajoute une colonne qui comptabilise le nombre de NaN pour chaque jeu video
nbrOfNaN_train = ~(df_train.T.iloc[:].isna().sum().astype(bool))
df_train['Complete_Data'] = nbrOfNaN_train.astype(np.uint8)

nbrOfNaN_test = ~(df_test.T.iloc[:].isna().sum().astype(bool))
df_test['Complete_Data'] = nbrOfNaN_test.astype(np.uint8)

# Ici on remplace les NaN par la mediane de leur colonne
df_train_clean = df_train.fillna(df_train.median()).copy()
df_test_clean = df_test.fillna(df_test.median()).copy()


In [13]:
"""

Ici on a une fonction pour nous aider a visualiser les coefficiants de regression.

Puisque notre matrice de variables explicatives est normalisee, un haut coefficiant b_i indique 
une importance de la variable X_i

Par contre nous ne testons pas ici des relations du type : log(X_i), X_i^2, X_(i+1)*X_i, etc.

"""

def cofficientTrier(dataset,Y,l,coeffThreshold):
    
    # On cree la matrice de nos variables explicatives
    X = dataset.drop(['NA_Sales','Global_Sales'],axis=1)
    
    # On enleve les colonnes qui comportent que des 0
    X = X.loc[:, (X != 0).any(axis=0)]
    
    # Transformation, moy = 0, var = 1
    X_std = scaler(X.values)
    
    # On effectue la regression
    B = ridge_regression(Y,X_std,l)
    
    # On calcule la somme des B
    sumB = np.sum(np.abs(B))    
    
    # On calcule le nombre de colonne
    nbrOfCols = len(X.T)
    
    
    indexes = np.zeros(nbrOfCols)
    coeffs = np.zeros(nbrOfCols)
    coeffsFrac = np.zeros(nbrOfCols)
    sumBFrac = 0
    names = np.array(['' for _ in range(nbrOfCols)], dtype=object)
    index = 0
    index2 = 0
    for col in X:
        if((B[index]/sumB) >= coeffThreshold):
            names[index2] += col
            indexes[index2] = index
            coeffs[index2] = B[index]
            coeffsFrac[index2] = np.abs(B[index])/sumB
            sumBFrac += coeffsFrac[index2]
            index2 += 1
        
        index += 1
    
    # On cree un tableau indexe de nos categories, leur quantite et leur valeur moyenne de la variable d'interet
    table = np.array(([indexes,coeffsFrac,names])).T
    
    # On enleve les ranges de 0
    table = table[~np.all(table == 0, axis=1)]
    
    # On ordonne en ordre decroissant de contribution le tableau
    table_ordered = table[(-table[:,1]).argsort()] 
    
    print("Fraction of B displayed = %.3f %%" % sumBFrac)
    print('Index \t B_i %% \t Name \t (l = %.2f  -  minB = %.3f %%)' % (l,coeffThreshold))    
    print('------------------------------------------')
    for i in range(index2):
        sumBFrac += table_ordered[i][1]
        print('%d. \t %.3f \t %s ' % (table_ordered[i][0],table_ordered[i][1],table_ordered[i][2]))
    
    """ SI ON VEUT COPIER COLLER LE NOM DES VAR ON ENLEVE COMMENTAIRE
    
    print('\n')
    
    for i in range(index2):
        print("X%d = dataset['%s'].values" % (i,table_ordered[i][2]))

    print('\n')
        
    for i in range(index2):
        print("X%d," % i)
    
    """
           

In [14]:
def createX_Global(dataset):
    
    # On dresse la liste des variables explicatives qu'on souhaite inclure
    # Variables Quantitatives
    X1 = dataset.JP_Sales.values
    X2 = dataset.Critic_Count.values
    X3 = dataset.Critic_Score.values
    X4 = dataset.Year_of_Release.values
    X5 = dataset.Other_Sales.values
    X6 = dataset.User_Score.values
    X7 = dataset.User_Count.values
    
    # Platform
    X8_4 = dataset.Platform_SNES.values
    X8_5 = dataset.Platform_X360.values
    X8_7 = dataset.Platform_2600.values
    X8_8 = dataset.Platform_Wii.values
    X8_10 = dataset.Platform_N64.values
    X8_11 = dataset.Platform_XOne.values
    X8_17 = dataset.Platform_GBA.values
    X8_18 = dataset.Platform_GC.values
    X8_19 = dataset.Platform_DS.values
    X8_20 = dataset.Platform_XB.values
    X8_25 = dataset.Platform_SAT.values


    # Genre    
    X9_1 = dataset.Genre_Platform.values
    X9_2 = dataset.Genre_Shooter.values
    X9_3 = dataset.Genre_Racing.values
    X9_4 = dataset.Genre_Sports.values
    X9_5 = dataset['Genre_Role-Playing'].values
    X9_11 = dataset.Genre_Strategy.values
    
    # Rating
    X10_4 = dataset.Rating_E.values
    
    # Publisher
    X11_1 = dataset['Publisher_Nintendo'].values
    X11_2 = dataset['Publisher_Microsoft Game Studios'].values
    X11_6 = dataset['Publisher_Take-Two Interactive'].values
    X11_8 = dataset['Publisher_Electronic Arts'].values
    X11_9 = dataset['Publisher_Activision'].values
    X11_10 = dataset['Publisher_Warner Bros. Interactive Entertainment'].values
    X11_15 = dataset['Publisher_Disney Interactive Studios'].values
    X11_18 = dataset['Publisher_Ubisoft'].values
    X11_19 = dataset['Publisher_THQ'].values
    X11_25 = dataset['Publisher_Konami Digital Entertainment'].values
    
    # Developer
    X12_20 = dataset['Developer_Ubisoft'].values
    
    X13 = dataset['Complete_Data'].values   
    
    
    # Par tattonnement on arrive a
    X = np.array([X1,X1**2,X1*X5,X1*X4,X5*X4,X5**2,X4,X2,X3,X6,X7,X7**2,
                  X8_4,
                  X8_5,X8_7+X8_8+X8_10+X8_11,X8_17+X8_18+X8_19,X8_20,
                  X8_25,
                  X9_1,X9_2,X9_3+X9_4,X9_5,X9_11,
                  X10_4,
                  X11_1+X11_2,X11_6+X11_8+X11_9+X11_10+X11_15,X11_18+X11_19,X11_25,
                  X12_20,
                  X13]).T
    
    
    # On transforme pour moyenne = 0 et variance = 1
    X_std = scaler(X)
    
    # On ajoute une colonne de 1
    Ones = np.array([np.ones(len(dataset))]).T
    X_std = np.concatenate((Ones,X_std),axis = 1)
    
    return X_std

In [15]:
Y1 = df_train_clean.Global_Sales.values
X1 = createX_Global(df_train_clean)
B1 = ridge_regression(Y1,X1,1)

# Clip to min 0
global_data = np.dot(X1,B1)
global_data = global_data.clip(min=0)

print("R2_prev (Global) : %.4f" % (R2_prev(Y1,global_data,X1)))
print("RMSE (Global) : %.4f" % (RMSE(Y1,global_data)))
print("\n")
        
#R2_prev (Global) : 0.7883
#RMSE (Global) : 0.3687

R2_prev (Global) : 0.7767
RMSE (Global) : 0.3848




In [16]:
cofficientTrier(df_train_clean,
                df_train_clean.Global_Sales.values,
                3,
                0.005)

Fraction of B displayed = 0.220 %
Index 	 B_i % 	 Name 	 (l = 3.00  -  minB = 0.005 %)
------------------------------------------
1608. 	 0.090 	 Other_Sales 
1607. 	 0.072 	 JP_Sales 
580. 	 0.011 	 Developer_Good Science Studio 
965. 	 0.009 	 Developer_Nintendo 
1636. 	 0.007 	 Platform_X360 
1634. 	 0.007 	 Platform_Wii 
2199. 	 0.006 	 User_Count 
245. 	 0.006 	 Developer_Bungie Software 
1. 	 0.006 	 Critic_Score 
341. 	 0.005 	 Developer_DMA Design 


In [17]:
def createX_NA(dataset):
    
    # Variables Quantitatives
    X1 = dataset.JP_Sales.values
    X2 = dataset.Critic_Count.values
    X3 = dataset.Critic_Score.values
    X4 = dataset.Year_of_Release.values
    X5 = dataset.Other_Sales.values
    X6 = dataset.User_Score.values
    X7 = dataset.User_Count.values
    
    # Platform
    X8_4 = dataset.Platform_2600.values
    X8_5 = dataset.Platform_X360.values
    X8_6 = dataset.Platform_N64.values
    X8_7 = dataset.Platform_Wii.values
    X8_9 = dataset.Platform_XOne.values
    X8_11 = dataset.Platform_SNES.values
    X8_16 = dataset.Platform_GC.values
    X8_18 = dataset.Platform_XB.values
    X8_26 = dataset.Platform_SAT.values

    # Genre    
    X9_1 = dataset.Genre_Platform.values
    X9_9 = dataset['Genre_Role-Playing'].values
    
    # Publisher
    X11_1 = dataset['Publisher_Nintendo'].values
    X11_2 = dataset['Publisher_Microsoft Game Studios'].values
    X11_7 = dataset['Publisher_Activision'].values
    X11_11 = dataset['Publisher_Warner Bros. Interactive Entertainment'].values
    
    
    X12 = dataset['Complete_Data'].values  

    X = np.array([X1**2,X1,X1*X5,X5,X1**2*X4**2,X4,X5**2,(X3**9)*X2,
                  X8_4+X8_5+X8_6+X8_7+X8_9,X8_11,X8_16+X8_18,X8_26,
                  X9_1,X9_9,
                  X11_1+X11_2,X11_7+X11_11,
                  X12]).T
    
    # On transforme pour moyenne = 0 et variance = 1
    X_std = scaler(X)
    
    # On ajoute une colonne de 1
    Ones = np.array([np.ones(len(dataset.JP_Sales))]).T
    
    X_std = np.concatenate((Ones,X_std),axis = 1)
    
    return X_std

In [18]:
Y2 = df_train_clean.NA_Sales.values
X2 = createX_NA(df_train_clean)
B2 = ridge_regression(Y2,X2,3)

# Clip to min 0
na_data = np.dot(X2,B2)
na_data = na_data.clip(min=0)

print("NA R2_prev : %.3f" % (R2_prev(Y2,na_data,X2)))
print("RMSE (NA) : %.4f" % (RMSE(Y2,na_data)))
print("\n")

#NA R2_prev : 0.602
#RMSE (NA) : 0.2246

NA R2_prev : 0.464
RMSE (NA) : 0.2570




In [20]:
cofficientTrier(df_train_clean,
                df_train_clean.NA_Sales.values,
                3,
                0.005)

Fraction of B displayed = 0.157 %
Index 	 B_i % 	 Name 	 (l = 3.00  -  minB = 0.005 %)
------------------------------------------
1608. 	 0.062 	 Other_Sales 
1607. 	 0.041 	 JP_Sales 
580. 	 0.014 	 Developer_Good Science Studio 
1636. 	 0.009 	 Platform_X360 
245. 	 0.007 	 Developer_Bungie Software 
1634. 	 0.007 	 Platform_Wii 
1. 	 0.006 	 Critic_Score 
965. 	 0.005 	 Developer_Nintendo 
688. 	 0.005 	 Developer_Infinity Ward 


In [21]:
"""

Processing du jeu de donnees test

"""

# On cree nos matrices de variables explicatives
X1_test = createX_Global(df_test_clean).copy()
X2_test = createX_NA(df_test_clean).copy()

# On genere nos predictions
global_data_test = np.dot(X1_test,B1)
na_data_test = np.dot(X2_test,B2)

# On enleve les valeurs negatives
global_data_test = global_data_test.clip(min=0)  

# On enleve les valeurs negatives
na_data_test = na_data_test.clip(min=0)

# On vient prendre le dataframe comme canva
df_test_estimated = pd.DataFrame([df_test.NA_Sales,df_test.Global_Sales]).copy().T

# On assigne nos predictions aux colonnes
df_test_estimated['Global_Sales'] = global_data_test
df_test_estimated['NA_Sales'] = na_data_test

# On sauvegarde nos predictions
df_test_estimated.to_csv("test_final.csv")