In [1]:
# On importe les librairies
import numpy as np # calcul matriciel
import pandas as pd # structure des donnees

# Chemin vers les jeux de donnees en format csv
pathTest = "./test3.csv"
pathTrain = "./train3.csv"

# On importe les jeux de donnees
df_test = pd.read_csv(pathTest, sep=',', index_col=0)
df_train = pd.read_csv(pathTrain, sep=',', index_col=0)

# On enleve la colonne Name qui ne sert pas a l'analyse
df_train = df_train.drop(['Name'],axis=1)


# --- Variables Explicatives ---

#    Name : Nom du jeu
#    Platform : Console sur laquelle le jeu fonctionne
#    Year_of_Release : Année de sortie du jeu
#    Genre
#    Publisher
#    JP_Sales : Nombre de ventes du jeu au Japon en millions d’unités
#    Other_Sales : Nombre de ventes du jeu ailleurs dans le monde : Afrique, Asie sans le Japon, Europe sans l’Union Européenne et Amérique du Sud en millions d’unités
#    Critic_Score : Score donné par Metacritic
#    Critic_Count : Nombre de critiques prises en compte pour estimer le Critic_score
#    User_Score : Score donné par les usagers de Metacritic
#    User_Count : Nombre d’usagers considérés pour estimer le User_Score
#    Developer : Compagnie créatrice du jeu
#    Rating : Classement ESRB (Entertainment Software Rating Board) ie à qui s’addresse le jeu (tout public, majeur, adolescents, etc) 


# --- Variables d'Interet ---

#    NA_sales : Nombre de ventes du jeu en Amérique du Nord en millions d’unités
#    Global_Sales : Nombre de ventes total du jeu en millions d’unités

In [2]:
"""

Regression de Ridge (L2) par methode des moindres carres permettant la penalisation du surapprentissage.

Arguments :

    y : Variable d'interet (dimension : n x 1)
    x : matrice contenant nos variables explicatives (dimension : n x (p+1))
    l : facteur qui permet de diminuer l'amplitude des coefficients de regression
    
    ou,
        n : nombre d'observation
        p : nombre de variable explicative       
        

Retourne : 

    B = Matrices de nos coefficiants de regression (dimension (p+1) x 1)

    Pour estimer la valeur de y_new avec de nouvelles observations (i.e. x_new) on a,
        y_new = np.dot(x_new,B)

"""

def ridge_regression(y,x,l):
    
    # Nombre de variable explicative + colonne de 1
    nbr = len(x.T)
    
    # Matrice identite de taille p+1
    identi = l*np.identity(nbr) 
    identi[0][0] = 0 # on met un zero vis a vis le coeff b0 qui est l'ordonnee a l'origine
    
    # On calcule la matrice de variance-covariance avec un biais de penalite
    C = np.linalg.inv(np.dot(x.T,x) + np.dot(l,identi))
    
    # On calcule les coefficients de regression
    B = np.dot(np.dot(C,x.T),y)
    
    return B

In [3]:
"""

Fonction permettant de transformer une matrice pour que ses colonnes aient une moyenne = 0 et une variance = 1

Argument:
    dataset : le jeu de donnees a transformer
    
Retourne :
    dataset_std : le jeu de donnees transforme

"""
def scaler(dataset):
    
    # On calcule la moyenne pour chaque colonne
    u = np.array([np.mean(dataset, axis=0)])
    
    # On soustrait les colonnes du jeu de donnees par ses moyennes
    dataset_std = dataset - u
    
    # On calcule la variance pour chaque colonne
    sigma = np.array([np.std(dataset_std, axis=0)])
    
    # On divise les colonnes du jeu de donnees par ses variances
    dataset_std = dataset_std/sigma
    
    # Si contient des NaN cause par une division par 0 (si la variance etait de 0)
    if(np.isnan(dataset_std).any()):
        print("Error will contain NaN") # On affiche le message d'erreur
        reducedCols = ~np.all(np.isnan(dataset_std),axis=0)
        return reducedCols # On retourne les index ou il y a presence de NaN
    
    return dataset_std
    

In [4]:
"""
--- Variable Qualitative -> Table Binaire --- 

Afin de traiter nos variables qualitatives, nous avons une fonction qui la tranforme en table binaire 
avec un one bit encoder. 

    Disons que la variable explicative peut prendre 4 valeurs {Bleu, Vert, Jaune, Rouge},
        
          ID        X1
        ----------------
          1        Bleu
          2        Bleu
          3        Vert
          4        Jaune
          5        Vert
          6        Rouge          
         ...
    
    Suite a un encodage en 1 bit notre variable explicative X1 devient,
    
          ID        Bleu        Vert        Jaune        Rouge
        -------------------------------------------------------
          1          1           0            0            0
          2          1           0            0            0
          3          0           1            0            0
          4          0           0            1            0
          5          0           1            0            0
          6          0           0            0            1
                                ...
                                

Nous nous basons sur la fonction get_dummies() de la librairie Panda pour faire ceci.


Arguments,

    trainSet : le jeu de donnees de training
    testSet : le jeu de donnees de test
    varName : la variable qualitative que nous souhaitons transformer en tableau binaire
    
    
Retourne, 
    trainSet_new : le jeu de donnees de training ou la variable qualitative a ete remplacee par un tableau binaire
    testSet_new : le jeu de donnees de test ou la variable qualitative a ete remplacee par un tableau binaire

"""

def qualiToBinary(trainSet, testSet, varName):
    
    # Genere la table binaire de la variable qualitative
    trainVar_binary = pd.get_dummies(trainSet[varName],prefix=varName)
    testVar_binary = pd.get_dummies(testSet[varName],prefix=varName)
    
    # On convertit nos tableaux binaires en Dataframe
    trainVar_binary = pd.DataFrame(trainVar_binary)
    testVar_binary = pd.DataFrame(testVar_binary)
    
    # On enleve la variable qualitative de nos jeux de donnees
    trainSet_new = trainSet.drop([varName], axis=1)
    testSet_new = testSet.drop([varName], axis=1)   

    # On ajoute les nouvelles colonnes a nos jeux de donnees
    trainSet_new = pd.concat([trainSet_new,trainVar_binary],axis=1)
    testSet_new = pd.concat([testSet_new,testVar_binary],axis=1)
    
    # On identifie les colonnes manquantes dans le jeu de donnees test
    missing_categories = set(trainSet_new) - set(testSet_new)

    # On ajoute ces colonnes manquantes avec une valeur par defaut de 0
    for c in missing_categories:
        testSet_new[c] = 0

    # On identifie les colonnes manquantes dans le jeu de donnees training
    missing_categories = set(testSet_new) - set(trainSet_new)

    # On ajoute ces colonnes manquantes avec une valeur par defaut de 0
    for c in missing_categories:
        trainSet_new[c] = 0


    # On aligne nos jeux de donnees pour que les memes colonnes soient aux memes endroits
    trainSet_new, testSet_new = trainSet_new.align(testSet_new, axis=1)
    
    # On retourne les jeux de donnees
    return trainSet_new, testSet_new

In [5]:
"""

L'algorithme R2_prev implemente une validation croise sur l'ensemble du jeu de donnees fournis

Arguments:
    Y : La variable d'interet
    W : Notre estimation de la variable d'interet
    X : Nos variables explicatives
    


Retourne:

    R2_prev : Une mesure bornee entre [-inf, 1] qui represente le pouvoir predictif de nos estimations

"""

def R2_prev(Y,W,X):
    
    # The variance-covariance
    C = np.linalg.inv(np.dot(X.T,X))
    
    # Hat Matrix (X*B = H*Y)
    H = np.dot(np.dot(X,C),X.T)
    
    # We are only interested in the (i,i) values
    H = np.diagonal(H)
    
    # Mean of Y
    y_S = np.sum(Y)/float(len(Y))
    
    num = 0.0
    for i in range(len(Y)):
        num += ((Y[i] - W[i])/float(1 - H[i]))**2

    denom = 0.0
    for i in range(len(Y)):
        denom += (Y[i] - y_S)**2
    
    R2_prev = (1 - num/denom)
    
    return R2_prev
    

In [6]:
"""

Selon le document MTH3302_CriteresProjet.pdf nous sommes evalues par notre root mean squared error (RMSE).
On trouve ici son implementation.

Arguments :
    Y : La variable d'interet
    W : Notre estimation de la variable d'interet
    
    
Retourne:
    rmse : L'erreur moyenne de nos predictions

"""

def RMSE(Y,W):

    n = len(Y)

    total = 0.0
    for i in range(n):
        total += (Y[i] - W[i])**2
        
    rmse = total/float(n)
        
    return rmse

In [7]:
# Variable Qualitative #1 : Platform
print("Nbr. of categories (train) : %d" %(df_train.Platform.nunique()))
print("Nbr. of categories (test) : %d" %(df_test.Platform.nunique()))

df_train, df_test = qualiToBinary(df_train, df_test, 'Platform') # On binairise

Nbr. of categories (train) : 30
Nbr. of categories (test) : 27


In [8]:
# Variable Qualitative #2 : Genre
print("Nbr. of categories (train) : %d" %(df_train.Genre.nunique()))
print("Nbr. of categories (test) : %d" %(df_test.Genre.nunique()))

df_train, df_test = qualiToBinary(df_train, df_test,'Genre') # On binairise

Nbr. of categories (train) : 12
Nbr. of categories (test) : 12


In [9]:
# Variable Qualitative #3 : Publisher
print("Nbr. of categories (train) : %d" %(df_train.Publisher.nunique()))
print("Nbr. of categories (test) : %d" %(df_test.Publisher.nunique()))

df_train, df_test = qualiToBinary(df_train, df_test, 'Publisher') # On binairise
#df_test = df_test.drop(['Publisher'],axis=1)
#df_train = df_train.drop(['Publisher'],axis=1)

Nbr. of categories (train) : 552
Nbr. of categories (test) : 280


In [10]:
# Variable Qualitative #4 : Developer
print("Nbr. of categories (train) : %d" %(df_train.Developer.nunique()))
print("Nbr. of categories (test) : %d" %(df_test.Developer.nunique()))

df_train, df_test = qualiToBinary(df_train, df_test,'Developer') # On binairise
#df_test = df_test.drop(['Developer'],axis=1)
#df_train = df_train.drop(['Developer'],axis=1)

Nbr. of categories (train) : 1593
Nbr. of categories (test) : 677


In [11]:
# Variable Qualitative #5 : Rating
print("Nbr. of categories (train) : %d" %(df_train.Rating.nunique()))
print("Nbr. of categories (test) : %d" %(df_test.Rating.nunique()))

df_train, df_test = qualiToBinary(df_train, df_test,'Rating') # On binairise

Nbr. of categories (train) : 8
Nbr. of categories (test) : 5


In [12]:
# On ajoute une colonne qui comptabilise le nombre de NaN pour chaque jeu video
nbrOfNaN_train = ~(df_train.T.iloc[:].isna().sum().astype(bool))
df_train['Complete_Data'] = nbrOfNaN_train.astype(np.uint8)

nbrOfNaN_test = ~(df_test.T.iloc[:].isna().sum().astype(bool))
df_test['Complete_Data'] = nbrOfNaN_test.astype(np.uint8)

df_train['JP_Sales2'] = df_train.JP_Sales**2
df_test['JP_Sales2'] = df_test.JP_Sales**2

df_train['Other_Sales2'] = df_train.Other_Sales**2
df_test['Other_Sales2'] = df_test.Other_Sales**2

df_train['JP_Sales_Other_Sales'] = df_train.Other_Sales*df_train.JP_Sales
df_test['JP_Sales_Other_Sales'] = df_test.Other_Sales*df_test.JP_Sales

df_train['Other_Sales_Year_of_Release'] = df_train.Other_Sales*df_train.Year_of_Release
df_test['Other_Sales_Year_of_Release'] = df_test.Other_Sales*df_test.Year_of_Release

df_train['JP_Sales_Year_of_Release'] = df_train.JP_Sales*df_train.Year_of_Release
df_test['JP_Sales_Year_of_Release'] = df_test.JP_Sales*df_test.Year_of_Release

df_train['Critic_Score9_Critic_Count'] = df_train.Critic_Score**9*df_train.Critic_Count
df_test['Critic_Score9_Critic_Count'] = df_test.Critic_Score**9*df_test.Critic_Count

df_train['Critic_Score_Critic_Count'] = df_train.Critic_Score*df_train.Critic_Count
df_test['Critic_Score_Critic_Count'] = df_test.Critic_Score*df_test.Critic_Count

df_train['User_Score_User_Count'] = df_train.User_Score*df_train.User_Count
df_test['User_Score_User_Count'] = df_test.User_Score*df_test.User_Count

df_train['User_Score2'] = df_train.User_Score**2
df_test['User_Score2'] = df_test.User_Score**2

df_train['User_Count2'] = df_train.User_Count**2
df_test['User_Count2'] = df_test.User_Count**2

df_train['Critic_Count2'] = df_train.Critic_Count**2
df_test['Critic_Count2'] = df_test.Critic_Count**2

df_train['Critic_Score2'] = df_train.Critic_Score**2
df_test['Critic_Score2'] = df_test.Critic_Score**2

In [13]:
# Ici on remplace les NaN par la mediane de leur colonne
df_train_clean = df_train.fillna(df_train.median()).copy()
df_test_clean = df_test.fillna(df_test.median()).copy()

In [14]:
# On fait une matrice de nos variables
X_train = df_train_clean.drop(['NA_Sales','Global_Sales'],axis=1)
X_test = df_test_clean.drop(['NA_Sales','Global_Sales'],axis=1)

# On les standardise
indexes = scaler(X_test.values)
X_train = X_train.T[np.array(indexes)].T
X_test = X_test.T[np.array(indexes)].T

indexes = scaler(X_train.values)
X_train = X_train.T[np.array(indexes)].T
X_test = X_test.T[np.array(indexes)].T

X_test = scaler(X_test.values)
X_train = scaler(X_train.values)



Error will contain NaN
Error will contain NaN


In [15]:
# On ajoute une colonne de 1
Ones = np.array([np.ones(len(X_train))]).T
X_train_one = np.concatenate((Ones,X_train),axis = 1)

Ones = np.array([np.ones(len(X_test))]).T
X_test_one = np.concatenate((Ones,X_test),axis = 1)

In [20]:
Y1 = df_train_clean.Global_Sales.values

for i in range(500):
    B1 = ridge_regression(Y1,X_train_one,0.1+0.01*i)

    # Clip to min 0
    global_data = np.dot(X_train_one,B1)
    global_data = global_data.clip(min=0)

    print("i = ",0.1+0.01*i)
    print("R2_prev (Global) : %.4f" % (R2_prev(Y1,global_data,X_train)))
    print("RMSE (Global) : %.4f" % (RMSE(Y1,global_data)))
    print('\n')


MAX B :  1.2728235329862545
R2_prev (Global) : 0.7800
RMSE (Global) : 0.3590


In [None]:
Y2 = df_train_clean.NA_Sales.values

for i in range(500):
    B2 = ridge_regression(Y2,X_train_one,0.1+0.01*i)

    # Clip to min 0
    na_data = np.dot(X_train_one,B2)
    na_data = na_data.clip(min=0)

    print("i = ",0.1+0.01*i)
    print("R2_prev (NA) : %.4f" % (R2_prev(Y2,na_data,X_train)))
    print("RMSE (NA) : %.4f" % (RMSE(Y2,na_data)))


In [None]:
"""

Processing du jeu de donnees test

"""

# On genere nos predictions
global_data_test = np.dot(X_test_one,B1)
na_data_test = np.dot(X_test_one,B2)

# On enleve les valeurs negatives
global_data_test = global_data_test.clip(min=0)  

# On enleve les valeurs negatives
na_data_test = na_data_test.clip(min=0)

# On vient prendre le dataframe comme canva
df_test_estimated = pd.DataFrame([df_test.NA_Sales,df_test.Global_Sales]).copy().T

# On assigne nos predictions aux colonnes
df_test_estimated['Global_Sales'] = global_data_test
df_test_estimated['NA_Sales'] = na_data_test

# On sauvegarde nos predictions
df_test_estimated.to_csv("test_final.csv")