In [77]:
# Importe les librairies utiles
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler 

# Chemin vers les csv
pathTest = "./test3.csv"
pathTrain = "./train3.csv"

# Importe les jeux de donnees
df_test = pd.read_csv(pathTest, sep=',', index_col=0)
df_train = pd.read_csv(pathTrain, sep=',', index_col=0)

# On enleve tout de suite la colonne Name de notre jeu de donnees train
df_train = df_train.drop(['Name'], axis=1)

df_train = df_train.fillna(df_train.median())
df_test = df_test.fillna(df_test.median())
# --- Variables Explicatives ---

#    Name : Nom du jeu
#    Platform : Console sur laquelle le jeu fonctionne
#    Year_of_Release : Année de sortie du jeu
#    Genre
#    Publisher
#    JP_Sales : Nombre de ventes du jeu au Japon en millions d’unités
#    Other_Sales : Nombre de ventes du jeu ailleurs dans le monde : Afrique, Asie sans le Japon, Europe sans l’Union Européenne et Amérique du Sud en millions d’unités
#    Critic_Score : Score donné par Metacritic
#    Critic_Count : Nombre de critiques prises en compte pour estimer le Critic_score
#    User_Score : Score donné par les usagers de Metacritic
#    User_Count : Nombre d’usagers considérés pour estimer le User_Score
#    Developer : Compagnie créatrice du jeu
#    Rating : Classement ESRB (Entertainment Software Rating Board) ie à qui s’addresse le jeu (tout public, majeur, adolescents, etc) 


# --- Variables d'Interet ---

#    NA_sales : Nombre de ventes du jeu en Amérique du Nord en millions d’unités
#    Global_Sales : Nombre de ventes total du jeu en millions d’unités

In [78]:
"""
--- Evaluation des predictions --- 

Dans le document MTH3302_CriteresProjet-1.pdf on nous informe que la precision
de nos estimations sera evaluee avec le root mean square error (RMSE)

On definit cette fonction ci-bas,

    Y : Variable d'interet
    W : Predictions de la variable d'interet

"""

def RMSE(Y,W):
    
    # Nombre d'observations
    n = len(Y)
    
    total = 0.0
    for i in range(n):
        total += (Y[i] - W[i])**2
    
    RMSE = total/float(n)
    
    return RMSE
    

In [79]:
"""
--- Variable Qualitative -> Table Binaire --- 

Afin de traiter nos variables qualitatives, nous avons une fonction qui la tranforme en table binaire 
avec un one bit encoder. 

    Disons que la variable explicative peut prendre 4 valeurs {Bleu, Vert, Jaune, Rouge},
        
          ID        X1
        ----------------
          1        Bleu
          2        Bleu
          3        Vert
          4        Jaune
          5        Vert
          6        Rouge          
         ...
    
    Suite a un encodage en 1 bit notre variable explicative X1 devient,
    
          ID        Bleu        Vert        Jaune        Rouge
        -------------------------------------------------------
          1          1           0            0            0
          2          1           0            0            0
          3          0           1            0            0
          4          0           0            1            0
          5          0           1            0            0
          6          0           0            0            1
                                ...
                                

Nous nous basons sur la fonction get_dummies() de la librairie Panda pour faire ceci.



Input,

    trainSet : le jeu de donnees de training
    testSet : le jeu de donnees de test
    varName : la variable qualitative que nous souhaitons transformer en tableau binaire

"""

def qualiToBinary(trainSet, testSet, varName):
    
    # Genere la table binaire de la variable qualitative
    trainVar_binary = pd.get_dummies(trainSet[varName],prefix=varName)
    testVar_binary = pd.get_dummies(testSet[varName],prefix=varName)
    
    # On enleve la variable qualitative de nos jeux de donnees
    trainSet = trainSet.drop([varName], axis=1)
    testSet = testSet.drop([varName], axis=1)
    
    # On convertit nos tableaux binaires en Dataframe
    trainVar_binary = pd.DataFrame(trainVar_binary)
    testVar_binary = pd.DataFrame(testVar_binary)

    # On ajoute les nouvelles colonnes a nos jeux de donnees
    trainSet = pd.concat([trainSet,trainVar_binary],axis=1)
    testSet = pd.concat([testSet,testVar_binary],axis=1)
    
    # On identifie les colonnes manquantes dans le jeu de donnees test
    missing_categories = set(testSet) - set(df_test)

    # On ajoute ces colonnes manquantes avec une valeur par defaut de 0
    for c in missing_categories:
        testSet[c] = 0

    # On identifie les colonnes manquantes dans le jeu de donnees training
    missing_categories = set(testSet) - set(trainSet)

    # On ajoute ces colonnes manquantes avec une valeur par defaut de 0
    for c in missing_categories:
        trainSet[c] = 0


    # On aligne nos jeux de donnees pour que les memes colonnes soient aux memes endroits
    trainSet, testSet = trainSet.align(testSet, axis=1)
    
    # On retourne les jeux de donnees
    return trainSet, testSet

In [80]:
def linear_regression(y,x):
    
    # The variance-covariance
    C = np.linalg.inv(np.dot(x.T,x))
    
    # On calcule les coefficients de regression
    B = np.dot(np.dot(C,x.T),y)
    
    return B, np.dot(x,B)

In [81]:
def R2_adj(Y,W,p):

    SS_tot = 0.0
    SS_reg = 0.0
    SS_res = 0.0    
    
    y_S = np.sum(Y)/len(Y)

    for i in range(len(Y)):
        SS_tot += (Y[i] - y_S)**2
        SS_reg += (W[i] - y_S)**2
        SS_res += (Y[i] - W[i])**2
        
    
    n = len(Y)
    
    Radj = 1 - ((SS_res)/float(n-p))/((SS_tot)/(n-1))
    
    print("R2_adj : %.2f" % Radj)

    return Radj

In [82]:
def R2_prev(Y,W,X):
    
    # The variance-covariance
    C = np.linalg.inv(np.dot(X.T,X))
    
    # Hat Matrix (X*B = H*Y)
    H = np.dot(np.dot(X,C),X.T)
    
    # We are only interested in the (i,i) values
    H = np.diagonal(H)
    
    # Mean of Y
    y_S = np.sum(Y)/float(len(Y))
    
    num = 0.0
    for i in range(len(Y)):
        num += ((Y[i] - W[i])/float(1 - H[i]))**2

    denom = 0.0
    for i in range(len(Y)):
        denom += (Y[i] - y_S)**2
    
    R2_prev = (1 - num/denom)
    
    return R2_prev
    

In [83]:
def printNaN(printSet):
    # On regarde combien de NaN nous avons par colonne
    for col in printSet:
        if(printSet[col].isna().sum() > 0):
            print('%d \t %s' % (printSet[col].isna().sum(),col))

In [84]:
# On peut ici enlever les variables quantitatives non probantes
#df_train_quanti = df_train_quanti.drop(['Year_of_Release'], axis=1)
#df_train_quanti = df_train_quanti.drop(['JP_Sales'], axis=1)
#df_train_quanti = df_train_quanti.drop(['Other_Sales'], axis=1)
#df_train_quanti = df_train_quanti.drop(['Critic_Score'], axis=1)
#df_train_quanti = df_train_quanti.drop(['Critic_Count'], axis=1)
#df_train_quanti = df_train_quanti.drop(['User_Score'], axis=1)
#df_train_quanti = df_train_quanti.drop(['User_Count'], axis=1)
#df_train_quanti = df_train_quanti.drop(['NA_Sales'], axis=1)
#df_train_quanti = df_train_quanti.drop(['Global_Sales'], axis=1)

#df_test_quanti = df_test_quanti.drop(['Year_of_Release'], axis=1)
#df_test_quanti = df_test_quanti.drop(['JP_Sales'], axis=1)
#df_test_quanti = df_test_quanti.drop(['Other_Sales'], axis=1)
#df_test_quanti = df_test_quanti.drop(['Critic_Score'], axis=1)
#df_test_quanti = df_test_quanti.drop(['Critic_Count'], axis=1)
#df_test_quanti = df_test_quanti.drop(['User_Score'], axis=1)
#df_test_quanti = df_test_quanti.drop(['User_Count'], axis=1)

In [85]:
# Variable Qualitative #1 : Platform
print("Nbr. of categories (train) : %d" %(df_train.Platform.nunique()))
print("Nbr. of categories (test) : %d" %(df_test.Platform.nunique()))

df_train, df_test = qualiToBinary(df_train, df_test, 'Platform')
#df_test = df_test.drop(['Platform'],axis=1)
#df_train = df_train.drop(['Platform'],axis=1)


Nbr. of categories (train) : 30
Nbr. of categories (test) : 27


In [169]:
def clusterVar(testSet,Y,colsName):
    
    # Only select columns start with 'colsName'
    reducedSet = testSet.loc[:, testSet.columns.str.startswith(colsName)]
    
    # On calcule le nombre de colonne
    nbrOfCols = len(reducedSet.T)
    
    # On cree une liste d'index de 0 au nombre de colonne
    rangeIndex = np.array(range(nbrOfCols))
    
    sumWithX = np.zeros(nbrOfCols)
    sumWithoutX = np.zeros(nbrOfCols)
    names = np.array(['' for _ in range(nbrOfCols)], dtype=object)
    index = 0
    for col in reducedSet:
        withX = reducedSet[col]*Y
        withoutX = (1-reducedSet[col])*Y
        sumWithX[index] = np.sum(withX)/(withX.astype(bool).sum(axis=0))
        sumWithoutX[index] = np.sum(withoutX)/(withoutX.astype(bool).sum(axis=0))
        names[index] += col
        index += 1
    
    # On cree un tableau indexe de nos valeurs propres et leur contribution a la variance
    aveY_table = np.array(([rangeIndex,sumWithX,sumWithoutX])).T
    
    for i in range(nbrOfCols):
        print('%d. \t %.3f \t %.3f \t %s ' % (aveY_table[i][0],aveY_table[i][1],aveY_table[i][2],names[i]))

In [170]:
Y = df_train.NA_Sales.values

clusterVar(df_train,Y,'Platform')

0. 	 0.705 	 0.262 	 Platform_2600 
1. 	 0.001 	 0.266 	 Platform_3DO 
2. 	 0.171 	 0.269 	 Platform_3DS 
3. 	 0.103 	 0.266 	 Platform_DC 
4. 	 0.161 	 0.281 	 Platform_DS 
5. 	 1.133 	 0.260 	 Platform_GB 
6. 	 0.233 	 0.267 	 Platform_GBA 
7. 	 0.236 	 0.267 	 Platform_GC 
8. 	 0.843 	 0.265 	 Platform_GEN 
9. 	 nan 	 0.266 	 Platform_GG 
10. 	 0.440 	 0.262 	 Platform_N64 
11. 	 1.334 	 0.259 	 Platform_NES 
12. 	 0.001 	 0.266 	 Platform_NG 
13. 	 0.096 	 0.276 	 Platform_PC 
14. 	 0.002 	 0.266 	 Platform_PCFX 
15. 	 0.282 	 0.264 	 Platform_PS 
16. 	 0.275 	 0.264 	 Platform_PS2 
17. 	 0.299 	 0.263 	 Platform_PS3 
18. 	 0.261 	 0.266 	 Platform_PS4 
19. 	 0.085 	 0.280 	 Platform_PSP 
20. 	 0.033 	 0.272 	 Platform_PSV 
21. 	 0.006 	 0.268 	 Platform_SAT 
22. 	 0.167 	 0.266 	 Platform_SCD 
23. 	 0.296 	 0.265 	 Platform_SNES 
24. 	 0.001 	 0.266 	 Platform_TG16 
25. 	 0.001 	 0.266 	 Platform_WS 
26. 	 0.397 	 0.254 	 Platform_Wii 
27. 	 0.283 	 0.265 	 Platform_WiiU 
28. 	 0.



In [None]:
# Variable Qualitative #2 : Genre
print("Nbr. of categories (train) : %d" %(df_train.Genre.nunique()))
print("Nbr. of categories (test) : %d" %(df_test.Genre.nunique()))

print(df_train.Genre.value_counts())

df_train, df_test = qualiToBinary(df_train, df_test,'Genre')

In [None]:
# Variable Qualitative #3 : Publisher
print("Nbr. of categories (train) : %d" %(df_train.Publisher.nunique()))
print("Nbr. of categories (test) : %d" %(df_test.Publisher.nunique()))

#df_train, df_test = qualiToBinary(df_train, df_test, 'Publisher')
df_test = df_test.drop(['Publisher'],axis=1)
df_train = df_train.drop(['Publisher'],axis=1)

In [None]:
# Variable Qualitative #4 : Developer
print("Nbr. of categories (train) : %d" %(df_train.Developer.nunique()))
print("Nbr. of categories (test) : %d" %(df_test.Developer.nunique()))


# Bon ici on a un probleme, si on ajoute les colonnes binaires generees par cette variable on ajoute 100mb
# a notre csv. Ceci rend peu pratique le prototypage, pour l'instant on le laisse tomber. On essayera de ce
# donner une raison rationnelle de le domper plus tard dans l'analyse. Hypothese, beaucoup de colinearite avec 
# le Publisher.

#df_train, df_test = qualiToBinary(df_train, df_test,'Developer')
df_test = df_test.drop(['Developer'],axis=1)
df_train = df_train.drop(['Developer'],axis=1)

In [None]:
# Variable Qualitative #5 : Rating
print("Nbr. of categories (train) : %d" %(df_train.Rating.nunique()))
print("Nbr. of categories (test) : %d" %(df_test.Rating.nunique()))

df_train, df_test = qualiToBinary(df_train, df_test,'Rating')
#df_test = df_test.drop(['Rating'],axis=1)
#df_train = df_train.drop(['Rating'],axis=1)

In [None]:
# On calcule le nombre de colonne
print("\nNombre de colonne: %d" % (len(df_train.T)))

# On enleve les colonnes qui ne comportent que des zeros
cols_only0 = (df_train != 0).any(axis=0)
df_train = df_train.loc[:,cols_only0]
df_test = df_test.loc[:,cols_only0]

# On enleve toutes les colonnes qui sont en double
duplicates = df_train.T.duplicated()
duplicates = ~duplicates
df_train = df_train.T[duplicates].T
df_test = df_test.T[duplicates].T

# On calcule le nombre de colonne
print("\nNombre de colonne apres clean up : %d" % (len(df_train.T)))

In [None]:
def createX(testSet):
    
    X1 = testSet.JP_Sales.values
    X2 = (testSet.Critic_Count.values**2)*(testSet.Critic_Score.values)
    X3 = (testSet.Critic_Score.values)
    X4 = testSet.Year_of_Release.values
    X5 = testSet.Other_Sales.values
    X6 = testSet.User_Score.values*testSet.User_Count.values**2
    X7 = testSet.User_Count.values

    X8_1 = testSet.Platform_PS2.values
    X8_2 = testSet.Platform_DS.values
    X8_3 = testSet.Platform_PS3.values
    X8_4 = testSet.Platform_Wii.values
    X8_5 = testSet.Platform_X360.values
    X8_6 = testSet.Platform_PSP.values
    X8_7 = testSet.Platform_PS.values
    X8_8 = testSet.Platform_PC.values
    X8_9 = testSet.Platform_XB.values
    X8_10 = testSet.Platform_GBA.values
    X8_11 = testSet.Platform_GC.values
    X8_12 = testSet.Platform_3DS.values
    X8_13 = testSet.Platform_PSV.values
    X8_14 = testSet.Platform_PS4.values
    X8_15 = testSet.Platform_N64.values
    X8_16 = testSet.Platform_XOne.values
    X8_17 = testSet.Platform_SNES.values
    X8_18 = testSet.Platform_SAT.values
    X8_19 = testSet.Platform_WiiU.values

    X9_1 = testSet.Genre_Action.values
    X9_2 = testSet.Genre_Sports.values
    X9_3 = testSet.Genre_Misc.values
    X9_4 = testSet['Genre_Role-Playing'].values
    X9_5 = testSet.Genre_Shooter.values
    X9_6 = testSet.Genre_Adventure.values
    X9_7 = testSet.Genre_Racing.values
    X9_8 = testSet.Genre_Platform.values
    X9_9 = testSet.Genre_Simulation.values
    X9_10 = testSet.Genre_Fighting.values
    X9_11 = testSet.Genre_Strategy.values
    X9_12 = testSet.Genre_Puzzle.values

    X = np.array([np.ones(len(testSet.JP_Sales)),X1,X2,X3,X4,X5,X6,X7,
                  X8_1,X8_2,X8_3,X8_4,X8_5,X8_6,X8_7,X8_8,X8_9,X8_10,X8_11,X8_12,X8_13,X8_14,X8_15,X8_16,X8_17,X8_18,X8_19,
                  X9_1,X9_2,X9_3,X9_4,X9_5,X9_6,X9_7,X9_8,X9_9,X9_10,X9_11,X9_12]).T
    
    return X

In [None]:
df_train_clean = df_train.fillna(df_train.median()).copy()

X = createX(df_train_clean)

Y1 = df_train_clean.Global_Sales.values
Y2 = df_train_clean.NA_Sales.values

B1, global_data = linear_regression(Y1,X)
B2, na_data = linear_regression(Y2,X)

print("Global R2_prev : %.3f" % (R2_prev(Y1,np.dot(X,B1),X)))
print("NA R2_prev : %.3f" % (R2_prev(Y2,np.dot(X,B2),X)))

In [None]:
df_test_clean = df_test.fillna(df_train.median()).copy()

X = createX(df_test_clean)

test_GlobalData = np.dot(X,B1)
test_NAData = np.dot(X,B2)

In [None]:
df_test_estimated = pd.DataFrame([df_test.NA_Sales,df_test.Global_Sales]).copy().T
df_test_estimated['NA_Sales'] = test_NAData
df_test_estimated['Global_Sales'] = test_GlobalData
df_test_estimated.to_csv("test_final.csv")

In [None]:
def PCA(Y,X,varExplained):
        
    # On transforme X en une matrice de moyenne = 0 et variance = 1
    scaler = StandardScaler()
    X_std = scaler.fit_transform(X)
    nbrOfVar = X.shape[1]

    # On calcule la matrice de covariance
    E = np.dot(X_std.T,X_std)/(nbrOfVar-1)

    # On calcule nos Valeurs et Vecteurs propres
    eig_val, eig_vec = np.linalg.eig(E)
    eig_val = eig_val.real
    eig_vec = eig_vec.T # pour les ordonner par range

    # On calcule la contribution de chaque valeur propre a la variance total
    eig_val_contribution = eig_val/np.sum(eig_val)

    # On cree une liste d'index de 0 au nombre de valeurs propres
    rangeIndex = np.array(range(len(eig_val_contribution)))

    # On cree un tableau indexe de nos valeurs propres et leur contribution a la variance
    eig_val_table = np.array(([rangeIndex,eig_val,eig_val_contribution])).T

    # On ordonne en ordre decroissant de contribution le tableau
    eig_val_table_ordered = eig_val_table[(-eig_val_table[:,2]).argsort()]
    
    # On rejoint la quantite de variance souhaitee
    varCumul = 0.0
    varIndex = 0
    for val in eig_val_table_ordered:
        varIndex += 1
        varCumul += val[2]
        if(varCumul >= varExplained):
            break
    
    # On recupere les index des valeurs propres que nous garderont
    indexKept = eig_val_table_ordered[:,0][:varIndex]

    # Our reduced regressor
    K_vect = eig_vec[indexKept.astype(int),:].T

    # Our principal components
    Z = np.dot(X_std,K_vect)

    # Our Regression Coefficiants
    B_partial = np.dot(np.linalg.inv(np.dot(Z.T,Z)),Z.T)
    B = np.dot(B_partial,Y)

    # We calculate the intercept
    uY = np.mean(Y)

    # We add the intercept
    Y_new = np.dot(Z,B) + uY

    # Clip to min 0
    Y_new = Y_new.clip(min=0)
    
    return Y_new, B, K_vect, uY


In [None]:
def PCA_trained(X,B,K_vect,uY):
    
    X_std = StandardScaler().fit_transform(X)
    
    # Our principal components
    Z = np.dot(X_std,K_vect)
    
    # We add the intercept
    Y_new = np.dot(Z,B) + uY
    
    # Clip to min 0
    Y_new = Y_new.clip(min=0)

    return Y_new
    

In [None]:
def estimateCol(trainSet,testSet,colName,varExplained):
    
    # On definit notre variable d'interet
    Y = np.array(trainSet[colName])

    # On definit notre vecteur de variables explicatives
    X = np.array(trainSet.drop([colName], axis=1))

    # We train our model
    [Y_new, B, K_vect, uY] = PCA(Y,X,varExplained)
    
    X_test = np.array(testSet.drop([colName], axis=1))    
    Y_test = PCA_trained(X_test,B,K_vect,uY)
    
    return Y_test

In [None]:
df_test_estimated = pd.DataFrame([df_test.NA_Sales,df_test.Global_Sales]).copy().T


df_test_estimated['NA_Sales'] = estimateCol(df_train,df_test,'NA_Sales',0.999)
df_test_estimated['Global_Sales'] = estimateCol(df_train,df_test,'Global_Sales',0.999)

# On definit notre vecteur de variables explicatives
X1 = np.array(trainSet.drop(['Global_Sales'], axis=1))
X2 = np.array(trainSet.drop(['NA_Sales'], axis=1))

Y1 = df_test_estimated.Global_Sales.values
Y2 = df_test_estimated.NA_Sales.values

print("Global R2_prev : %.3f" % (R2_prev(Y1,np.dot(X1,B1),X)))
print("NA R2_prev : %.3f" % (R2_prev(Y2,np.dot(X2,B2),X)))