In [None]:
# Importe les librairies utiles
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# Chemin vers les csv
pathTest = "./test3.csv"
pathTrain = "./train3.csv"

# Importe les jeux de donnees
df_test = pd.read_csv(pathTest, sep=',', index_col=0)
df_train = pd.read_csv(pathTrain, sep=',', index_col=0)

In [None]:
df_test

In [None]:
"""

--- Variables Explicatives ---
Name : Nom du jeu
Platform : Console sur laquelle le jeu fonctionne
Year of release : Année de sortie du jeu
Genre
Publisher
JP_sales : Nombre de ventes du jeu au Japon en millions d’unités
Other sales : Nombre de ventes du jeu ailleurs dans le monde : Afrique, Asie sans le Japon, Europe sans l’Union Européenne et Amérique du Sud en millions d’unités
Critic_score : Score donné par Metacritic
Critic_count : Nombre de critiques prises en compte pour estimer le Critic_score
User_Score : Score donné par les usagers de Metacritic
User_Count : Nombre d’usagers considérés pour estimer le User_Score
Developer : Compagnie créatrice du jeu
Rating : Classement ESRB (Entertainment Software Rating Board) ie à qui s’addresse le jeu (tout public, majeur, adolescents, etc) 

--- Variable d'interet ---
NA_sales : Nombre de ventes du jeu en Amérique du Nord en millions d’unités
Global_Sales : Nombre de ventes total du jeu en millions d’unités

"""


In [None]:
"""
--- Evaluation des predictions --- 

Dans le document MTH3302_CriteresProjet-1.pdf on nous informe que la precision
de nos estimations sera evaluee avec le root mean square error (RMSE)

On definit cette fonction ci-bas,

    Y : Variable d'interet
    W : Predictions

"""

def RMSE(Y,W):
    
    # Nombre d'observations
    n = len(Y)
    
    total = 0.0
    for i in range(n):
        total += (Y[i] - W[i])**2
    
    mean = total/float(n)
    
    print("RMSE = %.2f" % (mean))
    

In [None]:
"""
--- Variable Qualitative -> Table Binaire --- 

Afin de traiter nos variables qualitatives, nous les transformons en table binaire.
Nous nous basons sur la fonction get_dummies de la librairies Panda pour arriver a nos fins.

Input,
    trainSet : le dataframe complet contenant le jeu de donnees de training avec toutes ses colonnes
    testSet : le dataframe complet contenant le jeu de donnees de training avec toutes ses colonnes
    trainVar : la variable qualitative que nous souhaitons transformer en tableau de variable binaire
    testVar : la variable qualitative que nous souhaitons transformer en tableau de variable binaire

"""

def binerizedQualitativeVariable(trainSet, testSet, trainVar, testVar):
    
    # Generate Binary Table
    trainVar_binary = pd.get_dummies(trainVar)
    testVar_binary = pd.get_dummies(testVar)

    # We concatenate the new columns
    trainSet = pd.concat([trainSet,pd.DataFrame(trainVar_binary)],axis=1)
    testSet = pd.concat([testSet,pd.DataFrame(testVar_binary)],axis=1)

    # Get missing columns in the test set
    missing_categories = set(trainSet) - set(testSet)

    # Add the missing columns in test set with default value equal to 0
    for c in missing_categories:
        testSet[c] = 0

    # Get missing columns in the train set
    missing_categories = set(testSet) - set(trainSet)

    # Add the missing columns in train set with default value equal to 0
    for c in missing_categories:
        trainSet[c] = 0

    # Ensure the order of columns in the test and train sets are the same
    trainSet, testSet = trainSet.align(testSet, axis=1)
    
    # We return the two set
    return trainSet, testSet

In [None]:
# Separons les variables explicatives qualitatives de celles quantitatives
df_train_quanti = df_train.drop(['Name','Platform','Genre','Publisher','Developer','Rating'], axis=1)
df_test_quanti = df_test.drop(['Platform','Genre','Publisher','Developer','Rating'], axis=1)
df_test_quanti

In [None]:
# Variable Qualitative #1 : Platform
print("Nbr. of categories (train) : %d" %(df_train.Platform.nunique()))
print("Nbr. of categories (test) : %d" %(df_test.Platform.nunique()))

df_train_quanti, df_test_quanti = binerizedQualitativeVariable(df_train_quanti, df_test_quanti, df_train.Platform, df_test.Platform)

In [None]:
# Variable Qualitative #2 : Genre
print("Nbr. of categories (train) : %d" %(df_train.Genre.nunique()))
print("Nbr. of categories (test) : %d" %(df_test.Genre.nunique()))

df_train_quanti, df_test_quanti = binerizedQualitativeVariable(df_train_quanti, df_test_quanti, df_train.Genre, df_test.Genre)

In [None]:
# Variable Qualitative #3 : Publisher
print("Nbr. of categories (train) : %d" %(df_train.Publisher.nunique()))
print("Nbr. of categories (test) : %d" %(df_test.Publisher.nunique()))

#df_train_quanti, df_test_quanti = binerizedQualitativeVariable(df_train_quanti, df_test_quanti, df_train.Publisher, df_test.Publisher)

In [None]:
# Variable Qualitative #4 : Developer
print("Nbr. of categories (train) : %d" %(df_train.Developer.nunique()))
print("Nbr. of categories (test) : %d" %(df_test.Developer.nunique()))

"""
Bon ici on a un probleme, si on ajoute les colonnes binaires generees par cette variable on ajoute 100mb
a notre csv. Ceci rend peu pratique le prototypage, pour l'instant on le laisse tomber. On essayera de ce
donner une raison rationnelle de le domper plus tard dans l'analyse. Hypothese, beaucoup de colinearite avec 
le Publisher.
"""
#df_train_quanti, df_test_quanti = binerizedQualitativeVariable(df_train_quanti, df_test_quanti, df_train.Developer, df_test.Developer)

In [None]:
# Variable Qualitative #5 : Rating
print("Nbr. of categories (train) : %d" %(df_train.Rating.nunique()))
print("Nbr. of categories (test) : %d" %(df_test.Rating.nunique()))

df_train_quanti, df_test_quanti = binerizedQualitativeVariable(df_train_quanti, df_test_quanti, df_train.Rating, df_test.Rating)

In [None]:
# On regarde le nombre de NaN par variables explicatives
print("Nombre de NaN sur %d observations \n" % (len(df_train_quanti)))
print(df_train_quanti.isna().sum())

# On garde seulement les observations ou nous avons toutes les donnees (a ameliorer plus tard)
df_train_quanti = df_train_quanti.dropna()

# On calcule le nombre d'observations restantes
print("\nApres clean-up, nombre d'observation : %d" % (len(df_train_quanti)))

In [None]:
# On enleve les colonnes qui ne comportent que des zeros
cols_only0 = (df_train_quanti != 0).any(axis=0)
df_train_quanti = df_train_quanti.loc[:,cols_only0]
df_test_quanti = df_test_quanti.loc[:,cols_only0]

# On enleve toutes les colonnes qui sont en double
duplicates = df_train_quanti.T.duplicated()
duplicates = ~duplicates
df_train_quanti = df_train_quanti.T[duplicates].T
df_test_quanti = df_test_quanti.T[duplicates].T


In [None]:
# On sauvegarde nos deux nouveaux jeux de donnees entierement quantitatif
#df_train_quanti.to_csv("train_quanti.csv")
#df_test_quanti.to_csv("test_quanti.csv")

In [None]:
df_train_quanti

In [None]:
def linear_regression(y,x):
    
    # Number of Explicative Variables
    k = 0
    try:
        k = x.shape[1]
    except IndexError:
        k = 1
        
    
    # The variance-covariance
    C = np.linalg.inv(np.dot(x.T,x))
    
    B = np.dot(np.dot(C,x.T),y)
    
    return B, np.dot(x,B)

In [None]:
def R2_adj(Y,W,p):

    SS_tot = 0.0
    SS_reg = 0.0
    SS_res = 0.0    
    
    y_S = np.sum(Y)/len(Y)

    for i in range(len(Y)):
        SS_tot += (Y[i] - y_S)**2
        SS_reg += (W[i] - y_S)**2
        SS_res += (Y[i] - W[i])**2
        
    
    n = len(Y)
    
    Radj = 1 - ((SS_res)/float(n-p))/((SS_tot)/(n-1))

    return Radj

In [None]:
# On definit notre variable d'interet
Y = np.array(df_train_quanti.NA_Sales)

# On definit notre vecteur de variables explicatives
X = np.array(df_train_quanti.drop(['NA_Sales','Global_Sales'], axis=1))
nbrOfVar = X.shape[1]

In [None]:
# On s'assure que nos matrices soient toutes dans la bonne position
print("Y Shape : ",Y.shape)
print("X Shape : ",X.shape)
print("Nbr de Variables : ",nbrOfVar)

In [None]:
# On effectue notre regression lineaire
try:
    b, data = linear_regression(Y,X)
    RMSE(Y,data)
except np.linalg.LinAlgError:
    print("NUL, hahaha determinant = 0")

In [None]:
# We standardize our data because PCA is sensitive to scaling
X_std = StandardScaler().fit_transform(X) # (mean=0 and variance=1)

# The Mean Matrix
u = np.mean(X_std, axis=0)

# The covariance matrix
E = np.dot((X_std).T,(X_std))/(X_std.shape[0]-1)
#print('Covariance matrix \n%s' % E)

# Eigenvalues and Eigenvectors
eig_val, eig_vec = np.linalg.eig(E) #vector already normalized
eig_val = eig_val.real
eig_val_fraction = eig_val/np.sum(eig_val)
eig_val_fraction = -np.sort(-eig_val_fraction)


#print('Eigenvectors \n%s' %eig_vec)
#print('\nEigenvalues \n%s' %eig_val)
sum = 0.0
for i in range(len(eig_val)):
    if(eig_val_fraction[i] >= 0.002):
        sum += eig_val_fraction[i]
        print("Eig Val %d = %.4f, sum : %.4f" % (i,eig_val_fraction[i],sum))
