# PRE-PROCESSING et MACHINE LEARNING

## Importer les librairies

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import re

df=pd.read_csv("df_encode.csv")

# Création jeu d'entraînement et jeu de test

In [2]:
from sklearn.model_selection import train_test_split

y=df['Global_Sales']
X=df.drop('Global_Sales', axis=1)

X_train, X_test, y_train, y_test = train_test_split(X, y,  test_size=0.2, random_state=42)


# Modele de Regression Lineaire

In [12]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

# Instancier un objet de modèle
model_reg = LinearRegression()

model_reg.fit(X_train, y_train)

# Calcule les prédictions du modèle sur le jeu de test, puis les erreurs de prédictions
y_pred_reg = model_reg.predict(X_test)

# Évaluer les performances du modèle en utilisant les mesures de performance
r2 = r2_score(y_test, y_pred_reg)
mse = mean_squared_error(y_test, y_pred_reg)
mae = mean_absolute_error(y_test, y_pred_reg)

print("R2 score:", r2)
print("MSE:", mse)
print("MAE:", mae)


R2 score: -55590.00322523992
MSE: 118313.19646438175
MAE: 129.98661504490346


# Modele Lasso

In [13]:
from sklearn.linear_model import Lasso
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

# Créer une instance de la classe Lasso
modele_lasso = Lasso(alpha=0.1, max_iter=10000, random_state=42, fit_intercept=True)

# Entraîner le modèle sur l'ensemble d'entraînement
modele_lasso.fit(X_train, y_train)

# Évaluer la performance du modèle sur l'ensemble de test
score = modele_lasso.score(X_test, y_test)

# Faire des prédictions sur les données de test
y_pred_lasso = modele_lasso.predict(X_test)

# Évaluer les performances du modèle en utilisant les mesures de performance
r2 = r2_score(y_test, y_pred_lasso)
mse = mean_squared_error(y_test, y_pred_lasso)
mae = mean_absolute_error(y_test, y_pred_lasso)

print("R2 score:", r2)
print("MSE:", mse)
print("MAE:", mae)

R2 score: 0.9380385333744345
MSE: 0.13187132357351206
MAE: 0.18985057435425012


## Encodage OneHotEncoder

In [3]:
#from sklearn.preprocessing import OneHotEncoder

#ohe = OneHotEncoder(sparse=False)

#X_train_obj=X_train.select_dtypes(include='object')
#X_test_obj=X_train.select_dtypes(include='object')

#X_train_ohe = ohe.fit_transform(X_train_obj)
#X_test_ohe = ohe.transform(X_test_obj)




# Normalisation

In [3]:
from sklearn.preprocessing import StandardScaler

# Normaliser les variables
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [5]:
#y_train=np.array(y_train).reshape(-1,1)
#y_test=np.array(y_test).reshape(-1,1)


# Test sur Modele de Regression Lineaire

In [5]:
#model_reg.fit(X_train, y_train)

# Calcule les prédictions du modèle sur le jeu de test, puis les erreurs de prédictions
#y_pred_reg = model_reg.predict(X_test)

# Évaluer les performances du modèle en utilisant les mesures de performance
#r2 = r2_score(y_test, y_pred_reg)
#mse = mean_squared_error(y_test, y_pred_reg)
#mae = mean_absolute_error(y_test, y_pred_reg)

#print("R2 score:", r2)
#print("MSE:", mse)
#print("MAE:", mae)


R2 score: -2.2908131262206807e+23
MSE: 4.875490776224649e+23
MAE: 234388028840.6631


# Test sur Modele Lasso

In [15]:
from sklearn.linear_model import Lasso
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

# Créer une instance de la classe Lasso
modele_lasso = Lasso(alpha=0.1, max_iter=10000, random_state=42, fit_intercept=True)

# Entraîner le modèle sur l'ensemble d'entraînement
modele_lasso.fit(X_train, y_train)

# Évaluer la performance du modèle sur l'ensemble de test
score = modele_lasso.score(X_test, y_test)

# Faire des prédictions sur les données de test
y_pred_lasso = modele_lasso.predict(X_test)

# Évaluer les performances du modèle en utilisant les mesures de performance
r2 = r2_score(y_test, y_pred_lasso)
mse = mean_squared_error(y_test, y_pred_lasso)
mae = mean_absolute_error(y_test, y_pred_lasso)

print("R2 score:", r2)
print("MSE:", mse)
print("MAE:", mae)

R2 score: 0.9928824869340679
MSE: 0.015148057650542432
MAE: 0.06576785191287388


# Cross Validation

In [16]:
from sklearn.model_selection import cross_val_score, KFold

# Définir la stratégie de validation croisée
cv = KFold(n_splits=5, shuffle=True, random_state=42)

# Effectuer la validation croisée sur le modèle avec la métrique R²
scores = cross_val_score(modele_lasso, X, y, cv=cv, scoring='r2')

# Afficher les scores de validation croisée
print("Scores de validation croisée: ", scores)

# Afficher la moyenne des scores de validation croisée
print("Score moyen de validation croisée: {:.2f}".format(scores.mean()))

Scores de validation croisée:  [0.93803853 0.89776311 0.94757028 0.95318623 0.8673239 ]
Score moyen de validation croisée: 0.92


# TPOT : choix du meilleur modèle de ML

In [4]:
# Pour la régression
from tpot import TPOTRegressor
# Paramétrage du TPOTRegressor
tpot_regression = TPOTRegressor(generations=5, population_size=50, cv=5, scoring='neg_mean_absolute_error', verbosity=2, random_state=42, n_jobs=-1)
 
# Application de TPOT à notre jeu de données train 
tpot_regression.fit(X_train, y_train)

# Calcul du taux de bonnes prédictions
print(tpot_regression.score(X_test, y_test))
# Extraction du code généré par TPOT pour modifier le pipeline créé
tpot_regression.export('tpot_vgsales_2_pipeline.py')

Optimization Progress:   0%|          | 0/300 [00:00<?, ?pipeline/s]


Generation 1 - Current best internal CV score: -0.00357004975207589

Generation 2 - Current best internal CV score: -0.00357004975207589

Generation 3 - Current best internal CV score: -0.00357004975207589

Generation 4 - Current best internal CV score: -0.0035541133391354188

Generation 5 - Current best internal CV score: -0.0033799570781853083

Best pipeline: LinearSVR(VarianceThreshold(OneHotEncoder(DecisionTreeRegressor(input_matrix, max_depth=10, min_samples_leaf=20, min_samples_split=12), minimum_fraction=0.05, sparse=False, threshold=10), threshold=0.1), C=20.0, dual=True, epsilon=0.01, loss=squared_epsilon_insensitive, tol=0.001)




-0.003284346122786532


# Pipeline

In [22]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import re

df=pd.read_csv("df_encode.csv")

In [23]:
from sklearn.model_selection import train_test_split

y=df['Global_Sales']
X=df.drop('Global_Sales', axis=1)

X_train, X_test, y_train, y_test = train_test_split(X, y,  test_size=0.2, random_state=42)


In [26]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.feature_selection import SelectFwe
from sklearn.linear_model import LassoLarsCV
from sklearn.feature_selection import f_regression

# Création de la pipeline
pipeline = Pipeline([
  ('standard_scaler', StandardScaler()),
  ('min_max_scaler', MinMaxScaler()),
  ('feature_selection', SelectFwe(score_func=f_regression, alpha=0.009000000000000001)),
  ('lasso_lars', LassoLarsCV())
])

# Entraînement du modèle avec les données d'entraînement
pipeline.fit(X_train, y_train)

# Évaluation des performances du modèle sur les données de test
score = pipeline.score(X_test, y_test)
print(score)

0.9999849745584344


In [27]:
# Faire des prédictions sur les données de test
y_pred_pipe = modele_lasso.predict(X_test)

# Évaluer les performances du modèle en utilisant les mesures de performance
r2 = r2_score(y_test, y_pred_pipe)
mse = mean_squared_error(y_test, y_pred_pipe)
mae = mean_absolute_error(y_test, y_pred_pipe)

print("R2 score:", r2)
print("MSE:", mse)
print("MAE:", mae)

R2 score: 0.7869076299402453
MSE: 0.4535201378142009
MAE: 0.5754177659533568




In [5]:
import numpy as np
import pandas as pd
from sklearn.feature_selection import VarianceThreshold
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline, make_union
from sklearn.svm import LinearSVR
from sklearn.tree import DecisionTreeRegressor
from tpot.builtins import OneHotEncoder, StackingEstimator
from tpot.export_utils import set_param_recursive
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

df=pd.read_csv("df_encode.csv")

y=df['Global_Sales']
X=df.drop('Global_Sales', axis=1)

X_train, X_test, y_train, y_test = train_test_split(X, y,  test_size=0.2, random_state=42)

# Average CV score on the training set was: -0.0033799570781853083
pipeline = make_pipeline(
    StackingEstimator(estimator=DecisionTreeRegressor(max_depth=10, min_samples_leaf=20, min_samples_split=12)),
    OneHotEncoder(minimum_fraction=0.05, sparse=False, threshold=10),
    VarianceThreshold(threshold=0.1),
    LinearSVR(C=20.0, dual=True, epsilon=0.01, loss="squared_epsilon_insensitive", tol=0.001)
)
# Fix random state for all the steps in exported pipeline
set_param_recursive(pipeline.steps, 'random_state', 42)

pipeline.fit(X_train, y_train)
results = pipeline.predict(X_test)



In [6]:
# Évaluation des performances du modèle sur les données de test
score = pipeline.score(X_test, y_test)
print(score)



0.9650330937046974


In [9]:
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
# Faire des prédictions sur les données de test
y_pred_pipe = pipeline.predict(X_test)

# Évaluer les performances du modèle en utilisant les mesures de performance
r2 = r2_score(y_test, results)
mse = mean_squared_error(y_test, results)
mae = mean_absolute_error(y_test, results)

print("R2 score:", r2)
print("MSE:", mse)
print("MAE:", mae)



R2 score: 0.9650330937046974
MSE: 0.07441935230968143
MAE: 0.11156996845150477


Le R2 score, également appelé coefficient de détermination, mesure la proportion de la variance totale de la variable cible qui est expliquée par le modèle. Un score R2 de 0,965 indique que ce modèle explique 96,5% de la variance dans les données, ce qui est très élevé et suggère que ce modèle est capable de prédire la variable cible avec une grande précision.

Le MSE (mean squared error) mesure la moyenne des carrés des différences entre les prévisions du modèle et les valeurs réelles de la variable cible. Un MSE de 0,074 indique que, en moyenne, les prévisions de ce modèle diffèrent des valeurs réelles de la variable cible de 0,27 (la racine carrée du MSE) ce qui est relativement faible et suggère que ce modèle est assez précis.

Le MAE (mean absolute error) mesure la moyenne des différences absolues entre les prévisions du modèle et les valeurs réelles de la variable cible. Un MAE de 0,11 indique que, en moyenne, les prévisions de ce modèle diffèrent des valeurs réelles de la variable cible de 0,11, ce qui est également relativement faible et suggère que ce modèle est assez précis.

En somme, les scores que vous avez fournis indiquent tous que notre modèle est capable de prédire la variable cible avec une grande précision et une faible erreur.