## Importation des bibliothèques

---
Après installations des différents packages, l’étape suivante consiste à importer les bibliothèques requises pour le mini projet.
---

In [1]:
###### Pandas & Numpy #######
import pandas as pd
import numpy as np

###### Sklearn #######
from sklearn.model_selection import train_test_split
from sklearn import metrics
 
###### Xgboost Regression #######
from xgboost import XGBRegressor

## Définition des variables et données

---
Nous définissons la la série avec laquelle nous travaillerons.
---

In [2]:
######Définition datasets#######
ColumnNames=['Hours','Calories', 'Weight']
DataValues=[[ 1.0, 2500, 95],
    [ 2.0, 2000, 85],
    [ 2.5, 1900, 83],
    [ 3.0, 1850, 81],
    [ 3.5, 1600, 80],
    [ 4.0, 1500, 78],
    [ 5.0, 1500, 77],
    [ 5.5, 1600, 80],
    [ 6.0, 1700, 75],
    [ 6.5, 1500, 70]
]

#######Data Frame######
GymData=pd.DataFrame(data=DataValues,columns=ColumnNames)
GymData.head()

Unnamed: 0,Hours,Calories,Weight
0,1.0,2500,95
1,2.0,2000,85
2,2.5,1900,83
3,3.0,1850,81
4,3.5,1600,80


## Division des données d’entraînement et de tests

---
Nous allons diviser l'ensemble de notre datasets en données de test et d'entraînement.
---

In [3]:
# Séparer la variable cible et les variables prédictives
TargetVariable='Weight'
Predictors=['Hours','Calories']
X=GymData[Predictors].values
y=GymData[TargetVariable].values

# Diviser les données en deux ensembles, l'un pour la formation et l'autre pour le test
X_train, X_test, y_train, y_test = train_test_split(X, y,
test_size=0.2, random_state=42)

## Initialisation du modèle d'apprentissage automatique XGBoost

---
Nous utiliserons le modèle régression linéaire. Nous allons définir deux hyperparamètres à savoir max_depth et n_estimators. Ceux-ci sont placés sur le côté inférieur pour réduire le surajustement.
---

In [4]:
######## Initialisation du modèle #######
RegModel=XGBRegressor(max_depth=3, learning_rate=0.1,
n_estimators=500, objective='reg:linear', booster='gbtree')

####### Impression de tous les paramètres de XGBoost ######
print(RegModel)

##### Création du modèle sur les données d'entraînement ####
XGB=RegModel.fit(X_train,y_train)
prediction=XGB.predict(X_test)

XGBRegressor(base_score=None, booster='gbtree', callbacks=None,
             colsample_bylevel=None, colsample_bynode=None,
             colsample_bytree=None, early_stopping_rounds=None,
             enable_categorical=False, eval_metric=None, feature_types=None,
             gamma=None, gpu_id=None, grow_policy=None, importance_type=None,
             interaction_constraints=None, learning_rate=0.1, max_bin=None,
             max_cat_threshold=None, max_cat_to_onehot=None,
             max_delta_step=None, max_depth=3, max_leaves=None,
             min_child_weight=None, missing=nan, monotone_constraints=None,
             n_estimators=500, n_jobs=None, num_parallel_tree=None,
             objective='reg:linear', predictor=None, ...)


## Validation dans le jeu de données d'entraînement

---
Vérification de la précision desdonnées : 0 < R2 < 1
---

In [5]:
#### Mesure de l'adéquation des données d'entraînement ####
print('R2 Value:',metrics.r2_score(y_train,
XGB.predict(X_train)))

#### Mesure de la précision des données d'essai ####
print('Accuracy',100- (np.mean(np.abs((y_test - prediction) /
y_test)) * 100))

R2 Value: 0.9999999420985181
Accuracy 97.18881764131434


## Prédiction

---
Cela peut être encore amélioré en réglant les hyperparamètres et en regroupant des stocks similaires.
---

In [6]:
# Prediction
TestingDataResults=pd.DataFrame(data=X_test,
columns=Predictors)
TestingDataResults[TargetVariable]=y_test
TestingDataResults[('Predicted'+TargetVariable)]=prediction
TestingDataResults.head()

Unnamed: 0,Hours,Calories,Weight,PredictedWeight
0,6.0,1700.0,75,72.54808
1,2.0,2000.0,85,82.999832
