## **ML :** Practice

#### _Réference pratique d'un Machine Learning par entrainement supervisé_

🟠 `on work`

---

1. **Preprocessing**
    * Extractions des variables
    * Nettoyage des données
    * Encodage des variables quantitatives
    * Proto-modélisation
    * Supression des valeurs aberrantes
    * Feature Selection 
    * Feature Engineering
    * Feature Scaling
2. **Modeling**
    * Fonction d’évaluation
    * Entrainements multiples modèles
    * Optimisation
    * Analyse des erreurs
    * Courbe d'aprentissage
    * Décision

---

### **1.** Preprocessing

##### **1.1** - Extraction des variables

_Séparer les Features des Labels. Et, pour chaque set de Features et de Labels, isoler les données d'entrainement des données de test._

**Extraction des _Variables explicatives_** – `X`
* `X` : Les _Features_

**Extraction des _Valeurs cibles_** – `y`
* `y` : Le _Label_

`---`

**Création d'un set de _Données d'entrainement_** – `_train` = Serviront à entrainer le modèle de prédiction
* `X_train` : _Features_ d'entrainement 
* `y_train` : _Target_ d'entrainement

**Création d'un set de _Données de Test_** – `_test` = Serviront à tester le modèle entrainé avec des données qu'il ne connait pas
* `X_test` : _Features_ de test
* `y_test` : _Taget_ de test

`---`

**Outils** = Fonctions qui pemettent de _splitter_ des données – spécifique aux _Entrainements supervisés_, donc `classification` et `regression`
* `sklearn.model_selection.train_test_split` : 
    * Arg. 1 : _Features_
    * Arg. 2 : _Label_
    * Arg. 3 : taille en dixièmes des données de tests (généralement 20%)
    * Arg. 4 : code de randomisation à répercuter sur d'autres randomisation si lieues
* `sklearn.model_selection.check_cv` :

`---`

##### **1.2** - Nettoyage des données

_Remplir les valeurs manquantes par des valeurs similaires. S'il y a trop de données manquantes, opter pour une suppression de lignes et/ou de colonnes._

**Traitement des données manquantes** – `NaN`, `""`, `None` = Fournir un set de données sans provoquer d'erreurs techniques
* `pd.DataFrame.drop('ma colonne', axis=1)` : Supprimer une colonne (_Feature_) entière
* `sklearn.impute` : Imputer des valeurs cohérentes

`---`

**Outils** = Fonctions qui permettent de _remplir_ de manière pertinentes des données manquantes
* `pd.DataFrame.fillna` : Remplacer chaque valeur nulle par une moyenne, une médiane, un mode, etc. 
* `sklearn.impute.SimpleImputer` : Technique similaire au `.fillna`
* `sklearn.impute.KNNImputer` : Remplacer chaque valeur nulle en utilisant les _K-plus-proches-voisins_ (_k-Nearest Neighbors_)

`---`

##### **1.3** - Encodage des variables quantitatives

_Attribuer des valeurs numériques que le machine peut comprendre à la place des valeurs textuelles, ou à la place de valeurs qui ne seraient pas intelligible par la machine. S'il y a des catégories redondantes, opter pour une suppression afin d'éviter le phénomène de multicolinéarité – quand 2 _Features_ expliquent la même chose._

**Encodage de valeurs catégorielles** = Fournir des valeurs qui ont un sens numérique
* `pd.DataFrame.drop('ma catégorie', axis=1)` : Supprimer une catégorie pour éviter le phénomène de multicolinéarité
* `sklearn.preprocessing` : Décider d'une attribution de valeur selon un principe logique à chaque catégorie

`---`

**Outils** = Fonctions qui permettent _d'encoder_ des variables catégorielles
* `pandas.get_dummies` :
* `sklearn.preprocessing.OrdinalEncoder` : Créer un ordre catégoriel, une sorte de hiérarchie ordonnée de catégories (catégorie 1, catégorie 2, etc.)
* `sklearn.preprocessing.OneHotEncoder` : Créer autant de colonnes qu’il y a de catégories avec une valeur de présence (`1`) ou d'absence (`0`) dans chaque ligne
* `sklearn.preprocessing.LabelEncoder` : Assigner un entier correspondant à chaque catégorie et qui va de 0 à nbDeCatégorie-1

`---`

##### **1.4** - Proto-modélisation

_Choix et entrainement d'un 1<sup>er</sup> modèle simple à des fins d'observation et d'analyse préliminaire._

**Définition et entrainement** = Établir une première analyse préliminaire sur les prédictions à obtenir
* `model_DT` : Instance d'un modèle d'arbre de _Decision_
* `.fit` : Entrainer le modèle en construisant un arbre décisionnel de classification sur base de sets d'entrainement
* `.predict` : Prédire une classification (ou une régression)
* `.score` : Récupérer la moyenne précise sur les résultats de test

`---`

**Outils** = Modèles spécifiques au type de prédiction à faire 
* `sklearn.tree.DecisionTreeClassifier` : Apprentissage supervisé qui consiste à prédire un classement
* `sklearn.tree.DecisionTreeRegressor` : Apprentissage supervisé qui consiter à prédire une quantité

`---`

##### **1.5** - Suppression des valeurs aberrantes

_Traiter certaines valeurs qui pourraient être néfastes au modèle._

**Outils** = 
* `sklearn.ensemble.IsolationForest` : 
* `sklearn.ensemble.RandomForestRegressor` :

`---`

##### **1.6** - Sélection des `Features` (Features selection)

_Éliminer les variables avec une variance nulle, et les variables redondantes._

**Outils** = 
* `sklearn.feature_selection.VarianceThreshold` :
* `sklearn.feature_selection.SelectKBest` :

`---`

##### **1.7** - Ingénierie des `Features` (Features Engineering)

_Créer (une sorte) de nouvelles Features sur base d'une Feature spécifique qui pourraient changer au cas par cas_

`---`

##### **1.8** - Mise à l'échelle des `Features` (Feature Scaling)

_Standardiser les valeurs. Permettre au modèle d'avoir des Features avec la même magnitude. Beaucoup d'algorithmes sont construits sur des hypothèses, donc la mise à l'échelle facilite le calcul et augmente la robustesse. Ces hypthèses sont souvent violées dans la pratique, mais ça ne signifie pas que les résultats seront mauvais. Tout dépend à quel point ces hypothèses sont violées._

**Outils** = Fonctions qui permettent de _mettre à l'échelle_ et _standardiser_ des valeurs
* `sklearn.preprocessing.StandardScaler` : Standardiser la catégorie avec une moyenne de 0 et un écart type de 1, mettre la variance à l'échelle
    * Xs = (X-u)/s : avec X = valeur d'un sample, s = écart type, u = moyenne
* `sklearn.preprocessing.RobustScaler` : Principe similaire au StandardScaler mais avec la médiane et l'écart inter-quartile [Q1:Q3] qui ne sont pas sensibles aux _Outliers_
* `sklearn.preprocessing.MinMaxScaler` : Standardiser la catégorie avec des valeurs comprises entre un minimum et un maximum, génaralement entre 0 et 1

`---`

---

### **2.** Modeling

##### **2.1** - Fonctions d'évaluations

**Initialisation de la fonctions d'évaluation du score de validation**
* ...

**Outils**
* `sklearn.model_selection.cross_val_score` : Evaluate metric(s) by cross-validation and also record fit/score times
* `sklearn.model_selection.cross_validate` : 
* `sklearn.model_selection.cross_val_predict` : 
* `sklearn.model_selection.validation_curve` : 

**Modèle de cross-validation**
* ...

**Outils**
* `sklearn.model_selection.KFold` : Division du train set en _k_ parties égales, de manière aléatoire. Le nombre de divisions va dépendre de la taille du jeu de données, il faut que le jeu de données de chaque division soit suffisamment grand que pour être statistiquement représentatif du dataset complet
* `sklearn.model_selection.StratifiedKFold` :

##### **2.2** - Entrainement des modèles

**Modèle `KneighborsClassifier`**
* ...

**Modèle `LogisticRegression`**
* ...

**Modèle `RandomForestClassifier`**
* ...

`---`

**Outils** = 
* `sklearn.neighbors.KNeighborsClassifier` :
* `sklearn.linear_model.LogisticRegression` :
* `sklearn.ensemble.RandomForestClassifier` :

`---`

##### **2.3** - Optimisation

**Fixer les Hyper-paramètres** = 
* ..

`---`

**Outils**
* `sklearn.model_selection.GridSearchCV` : Tester un modèle avec plusieurs valeurs pour les hyper-paramètres
* `sklearn.model_selection.RandomizedSearchCV` : Similaire au `GridSearchCV` mais ne teste pas toutes les possibilités

`---`

##### **2.4** - Analyse d'erreurs

##### **2.5** - Courbe d'apprentissage `Learning Curve`

_Observer un éventuel sous-apprentissage (`Over-fitting`) ou sur-apprentissage (`Under-fitting`). Déterminer s'il faut récoler davantages de données afin de parfaire le modèle de prédictions._

**Création d'une courbe d'apprentissage** = 
* `n_abs` : L'abscisse du nombre d'exemple d'entrainement effectués
* `train_score` : Résultat pour chaque set d'entrainement
* `val_score` : Résultat pour chaque set de test

`---`

**Outils** = Fonctions qui permettent d'évaluer la courbe d'apprentissage du modèle
* `sklearn.model_selection.learning_curve` :
    * Arg. 1 : `model_RF`,
    * Arg. 2 : `X_train`, _Features_ d'entrainement
    * Arg. 3 : `y_train`, _Label_ d'entrainement 
    * Arg. 4 : `cv=5`, _cross-validation_
    * Arg. 5 : `train_sizes=np.linspace(0.1, 1, 10)`, 
    * Arg. 6 : `scoring='f1_macro'`, 

`---`