# <center>Scikit-Learn</center>

# Introduction

# Sommaire

1. [Bibliothèque](#Bibliothèque)
2. [Structures de données](#Structure-de-données)
3. [Validation des données](#Validation-des-données)
4. [Prétraîtement](#Prétraîtement)
    1. [Encodage](#Encodage)
    2. [Mise à l'échelle](#Mise-à-l'échelle)
        1. [Normalisation](#Normalisation)
        2. [Standardisation](#Standardisation)
5. [Choix des caractéristiques](#Choix-des-caractéristiques)
6. [Fractionnement des données](#Fractionnement-des-données)
7. [Différents modèles](#Différents-modèles)
    1. [Régression](#Régression)
        1. [Linéaire logistique](#Linéaire-logistique)
        2. [Linéaire multiple](#Linéaire-multiple)
        3. [Polynomiale](#Polynomiale)
8. [Entraînement](#Entraînement)
9. [Prédiction](#Prédiction)
10. [Évaluation](#Évaluation)

# Bibliothèque

Importation de la bibliothèque complète :

In [1]:
import sklearn as skl

Importation des modules utilisés dans ce jupyter :

In [2]:
from sklearn import datasets

# Structure de données

Scikit-Learn permet de travailler avec différents types de données provenant d'autres librairies, comme pandas, scipy ou encore numpy.

Pour plus de détails concernant celles-ci, référez-vous aux notebooks correspondants ; dans le cadre de ce notebook, nous utiliserons le module ```datasets``` de Scikit-Learn afin de charger des données.

Les données retournées sont dans un format propre à Scikit-Learn, le type Bunch, qui contient les données séparées en features et en target(grâce au ```return_X_y=True```), que l'on charge sous forme de structure de données issues de pandas (grâce au ```as_frame=True```).

In [3]:
features, target = skl.datasets.load_diabetes(return_X_y=True, as_frame=True)

On récupère alors les données dans un format propre à ```pandas``` (ici en DataFrame pour les features et en Serie pour la target).

In [4]:
type(features)

pandas.core.frame.DataFrame

In [5]:
type(target)

pandas.core.series.Series

La plupart des valeurs retournées par les fonctions des modules de Scikit-Learn sont des ```array-like``` et peuvent donc être considérées comme des structures de données issues de ```numpy```. Il faut donc analyser à chaque  fois le type des valeurs retournées avec la fonction ```type``` ; ce travail sera laissé à la discrétion des lecteurs mais les choix syntaxiques seront détaillés.

# Validation des données

La première étape est de vérifier que toutes les données du dataset sont valides, c'est-à-dire qu'il ne manque pas de valeurs. Cela peut-être étudié dans un premier temps à l'aide de la fonctio ```info()``` de la bibliothèque pandas.

In [6]:
features.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 442 entries, 0 to 441
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   age     442 non-null    float64
 1   sex     442 non-null    float64
 2   bmi     442 non-null    float64
 3   bp      442 non-null    float64
 4   s1      442 non-null    float64
 5   s2      442 non-null    float64
 6   s3      442 non-null    float64
 7   s4      442 non-null    float64
 8   s5      442 non-null    float64
 9   s6      442 non-null    float64
dtypes: float64(10)
memory usage: 34.7 KB


La gestion de ces valeurs est à effectuer avec les fonctions de la bibliothèque ```pandas```, notamment ```fillna()``` pour remplacer les valeurs manquantes et ```dropna()``` pour ignorer les lignes correspondantes (pour plus de détails référez-vous au notebook associé).

## Encodage

Afin de pouvoir construire un modèle mathématique, il est nécessaire de travailler avec des valeurs numériques. On peut alors utiliser le module ```preprocessing``` et plus particulièrement la classe ```LabelEncoder``` afin de transformer numériquement ces valeurs. Cela peut aussi être appliqué à des valeurs numériques catégorielles afin d'indexer ces valeurs.

In [7]:
from sklearn.preprocessing import LabelEncoder

On peut alors construire une fonction de transformation à l'aide de cette classe et l'appliquer à notre jeu de données en partie ou en entier à l'aide de la fonction ```fit_transform```. Afin de garder en mémoire ce changement, il est possible d'assigner le résultat de la fonction aux valeurs étudiées.

In [8]:
le = LabelEncoder()
features.sex = le.fit_transform(features.sex)

On remarque alors que les valeurs de la colonne ```sex``` ont été transformées en valeurs entières à la place de valeurs décimales. Comme nous avons modifié seulement une colonne et non le dataframe en entier, son type n'a pas changé :

In [9]:
type(features)

pandas.core.frame.DataFrame

## Mise à l'échelle

Les datasets sont en général composés de différentes valeurs, parfois exprimées dans différentes unités et souvent de différents ordres de grandeur. Afin de pouvoir minimiser rapidement une fonction de coût et donc de trouver un modèle prédictif optimal, il est parfois nécessaire de prétraîter les caractéristiques du dataset, en normalisant les données puis en les standardisant.

Ces étapes ne sont pas indispensables pour tous les types de modèles mais sont nécessaires pour nombre d'entre eux. Ci-dessous vous pourrez trouver une liste non exhaustive d'algorithmes pour lesquels il faudra procéder à la mise à l'échelle des caractéristiques :
* Régression Logistique
* Régression Statistique (polynomiale, multiple…)
* Machine à vecteurs de support (SVM)
* Méthode des k plus proches voisins (KNN)
* K-moyennes (clustering…)
* Analyse en composantes principales (PCA)

### Normalisation

Cette étape permet de ramener les caractéristiques dans un intervalle fixe [0, 1]. Cela permet de réduire l'espace de variance des valeurs d'une caractéristique et par conséquent réduire l'effet des cas particuliers.

On réutilise alors le module ```preprocessing``` et plus particulièrement la classe ```MinMaxScaler``` afin de créer un convertisseur qui va permettre de transformer les valeurs suivant la formule suivante :
$$
X_{normalisé} = \frac{X-X_{min}}{X_{max}-X_{min}}
$$

In [10]:
from sklearn.preprocessing import MinMaxScaler

minMaxScaler = MinMaxScaler()
features[:] = minMaxScaler.fit_transform(features[:])
features

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6
0,0.666667,1.0,0.582645,0.549296,0.294118,0.256972,0.207792,0.282087,0.562217,0.439394
1,0.483333,0.0,0.148760,0.352113,0.421569,0.306773,0.623377,0.141044,0.222443,0.166667
2,0.883333,1.0,0.516529,0.436620,0.289216,0.258964,0.246753,0.282087,0.496584,0.409091
3,0.083333,0.0,0.301653,0.309859,0.495098,0.447211,0.233766,0.423131,0.572936,0.469697
4,0.516667,0.0,0.206612,0.549296,0.465686,0.417331,0.389610,0.282087,0.362369,0.333333
...,...,...,...,...,...,...,...,...,...,...
437,0.683333,1.0,0.421488,0.704225,0.431373,0.359562,0.259740,0.282087,0.605670,0.530303
438,0.466667,1.0,0.285124,0.183099,0.627451,0.619522,0.259740,0.423131,0.415790,0.666667
439,0.683333,1.0,0.285124,0.530516,0.318627,0.323705,0.272727,0.249647,0.305040,0.560606
440,0.283333,0.0,0.495868,0.464789,0.509804,0.416335,0.259740,0.393512,0.657020,0.409091


Toutes les valeurs des différentes colonnes du dataframe ont bien été normalisées et y ont été assignées. Afin de garder une structure de données issues de ```pandas```, lors de la transformation, les colonnes du dataframe ont été renseignées avec ```features[:]```. Si ce n'est pas la structure attendue, un simple ```features = minMaxScaler.fit_transform(features)``` retournera un ```numpy.ndarray```.

### Standardisation

Cette étape est particulièrement intéressante quand les caractéristiques suivent une distribution gaussienne, mais peut aussi s'avérer utile quand cela n'est pas le cas (les différents cas peuvent être étudiés à l'aide d'un simple ```plot```).

La standardisation permet de replacer la moyenne des valeurs à l'origine et deplacer les valeurs à une unité de l'origine (si l'écart-type est de 1). Cette transformation est implémentée dans le module ```preprocessing``` par la classe ```StandardScaler``` et suit la formule suivante :
$$
X_{standardisé}=\frac{X-\mu}{\sigma}
$$
avec 
* $\mu$ : la moyenne des observations de cette caractéristique
* $\sigma$ : l'écart-type des observations de cette caractéristique

In [11]:
from sklearn.preprocessing import StandardScaler

standardScaler = StandardScaler()
features[:] = standardScaler.fit_transform(features[:])
features

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6
0,0.800500,1.065488,1.297088,0.459840,-0.929746,-0.732065,-0.912451,-0.054499,0.418551,-0.370989
1,-0.039567,-0.938537,-1.082180,-0.553511,-0.177624,-0.402886,1.564414,-0.830301,-1.436551,-1.938479
2,1.793307,1.065488,0.934533,-0.119218,-0.958674,-0.718897,-0.680245,-0.054499,0.060207,-0.545154
3,-1.872441,-0.938537,-0.243771,-0.770658,0.256292,0.525397,-0.757647,0.721302,0.477072,-0.196823
4,0.113172,-0.938537,-0.764944,0.459840,0.082726,0.327890,0.171178,-0.054499,-0.672582,-0.980568
...,...,...,...,...,...,...,...,...,...,...
437,0.876870,1.065488,0.413360,1.256044,-0.119769,-0.053957,-0.602843,-0.054499,0.655795,0.151508
438,-0.115937,1.065488,-0.334410,-1.422098,1.037341,1.664355,-0.602843,0.721302,-0.380915,0.935254
439,0.876870,1.065488,-0.334410,0.363330,-0.785107,-0.290965,-0.525441,-0.232934,-0.985585,0.325674
440,-0.956004,-0.938537,0.821235,0.025547,0.343075,0.321306,-0.602843,0.558384,0.936155,-0.545154


Toutes les valeurs des différentes colonnes du dataframe ont bien été standardisées et y ont été assignées. Afin de garder une structure de données issues de ```pandas```, lors de la transformation, les colonnes du dataframe ont été renseignées avec ```features[:]```. Si ce n'est pas la structure attendue, un simple ```features = standardScaler.fit_transform(features)``` retournera un ```numpy.ndarray```.

# Choix des caractéristiques

Pour réaliser un modèle prédictif, il faut sélectionner les caractéristiques qui influencent le plus les résultats et qui permettront ainsi de pouvoir prédire de futures valeurs. Cette étape peut être réalisée avec les fonction ```corrwith()``` de pandas et ```corrcoef()``` de numpy.

In [25]:
import numpy as np

print(features.corrwith(target))
np.corrcoef(features, y=target, rowvar=False)[-1]

age    0.187889
sex    0.043062
bmi    0.586450
bp     0.441484
s1     0.212022
s2     0.174054
s3    -0.394789
s4     0.430453
s5     0.565883
s6     0.382483
dtype: float64


array([ 0.18788875,  0.043062  ,  0.58645013,  0.44148385,  0.21202248,
        0.17405359, -0.39478925,  0.43045288,  0.56588343,  0.38248348,
        1.        ])

Ces deux syntaxes permettent de donner les coefficients de corrélation entre les caractéristiques et la cible, mais différent de part l'utilisation de différentes bibliothèques : ```corrwith()``` s'applique au dataframe des caractéristiques et selon le paramètre qu'est la cible ; ```coorcoef```permet de donner la matrice de corrélation entre les features, il faut donc indiquer ```y=target``` afin d'intégrer cette colonne au calcul et on récupère les coefficients entre ces valeurs et les caractéristiques en prenant la dernière valeur du tableau avec ```[-1]```.

# Fractionnement des données

# Différents modèles

## Régression

### Linéaire logistique

### Linéaire multiple

### Polynomiale

## Entraînement

## Prédiction

## Évaluation

# Sources

* https://scikit-learn.org/stable/user_guide.html
* https://pandas.pydata.org/docs/user_guide/index.html
* https://mrmint.fr/data-preprocessing-feature-scaling-python