# <center> Découverte de Scikit-learn </center>

**Source :**  MASSARON L., MUELLER J.-P., Data science avec Python pour les nuls, First, 2019, p.232-299.
    
## Les classes de Scikit-learn

La classe ancestrale `BaseEstimator` est la mère de toutes les autres. Quatre classes couvrent toutes les possibilités d'apprentissage machine de base :
- Classification
- Régression
- Regroupement en groupes (clusters)
- Transformations
Chaque classe de base définit ses propres méthodes et attributs. 

Interfaces (API) orientées objets de Sklearn : garantissent l'homogénéité des méthodes et attributs entre les différents algorithmes du paquetage. Ils sont au nombre de 4 :
- `estimator`: pour ajuster les paramètres en les apprenants à partir des données grâce à l'algorithme
- `predicator`: pour générer des prédictions à partir des paramètres ajustés
- `transformator`: pour transformer des données en utilisant les paramètres ajustés 
- `model`: pour rendre compte de la qualité d'ajustement ou d'autres points de mesure.

## Sélection d'applications pour la datalogie

L'interface `estimator` règle les problèmes suivants :
- **problèmes de classification :** pour estimer qu'une nouvelle observation appartient ou non à un certain groupe.
- **problèmes de régression :** pour estimer la valeur d'une nouvelle observation.

Dans ce cas précis, il s'agit d'appliquer la méthode `fit(X, y)`, `X` correspondant au tableau bidimensionnel de prédicteurs (donc le jeu d'observation à apprendre) alors que `y` est le résultat, soit un tableau à 1 dimension.

En appliquant la méthode `fit()`, vous mettez en relation l'information dans `X` avec `y`. Une nouvelle donnée ayant les mêmes caractéristiques que `X` permet de déduire `y`correctement. Certains des paramètres sont estimés par la méthode `fit()` en interne. Vous pouvez ainsi distinguer les paramètres qui sont appris des hyperparamètres qui sont définis par vous au moment de créer l'instance de l'apprenant. 

Cette instanciation consiste à associer une classe de Sklearn à une variable Python. En plus des hyperparamètres, vous pouvez stimuler des paramètres de travail, par exemple la normalisation demandée ou la semence des valeurs aléatoires afin d'obtenir les mêmes résultats dans tous les appels travaillant sur les mêmes données d'entrée. 

## Exemple de régression linéaire

Le dataset Boston contient des variables prédicateurs que nous pouvons confronter aux prix des maisons, afin de générer un prédicateur qui va pouvoir estimer une nouvelle maison à partir de ses caractéristiques.

In [2]:
from sklearn.datasets import load_boston

boston = load_boston()
X, y = boston.data, boston.target
print("X:%s y:%s" %(X.shape, y.shape))

X:(506, 13) y:(506,)


Les 2 tableaux ont le même nombre de lignes et `X` comporte 13 caractéristiques. La méthode `shape()` analyse un tableau et renvoie sa dimension.
Le nombre de lignes doit être le même pour `X`et `y`.

In [3]:
# importation de la classe LinearRegression
from sklearn.linear_model import LinearRegression

# instanciation d'une variable + choix du mode de normalisation
hypothesis = LinearRegression(normalize=True)

# ajustement = la variable contient les paramètres appris
hypothesis.fit(X, y)

# affichage des coefficients
print(hypothesis.coef_)

[-1.08011358e-01  4.64204584e-02  2.05586264e-02  2.68673382e+00
 -1.77666112e+01  3.80986521e+00  6.92224640e-04 -1.47556685e+00
  3.06049479e-01 -1.23345939e-02 -9.52747232e-01  9.31168327e-03
 -5.24758378e-01]


If you wish to scale the data, use Pipeline with a StandardScaler in a preprocessing stage. To reproduce the previous behavior:

from sklearn.pipeline import make_pipeline

model = make_pipeline(StandardScaler(with_mean=False), LinearRegression())

If you wish to pass a sample_weight parameter, you need to pass it as a fit parameter to each step of the pipeline as follows:

kwargs = {s[0] + '__sample_weight': sample_weight for s in model.steps}
model.fit(X, y, **kwargs)




Une hypothèse est une façon de décrire un algorithme qui a été entraîné avec des données. L'hypothèse définit une représentation possible de **y** en fonction de **X** que vous testez au niveau de la validité. C'est donc une hypothèse tant en termes scientifiques, qu'en termes d'apprentissage machine.

### Prédicteur :

La classe `predictor` sert à prédire la probabilité d'un certain résultat, en obtenant ce résultat pour les nouvelles observations avec ses méthodes `predict()` et `predict_proba()`.

In [4]:
import numpy as np

new_observation = np.array([1, 0, 1, 0, 0.5, 7, 59,
                           6, 3, 200, 20, 350, 4],
                          dtype=float).reshape(1, -1)

# predict
print(hypothesis.predict(new_observation))

[25.90156732]


In [5]:
# qualité de l'ajustement 
hypothesis.score(X, y)

0.7406426641094094

`score()` renvoie le coefficient de détermination R au carré pour la prédiction. Il s'agit d'une mesure entre 0/1 qui compare le prédicteur à une moyenne simple. Les valeurs hautes indiquent que le prédicteur fonctionne correctement. 

### Classe de transformation :
Applique des transformations à d'autres tableaux de données en s'appuyant sur la phase d'ajustement. Il n'y a pas de méthode `transform` pour la régression linéaire, mais la plupart des autres algorithmes de prétraitement en disposent. 
`MinMaxScaler()` est ainsi capable de transformer les valeurs dans une plage spécifiée par une valeur minimale et une maximale, en apprenant la formule de transformation à partir d'un tableau d'exemple : 

In [6]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler(feature_range=(0, 1))
scaler.fit(X)
# on applique les valeurs min/max apprises sur X
print(scaler.transform(new_observation))

[[0.01116872 0.         0.01979472 0.         0.23662551 0.65893849
  0.57775489 0.44288845 0.08695652 0.02480916 0.78723404 0.88173887
  0.06263797]]


---
<br>

## La technique de hachage
Les fonctions de hachage servent à transformer n'importent quelles données d'entrée en données de sortie ayant des caractéristiques prévisibles. En général, la valeur renvoyée est liée à un intervalle particulier, dont les bornes vont par exemple d'une valeur négative à une valeur positive, ou seulement d'une valeur positive à une autre. Cela revient un peu à **appliquer un standard à vos données** : quelles que soient les valeurs fournies, le produit sera toujours le même.

= fourni une valeur numérique pour une valeur d'entrée, ex : le mot 'chien' renverra toujours la même valeur numérique.
= transforme en nombre.
= on ne peut pas revenir à la valeur de départ à partir de celle d'arrivée. 

### Exemple avec Python et la fonction `hash()`:

In [7]:
hash('Exemple')

7212491160745632632

## Codage un sur N ou one-hot :

Chaîne = 'Python for data science'

1- **Affectation d'un nombre arbitraire à chaque mot**, par exemple Python=0, for=1, data et science 2 et 3.
2- **Initialisation du vecteur en comptant le nombre de mots uniques qui ont été associés à un code dans la 1ère étape.**
3- **Utilisation des codes de l'étape 1 comme index pour insérer des valeurs dans le vecteur, en assignant la valeur 1 dès qu'il y a coïncidence avec un mot de la phrase. 

= valeur numérique de 1 soit [1, 1, 1, 1]

S'il faut convertir la phrase "Python for machine learning", 2 nouveaux mots sont à traiter.

1- **Affectation des nouveaux codes :** machine=4 et learning=5, **ce qui correspond à l'opération de codage**.
2- **Agrandissement du vecteur précédent pour accueillir les nouveaux mots :** [1, 1, 1, 1, 0, 0] 
3- **Calcul du vecteur pour la nouvelle chaîne :** [1, 1, 0, 0, 1, 1]

Ce codage est assez efficace car il produit des vecteurs de caractéristiques bien ordonnés.

In [52]:
from sklearn.feature_extraction.text import *

oh_encoder = CountVectorizer()
oh_encoded = oh_encoder.fit_transform(['Python for data science', 'Python for machine learning'])

print(oh_encoder.vocabulary_)

{'python': 4, 'for': 1, 'data': 0, 'science': 5, 'machine': 3, 'learning': 2}


--- 

<br>

## Matrices creuses et sélection déterministe

Quand la plupart des valeurs de la matrices sont proches de 0, il est intéressant d'utiliser une matrice creuse. 
Une matrice creuse (sparse matrix) stocke pour toutes les cellules de la matrice les coordonnées des cellules et de leurs valeurs et non toute l'information. Lorsque l'application demande des données pour une cellule vide, la matrice renvoie la valeur zéro, après avoir cherché les coordonnées et n'avoir rien trouvé. 


---

<br>

## Calculer le temps d'exécution

- `%timeit`: calcule le meilleur temps d'exécugtion d'une instruction (d'une ligne)
- `%%timeit`: calcule le meilleur temps d'exécution de la séquence d'instructions d'une cellule.

---

<br>

## Statistiques descriptives pour données numériques


In [57]:
# chargement du dataframe iris

from sklearn.datasets import load_iris
import pandas as pd
iris = load_iris()

iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)
iris_df['group'] = pd.Series([iris.target_names[k] for k in iris.target], dtype='category')

### Indicateurs de tendance centrale :
- Moyenne 
- Médiane

= permettent d'avoir une 1ère idée de la **centralisation des données et de leur symétrie**.

In [60]:
# Moyenne
iris_df.mean(numeric_only=True)

sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

In [62]:
# Médiane
iris_df.median(numeric_only=True)

sepal length (cm)    5.80
sepal width (cm)     3.00
petal length (cm)    4.35
petal width (cm)     1.30
dtype: float64

Cette valeur médiane permet de localiser la position de la séparation entre les 2 moitiés de valeurs. La médiane est moins influencée par les cas anormaux ou par une distribution déséquilibrée des valeurs autour de la moyenne. 

## Variance, écart type et étendue

Il s'agit ensuite de mesurer la **variance** ou plutôt sa racine carrée qui correspond à l'**écart type** (standard deviation). L'**écart type** donne autant d'informations que la variance, mais il est plus facile à comparer à la moyenne parce que l'unité de mesure est la même. La **variance** constitue un bon indicateur de l'intérêt d'une moyenne pour connaître la distribution des variables ; en effet, elle informe sur la façon dont les valeurs de la variable sont distribuées autour de la moyenne. Plus la **variance est élevée, plus loin peuvent se trouver certaines valeurs par rapport à la moyenne**.

In [64]:
## écart type
iris_df.std(numeric_only=True)

sepal length (cm)    0.828066
sepal width (cm)     0.435866
petal length (cm)    1.765298
petal width (cm)     0.762238
dtype: float64

On peut ensuite mesurer l'**étendue** (**range**) qui est la différence entre la valeur min/max pour chaque variable quantitative. Elle permet d'en apprendre plus au sujet des différences d'échelle entre les variables. 

In [66]:
print(iris_df.max(numeric_only=True) - iris_df.min(numeric_only=True))

sepal length (cm)    3.6
sepal width (cm)     2.4
petal length (cm)    5.9
petal width (cm)     2.4
dtype: float64


## Utilisation des centiles

La médiane permet de connaître la position centrale de la distribution de valeurs, mais d'autres positions peuvent être intéressantes :
- quartile inférieur (25%)
- quartile supérieur (75%)

= aident à déterminer la distribution. 

In [67]:
print(iris_df.quantile([0,.25,.50,.75,1]))

      sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0.00                4.3               2.0               1.00               0.1
0.25                5.1               2.8               1.60               0.3
0.50                5.8               3.0               4.35               1.3
0.75                6.4               3.3               5.10               1.8
1.00                7.9               4.4               6.90               2.5


La différence entre les quartiles sup/inf correspond à l'**écart interquartile** (IQR). Cette mesure permet d'estimer l'échelle des variables les plus intéressantes. Cet écart aide à connaître les limites plausibles de la distribution. Les valeurs situées sous le quartier inférieur et jusqu'au minimum, et celles situées au-dessus du quartier supérieur sont très rares, mais peuvent impacter négativement les résultats : ce sont das cas aberrants.

## Définitions des paramètres de forme (normalité)

- coefficient d'**asymétrie** (skewness) : elle est exprimée par rapport à la moyenne. Si elle est négative, la branche gauche est trop longue et l'essentiel des observations se situe du côté droit de distribution. Si elle est positive, c'est le contraire.

- **Kurtosis** (ou **acuité**) : elle permet de voir si les pics et creux de la distribution ont la forme approprée. Si la valeur est supérieure à zéro, la distribution est trop plate.

---
<br>

## Covariance et corrélation

La **covariance** permet de savoir si les 2 variables se comportent de la même façon par rapport à leur moyenne. L'association est dite positive lorsque les valeurs isolées des 2 variables sont la plupart au-dessus ou la plupart en dessous de la moyenne correspondante. Les 2 tendent donc à converger et vous pouvez prédire le comportement de l'une par rapport à l'autre. La covariance est dans ce cas une valeur positive et plus elle est importante, plus elle est forte.

En revanche, si une variable est en général au-dessus et l'autre en général au-dessous de la moyenne correspondante, l'association est négative. Même si cela signe une divergence, la situation permet de faire des prédictions. En observant l'état de l'une, vous pouvez deviner l'état probable de l'autre, bien qu'elles soient en sens opposé. La covariance est dans ce cas une valeur négative.

La 3ème possibilité correspond au cas où les 2 variables divergent ou convergent de temps à autres. La covariance va tendre vers 0, ce qui prouve que les variables ne partagent que peu de causes et ont donc des comportements indépendants.

In [68]:
# Calcul d'une matrice de covariance (avec pandas)
iris_df.cov()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
sepal length (cm),0.685694,-0.042434,1.274315,0.516271
sepal width (cm),-0.042434,0.189979,-0.329656,-0.121639
petal length (cm),1.274315,-0.329656,3.116278,1.295609
petal width (cm),0.516271,-0.121639,1.295609,0.581006


La **corrélation** est une estimation de la **covariance** après standardisation des variables. Les valeurs de corrélation sont bornées entre -1 et +1.

In [69]:
# exemple avec pandas
iris_df.corr()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
sepal length (cm),1.0,-0.11757,0.871754,0.817941
sepal width (cm),-0.11757,1.0,-0.42844,-0.366126
petal length (cm),0.871754,-0.42844,1.0,0.962865
petal width (cm),0.817941,-0.366126,0.962865,1.0


Une autre technique intéressante consiste à élever la corrélation au carré. Cela fait perdre le signe de la relation et la nouvelle valeur permet de connaître le pourcentage d'informations partagées entre 2 variables. 

In [70]:
iris_df.corr()**2

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
sepal length (cm),1.0,0.013823,0.759955,0.669028
sepal width (cm),0.013823,1.0,0.183561,0.134048
petal length (cm),0.759955,0.183561,1.0,0.92711
petal width (cm),0.669028,0.134048,0.92711,1.0


---
<br>
# Réduction de dimensionnalité 
 
 La grande quantité de dimensions des datas oblige à chercher des techniques pour filtrer les informations, en ne conservant que celles qui peuvent le mieux aider à résoudre le problème. Ce genre de filtre va réduire les dimensions en supprimant d'abord toutes les informations redondantes.
 
 ## Décomposition en valeurs singulières (Single Value Decomposition ou SVD)
 La SVD reçoit en entrée une matrice pour en produire 3 en sorties. Ces dernières permettent de reconstruire la maîtrise d'entrée en les multipliant entre elles. 
 
` M = U * s * Vh`

- **U**: contient toutes les informations à propos des lignes ou observations ;
- **Vh**: contient toutes les informations concernant les colonnes ou caractéristiques ;
- **s**: contient la description du processus SVD (une sorte de journal)

En construisant les nouvelles matrices, nous séparons les informations concernant les lignes de celles concernant les colonnes (qui étaient liées dans la première matrice). Toutes les informations utiles sont ramenées dans les premières colonnes des nouvelles matrices. 

La matrice résultante **s** permet de savoir comment la compression a été réalisé. La somme de toutes les valeurs dans **s** indique combien d'informations étaient présentes dans la matrice de départ. De plus, chaque valeur dans **s** indique la quantité de donnée qui a été accumulée dans chacune des colonnes respectives de **U** et de **Vh**.

## Pratique de la réduction de dimensions

In [72]:
import numpy as np

# création d'une matrice
A = np.array([[1, 3, 4], [2, 3, 5], [1, 2, 3], [5, 4, 6]])
print(A)

[[1 3 4]
 [2 3 5]
 [1 2 3]
 [5 4 6]]


In [73]:
# création des 3 matrices
U, s, Vh = np.linalg.svd(A, full_matrices=False)
print(np.shape(U), np.shape(s), np.shape(Vh))
print(s)

(4, 3) (3,) (3, 3)
[12.26362747  2.11085464  0.38436189]


La première colonne contient le plus d'informations (environ 83%). La deuxième colonne en contient 14% et la troisième le reste. 

In [77]:
# reconstruction de la matrice de départ
print(np.dot(np.dot(U, np.diag(s)), Vh))

[[1. 3. 4.]
 [2. 3. 5.]
 [1. 2. 3.]
 [5. 4. 6.]]


In [79]:
# réduction de données : exclure la 3ème colonne (celle qui a le moins de poids)
print(np.round(np.dot(np.dot(U[:,:2], np.diag(s[:2])),
                     Vh[:2, :]), 1))

[[1.  2.8 4.1]
 [2.  3.2 4.8]
 [1.  2.  3. ]
 [5.  3.9 6. ]]


In [80]:
# suppression de la deuxième colonne 
print(np.round(np.dot(np.dot(U[:,:1], np.diag(s[:1])),
                     Vh[:1, :]), 1))

# perte de données, compensée sur des centaines de colonnes

[[2.1 2.5 3.7]
 [2.6 3.1 4.6]
 [1.6 1.8 2.8]
 [3.7 4.3 6.5]]


## Analyse de facteurs et PCA

En étudiant toutes les corrélations possibles d'une variable avec les autres du même groupe, vous finissez par aboutir à 2 types de variance :

- **Variance unique** : certaines variances restent uniques à la variable examinée, qui ne peut pas être associée à l'évolution d'aucune autre variable.

- **Variance partagée ou commune**: la variance est partagée au moins en partie avec celle d'autres variables, ce qui confirme une redondance dans les données. Cette redondance signifie que vous pourrez préserver la même information en partant de valeurs légèrement différentes dans d'autres caractéristiques et pour de nombreuses autres observations. 

Il s'agit ensuite de chercher les causes de cette variance partagée. Il existe deux techniques d'analyse :
- **l'analyse de facteurs**
- **l'analyse par composantes principales (PCA : Principal Components Analysis)**

---