<a href="https://colab.research.google.com/github/pat-ch0/NumPy-intro/blob/main/Crash_Course_MinMaxScaler.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Importer la librairie `numpy` et lui donne l'alias `np`.

In [1]:
import numpy as np

Importer l'outil `MinMaxScaler` qui se trouve dans la librairie `sklearn`, afin que vous puissiez l'utiliser pour mettre à l'échelle les données dans votre projet de Machine Learning.

In [4]:
from sklearn.preprocessing import MinMaxScaler

Cette ligne de code importe un outil spécifique d'une bibliothèque pour les tâches de Machine Learning en Python.

*  `from sklearn.preprocessing` : Cette partie spécifie l'emplacement de l'outil que nous voulons. `sklearn` est une bibliothèque populaire appelée scikit-learn, largement utilisée pour le Machine Learning. Au sein de `sklearn`, il existe un module nommé `preprocessing` qui contient des outils pour préparer les données avant de les fournir à un modèle de Machine Learning.
*  `import MinMaxScaler` : Cette partie importe l'outil spécifique dont nous avons besoin, `MinMaxScaler`, utilisé pour la mise à l'échelle des `caractéristiques`, une étape cruciale dans la préparation des données pour de nombreux algorithmes de Machine Learning.

  *  `La mise à l'échelle des caractéristiques` est le processus de transformation des valeurs numériques des caractéristiques (également appelées colonnes ou variables) de vos données dans une plage spécifique.
  *  `MinMaxScaler` met à l'échelle les caractéristiques dans une plage donnée, généralement entre 0 et 1. Cela permet d'éviter que les caractéristiques ayant des valeurs plus importantes ne dominent le processus d'apprentissage et garantit que toutes les caractéristiques contribuent de manière égale à l'entraînement du modèle.

En utilisant `numpy`, générez un jeu de données aléatoire nommé `data` qui contient 10 observations, chacune avec 2 caractéristiques. Les valeurs des caractéristiques doivent être des nombres entiers entre 0 et 99 (inclus).

In [5]:
data = np.random.randint(0, 100, (10, 2))

In [6]:
data

array([[15, 12],
       [50, 27],
       [72, 17],
       [99, 36],
       [62, 97],
       [92, 95],
       [55, 77],
       [83, 56],
       [42,  5],
       [40,  6]])

In [7]:
scaler_model = MinMaxScaler()

In [8]:
type(scaler_model)

In [9]:
scaler_model.fit(data)

*  `scaler_model` est l'objet que nous avons créé précédemment pour effectuer la mise à l'échelle.
*  `fit` est une méthode (fonction) de l'objet `MinMaxScaler`. C'est l'étape où le scaler calcule les informations nécessaires à la mise à l'échelle.
*  `data`: Ce sont les données d'entrée fournies à la méthode `fit`. Le scaler apprendra les valeurs minimales et maximales à partir de ces données.

Imaginez que vous souhaitiez mettre à l'échelle les notes d'examen pour qu'elles soient comprises entre 0 et 1. Vous auriez d'abord besoin de connaître les notes les plus basses et les plus élevées de la classe.

`scaler_model.fit(data)` est comme l'étape où vous trouvez ces notes les plus basses et les plus élevées. Le `scaler_model` "sait" maintenant comment mettre à l'échelle les données futures en fonction de ces valeurs apprises.

In [10]:
scaler_model.transform(data)

array([[0.        , 0.07608696],
       [0.41666667, 0.23913043],
       [0.67857143, 0.13043478],
       [1.        , 0.33695652],
       [0.55952381, 1.        ],
       [0.91666667, 0.97826087],
       [0.47619048, 0.7826087 ],
       [0.80952381, 0.55434783],
       [0.32142857, 0.        ],
       [0.29761905, 0.01086957]])

Cette ligne prend vos données `data` et les transforme en appliquant la mise à l'échelle que le `scaler_model` a apprise précédemment. Les valeurs de chaque colonne dans `data` seront ajustées pour se situer dans la plage spécifiée lors de la création du `MinMaxScaler` (par défaut, entre 0 et 1).

In [11]:
scaler_model.fit_transform(data)

array([[0.        , 0.07608696],
       [0.41666667, 0.23913043],
       [0.67857143, 0.13043478],
       [1.        , 0.33695652],
       [0.55952381, 1.        ],
       [0.91666667, 0.97826087],
       [0.47619048, 0.7826087 ],
       [0.80952381, 0.55434783],
       [0.32142857, 0.        ],
       [0.29761905, 0.01086957]])

C'est un moyen d'adapter le scaler à vos données et de les transformer en une seule fois, plutôt que de le faire en deux étapes distinctes. C'est plus efficace et couramment utilisé lorsque vous souhaitez mettre à l'échelle vos données immédiatement après que le scaler a appris les informations nécessaires.

In [12]:
import pandas as pd

Nous avons besoin d'un jeu de données plus grand pour notre projet. Comment utiliseriez-vous `numpy` pour créer un tableau appelé `mydata` avec 50 observations et 4 caractéristiques, où chaque caractéristique est un entier aléatoire entre 0 et 100 (inclus) ?

In [13]:
mydata = np.random.randint(0, 101, (50, 4))

In [14]:
mydata

array([[ 75,  51,  30,   0],
       [  9,  99,  96,  37],
       [ 43,  76,   1,  38],
       [ 31,  74,  26,   2],
       [ 21,   2,  53,  49],
       [ 41,  92,  81,   6],
       [ 95,  37,  68,  64],
       [ 28,  61,  51,  20],
       [ 65,  91,  13, 100],
       [ 29,  38,  98,  30],
       [ 94,  26,  23,  89],
       [ 47,  17,  97,  49],
       [ 18,  79,  19,  49],
       [ 67,  94,  45,  73],
       [ 87,  44,  33,  64],
       [ 74,  27,  17,  76],
       [ 80,  18,  60,  15],
       [ 77,   4,  31,  58],
       [ 63,  55,  43,  70],
       [ 18,  38,  57,  78],
       [ 29,  82,  58,  51],
       [ 84, 100,  39,  46],
       [  6,  15,  58,  60],
       [ 83,  89,  76,  54],
       [ 89,  45,  40,  28],
       [ 96,  55,  23,  90],
       [ 27, 100,  90,  63],
       [ 72,  31,  56,  85],
       [ 31,  75,  36,   9],
       [ 60,  67,  54,  32],
       [ 17,  38,  60,  81],
       [ 92,  31,  77,  27],
       [ 29,  24,  10,  62],
       [ 84,   9,  73,  39],
       [ 69,  

In [15]:
df = pd.DataFrame(data=mydata, columns = ['f1', 'f2', 'f3', 'label'])

Cette ligne de code prend les données numériques de mydata et les organise dans un tableau structuré (le DataFrame) avec des colonnes nommées 'f1', 'f2', 'f3' et 'label'.

En d'autres termes, on donne des étiquettes aux différentes "catégories" de données contenues dans mydata.

Imaginez un tableur Excel : `mydata` serait les données brutes dans les cellules, et `df` serait le tableur complet avec des en-têtes de colonnes pour organiser et comprendre les données.

In [16]:
df

Unnamed: 0,f1,f2,f3,label
0,75,51,30,0
1,9,99,96,37
2,43,76,1,38
3,31,74,26,2
4,21,2,53,49
5,41,92,81,6
6,95,37,68,64
7,28,61,51,20
8,65,91,13,100
9,29,38,98,30


In [17]:
X = df[['f1', 'f2', 'f3']]

In [18]:
y = df['label']

In [19]:
from sklearn.model_selection import train_test_split

La fonction `train_test_split` est utilisée pour diviser un jeu de données en deux parties :

1.   **Un ensemble d'entraînement (training set)** : Utilisé pour entraîner le modèle de Machine Learning.
2.   **Un ensemble de test (test set)** : Utilisé pour évaluer les performances du modèle après son entraînement, sur des données qu'il n'a jamais vues auparavant.

Diviser les données est crucial pour éviter l'**overfitting** qui se produit lorsque le modèle apprend trop bien les données d'entraînement et ne parvient pas à généraliser aux nouvelles données. En testant le modèle sur un ensemble de données distinct, on obtient une meilleure estimation de ses performances réelles.

In [21]:
X_train, X_test, y__train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

1.  `X, y` sont les données d'entrée de la fonction.
  *  `X` représente généralement vos **caractéristiques** (les variables d'entrée utilisées pour faire des prédictions).
  *  `y` représente votre **variable cible** ou **étiquettes** (ce que vous essayez de prédire).
2.  `test_size=0.3` spécifie la proportion de données qui doit être allouée à l'ensemble de test. Dans ce cas, 30 % des données seront utilisées pour les tests et les 70 % restants seront utilisés pour l'entraînement.
3.  `random_state=101` garantit que les données sont divisées de la même manière chaque fois que le code est exécuté. Ceci est important pour la reproductibilité, afin d'obtenir des résultats cohérents lors de l'expérimentation avec votre modèle. Si vous ne définissez pas de `random_state`, la division sera différente à chaque fois, ce qui peut rendre difficile la comparaison des performances de votre modèle entre différentes exécutions.

Nous avons divisé nos données en `X_train`, `X_test`, `y_train` et `y_test`. Comment pouvons-nous déterminer le nombre d'observations et de caractéristiques présentes dans l'ensemble d'entraînement `X_train` ?

In [23]:
X_train.shape

(35, 3)

Comment pouvons-nous déterminer le nombre d'observations et de caractéristiques présentes dans l'ensemble de test `X_test` ?

In [24]:
X_test.shape

(15, 3)