<div style="
  padding: 5pt;
  border-style: solid;
  border-width: 1px;
  border-color: gray;
  border-radius: 10px;">

# **Python et intelligence artificielle**

# *Séance n°7 : Apprentissage supervisé et régression*

</div>

Dans cette séance, vous allez vous initier à l'intelligence artificielle et, plus spécifiquement, à l'**apprentissage**. Vous allez apprendre à manipuler des données, à les analyser et à appliquer des **modèles prédictifs**. Ces compétences sont essentielles pour traiter des données complexes dans vos domaines d'études.

## Objectif

- Utiliser les bibliothèques **NumPy** et **Pandas** pour manipuler des données.
- Explorer et visualiser les données avec **Matplotlib**.
- Découvrir les bases de l'**apprentissage supervisé** avec **Scikit-learn**.

---

## Introduction

### 1. *NumPy* et *Pandas*

Pour manipuler des données en Python, il existe deux bibliothèques essentielles : *NumPy* et *Pandas*. Celles-ci permettent de **stocker, manipuler et transformer** les données avant de les analyser ou de les utiliser dans des modèles d'apprentissage.

#### 1.1. NumPy

[*NumPy*](https://numpy.org/doc/stable/index.html) est une bibliothèque de calcul scientifique. Elle permet de manipuler des tableaux multidimensionnels (ou vecteurs) et d'appliquer des opérations mathématiques sur ces structures.

> **Quand utiliser *NumPy* ?** Vous l'utiliserez chaque fois que vous avez des données numériques (comme des températures, pressions, tensions) sous forme de vecteurs ou de matrices, et que vous voulez faire des opérations comme la moyenne, la somme, ou encore des calculs statistiques.

##### Exemple

Imaginez que vous ayez une série de mesures. Avec *NumPy*, vous pouvez facilement calculer la **moyenne** de ces mesures, détecter la valeur maximale ou la minimale sans utiliser de boucles trop complexes.

<div style="
  padding: 5pt;
  border-style: dashed;
  border-width: 1px;
  border-color: gray;">

```python
import numpy as np

# Exemple d'un tableau NumPy de mesures
mesures = np.array([22.5, 23.0, 22.8, 23.1, 22.9, 20.1, 19.8])

# Calculs des moyenne et écart type sur le tableau
moyenne = np.mean(mesures)
ecart_type = np.std(mesures)

print(f"Moyenne des mesures : {moyenne}")
print(f"Écart-type : {ecart_type}")
```

</div>

#### 1.2. Pandas

[*Pandas*](https://pandas.pydata.org/docs/reference/index.html) est une bibliothèque permettant de manipuler des données tabulaires. Elle fournit des structures appelées **DataFrames**, qui ressemblent à des tableaux de données (`DataFrame` est en réalité une classe !). Un *DataFrame* permet une manipulation des données de façon plus flexible que *NumPy* car il peut contenir des colonnes de types différents.

> **Quand utiliser *Pandas* ?** Lorsque vous manipulez des données complexes issues par exemple de capteurs et où chaque ligne représente une mesure et chaque colonne représente une caractéristique différente (par exemple, la température, la pression, l'emplacement du capteur, etc.). *Pandas* permet alors de filtrer les données, puis de regrouper les mesures par type de capteur et alors de calculer des moyennes par catégorie.

##### Exemple

<div style="
  padding: 5pt;
  border-style: dashed;
  border-width: 1px;
  border-color: gray;">

```python
import pandas as pd

# Exemple de DataFrame Pandas pour des capteurs
df_capteurs = pd.DataFrame({
      'id_capteur': ['C001', 'C002', 'C003', 'C004', 'C005'],
      'type': ['Température', 'Pression', 'Humidité', 'Température', 'Pression'],
      'valeur': [22.5, 1.02, 45.0, 23.1, 1.01],
      'unité': ['°C', 'bar', '%', '°C', 'bar']
})

# Afficher les premières lignes du DataFrame
print(df_capteurs.head())

# Filtrer les capteurs de température dans le DataFrame
capteurs_temperature = df_capteurs[df_capteurs['type'] == 'Température']
print(capteurs_temperature)

# Calculer la moyenne des valeurs par type de capteur
moyenne_par_type = df_capteurs.groupby('type')['valeur'].mean()
print(moyenne_par_type)
```

</div>

---

### 2. Visualisation des données avec Matplotlib

Une fois que vous avez manipulé vos données, vous pouvez utiliser *Matplotlib* afin de comprendre les relations entre variables ou encore pour y distinguer des anomalies.

##### Exemple

<div style="
  padding: 5pt;
  border-style: dashed;
  border-width: 1px;
  border-color: gray;">

```python
import matplotlib.pyplot as plt

# Données de température
temps = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
temperatures = [22.5, 23.0, 22.8, 23.1, 22.9, 23.2, 21.4, 22.6, 21.0, 21.5]

# Tracer l'évolution de la température dans le temps
plt.plot(t, temperatures)
plt.title("Évolution de la température au cours du temps")
plt.xlabel("Temps (s)")
plt.ylabel("Température (°C)")
plt.show()
```

</div>

Le graphique généré montre comment la température évolue dans le temps. Vous pourriez l'utiliser pour surveiller le comportement d'un capteur au fil du temps et détecter des anomalies.

---

### 3. Apprentissage supervisé avec *Scikit-learn*

L'**apprentissage supervisé** est une méthode d'**apprentissage** dans laquelle un modèle est entraîné sur des **données étiquetées** (c'est-à-dire des données pour lesquelles les résultats sont déjà connus). Une fois entraîné, il peut ensuite faire des **prédictions** sur de nouvelles données.

#### *Scikit-learn*

**Scikit-learn** est une bibliothèque qui permet de mettre au point des algorithmes d'apprentissage en Python. Elle a été initiée par David Cournapeau (Telecom ParisTech) et est actuellement maintenue par Gaël Varoquaux (ENS, Univ. Paris-Sud). Elle permet d'implémenter rapidement et facilement des modèles de régression, de classification, ainsi que d'autres tâches d'analyse de données.

> **Quand utiliser *Scikit-learn* ?** Lorsque vous aurez besoin de créer un **modèle prédictif** ou de réaliser une **classification**. Par exemple, en utilisant une **régression linéaire** afin de prédire la valeur d'une variable en fonction d'une autre.

#### Mise en oeuvre

Quel que soit le modèle d'apprentissage à mettre en oeuvre, il y a quatre étapes à respecter :

1. **Préparation des données** : Séparer les données en un **ensemble d'entraînement** (pour que le modèle apprenne) et un **ensemble de test** (afin de vérifier la capacité du modèle à généraliser).
2. **Entraînement du modèle** : Entraîner le modèle à partir de l'ensemble d'entraînement.
3. **Prédiction** : Une fois le modèle entraîné, on peut utiliser le modèle pour prédire des résultats sur l'ensemble de test.
4. **Évaluation** : Évaluer la performance du modèle avec des métriques comme l'**erreur quadratique moyenne** (RMSE pour *root mean squared error*) et le **coefficient de détermination** ($R^2$).

**Remarque** :

- L'**erreur quadratique moyenne** mesure la différence entre les valeurs réelles et les valeurs prédites. Plus cette valeur tend vers **0**, mieux c'est.
- Le **coefficient de détermination** mesure la *précision* du modèle en indiquant dans quelle mesure les prédictions du modèle sont proches des valeurs réelles. Un $R^2$ qui tend vers **1** indique une bonne précision.

#### Exemple

On rappelle que la **régression linéaire** est une technique qui cherche à établir une relation linéaire entre une **variable dépendante** $y$ et une ou plusieurs **variables indépendantes** $X_{1}, \cdots, X_{n}$.
Dans le cas d'une régression linéaire simple, nous avons une seule variable explicative $X$ et une variable cible $y$. La relation entre ces deux variables peut être exprimée par l'équation d'une droite :
$$y = \theta_1 X + \theta_0$$

où :

- $\theta_1$ correspond à la pente de la droite de régression qui indique de combien la variable cible $y$ change lorsque $X$ augmente d'une unité.
- $\theta_0$  est l'ordonnée à l'origine (*intercept* en anglais), soit la valeur de $y$ lorsque $X = 0$.

Par exemple, si l'on souhaite prédire l'humidité ($y$) dans une salle en fonction de la température ($X$), il suffit de mettre en oeuvre un modèle de régression linéaire simple avec des données passées puis de l'estimer à partir de nouvelles valeurs de température.

Voici les quatres étapes à réaliser dans le cas d'une régression linéaire simple :

##### 1. Préparation des données

La première étape consiste à préparer les données en les divisant en **variables explicatives** (*features* en anglais, représentées par `X`) et une **variable cible** (*target*, représentée par `y`). Ensuite, on divise les données en un ensemble d'entraînement et un ensemble de test.

<div style="
  padding: 5pt;
  border-style: dashed;
  border-width: 1px;
  border-color: gray;">

```python
# Importation des bibliothèques nécessaires
import numpy as np
from sklearn.model_selection import train_test_split

# Exemple de données
X = np.array([[1], [2], [3], [4], [5]])  # Variables explicatives (par exemple, température)
y = np.array([1.5, 2.0, 2.5, 3.5, 5.0])  # Variable cible (par exemple, humidité)

# Séparation des données en ensembles d'entraînement (80%) et de test (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Affichage des ensembles d'entraînement et de test
print("Ensemble d'entraînement (X_train) :", X_train)
print("Ensemble de test (X_test) :", X_test)
```

</div>

- **`train_test_split`** est une fonction qui permet de diviser les données en un ensemble d'entraînement et un ensemble de test.

##### 2. Création et entraînement du modèle

Ensuite, nous créons un modèle de régression linéaire simple en utilisant *Scikit-learn* qui propose la classe `LinearRegression`, puis nous l'entraînons sur nos données d'entraînement.

<div style="
  padding: 5pt;
  border-style: dashed;
  border-width: 1px;
  border-color: gray;">

```python
# Importation du modèle de régression linéaire
from sklearn.linear_model import LinearRegression

# Création de l'instance du modèle
modele = LinearRegression()

# Entraînement du modèle sur les données d'entraînement
modele.fit(X_train, y_train)

# Affichage des coefficients du modèle
print(f"Coefficient (pente) : {modele.coef_}")
print(f"Ordonnée à l'origine (intercept) : {modele.intercept_}")
```

</div>

- **`LinearRegression()`** crée une instance du modèle de régression linéaire.
- **`fit(X_train, y_train)`** entraîne le modèle sur les données d'entraînement. Le modèle "apprend" à prédire la relation entre `X` et `y`. Nous détaillerons d'ailleurs dans la séance suivante comment le modèle apprend.

##### 3. Prédiction

Une fois le modèle entraîné, on peut l'utiliser pour faire des **prédictions** sur de nouvelles données (ici, l'ensemble de test).

<div style="
  padding: 5pt;
  border-style: dashed;
  border-width: 1px;
  border-color: gray;">

```python
# Utilisation du modèle pour prédire les valeurs sur l'ensemble de test
predictions = modele.predict(X_test)

# Affichage des prédictions
print("Valeurs prédites :", predictions)
print("Valeurs réelles :", y_test)
```

</div>
- **`predict(X_test)`** utilise le modèle entraîné pour prédire les valeurs de `y` à partir des valeurs de `X_test`.

##### Évaluation du modèle

Enfin, il est important de mesurer la **précision** du modèle à l'aide de différents métriques. Ici, nous mesurons l'erreur quadratique moyenne et le coefficient de détermination.

<div style="
  padding: 5pt;
  border-style: dashed;
  border-width: 1px;
  border-color: gray;">

```python
# Importation des métriques d'évaluation
from sklearn.metrics import mean_squared_error, r2_score

# Calcul du MSE (erreur quadratique moyenne)
mse = mean_squared_error(y_test, predictions, squared=False)

# Calcul du coefficient de détermination (R²)
r2 = r2_score(y_test, predictions)

# Affichage des métriques d'évaluation
print(f"MSE : {mse}")
print(f"R^2 : {r2}")
```

</div>

- **`mean_squared_error(y_test, predictions)`** calcule l'erreur quadratique moyenne.
- **`r2_score(y_test, predictions)`** mesure le coefficient de détermination.

---

## Exercices

### Exercice 1 : Manipulation de données avec *NumPy* et *Pandas*

**Objectif :** Apprendre à manipuler des données numériques et tabulaires en utilisant *NumPy* et *Pandas*.

#### Travail demandé

1. **Importation des bibliothèques :**

   - Importez les bibliothèques `numpy` et `pandas` sous les alias respectif `np` et `pd`.

2. **Création d'un tableau *NumPy* :**

   - Créez un tableau *NumPy* nommé `temperatures` contenant les valeurs suivantes : `22.5`, `23.0`, `22.8`, `23.1`, `22.9`, `22.8`, `22.7`.

3. **Calculs avec *NumPy* :**

   - Calculez et affichez la moyenne, l'écart-type, la valeur maximale et minimale des températures.

4. **Création d'un DataFrame *Pandas* :**

   - Créez un DataFrame nommé `df_capteurs` avec les colonnes suivantes :
     - `id_capteur` : `['C001', 'C002', 'C003', 'C004', 'C005']`
     - `type` : `['Température', 'Pression', 'Humidité', 'Température', 'Pression']`
     - `valeur` : `[22.5, 1.02, 45.0, 23.1, 1.01]`
     - `unité` : `['°C', 'bar', '%', '°C', 'bar']`

5. **Manipulation du DataFrame :**

   - Affichez les premières lignes du DataFrame.
   - Sélectionnez uniquement les capteurs de température et affichez leurs informations.
   - Calculez la moyenne des valeurs pour chaque type de capteur.

#### Remarques

- Utilisez les fonctions `np.mean()`, `np.std()`, `np.max()`, et `np.min()` pour les calculs avec *NumPy*.
- Avec *Pandas*, utilisez `df.head()`, `df[df['type'] == 'Température']`, et `df.groupby()` pour les manipulations.

#### Solution


In [None]:
# Votre code ici


---

### Exercice 2 : Chargement et analyse d'un jeu de données météorologiques

Le fichier "`donnees_capteurs.csv`" disponible dans le dossier `ressources` contient les colonnes suivantes :

- heure de la mesure ;
- température en °C ;
- pression en hPa ;
- pourcentage d'humidité.

#### Travail demandé

1. Chargez le fichier dans un *DataFrame* *Pandas* nommé `df_donnees`.
2. **Exploration des données** :

   - Affichez les informations générales du *DataFrame* (`df.info()`).
   - Affichez les statistiques descriptives des données numériques (`df.describe()`).
   - Vérifiez s'il y a des valeurs manquantes dans le *DataFrame* et gérez-les de manière appropriée (en les remplaçant par exemple par la moyenne).

3. **Nettoyage des données** :
   - Convertissez la colonne `heure` qui est une chaîne de caractères en un format conventionnel afin de manipuler plus facilement la dimension temporelle si cela est nécessaire :

     ```python
     df_donnees['heure'] = pd.to_datetime(df_donnees['heure'], format='%H:%M:%S')
     ```

   - Si vous trouvez des valeurs manquantes dans le *DataFrame*, remplacez-les par la moyenne de la colonne correspondante.
4. **Visualisation des données** :

   - Tracez l'évolution de la température au cours du temps en utilisant *Matplotlib*.
   - Créez un histogramme de la distribution des pressions mesurées.
   - Réalisez un nuage de points (*scatter plot*) entre la température et l'humidité afin d'observer les corrélations éventuelles.
5. **Analyse statistique** :

   - Utilisez `df.corr()` pour calculer les coefficients de corrélation entre les différentes variables (température, pression, humidité) et interprétez les résultats.
   - Quels sont les couples de variables les plus corrélés ? Pouvez-vous expliquer pourquoi ?

#### Remarques

- Utilisez `pd.read_csv()` pour charger les données depuis un fichier CSV.
- Les fonctions `df.isnull().sum()` et `df.dropna()` peuvent vous être utiles pour le nettoyage.
- Pour les visualisations, reportez-vous aux exercices de la [séance n°2](https://github.com/alainlebret/python-et-ia-1).

#### Solution


In [None]:
# Votre code ici


---

### Exercice 3 : Introduction à l'apprentissage automatique avec *Scikit-learn*

Maintenant que vous avez exploré et nettoyé vos données, vous allez utiliser des modèles d'apprentissage supervisé pour tenter de prédire une variable en fonction des autres. Vous commencerez par prédire l'humidité en fonction de la température et de la pression.

#### Travail demandé

1. Sélectionnez les colonnes `temperature` et `pression` comme variables explicatives ($X$) et la colonne humidite comme variable cible (`y`).
2. Séparez les données en un ensemble d'entraînement et un ensemble de test (par exemple, 80% pour l'entraînement, 20% pour le test).
3. Utilisez un modèle de régression linéaire afin de modéliser la relation entre l'humidité, la température et la pression et entraînez-le.
4. Affichez les coefficients du modèle (pente pour chaque variable explicative).
5. Évaluez le modèle :
   - Prédisez les valeurs d'humidité pour l'ensemble de test.
   - Évaluez la performance du modèle en calculant l'erreur quadratique moyenne et le coefficient de détermination ($R^2$).
6. Tracez un graphique comparant les valeurs prédites et les valeurs réelles d'humidité.
7. Que pouvez-vous conclure de la qualité des prédictions du modèle ?
8. Quels facteurs pourraient influencer la performance du modèle (qualité des données, manque d’informations, etc.) ?

#### Remarque

Pensez à importez les modules nécessaires :

```python
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
```

#### Solution


In [None]:
# Votre code ici


---

### Exercice 4 : Standardisation du jeu de données météorologiques

Le fichier "`donnees_capteurs.csv`" que vous avez utilisé précédemment contient des variables dont les unités et les échelles de valeurs sont suffisament différentes pour impacter leur analyse (ex. : les pressions sont autour de 1000 hPa et les températures autour de 20 °C). C'est la raison pour laquelle, il est fréquemment nécessaire de **standardiser** les données avant de les analyser. En effet, sans cette standisation les modèles peuvent donner une importance disproportionnée à certaines variables.

#### Standardisation

La standardisation consiste à transformer les données pour qu'elles aient une moyenne de 0 et un écart-type de 1. Cette technique est utilisée lorsque vous voulez centrer les données autour de leur moyenne et réduire leur dispersion pour qu'elles suivent une distribution gaussienne. Elle réalise la transformation suivante :

$$
X_{\text{standardisée}} = \frac{X - \mu}{\sigma}
$$

où :

- $X$ est la valeur de la variable à standardiser ;
- $\mu$ est la moyenne des données ;
- $\sigma$ est l'écart-type.

La standardisation est donc particulièrement utile lorsque les variables ont des unités différentes (par exemple, la pression en hPa et la température en °C), mais aussi si l'algorithme d'apprentissage utilise des distances comme c'est le cas pour la régression linéaire.

Dans cet exercice, nous allons vérifier si la standardisation améliore les résultats de notre modèle
de régression linéaire.

#### Travail demandé

1. Appliquez une standardisation sur les variables explicatives de votre jeu de données à l'aide d'une instance de la classe `StandardScaler` et en appliquant sa méthode `fit_transform()` :

   ```python
   from sklearn.preprocessing import StandardScaler
   
   scaler = StandardScaler()
   X_scaled = scaler.fit_transform(X)
   ```

2. Tracez un graphique comparant la distribution des variables avant et après normalisation pour comprendre l’effet de la transformation.
3. Séparez les données standardisées en un ensemble d'entraînement et un ensemble de test.
4. Entraînez un modèle de régression linéaire sur l'ensemble d'entraînement standardisé.
5. Comparez les performances avec celles obtenues sur le jeu de données non standardisé.

#### Solution


In [None]:
# Votre code ici


### Exercice 5 : Régression linéaire et polynomiale sur un nouveau jeu de données

Utiliser un nouveau jeu de données avec une relation plus complexe (non linéaire), appliquer la standardisation, puis comparer les performances entre une régression linéaire et une régression polynomiale.

Le jeu de données présent dans le fichier "`donnees_capteurs3.csv`" contient les mêmes
colonnes que celles du fichier précédent, mais les données ont une relation plus complexes entre elles. Dans cet exercice, nous allons comparer un modèle de régression linéaire avec un modèle de régression polynomial.

#### Travail demandé

1. Régression linéaire :
   - Séparez les données en ensemble d'entraînement (80 %) et de test (20 %).
   - Entraînez un modèle de régression linéaire avec les données standardisées.
   - Évaluez la performance du modèle à l'aide du MSE et du coefficient de détermination ($R^2$).
2. Régression polynomiale :
   - Utilisez la classe `PolynomialFeatures` de *Scikit-learn* pour ajouter des termes quadratiques dans les données en l'instanciant avec un degré 2 (`PolynomialFeatures(degree=2)`).
   - Entraînez un modèle de régression polynomiale à l'aide de la classe `LinearRegression`.
   - Comparez les performances avec celles de la régression linéaire.

#### Quelques mots sur la classe `PolynomialFeatures`

Lorsque vous utilisez `PolynomialFeatures(degree=2)`, cela a pour effet de créer de nouvelles variables à partir des variables d’entrée $X_1$ (température) et $X_2$ (pression). Notamment les variables :

- $X_1^2$ (température au carré)
- $X_2^2$ (pression au carré)
- $X_1 \cdot X_2$ (terme d'interaction entre température et pression)

Donc, si votre modèle linéaire était initialement de la forme :

$$
y = \theta_0 + \theta_1 X_1 + \theta_2 X_2
$$

Il devient :
$$
y = \theta_0 + \theta_1 X_1 + \theta_2 X_2 + \theta_3 X_1^2 + \theta_4 X_2^2 + \theta_5 X_1 X_2
$$

Cela permet à un modèle linéaire d'ajuster des courbes quadratiques ou d'autres formes complexes, et donc de modéliser des relations non linéaires entre les variables.

#### Solution


In [None]:
# Votre code ici


---

## Conclusion

Au cours de cette séance, vous avez :

- Découvert comment utiliser *NumPy* et *Pandas* afin de manipuler et d'analyser des données numériques et tabulaires.
- Appris à charger des jeux de données réels, à les nettoyer, les standardiser et à les explorer.
- Utilisé *Matplotlib* pour visualiser les données et extraire des informations pertinentes.
- Fait vos premiers pas en **apprentissage automatique** en appliquant une régression linéaire afin de modéliser la relation entre la température et la pression, et l'humidité.

---

## Références

Voici trois ouvrages que vous devriez lire si vous souhaitez vous tourner vers les domaines qui relèvent de l'IA et plus particulièrement de l'apprentissage automatique.

- Aurélien Géron. *Hands-On Machine Learning with Scikit-Learn, Keras, and Tensorflow* (3e édition). O'Reilly Media, 2022.
- Christopher M. Bishop. *Pattern Recognition and Machine Learning* (2e édition). Springer-Verlag, 2011.
- Andriy Burkov. *The Hundred-Page Machine Learning Book*. Auto-édition, 2019.

Pour l'apprentissage profond, je vous conseille le livre suivant :

- François Chollet. *Deep Learning With Python* (2e édition). Manning Publications, 2022.

## Bases de données pour l'apprentissage

- [Kaggle](https://www.kaggle.com)
- [Sigma.ai](https://sigma.ai/open-datasets/)

