# **Python et intelligence artificielle**

# *Séance n°7 : Introduction à l'apprentissage automatique avec Python*

Dans cette séance, vous allez vous initier à l'intelligence artificielle et, plus spécifiquement, à l'**apprentissage**. Vous allez apprendre à manipuler des données, à les analyser et à appliquer des **modèles prédictifs**. Ces compétences sont essentielles pour traiter des données complexes dans vos domaines d'études.

---

## Objectifs

- Utiliser les bibliothèques **NumPy** et **Pandas** pour manipuler des données.
- Explorer et visualiser les données avec **Matplotlib**.
- Découvrir les bases de l'**apprentissage supervisé** avec **scikit-learn**.

---

## Introduction

### 1. NumPy et Pandas

Pour manipuler des données en Python, il existe deux bibliothèques essentielles : *NumPy* et *Pandas*. Celles-ci permettent de **stocker, manipuler et transformer** les données avant de les analyser ou de les utiliser dans des modèles d'apprentissage.

#### NumPy

*NumPy* est une bibliothèque de calcul scientifique. Elle permet de manipuler des tableaux multidimensionnels (ou vecteurs) et d'appliquer des opérations mathématiques sur ces structures.

> **Quand utiliser NumPy ?** Vous l'utiliserez chaque fois que vous avez des données numériques (comme des températures, pressions, tensions) sous forme de vecteurs ou de matrices, et que vous voulez faire des opérations comme la moyenne, la somme, ou encore des calculs statistiques.

- **Exemple d'utilisation :**
  Imaginez que vous ayez une série de mesures. Avec NumPy, vous pouvez facilement calculer la **moyenne** de ces mesures, détecter la valeur maximale ou la minimale sans utiliser de boucles trop complexes.

  ```python
  import numpy as np

  # Exemple d'un tableau NumPy de mesures
  mesures = np.array([22.5, 23.0, 22.8, 23.1, 22.9])

  # Calculs statistiques sur le tableau
  moyenne = np.mean(mesures)
  ecart_type = np.std(mesures)

  print(f"Moyenne des mesures : {moyenne}")
  print(f"Écart-type : {ecart_type}")
  ```

#### Pandas

*Pandas* est une bibliothèque permettant de manipuler des données tabulaires. Elle fournit des structures appelées **DataFrames**, qui ressemblent à des tableaux de données. Un *DataFrame* permet une manipulation des données de façon plus flexible que NumPy, car il peut contenir des colonnes de types différents.

> **Quand utiliser Pandas ?** Lorsque vous manipulez des données complexes issues par exemple de capteurs et où chaque ligne représente une mesure et chaque colonne représente une caractéristique différente (par exemple, la température, la pression, l'emplacement du capteur, etc.). Pandas permet alors de filtrer les données, puis regrouper les mesures par type de capteur et alors de calculer des moyennes par catégorie.

- **Exemple d'utilisation :**

  ```python
  import pandas as pd

  # Exemple de DataFrame Pandas pour des capteurs
  df_capteurs = pd.DataFrame({
      'id_capteur': ['C001', 'C002', 'C003', 'C004', 'C005'],
      'type': ['Température', 'Pression', 'Humidité', 'Température', 'Pression'],
      'valeur': [22.5, 1.02, 45.0, 23.1, 1.01],
      'unité': ['°C', 'bar', '%', '°C', 'bar']
  })

  # Afficher les premières lignes
  print(df_capteurs.head())

  # Filtrer les capteurs de température
  capteurs_temperature = df_capteurs[df_capteurs['type'] == 'Température']
  print(capteurs_temperature)

  # Calculer la moyenne des valeurs par type de capteur
  moyenne_par_type = df_capteurs.groupby('type')['valeur'].mean()
  print(moyenne_par_type)
  ```

---

### 2. Visualisation des données avec Matplotlib

Une fois que vous avez manipulé vos données, vous voudrez probablement les visualiser pour en comprendre les relations entre les variables ou encore distinguer les anomalies. *Matplotlib* est une bibliothèque de visualisation 2D qui va permettre ces visualisations.

> **Quand utiliser Matplotlib ?** Vous utiliserez Matplotlib pour tracer des courbes, des histogrammes, ou des nuages de points afin de mieux comprendre vos données et identifier d'éventuelles corrélations.

- **Exemple d'utilisation :**

  ```python
  import matplotlib.pyplot as plt

  # Données de température
  temps = [0, 1, 2, 3, 4, 5]
  temperatures = [22.5, 23.0, 22.8, 23.1, 22.9, 23.2]

  # Tracer l'évolution de la température dans le temps
  plt.plot(temps, temperatures)
  plt.title("Évolution de la température au cours du temps")
  plt.xlabel("Temps (s)")
  plt.ylabel("Température (°C)")
  plt.show()
  ```

  Le graphique généré montre comment la température évolue dans le temps. Vous pourriez l'utiliser pour surveiller le comportement d'un capteur au fil du temps et détecter des anomalies.

---

### 3. Apprentissage supervisé avec *scikit-learn*

L'**apprentissage supervisé** est une méthode d'**apprentissage** dans laquelle un modèle est entraîné sur des **données étiquetées** (c'est-à-dire des données pour lesquelles les résultats sont déjà connus). Une fois entraîné, il peut ensuite faire des **prédictions** sur de nouvelles données.

#### *scikit-learn*

**scikit-learn** est une bibliothèque de référence pour l'implémentation d'algorithmes d'apprentissage en Python. Elle a été initiée par David Cournapeau (Telecom ParisTech) et maintenue par Gaël Varoquaux (ENS, Univ. Paris-Sud). Elle permet d'implémenter rapidement et facilement des modèles de régression, de classification, ainsi que d'autres tâches d'analyse de données.


> **Quand utiliser *scikit-learn* ?** Lorsque vous aurez besoin de créer un **modèle prédictif**. Par exemple, en utilisant une **régression linéaire** afin de prédire la valeur d'une variable en fonction d'une autre.

#### Mise en oeuvre

Quel que soit le modèle d'apprentissage à réaliser, cela passe par quatre étapes principales :

1. **Préparation des données** : Séparer les données en **ensemble d'entraînement** (pour que le modèle apprenne) et **ensemble de test** (pour vérifier la capacité du modèle à généraliser).
2. **Entraînement du modèle** : "Entraîner" le modèle à partir de l'ensemble d'entraînement.
3. **Prédiction** : Utiliser le modèle pour prédire des résultats sur l'ensemble de test.
4. **Évaluation** : Évaluer la performance du modèle avec des métriques comme l'**erreur quadratique moyenne** (RMSE pour *root mean squared error*) et le **coefficient de détermination** ($R^2$).

**Remarque** :

- L'**erreur quadratique moyenne** mesure la différence entre les valeurs réelles et les valeurs prédites. Plus cette valeur tend vers **0**, mieux c'est.
- Le **coefficient de détermination** mesure la *précision* du modèle en indiquant dans quelle mesure les prédictions du modèle sont proches des valeurs réelles. Un $R^2$ qui tend vers **1** indique une bonne précision.

#### Exemple

La **régression linéaire** est une technique qui cherche à établir une relation linéaire entre une **variable dépendante** $y$ et une ou plusieurs **variables indépendantes** $X_{1}, \cdots, X_{n}$.
Dans le cas d'une régression linéaire simple, nous avons une seule variable explicative $X$ et une variable cible $y$. La relation entre ces deux variables peut être exprimée par l'équation d'une droite :
$$y = \theta_1 X + \theta_0$$
où :

- $\theta_1$ est la pente de la droite de régression qui indique de combien la variable cible $y$ change lorsque $X$ augmente d'une unité.
- $\theta_0$  est l'ordonnée à l'origine (ou *intercept*) qui représente la valeur de $y$ lorsque $X = 0$.

Par exemple, si l'on souhaite prédire l'humidité ($y$) dans une salle en fonction de la température ($X$), il suffit de mettre en oeuvre un modèle de régression linéaire simple avec des données passées puis de l'estimer à partir de nouvelles valeurs de température.

Voici les quatres étapes à réaliser dans le cas d'une régression linéaire simple :

1. **Préparation des données**

   La première étape consiste à préparer les données en les divisant en **variables explicatives** (*features*, représentées par `X`) et **variable cible** (*target*, représentée par `y`). Ensuite, on divise les données en ensemble d'entraînement et ensemble de test.

   ```python
   # Importation des bibliothèques nécessaires
   import numpy as np
   from sklearn.model_selection import train_test_split

   # Exemple de données
   X = np.array([[1], [2], [3], [4], [5]])  # Variables explicatives (par exemple, température)
   y = np.array([1.5, 2.0, 2.5, 3.5, 5.0])  # Variable cible (par exemple, humidité)

   # Séparation des données en ensemble d'entraînement (80%) et de test (20%)
   X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

   # Affichage des jeux de données
   print("Ensemble d'entraînement (X_train) :", X_train)
   print("Ensemble de test (X_test) :", X_test)
   ```

   - **`train_test_split`** est une fonction qui permet de diviser les données en un ensemble d'entraînement et un ensemble de test. L'ensemble d'entraînement sert à ajuster le modèle, et l'ensemble de test sert à évaluer ses performances.
2. **Création et entraînement du modèle**

   Ensuite, nous créons un modèle de régression linéaire simple en utilisant *scikit-learn*, puis nous l'entraînons sur les données d'entraînement.

   ```python
   # Importation du modèle de régression linéaire
   from sklearn.linear_model import LinearRegression

   # Création de l'instance du modèle
   modele = LinearRegression()

   # Entraînement du modèle sur les données d'entraînement
   modele.fit(X_train, y_train)

   # Affichage des coefficients du modèle
   print(f"Coefficient (pente) : {modele.coef_}")
   print(f"Ordonnée à l'origine (intercept) : {modele.intercept_}")
   ```
   - **`LinearRegression()`** crée une instance du modèle de régression linéaire.
   - **`fit(X_train, y_train)`** ajuste le modèle sur les données d'entraînement. Le modèle "apprend" à prédire la relation entre `X` et `y`.
3. **Prédiction**

   Une fois le modèle entraîné, on peut l'utiliser pour faire des **prédictions** sur de nouvelles données (ici, l'ensemble de test).

   ```python
   # Utilisation du modèle pour prédire les valeurs sur l'ensemble de test
   predictions = modele.predict(X_test)

   # Affichage des prédictions
   print("Valeurs prédites :", predictions)
   print("Valeurs réelles :", y_test)
   ```

   - **`predict(X_test)`** utilise le modèle entraîné pour prédire les valeurs de `y` à partir des valeurs de `X_test`.
4. **Évaluation du modèle**

   Enfin, il est important de mesurer la **précision** du modèle à l'aide de métriques. Ici, nous mesurons l'erreur quadratique moyenne et le coefficient de détermination.

   ```python
   # Importation des métriques d'évaluation
   from sklearn.metrics import mean_squared_error, r2_score

   # Calcul du RMSE (Erreur Quadratique Moyenne)
   rmse = mean_squared_error(y_test, predictions, squared=False)

   # Calcul du coefficient de détermination (R²)
   r2 = r2_score(y_test, predictions)

   # Affichage des métriques d'évaluation
   print(f"RMSE : {rmse}")
   print(f"R^2 : {r2}")
   ```

   - **`mean_squared_error(y_test, predictions)`** calcule l'erreur quadratique moyenne.
   - **`r2_score(y_test, predictions)`** mesure le coefficient de détermination.

---

## Exercices

### Exercice 1 : Manipulation de données avec NumPy et Pandas

**Objectif :** Apprendre à manipuler des données numériques et tabulaires en utilisant *NumPy* et *Pandas*.

#### Travail demandé

1. **Importation des bibliothèques :**

   - Importez les bibliothèques `numpy` et `pandas` sous les alias respectif `np` et `pd`.

2. **Création d'un tableau NumPy :**

   - Créez un tableau NumPy nommé `temperatures` contenant les valeurs suivantes : `22.5`, `23.0`, `22.8`, `23.1`, `22.9`, `22.8`, `22.7`.

3. **Calculs statistiques avec NumPy :**

   - Calculez et affichez la moyenne, l'écart-type, la valeur maximale et minimale des températures.

4. **Création d'un DataFrame Pandas :**

   - Créez un DataFrame nommé `df_capteurs` avec les colonnes suivantes :
     - `id_capteur` : `['C001', 'C002', 'C003', 'C004', 'C005']`
     - `type` : `['Température', 'Pression', 'Humidité', 'Température', 'Pression']`
     - `valeur` : `[22.5, 1.02, 45.0, 23.1, 1.01]`
     - `unité` : `['°C', 'bar', '%', '°C', 'bar']`

5. **Manipulation du DataFrame :**

   - Affichez les premières lignes du DataFrame.
   - Sélectionnez uniquement les capteurs de température et affichez leurs informations.
   - Calculez la moyenne des valeurs pour chaque type de capteur.

#### Remarques

- Utilisez les fonctions `np.mean()`, `np.std()`, `np.max()`, et `np.min()` pour les calculs avec *NumPy*.
- Avec *Pandas*, utilisez `df.head()`, `df[df['type'] == 'Température']`, et `df.groupby()` pour les manipulations.

#### Solution


In [None]:
# Votre code ici



---

### Exercice 2 : Chargement et analyse de données réelles

**Objectif :** Charger un jeu de données réel depuis un fichier CSV et effectuer une analyse exploratoire des données.

#### Travail demandé

1. **Chargement des données :**

   - Un fichier "`donnees_capteurs.csv`" est fourni dans les ressources. Il contient des mesures de température, pression et humidité sur une période de temps.
   - Chargez le fichier dans un *DataFrame* *Pandas* nommé `df_donnees`.

2. **Exploration des données :**

   - Affichez les informations générales du *DataFrame* (`df.info()`).
   - Affichez les statistiques descriptives des données numériques (`df.describe()`).
   - Vérifiez s'il y a des valeurs manquantes dans le *DataFrame*.

3. **Nettoyage des données :**

   - Si des valeurs manquantes sont présentes, décidez de les supprimer ou de les remplacer (par exemple, par la moyenne).
   - Assurez-vous que toutes les colonnes ont le bon type de données (par exemple, convertir les colonnes de dates en type datetime si nécessaire).

4. **Visualisation des données :**

   - Tracez l'évolution de la température au cours du temps en utilisant *Matplotlib*.
   - Créez un histogramme de la distribution des pressions mesurées.
   - Réalisez un nuage de points (*scatter plot*) entre la température et l'humidité pour observer les corrélations éventuelles.

#### Remarques

- Utilisez `pd.read_csv('donnees_capteurs.csv')` pour charger les données.
- Les fonctions `df.isnull().sum()` et `df.dropna()` peuvent être utiles pour le nettoyage.
- Pour les visualisations, utilisez `plt.plot()`, `plt.hist()`, `plt.scatter()`, et n'oubliez pas d'importer *Matplotlib* avec `import matplotlib.pyplot as plt`.

#### Solution


In [None]:
# Votre code ici




---

### Exercice 3 : Introduction à l'apprentissage automatique avec *scikit-learn*

**Objectif :** Appliquer un algorithme de régression linéaire pour modéliser la relation entre l'humidité et la température.

#### Travail demandé

1. **Préparation des données :**

   - À partir du *DataFrame* `df_donnees` précédemment nettoyé, sélectionnez les colonnes `temperature` et `humidite`.

2. **Division des données :**

   - Séparez les données en un ensemble d'entraînement et un ensemble de test (par exemple, 80% pour l'entraînement, 20% pour le test).
   - Utilisez la fonction `train_test_split` de *scikit-learn*.

3. **Entraînement du modèle :**

   - Importez le modèle de régression linéaire depuis *scikit-learn*.
   - Entraînez le modèle sur l'ensemble d'entraînement.

4. **Évaluation du modèle :**

   - Prédisez les valeurs d'humidité pour l'ensemble de test.
   - Calculez l'erreur quadratique moyenne et le coefficient de détermination $R^2$.
   - Affichez les coefficients du modèle (pente et ordonnée à l'origine).

5. **Visualisation des résultats :**

   - Tracez les données réelles de l'ensemble de test et la ligne de régression obtenue.

#### Remarques

- Importez les modules nécessaires :
  ```python
  from sklearn.model_selection import train_test_split
  from sklearn.linear_model import LinearRegression
  from sklearn.metrics import mean_squared_error, r2_score
  ```
- Assurez-vous de standardiser vos données si nécessaire (par exemple, `X.values.reshape(-1, 1)`).

#### Solution


In [None]:
# Votre code ici




---

## Conclusion

Au cours de cette séance, vous avez :

- Découvert comment utiliser **NumPy** et **Pandas** pour manipuler et analyser des données numériques et tabulaires.
- Appris à charger des jeux de données réels, à les nettoyer et à les explorer.
- Utilisé **Matplotlib** pour visualiser les données et extraire des informations pertinentes.
- Fait vos premiers pas en **apprentissage** en appliquant une régression linéaire pour modéliser la relation entre la température et l'humidité.

Ces compétences sont fondamentales pour traiter les données issues de capteurs et d'instruments, et pour développer des modèles prédictifs dans vos domaines d'études.

---

## Références

- Aurélien Géron. *Hands-On Machine Learning with Scikit-Learn, Keras, and Tensorflow* (3e édition). O'Reilly Media, 2022.
- Christopher M. Bishop. *Pattern Recognition and Machine Learning* (2e édition). Springer-Verlag, 2011.
