# Construire un modèle de classification : Délicieuses cuisines asiatiques et indiennes


## Introduction à la classification : Nettoyer, préparer et visualiser vos données

Dans ces quatre leçons, vous explorerez un aspect fondamental de l'apprentissage automatique classique : *la classification*. Nous allons parcourir l'utilisation de divers algorithmes de classification avec un jeu de données sur toutes les cuisines brillantes d'Asie et d'Inde. Préparez-vous à avoir l'eau à la bouche !

<p>
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>Célébrez les cuisines pan-asiatiques dans ces leçons ! Image par Jen Looper</figcaption>

La classification est une forme d'[apprentissage supervisé](https://wikipedia.org/wiki/Supervised_learning) qui partage de nombreux points communs avec les techniques de régression. En classification, vous entraînez un modèle à prédire à quelle `catégorie` appartient un élément. Si l'apprentissage automatique consiste à prédire des valeurs ou des noms en utilisant des jeux de données, alors la classification se divise généralement en deux groupes : *classification binaire* et *classification multiclasses*.

Rappelons-nous :

-   **La régression linéaire** vous a aidé à prédire les relations entre des variables et à faire des prédictions précises sur la position d'un nouveau point de données par rapport à cette ligne. Par exemple, vous pouviez prédire des valeurs numériques comme *quel serait le prix d'une citrouille en septembre par rapport à décembre*.

-   **La régression logistique** vous a permis de découvrir des "catégories binaires" : à ce prix, *cette citrouille est-elle orange ou non-orange* ?

La classification utilise divers algorithmes pour déterminer d'autres façons d'attribuer une étiquette ou une classe à un point de données. Travaillons avec ces données culinaires pour voir si, en observant un groupe d'ingrédients, nous pouvons déterminer son origine culinaire.

### [**Quiz avant la leçon**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Introduction**

La classification est l'une des activités fondamentales du chercheur en apprentissage automatique et du data scientist. Qu'il s'agisse de classer de manière basique une valeur binaire ("cet email est-il un spam ou non ?") ou de réaliser une classification et une segmentation complexes d'images à l'aide de la vision par ordinateur, il est toujours utile de pouvoir trier des données en classes et de leur poser des questions.

Pour formuler le processus de manière plus scientifique, votre méthode de classification crée un modèle prédictif qui vous permet de cartographier la relation entre les variables d'entrée et les variables de sortie.

<p>
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Problèmes binaires vs multiclasses pour les algorithmes de classification. Infographie par Jen Looper</figcaption>

Avant de commencer le processus de nettoyage de nos données, de leur visualisation et de leur préparation pour nos tâches d'apprentissage automatique, apprenons un peu plus sur les différentes façons dont l'apprentissage automatique peut être utilisé pour classer des données.

Dérivée des [statistiques](https://wikipedia.org/wiki/Statistical_classification), la classification utilisant l'apprentissage automatique classique utilise des caractéristiques, telles que `fumeur`, `poids` et `âge`, pour déterminer *la probabilité de développer une maladie X*. En tant que technique d'apprentissage supervisé similaire aux exercices de régression que vous avez effectués précédemment, vos données sont étiquetées et les algorithmes d'apprentissage automatique utilisent ces étiquettes pour classer et prédire des classes (ou 'caractéristiques') d'un jeu de données et les attribuer à un groupe ou un résultat.

✅ Prenez un moment pour imaginer un jeu de données sur les cuisines. Qu'est-ce qu'un modèle multiclasses pourrait répondre ? Qu'est-ce qu'un modèle binaire pourrait répondre ? Et si vous vouliez déterminer si une cuisine donnée était susceptible d'utiliser du fenugrec ? Et si vous vouliez voir si, avec un sac de courses contenant de l'anis étoilé, des artichauts, du chou-fleur et du raifort, vous pouviez créer un plat typique indien ?

### **Bonjour 'classificateur'**

La question que nous voulons poser à ce jeu de données culinaires est en fait une question **multiclasses**, car nous avons plusieurs cuisines nationales potentielles à examiner. Étant donné un lot d'ingrédients, à laquelle de ces nombreuses classes les données appartiendront-elles ?

Tidymodels propose plusieurs algorithmes différents pour classer les données, en fonction du type de problème que vous souhaitez résoudre. Dans les deux prochaines leçons, vous apprendrez à utiliser plusieurs de ces algorithmes.

#### **Prérequis**

Pour cette leçon, nous aurons besoin des packages suivants pour nettoyer, préparer et visualiser nos données :

-   `tidyverse` : Le [tidyverse](https://www.tidyverse.org/) est une [collection de packages R](https://www.tidyverse.org/packages) conçue pour rendre la science des données plus rapide, plus facile et plus amusante !

-   `tidymodels` : Le [framework tidymodels](https://www.tidymodels.org/) est une [collection de packages](https://www.tidymodels.org/packages/) pour la modélisation et l'apprentissage automatique.

-   `DataExplorer` : Le [package DataExplorer](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) est conçu pour simplifier et automatiser le processus d'exploration des données (EDA) et la génération de rapports.

-   `themis` : Le [package themis](https://themis.tidymodels.org/) fournit des étapes supplémentaires pour traiter les données déséquilibrées.

Vous pouvez les installer avec :

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

Alternativement, le script ci-dessous vérifie si vous avez les packages nécessaires pour compléter ce module et les installe pour vous s'ils manquent.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

Nous chargerons plus tard ces packages géniaux et les rendrons disponibles dans notre session R actuelle. (Ceci est juste pour illustration, `pacman::p_load()` l'a déjà fait pour vous)


## Exercice - nettoyer et équilibrer vos données

La première tâche à accomplir, avant de commencer ce projet, est de nettoyer et **équilibrer** vos données pour obtenir de meilleurs résultats.

Faisons connaissance avec les données ! 🕵️


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


Intéressant ! À première vue, la première colonne semble être une sorte de colonne `id`. Obtenons un peu plus d'informations sur les données.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

D'après les résultats, nous constatons immédiatement que nous avons `2448` lignes et `385` colonnes, et `0` valeurs manquantes. Nous avons également 1 colonne discrète, *cuisine*.

## Exercice - découvrir les cuisines

C'est maintenant que le travail devient plus intéressant. Découvrons la répartition des données, par type de cuisine.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Il existe un nombre fini de cuisines, mais la répartition des données est inégale. Vous pouvez corriger cela ! Avant de le faire, explorez un peu plus.

Ensuite, attribuons chaque cuisine à son propre tibble et découvrons combien de données sont disponibles (lignes, colonnes) par cuisine.

> Un [tibble](https://tibble.tidyverse.org/) est une version moderne d'un data frame.

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>Illustration par @allison_horst</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **Exercice - Découvrir les principaux ingrédients par cuisine avec dplyr**

Vous pouvez maintenant explorer les données plus en profondeur et découvrir quels sont les ingrédients typiques par cuisine. Il est important d'éliminer les données récurrentes qui créent de la confusion entre les cuisines, alors apprenons à résoudre ce problème.

Créez une fonction `create_ingredient()` en R qui retourne un dataframe d'ingrédients. Cette fonction commencera par supprimer une colonne inutile et triera les ingrédients en fonction de leur fréquence.

La structure de base d'une fonction en R est la suivante :

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

Une introduction claire aux fonctions en R est disponible [ici](https://skirmer.github.io/presentations/functions_with_r.html#1).

Allons-y ! Nous allons utiliser les [verbes dplyr](https://dplyr.tidyverse.org/) que nous avons appris dans nos leçons précédentes. Pour rappel :

-   `dplyr::select()`: vous aide à choisir quelles **colonnes** conserver ou exclure.

-   `dplyr::pivot_longer()`: vous permet de "réorganiser" les données, en augmentant le nombre de lignes et en réduisant le nombre de colonnes.

-   `dplyr::group_by()` et `dplyr::summarise()`: vous aident à calculer des statistiques récapitulatives pour différents groupes et à les présenter dans un tableau clair.

-   `dplyr::filter()`: crée un sous-ensemble des données ne contenant que les lignes qui satisfont vos conditions.

-   `dplyr::mutate()`: vous aide à créer ou modifier des colonnes.

Découvrez ce [tutoriel *artistique* learnr](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) par Allison Horst, qui introduit certaines fonctions utiles de manipulation de données dans dplyr *(partie du Tidyverse)*.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Nous pouvons maintenant utiliser la fonction pour avoir une idée des dix ingrédients les plus populaires par cuisine. Testons-la avec `thai_df`.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

Dans la section précédente, nous avons utilisé `geom_col()`, voyons maintenant comment utiliser également `geom_bar` pour créer des diagrammes en barres. Utilisez `?geom_bar` pour en savoir plus.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


Qu'en est-il des cuisines chinoises ?


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

Enfin, tracez les ingrédients coréens.


In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

À partir des visualisations de données, nous pouvons maintenant éliminer les ingrédients les plus courants qui créent de la confusion entre les cuisines distinctes, en utilisant `dplyr::select()`.

Tout le monde adore le riz, l'ail et le gingembre !


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## Prétraitement des données avec des recettes 👩‍🍳👨‍🍳 - Gérer des données déséquilibrées ⚖️

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Illustration par @allison_horst</figcaption>

Étant donné que cette leçon porte sur les cuisines, nous devons mettre les `recettes` dans leur contexte.

Tidymodels propose un autre package pratique : `recipes` - un package pour le prétraitement des données.


Jetons un coup d'œil à la répartition de nos cuisines à nouveau.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

Comme vous pouvez le constater, il existe une répartition assez inégale dans le nombre de cuisines. Les cuisines coréennes sont presque trois fois plus nombreuses que les cuisines thaïlandaises. Les données déséquilibrées ont souvent des effets négatifs sur les performances du modèle. Prenons l'exemple d'une classification binaire. Si la majorité de vos données appartient à une seule classe, un modèle d'apprentissage automatique va prédire cette classe plus fréquemment, simplement parce qu'il dispose de plus de données pour celle-ci. Équilibrer les données permet de corriger tout déséquilibre et d'éliminer cette disparité. De nombreux modèles fonctionnent mieux lorsque le nombre d'observations est égal et, par conséquent, ont tendance à rencontrer des difficultés avec des données déséquilibrées.

Il existe principalement deux façons de traiter les ensembles de données déséquilibrés :

-   ajouter des observations à la classe minoritaire : `Sur-échantillonnage`, par exemple en utilisant un algorithme SMOTE

-   supprimer des observations de la classe majoritaire : `Sous-échantillonnage`

Voyons maintenant comment traiter les ensembles de données déséquilibrés en utilisant une `recette`. Une recette peut être considérée comme un plan qui décrit les étapes à appliquer à un ensemble de données afin de le préparer à l'analyse.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

Décomposons nos étapes de prétraitement.

-   L'appel à `recipe()` avec une formule indique à la recette les *rôles* des variables en utilisant les données de `df_select` comme référence. Par exemple, la colonne `cuisine` a été assignée au rôle de `outcome`, tandis que les autres colonnes ont été assignées au rôle de `predictor`.

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) crée une *spécification* d'une étape de recette qui génère de manière synthétique de nouveaux exemples de la classe minoritaire en utilisant les plus proches voisins de ces cas.

Maintenant, si nous souhaitons voir les données prétraitées, nous devons [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) et [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) notre recette.

`prep()`: estime les paramètres nécessaires à partir d'un ensemble d'entraînement qui peuvent ensuite être appliqués à d'autres ensembles de données.

`bake()`: applique une recette préparée à tout ensemble de données.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

Vérifions maintenant la répartition de nos cuisines et comparons-les avec les données déséquilibrées.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

Miam ! Les données sont propres, équilibrées et très appétissantes 😋 !

> Normalement, une recette est généralement utilisée comme préprocesseur pour la modélisation, où elle définit les étapes à appliquer à un ensemble de données afin de le préparer pour la modélisation. Dans ce cas, un `workflow()` est typiquement utilisé (comme nous l'avons déjà vu dans nos leçons précédentes) au lieu d'estimer manuellement une recette.
>
> Ainsi, vous n'avez généralement pas besoin d'utiliser **`prep()`** et **`bake()`** pour les recettes lorsque vous utilisez tidymodels, mais ce sont des fonctions utiles à avoir dans votre boîte à outils pour vérifier que les recettes font ce que vous attendez, comme dans notre cas.
>
> Lorsque vous utilisez **`bake()`** sur une recette préparée avec **`new_data = NULL`**, vous obtenez les données que vous avez fournies lors de la définition de la recette, mais ayant subi les étapes de prétraitement.

Sauvegardons maintenant une copie de ces données pour les utiliser dans les prochaines leçons :


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

Ce nouveau fichier CSV se trouve maintenant dans le dossier racine des données.

**🚀Défi**

Ce programme contient plusieurs ensembles de données intéressants. Explorez les dossiers `data` et voyez si certains contiennent des ensembles de données adaptés à une classification binaire ou multi-classes. Quelles questions poseriez-vous à propos de cet ensemble de données ?

## [**Quiz après le cours**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **Révision & Étude personnelle**

-   Consultez [le package themis](https://github.com/tidymodels/themis). Quelles autres techniques pourrions-nous utiliser pour gérer des données déséquilibrées ?

-   Site de référence des modèles Tidy [site web de référence](https://www.tidymodels.org/start/).

-   H. Wickham et G. Grolemund, [*R for Data Science: Visualize, Model, Transform, Tidy, and Import Data*](https://r4ds.had.co.nz/).

#### REMERCIEMENTS À :

[`Allison Horst`](https://twitter.com/allison_horst/) pour avoir créé les illustrations incroyables qui rendent R plus accueillant et engageant. Retrouvez plus d'illustrations dans sa [galerie](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) et [Jen Looper](https://www.twitter.com/jenlooper) pour avoir créé la version originale en Python de ce module ♥️

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>Illustration par @allison_horst</figcaption>



---

**Avertissement** :  
Ce document a été traduit à l'aide du service de traduction automatique [Co-op Translator](https://github.com/Azure/co-op-translator). Bien que nous nous efforcions d'assurer l'exactitude, veuillez noter que les traductions automatisées peuvent contenir des erreurs ou des inexactitudes. Le document original dans sa langue d'origine doit être considéré comme la source faisant autorité. Pour des informations critiques, il est recommandé de faire appel à une traduction humaine professionnelle. Nous déclinons toute responsabilité en cas de malentendus ou d'interprétations erronées résultant de l'utilisation de cette traduction.
