# Erstellen Sie ein Klassifikationsmodell: Köstliche asiatische und indische Küchen


## Einführung in die Klassifikation: Daten bereinigen, vorbereiten und visualisieren

In diesen vier Lektionen wirst du einen grundlegenden Schwerpunkt des klassischen maschinellen Lernens erkunden - *Klassifikation*. Wir werden verschiedene Klassifikationsalgorithmen mit einem Datensatz über die großartigen Küchen Asiens und Indiens durchgehen. Hoffentlich hast du Appetit!

<p >
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>Feiere pan-asiatische Küchen in diesen Lektionen! Bild von Jen Looper</figcaption>


<!--![Feiere pan-asiatische Küchen in diesen Lektionen! Bild von Jen Looper](../../../../../../translated_images/pinch.b33c0ba76f284aad94a3c4e3ed83e13ed1e17fbcf4db8ca8583c3a0c135e2e99.de.png)-->

Klassifikation ist eine Form des [überwachten Lernens](https://wikipedia.org/wiki/Supervised_learning), die viele Gemeinsamkeiten mit Regressionstechniken hat. Bei der Klassifikation trainierst du ein Modell, um vorherzusagen, zu welcher `Kategorie` ein Element gehört. Wenn maschinelles Lernen darauf abzielt, Werte oder Namen von Dingen mithilfe von Datensätzen vorherzusagen, fällt die Klassifikation im Allgemeinen in zwei Gruppen: *binäre Klassifikation* und *Mehrklassenklassifikation*.

Denke daran:

-   **Lineare Regression** hat dir geholfen, Beziehungen zwischen Variablen vorherzusagen und genaue Vorhersagen darüber zu treffen, wo ein neuer Datenpunkt in Bezug auf diese Linie liegen würde. So konntest du beispielsweise numerische Werte wie *den Preis eines Kürbisses im September vs. Dezember* vorhersagen.

-   **Logistische Regression** hat dir geholfen, "binäre Kategorien" zu entdecken: Bei diesem Preisniveau, *ist dieser Kürbis orange oder nicht-orange*?

Klassifikation verwendet verschiedene Algorithmen, um andere Möglichkeiten zu finden, das Label oder die Klasse eines Datenpunkts zu bestimmen. Lass uns mit diesen Küchendaten arbeiten, um herauszufinden, ob wir anhand einer Gruppe von Zutaten die Herkunftsküche bestimmen können.

### [**Quiz vor der Lektion**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Einführung**

Klassifikation ist eine der grundlegenden Tätigkeiten eines Forschers im Bereich maschinelles Lernen und eines Datenwissenschaftlers. Von der einfachen Klassifikation eines binären Wertes ("Ist diese E-Mail Spam oder nicht?") bis hin zur komplexen Bildklassifikation und Segmentierung mithilfe von Computer Vision ist es immer nützlich, Daten in Klassen zu sortieren und Fragen dazu zu stellen.

Um den Prozess wissenschaftlicher auszudrücken: Deine Klassifikationsmethode erstellt ein prädiktives Modell, das es dir ermöglicht, die Beziehung zwischen Eingabevariablen und Ausgabevariablen abzubilden.

<p >
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Binäre vs. Mehrklassenprobleme, die Klassifikationsalgorithmen bewältigen können. Infografik von Jen Looper</figcaption>



Bevor wir mit dem Bereinigen unserer Daten, ihrer Visualisierung und Vorbereitung für unsere ML-Aufgaben beginnen, lass uns ein wenig über die verschiedenen Möglichkeiten lernen, wie maschinelles Lernen genutzt werden kann, um Daten zu klassifizieren.

Abgeleitet aus der [Statistik](https://wikipedia.org/wiki/Statistical_classification) verwendet die Klassifikation im klassischen maschinellen Lernen Merkmale wie `Raucher`, `Gewicht` und `Alter`, um die *Wahrscheinlichkeit der Entwicklung von Krankheit X* zu bestimmen. Als eine Technik des überwachten Lernens, ähnlich den Regressionsexperimenten, die du zuvor durchgeführt hast, sind deine Daten beschriftet, und die ML-Algorithmen verwenden diese Beschriftungen, um Klassen (oder 'Merkmale') eines Datensatzes zu klassifizieren und sie einer Gruppe oder einem Ergebnis zuzuordnen.

✅ Nimm dir einen Moment Zeit, um dir einen Datensatz über Küchen vorzustellen. Welche Fragen könnte ein Mehrklassenmodell beantworten? Welche Fragen könnte ein binäres Modell beantworten? Was wäre, wenn du herausfinden möchtest, ob eine bestimmte Küche wahrscheinlich Bockshornklee verwendet? Was wäre, wenn du herausfinden möchtest, ob du mit einer Tüte voller Sternanis, Artischocken, Blumenkohl und Meerrettich ein typisches indisches Gericht zubereiten könntest?

### **Hallo 'Classifier'**

Die Frage, die wir diesem Küchendatensatz stellen möchten, ist tatsächlich eine **Mehrklassenfrage**, da wir mehrere potenzielle nationale Küchen zur Auswahl haben. Angenommen, wir haben eine Gruppe von Zutaten - zu welcher dieser vielen Klassen passt die Daten?

Tidymodels bietet verschiedene Algorithmen, um Daten zu klassifizieren, je nachdem, welche Art von Problem du lösen möchtest. In den nächsten zwei Lektionen wirst du einige dieser Algorithmen kennenlernen.

#### **Voraussetzung**

Für diese Lektion benötigen wir die folgenden Pakete, um unsere Daten zu bereinigen, vorzubereiten und zu visualisieren:

-   `tidyverse`: Das [tidyverse](https://www.tidyverse.org/) ist eine [Sammlung von R-Paketen](https://www.tidyverse.org/packages), die darauf abzielt, Datenwissenschaft schneller, einfacher und unterhaltsamer zu machen!

-   `tidymodels`: Das [tidymodels](https://www.tidymodels.org/) Framework ist eine [Sammlung von Paketen](https://www.tidymodels.org/packages/) für Modellierung und maschinelles Lernen.

-   `DataExplorer`: Das [DataExplorer-Paket](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) soll den EDA-Prozess und die Berichterstellung vereinfachen und automatisieren.

-   `themis`: Das [themis-Paket](https://themis.tidymodels.org/) bietet zusätzliche Rezeptschritte für den Umgang mit unausgewogenen Daten.

Du kannst sie wie folgt installieren:

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

Alternativ überprüft das untenstehende Skript, ob du die Pakete hast, die für die Durchführung dieses Moduls erforderlich sind, und installiert sie für dich, falls sie fehlen.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

Wir werden später diese großartigen Pakete laden und in unserer aktuellen R-Sitzung verfügbar machen. (Dies dient nur zur Veranschaulichung, `pacman::p_load()` hat das bereits für Sie erledigt)


## Übung – Daten bereinigen und ausbalancieren

Die erste Aufgabe, bevor Sie mit diesem Projekt beginnen, besteht darin, Ihre Daten zu bereinigen und **auszubalancieren**, um bessere Ergebnisse zu erzielen.

Lernen wir die Daten kennen! 🕵️


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


Interessant! Vom Aussehen her ist die erste Spalte eine Art `id`-Spalte. Lassen Sie uns ein wenig mehr Informationen über die Daten erhalten.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

Aus der Ausgabe können wir sofort erkennen, dass wir `2448` Zeilen und `385` Spalten sowie `0` fehlende Werte haben. Außerdem haben wir eine diskrete Spalte, *cuisine*.

## Übung - mehr über Küchen lernen

Jetzt wird die Arbeit interessanter. Lassen Sie uns die Verteilung der Daten pro Küche entdecken.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Es gibt eine begrenzte Anzahl von Küchen, aber die Verteilung der Daten ist ungleichmäßig. Du kannst das ändern! Bevor du das tust, erkunde die Daten ein wenig mehr.

Als Nächstes ordnen wir jede Küche in ihre eigene Tibble und finden heraus, wie viele Daten (Zeilen, Spalten) pro Küche verfügbar sind.

> Ein [tibble](https://tibble.tidyverse.org/) ist ein modernes Daten-Frame.

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>Kunstwerk von @allison_horst</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **Übung - Entdecken der wichtigsten Zutaten nach Küche mit dplyr**

Jetzt kannst du tiefer in die Daten eintauchen und herausfinden, welche typischen Zutaten zu den verschiedenen Küchen gehören. Du solltest wiederkehrende Daten bereinigen, die Verwirrung zwischen den Küchen stiften, also lass uns mehr über dieses Problem lernen.

Erstelle eine Funktion `create_ingredient()` in R, die ein Zutaten-Datenframe zurückgibt. Diese Funktion beginnt damit, eine wenig hilfreiche Spalte zu entfernen und die Zutaten nach ihrer Häufigkeit zu sortieren.

Die grundlegende Struktur einer Funktion in R ist:

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

Eine übersichtliche Einführung in R-Funktionen findest du [hier](https://skirmer.github.io/presentations/functions_with_r.html#1).

Legen wir direkt los! Wir werden [dplyr-Verben](https://dplyr.tidyverse.org/) verwenden, die wir in unseren vorherigen Lektionen gelernt haben. Zur Erinnerung:

-   `dplyr::select()`: hilft dir, **Spalten** auszuwählen, die du behalten oder ausschließen möchtest.

-   `dplyr::pivot_longer()`: hilft dir, Daten zu "verlängern", indem die Anzahl der Zeilen erhöht und die Anzahl der Spalten verringert wird.

-   `dplyr::group_by()` und `dplyr::summarise()`: helfen dir, zusammenfassende Statistiken für verschiedene Gruppen zu finden und sie in einer übersichtlichen Tabelle darzustellen.

-   `dplyr::filter()`: erstellt eine Teilmenge der Daten, die nur Zeilen enthält, die deine Bedingungen erfüllen.

-   `dplyr::mutate()`: hilft dir, Spalten zu erstellen oder zu ändern.

Schau dir dieses [*kunstvolle* Learnr-Tutorial](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) von Allison Horst an, das einige nützliche Datenbearbeitungsfunktionen in dplyr *(Teil des Tidyverse)* vorstellt.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Jetzt können wir die Funktion nutzen, um eine Vorstellung von den zehn beliebtesten Zutaten nach Küche zu bekommen. Probieren wir es mit `thai_df` aus.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

Im vorherigen Abschnitt haben wir `geom_col()` verwendet, lassen Sie uns sehen, wie Sie auch `geom_bar` verwenden können, um Balkendiagramme zu erstellen. Verwenden Sie `?geom_bar` für weitere Informationen.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

Lass uns dasselbe für die japanischen Daten tun


In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


Was ist mit der chinesischen Küche?


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

Schließlich die koreanischen Zutaten plotten.


In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

Aus den Datenvisualisierungen können wir nun die häufigsten Zutaten entfernen, die Verwirrung zwischen verschiedenen Küchenstilen stiften, indem wir `dplyr::select()` verwenden.

Jeder liebt Reis, Knoblauch und Ingwer!


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## Datenvorverarbeitung mit Recipes 👩‍🍳👨‍🍳 - Umgang mit unausgeglichenen Daten ⚖️

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Illustration von @allison_horst</figcaption>

Da es in dieser Lektion um Küchen geht, müssen wir `recipes` in den richtigen Kontext setzen.

Tidymodels bietet ein weiteres praktisches Paket: `recipes` - ein Paket zur Datenvorverarbeitung.


Werfen wir erneut einen Blick auf die Verteilung unserer Küchen.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

Wie Sie sehen können, gibt es eine ziemlich ungleiche Verteilung in der Anzahl der Küchen. Koreanische Küchen sind fast dreimal so häufig wie thailändische Küchen. Unausgewogene Daten haben oft negative Auswirkungen auf die Modellleistung. Denken Sie an eine binäre Klassifikation. Wenn der Großteil Ihrer Daten zu einer Klasse gehört, wird ein ML-Modell diese Klasse häufiger vorhersagen, einfach weil es dafür mehr Daten gibt. Das Ausbalancieren der Daten gleicht jede Schieflage aus und hilft, dieses Ungleichgewicht zu beseitigen. Viele Modelle erzielen die besten Ergebnisse, wenn die Anzahl der Beobachtungen gleich ist, und haben daher oft Schwierigkeiten mit unausgewogenen Daten.

Es gibt im Wesentlichen zwei Ansätze, um mit unausgewogenen Datensätzen umzugehen:

-   Hinzufügen von Beobachtungen zur Minderheitsklasse: `Over-sampling`, z. B. mit einem SMOTE-Algorithmus

-   Entfernen von Beobachtungen aus der Mehrheitsklasse: `Under-sampling`

Lassen Sie uns nun demonstrieren, wie man mit unausgewogenen Datensätzen mithilfe eines `Rezepts` umgeht. Ein Rezept kann als eine Art Blaupause betrachtet werden, die beschreibt, welche Schritte auf einen Datensatz angewendet werden sollten, um ihn für die Datenanalyse vorzubereiten.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

Lassen Sie uns unsere Vorverarbeitungsschritte aufschlüsseln.

-   Der Aufruf von `recipe()` mit einer Formel teilt dem Rezept die *Rollen* der Variablen unter Verwendung der `df_select`-Daten als Referenz mit. Zum Beispiel wurde der `cuisine`-Spalte die Rolle `outcome` zugewiesen, während die restlichen Spalten die Rolle `predictor` erhalten haben.

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) erstellt eine *Spezifikation* eines Rezeptschritts, der synthetisch neue Beispiele der Minderheitsklasse generiert, indem die nächsten Nachbarn dieser Fälle verwendet werden.

Wenn wir nun die vorverarbeiteten Daten sehen möchten, müssten wir unser Rezept [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) und [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) anwenden.

`prep()`: schätzt die erforderlichen Parameter aus einem Trainingsdatensatz, die später auf andere Datensätze angewendet werden können.

`bake()`: nimmt ein vorbereitetes Rezept und wendet die Operationen auf einen beliebigen Datensatz an.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

Lassen Sie uns nun die Verteilung unserer Küchen überprüfen und sie mit den unausgewogenen Daten vergleichen.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

Yum! Die Daten sind schön sauber, ausgewogen und sehr lecker 😋!

> Normalerweise wird ein Rezept als Vorverarbeitungswerkzeug für das Modellieren verwendet, wobei es definiert, welche Schritte auf einen Datensatz angewendet werden müssen, um ihn für das Modellieren vorzubereiten. In diesem Fall wird typischerweise ein `workflow()` verwendet (wie wir bereits in unseren vorherigen Lektionen gesehen haben), anstatt ein Rezept manuell zu schätzen.
>
> Daher ist es normalerweise nicht notwendig, **`prep()`** und **`bake()`** zu verwenden, wenn man mit tidymodels arbeitet. Dennoch sind es hilfreiche Funktionen, die man in seinem Werkzeugkasten haben sollte, um sicherzustellen, dass Rezepte das tun, was man erwartet – so wie in unserem Fall.
>
> Wenn du ein vorbereitetes Rezept mit **`new_data = NULL`** **`bake()`**, erhältst du die Daten zurück, die du beim Definieren des Rezepts bereitgestellt hast, jedoch mit den angewendeten Vorverarbeitungsschritten.

Speichern wir nun eine Kopie dieser Daten, um sie in zukünftigen Lektionen zu verwenden:


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

Diese neue CSV-Datei befindet sich jetzt im Hauptdatenordner.

**🚀Herausforderung**

Dieses Curriculum enthält mehrere interessante Datensätze. Durchsuche die `data`-Ordner und prüfe, ob sie Datensätze enthalten, die sich für binäre oder Multi-Klassen-Klassifikationen eignen. Welche Fragen würdest du zu diesem Datensatz stellen?

## [**Quiz nach der Vorlesung**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **Überblick & Selbststudium**

-   Schau dir [das Paket themis](https://github.com/tidymodels/themis) an. Welche anderen Techniken könnten wir verwenden, um mit unausgeglichenen Daten umzugehen?

-   Tidy Models [Referenz-Website](https://www.tidymodels.org/start/).

-   H. Wickham und G. Grolemund, [*R for Data Science: Visualize, Model, Transform, Tidy, and Import Data*](https://r4ds.had.co.nz/).

#### EIN GROSSES DANKESCHÖN AN:

[`Allison Horst`](https://twitter.com/allison_horst/) für die Erstellung der großartigen Illustrationen, die R einladender und ansprechender machen. Weitere Illustrationen findest du in ihrer [Galerie](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) und [Jen Looper](https://www.twitter.com/jenlooper) für die Erstellung der ursprünglichen Python-Version dieses Moduls ♥️

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>Kunstwerk von @allison_horst</figcaption>



---

**Haftungsausschluss**:  
Dieses Dokument wurde mithilfe des KI-Übersetzungsdienstes [Co-op Translator](https://github.com/Azure/co-op-translator) übersetzt. Obwohl wir uns um Genauigkeit bemühen, weisen wir darauf hin, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner ursprünglichen Sprache sollte als maßgebliche Quelle betrachtet werden. Für kritische Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die aus der Nutzung dieser Übersetzung entstehen.
