# Zbuduj model klasyfikacyjny: Pyszne azjatyckie i indyjskie kuchnie


## Wprowadzenie do klasyfikacji: Oczyszczanie, przygotowanie i wizualizacja danych

W tych czterech lekcjach zgłębisz podstawowy aspekt klasycznego uczenia maszynowego - *klasyfikację*. Przeprowadzimy Cię przez różne algorytmy klasyfikacji, korzystając z zestawu danych dotyczących wszystkich wspaniałych kuchni Azji i Indii. Mamy nadzieję, że jesteś głodny!

<p >
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>Świętuj kuchnie panazjatyckie w tych lekcjach! Obraz autorstwa Jen Looper</figcaption>


<!--![Świętuj kuchnie panazjatyckie w tych lekcjach! Obraz autorstwa Jen Looper](../../../../../../translated_images/pinch.b33c0ba76f284aad94a3c4e3ed83e13ed1e17fbcf4db8ca8583c3a0c135e2e99.pl.png)-->

Klasyfikacja to forma [uczenia nadzorowanego](https://wikipedia.org/wiki/Supervised_learning), która ma wiele wspólnego z technikami regresji. W klasyfikacji trenujesz model, aby przewidywał, do jakiej `kategorii` należy dany element. Jeśli uczenie maszynowe polega na przewidywaniu wartości lub nazw rzeczy na podstawie zestawów danych, to klasyfikacja zazwyczaj dzieli się na dwie grupy: *klasyfikacja binarna* i *klasyfikacja wieloklasowa*.

Pamiętaj:

-   **Regresja liniowa** pomagała przewidywać zależności między zmiennymi i dokonywać dokładnych prognoz, gdzie nowy punkt danych znajdzie się w odniesieniu do tej linii. Na przykład mogłeś przewidzieć wartości liczbowe, takie jak *jaka będzie cena dyni we wrześniu w porównaniu do grudnia*.

-   **Regresja logistyczna** pomagała odkrywać "kategorie binarne": przy tej cenie *czy dynia jest pomarańczowa czy nie-pomarańczowa*?

Klasyfikacja wykorzystuje różne algorytmy do określenia innych sposobów przypisywania etykiety lub klasy punktowi danych. Pracujmy z tymi danymi o kuchniach, aby sprawdzić, czy na podstawie grupy składników możemy określić ich pochodzenie kulinarne.

### [**Quiz przed lekcją**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Wprowadzenie**

Klasyfikacja jest jednym z podstawowych działań badacza uczenia maszynowego i analityka danych. Od podstawowej klasyfikacji wartości binarnej ("czy ten e-mail to spam czy nie?"), po złożoną klasyfikację obrazów i segmentację za pomocą wizji komputerowej, zawsze warto umieć sortować dane na klasy i zadawać im pytania.

Mówiąc o procesie w bardziej naukowy sposób, metoda klasyfikacji tworzy model predykcyjny, który pozwala mapować zależności między zmiennymi wejściowymi a zmiennymi wyjściowymi.

<p >
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Problemy binarne vs. wieloklasowe dla algorytmów klasyfikacji. Infografika autorstwa Jen Looper</figcaption>



Zanim rozpoczniemy proces oczyszczania danych, ich wizualizacji i przygotowania do zadań ML, dowiedzmy się trochę o różnych sposobach, w jakie uczenie maszynowe może być wykorzystywane do klasyfikacji danych.

Wywodząca się ze [statystyki](https://wikipedia.org/wiki/Statistical_classification) klasyfikacja w klasycznym uczeniu maszynowym wykorzystuje cechy, takie jak `palacz`, `waga` i `wiek`, aby określić *prawdopodobieństwo rozwoju X choroby*. Jako technika uczenia nadzorowanego, podobna do ćwiczeń regresji, które wykonywałeś wcześniej, Twoje dane są oznaczone etykietami, a algorytmy ML wykorzystują te etykiety do klasyfikacji i przewidywania klas (lub 'cech') zestawu danych oraz przypisywania ich do grupy lub wyniku.

✅ Poświęć chwilę, aby wyobrazić sobie zestaw danych o kuchniach. Na jakie pytania mógłby odpowiedzieć model wieloklasowy? Na jakie pytania mógłby odpowiedzieć model binarny? Co jeśli chciałbyś określić, czy dana kuchnia prawdopodobnie używa kozieradki? A co jeśli chciałbyś sprawdzić, czy mając torbę pełną anyżu gwiazdkowego, karczochów, kalafiora i chrzanu, mógłbyś stworzyć typowe indyjskie danie?

### **Witaj 'klasyfikatorze'**

Pytanie, które chcemy zadać w odniesieniu do tego zestawu danych o kuchniach, jest w rzeczywistości pytaniem **wieloklasowym**, ponieważ mamy do czynienia z kilkoma potencjalnymi kuchniami narodowymi. Mając grupę składników, do której z tych wielu klas będą pasować dane?

Tidymodels oferuje kilka różnych algorytmów do klasyfikacji danych, w zależności od rodzaju problemu, który chcesz rozwiązać. W kolejnych dwóch lekcjach poznasz kilka z tych algorytmów.

#### **Wymagania wstępne**

Do tej lekcji będziemy potrzebować następujących pakietów do oczyszczania, przygotowania i wizualizacji danych:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) to [zbiór pakietów R](https://www.tidyverse.org/packages) zaprojektowany, aby uczynić analizę danych szybszą, łatwiejszą i bardziej przyjemną!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) to [framework](https://www.tidymodels.org/packages/) składający się z pakietów do modelowania i uczenia maszynowego.

-   `DataExplorer`: [Pakiet DataExplorer](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) ma na celu uproszczenie i automatyzację procesu eksploracji danych oraz generowania raportów.

-   `themis`: [Pakiet themis](https://themis.tidymodels.org/) oferuje dodatkowe kroki w przepisach do radzenia sobie z niezrównoważonymi danymi.

Możesz je zainstalować za pomocą:

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

Alternatywnie, poniższy skrypt sprawdza, czy masz wymagane pakiety do ukończenia tego modułu i instaluje je, jeśli ich brakuje.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

Później załadujemy te niesamowite pakiety i udostępnimy je w naszej bieżącej sesji R. (To tylko ilustracja, `pacman::p_load()` już to dla Ciebie zrobił)


## Ćwiczenie - oczyszczanie i równoważenie danych

Pierwszym zadaniem, zanim rozpoczniesz ten projekt, jest oczyszczenie i **zrównoważenie** danych, aby uzyskać lepsze wyniki.

Poznajmy dane! 🕵️


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


Interesujące! Wygląda na to, że pierwsza kolumna to rodzaj kolumny `id`. Dowiedzmy się trochę więcej o danych.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

Z wyników widzimy, że mamy `2448` wierszy, `385` kolumn i `0` brakujących wartości. Mamy również 1 dyskretną kolumnę, *cuisine*.

## Ćwiczenie - poznawanie kuchni

Teraz praca zaczyna robić się bardziej interesująca. Odkryjmy rozkład danych według kuchni.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Istnieje skończona liczba kuchni, ale rozkład danych jest nierównomierny. Możesz to poprawić! Zanim to zrobisz, zbadaj trochę więcej.

Następnie przypisz każdą kuchnię do jej własnego tibble i sprawdź, ile danych jest dostępnych (wiersze, kolumny) dla każdej kuchni.

> [Tibble](https://tibble.tidyverse.org/) to nowoczesna ramka danych.

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>Ilustracja autorstwa @allison_horst</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **Ćwiczenie - Odkrywanie najpopularniejszych składników według kuchni za pomocą dplyr**

Teraz możesz zagłębić się w dane i dowiedzieć się, jakie są typowe składniki dla poszczególnych kuchni. Powinieneś oczyścić dane z powtarzających się informacji, które powodują zamieszanie między kuchniami, więc przyjrzyjmy się temu problemowi.

Utwórz funkcję `create_ingredient()` w R, która zwraca dataframe ze składnikami. Funkcja ta rozpocznie od usunięcia nieprzydatnej kolumny i posortuje składniki według ich liczby.

Podstawowa struktura funkcji w R wygląda następująco:

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

Przystępne wprowadzenie do funkcji w R znajdziesz [tutaj](https://skirmer.github.io/presentations/functions_with_r.html#1).

Przejdźmy od razu do działania! Skorzystamy z [czasowników dplyr](https://dplyr.tidyverse.org/), które poznaliśmy w poprzednich lekcjach. Dla przypomnienia:

-   `dplyr::select()`: pomaga wybrać, które **kolumny** zachować lub wykluczyć.

-   `dplyr::pivot_longer()`: pomaga "wydłużyć" dane, zwiększając liczbę wierszy i zmniejszając liczbę kolumn.

-   `dplyr::group_by()` i `dplyr::summarise()`: pomagają znaleźć statystyki podsumowujące dla różnych grup i umieścić je w przejrzystej tabeli.

-   `dplyr::filter()`: tworzy podzbiór danych zawierający tylko wiersze spełniające Twoje warunki.

-   `dplyr::mutate()`: pomaga tworzyć lub modyfikować kolumny.

Sprawdź ten [*artystyczny* tutorial learnr](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) autorstwa Allison Horst, który wprowadza przydatne funkcje do przekształcania danych w dplyr *(część Tidyverse)*.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Teraz możemy użyć funkcji, aby uzyskać listę dziesięciu najpopularniejszych składników według kuchni. Wypróbujmy ją na `thai_df`.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

W poprzedniej sekcji użyliśmy `geom_col()`, zobaczmy, jak można użyć `geom_bar`, aby tworzyć wykresy słupkowe. Użyj `?geom_bar` do dalszego czytania.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


Co z kuchnią chińską?


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

Na podstawie wizualizacji danych możemy teraz usunąć najczęściej występujące składniki, które powodują zamieszanie między różnymi kuchniami, korzystając z `dplyr::select()`.

Wszyscy uwielbiają ryż, czosnek i imbir!


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## Przetwarzanie danych za pomocą przepisów 👩‍🍳👨‍🍳 - Radzenie sobie z niezrównoważonymi danymi ⚖️

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Ilustracja autorstwa @allison_horst</figcaption>

Ponieważ ta lekcja dotyczy kuchni, musimy umieścić `przepisy` w odpowiednim kontekście.

Tidymodels oferuje kolejny świetny pakiet: `recipes` - pakiet do wstępnego przetwarzania danych.


Spójrzmy jeszcze raz na rozkład naszych kuchni.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

Jak widać, liczba kuchni jest dość nierównomiernie rozłożona. Kuchnie koreańskie są prawie trzy razy liczniejsze niż kuchnie tajskie. Niezrównoważone dane często negatywnie wpływają na wydajność modelu. Pomyśl o klasyfikacji binarnej. Jeśli większość Twoich danych należy do jednej klasy, model uczenia maszynowego będzie częściej przewidywał tę klasę, po prostu dlatego, że ma więcej danych do analizy. Równoważenie danych eliminuje wszelkie nierównomierności i pomaga usunąć tę dysproporcję. Wiele modeli działa najlepiej, gdy liczba obserwacji jest równa, a zatem mają trudności z przetwarzaniem niezrównoważonych danych.

Istnieją dwa główne sposoby radzenia sobie z niezrównoważonymi zbiorami danych:

-   dodawanie obserwacji do klasy mniejszościowej: `Over-sampling`, np. za pomocą algorytmu SMOTE

-   usuwanie obserwacji z klasy większościowej: `Under-sampling`

Teraz pokażemy, jak radzić sobie z niezrównoważonymi zbiorami danych, korzystając z `recipe`. Recipe można traktować jako plan działania, który opisuje, jakie kroki należy zastosować do zbioru danych, aby przygotować go do analizy.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

Rozłóżmy kroki przetwarzania wstępnego.

-   Wywołanie `recipe()` z formułą informuje recepturę o *rolach* zmiennych, używając danych `df_select` jako odniesienia. Na przykład kolumna `cuisine` została przypisana do roli `outcome`, podczas gdy pozostałe kolumny zostały przypisane do roli `predictor`.

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) tworzy *specyfikację* kroku receptury, który syntetycznie generuje nowe przykłady dla klasy mniejszościowej, wykorzystując najbliższych sąsiadów tych przypadków.

Teraz, jeśli chcielibyśmy zobaczyć dane po przetworzeniu wstępnym, musielibyśmy [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) i [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) naszą recepturę.

`prep()`: szacuje wymagane parametry na podstawie zestawu treningowego, które później mogą być zastosowane do innych zestawów danych.

`bake()`: bierze przygotowaną recepturę i stosuje operacje do dowolnego zestawu danych.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

Sprawdźmy teraz dystrybucję naszych kuchni i porównajmy ją z niezrównoważonymi danymi.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

Mniam! Dane są czyste, zrównoważone i bardzo smaczne 😋!

> Zazwyczaj przepis jest używany jako wstępny procesor do modelowania, gdzie definiuje, jakie kroki należy zastosować do zestawu danych, aby przygotować go do modelowania. W takim przypadku zazwyczaj używa się `workflow()` (jak już widzieliśmy w poprzednich lekcjach) zamiast ręcznego szacowania przepisu.
>
> W związku z tym, zazwyczaj nie musisz używać **`prep()`** i **`bake()`** przepisów, gdy korzystasz z tidymodels, ale są to przydatne funkcje, które warto mieć w swoim zestawie narzędzi, aby upewnić się, że przepisy działają zgodnie z oczekiwaniami, jak w naszym przypadku.
>
> Gdy używasz **`bake()`** na przygotowanym przepisie z **`new_data = NULL`**, otrzymujesz dane, które dostarczyłeś podczas definiowania przepisu, ale po przejściu przez kroki wstępnego przetwarzania.

Teraz zapiszmy kopię tych danych do wykorzystania w przyszłych lekcjach:


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

Ten świeży plik CSV można teraz znaleźć w głównym folderze danych.

**🚀Wyzwanie**

Ten program nauczania zawiera kilka interesujących zbiorów danych. Przejrzyj foldery `data` i sprawdź, czy któryś z nich zawiera zbiory danych odpowiednie do klasyfikacji binarnej lub wieloklasowej. Jakie pytania zadałbyś w odniesieniu do tego zbioru danych?

## [**Quiz po wykładzie**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **Przegląd i samodzielna nauka**

-   Sprawdź [pakiet themis](https://github.com/tidymodels/themis). Jakie inne techniki możemy zastosować, aby poradzić sobie z niezrównoważonymi danymi?

-   Strona referencyjna modeli tidy [tutaj](https://www.tidymodels.org/start/).

-   H. Wickham i G. Grolemund, [*R for Data Science: Visualize, Model, Transform, Tidy, and Import Data*](https://r4ds.had.co.nz/).

#### PODZIĘKOWANIA DLA:

[`Allison Horst`](https://twitter.com/allison_horst/) za stworzenie niesamowitych ilustracji, które sprawiają, że R jest bardziej przyjazny i angażujący. Znajdź więcej ilustracji w jej [galerii](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) i [Jen Looper](https://www.twitter.com/jenlooper) za stworzenie oryginalnej wersji tego modułu w Pythonie ♥️

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>Ilustracja autorstwa @allison_horst</figcaption>



---

**Zastrzeżenie**:  
Ten dokument został przetłumaczony za pomocą usługi tłumaczenia AI [Co-op Translator](https://github.com/Azure/co-op-translator). Chociaż dokładamy wszelkich starań, aby tłumaczenie było precyzyjne, prosimy pamiętać, że automatyczne tłumaczenia mogą zawierać błędy lub nieścisłości. Oryginalny dokument w jego rodzimym języku powinien być uznawany za źródło autorytatywne. W przypadku informacji o kluczowym znaczeniu zaleca się skorzystanie z profesjonalnego tłumaczenia przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z użycia tego tłumaczenia.
