# Készíts egy osztályozási modellt: Finom ázsiai és indiai konyhák


## Bevezetés a klasszifikációba: Tisztítsd, készítsd elő és vizualizáld az adataidat

Ebben a négy leckében a klasszikus gépi tanulás egyik alapvető területét, a *klasszifikációt* fogod felfedezni. Különböző klasszifikációs algoritmusokat fogunk alkalmazni egy adatállományon, amely Ázsia és India csodálatos konyháiról szól. Reméljük, éhes vagy!

<p >
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>Ünnepeld a pán-ázsiai konyhákat ezekben a leckékben! Kép: Jen Looper</figcaption>


<!--![Ünnepeld a pán-ázsiai konyhákat ezekben a leckékben! Kép: Jen Looper](../../../../../../4-Classification/1-Introduction/solution/R/images/pinch.png)-->

A klasszifikáció a [felügyelt tanulás](https://wikipedia.org/wiki/Supervised_learning) egyik formája, amely sok hasonlóságot mutat a regressziós technikákkal. A klasszifikáció során egy modellt tanítasz arra, hogy megjósolja, melyik `kategóriába` tartozik egy elem. Ha a gépi tanulás lényege az, hogy adatállományok segítségével értékeket vagy neveket jósoljunk meg, akkor a klasszifikáció általában két csoportba sorolható: *bináris klasszifikáció* és *többosztályos klasszifikáció*.

Emlékezz:

-   **Lineáris regresszió** segített megjósolni a változók közötti kapcsolatokat, és pontos előrejelzéseket készíteni arról, hogy egy új adatpont hol helyezkedik el a vonalhoz viszonyítva. Például meg tudtad jósolni egy numerikus értéket, mint *mennyibe kerül egy tök szeptemberben vs. decemberben*.

-   **Logisztikus regresszió** segített felfedezni "bináris kategóriákat": ezen az áron *narancssárga-e a tök vagy nem narancssárga*?

A klasszifikáció különböző algoritmusokat használ annak meghatározására, hogy egy adatpont milyen címkét vagy osztályt kapjon. Dolgozzunk ezzel a konyhai adatállománnyal, hogy megállapítsuk, egy összetevőcsoport alapján milyen eredetű konyháról van szó.

### [**Előadás előtti kvíz**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Bevezetés**

A klasszifikáció a gépi tanulás kutatójának és adatkutatójának egyik alapvető tevékenysége. Az egyszerű bináris értékek klasszifikációjától ("ez az email spam vagy nem?") a komplex képosztályozásig és szegmentálásig számítógépes látás segítségével, mindig hasznos az adatokat osztályokba rendezni és kérdéseket feltenni róla.

Tudományosabban megfogalmazva, a klasszifikációs módszered egy prediktív modellt hoz létre, amely lehetővé teszi, hogy feltérképezd a bemeneti változók és a kimeneti változók közötti kapcsolatot.

<p >
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Bináris vs. többosztályos problémák, amelyeket a klasszifikációs algoritmusok kezelnek. Infografika: Jen Looper</figcaption>



Mielőtt elkezdenénk az adatok tisztítását, vizualizálását és előkészítését a gépi tanulási feladatainkhoz, tanuljunk egy kicsit arról, hogy a gépi tanulás hogyan használható az adatok osztályozására.

A [statisztikából](https://wikipedia.org/wiki/Statistical_classification) származó klasszifikáció a klasszikus gépi tanulásban olyan jellemzőket használ, mint például `dohányos`, `súly` és `életkor`, hogy meghatározza *X betegség kialakulásának valószínűségét*. A korábban végzett regressziós gyakorlatokhoz hasonló felügyelt tanulási technikaként az adataid címkézettek, és a gépi tanulási algoritmusok ezeket a címkéket használják az adatállomány osztályainak (vagy 'jellemzőinek') osztályozására és csoporthoz vagy eredményhez rendelésére.

✅ Képzeld el egy pillanatra, hogy van egy adatállomány a konyhákról. Mit tudna megválaszolni egy többosztályos modell? Mit tudna megválaszolni egy bináris modell? Mi lenne, ha meg akarnád határozni, hogy egy adott konyha valószínűleg használ-e görögszénát? Mi lenne, ha azt akarnád látni, hogy egy élelmiszeres zacskónyi csillagánizs, articsóka, karfiol és torma alapján tudsz-e készíteni egy tipikus indiai ételt?

### **Helló, 'klasszifikátor'**

Az a kérdés, amit fel akarunk tenni ennek a konyhai adatállománynak, valójában egy **többosztályos kérdés**, mivel több lehetséges nemzeti konyhával dolgozunk. Egy adag összetevő alapján, melyik osztályba illik az adat?

A Tidymodels több különböző algoritmust kínál az adatok osztályozására, attól függően, hogy milyen problémát szeretnél megoldani. A következő két leckében több ilyen algoritmusról fogsz tanulni.

#### **Előfeltétel**

Ehhez a leckéhez a következő csomagokra lesz szükségünk az adatok tisztításához, előkészítéséhez és vizualizálásához:

-   `tidyverse`: A [tidyverse](https://www.tidyverse.org/) egy [R csomaggyűjtemény](https://www.tidyverse.org/packages), amely gyorsabbá, könnyebbé és szórakoztatóbbá teszi az adatkutatást!

-   `tidymodels`: A [tidymodels](https://www.tidymodels.org/) keretrendszer egy [csomaggyűjtemény](https://www.tidymodels.org/packages/) modellezéshez és gépi tanuláshoz.

-   `DataExplorer`: A [DataExplorer csomag](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) célja az EDA folyamat és jelentéskészítés egyszerűsítése és automatizálása.

-   `themis`: A [themis csomag](https://themis.tidymodels.org/) extra receptlépéseket biztosít az egyensúlyhiányos adatok kezeléséhez.

Telepítheted őket az alábbi módon:

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

Alternatívaként az alábbi szkript ellenőrzi, hogy megvannak-e a szükséges csomagok a modul elvégzéséhez, és telepíti őket, ha hiányoznak.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

Később betöltjük ezeket a nagyszerű csomagokat, és elérhetővé tesszük őket a jelenlegi R munkamenetünkben. (Ez csak szemléltetés céljából van, a `pacman::p_load()` ezt már megtette helyetted)


## Gyakorlat - tisztítsd meg és egyensúlyozd ki az adataidat

Az első feladat, mielőtt belekezdenél ebbe a projektbe, az adataid **tisztítása** és **kiegyensúlyozása**, hogy jobb eredményeket érj el.

Ismerjük meg az adatokat! 🕵️


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


Érdekes! Úgy tűnik, az első oszlop egyfajta `id` oszlop. Nézzünk meg egy kicsit több információt az adatról.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

Az eredményből azonnal láthatjuk, hogy `2448` sorunk és `385` oszlopunk van, valamint `0` hiányzó érték. Emellett van 1 diszkrét oszlopunk, *cuisine*.

## Gyakorlat - ismerkedés a konyhákkal

Most kezd igazán érdekessé válni a munka. Fedezzük fel az adatok eloszlását konyhánként.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Van egy véges számú konyha, de az adatok eloszlása egyenetlen. Ezen változtathatsz! Mielőtt nekilátsz, fedezd fel egy kicsit jobban.

Ezután rendeljük hozzá az egyes konyhákat a saját tibble-jükhöz, és derítsük ki, mennyi adat áll rendelkezésre (sorok, oszlopok) konyhánként.

> A [tibble](https://tibble.tidyverse.org/) egy modern adatkeret.

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>Illusztráció: @allison_horst</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **Gyakorlat - Felfedezd a legnépszerűbb hozzávalókat konyhánként a dplyr segítségével**

Most mélyebben belemerülhetsz az adatokba, és megtudhatod, melyek a tipikus hozzávalók konyhánként. Tisztítsd meg az ismétlődő adatokat, amelyek zavart okozhatnak a konyhák között, így megismerheted ezt a problémát.

Hozz létre egy `create_ingredient()` nevű függvényt R-ben, amely egy hozzávaló adatkeretet ad vissza. Ez a függvény egy haszontalan oszlop elhagyásával kezdődik, majd a hozzávalókat azok előfordulási száma alapján rendezi.

Az R-ben egy függvény alapvető szerkezete a következő:

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

Egy átlátható bevezetőt az R függvényekhez [itt](https://skirmer.github.io/presentations/functions_with_r.html#1) találhatsz.

Vágjunk bele! Használni fogjuk a [dplyr igéket](https://dplyr.tidyverse.org/), amelyeket az előző leckékben tanultunk. Összefoglalásként:

-   `dplyr::select()`: segít kiválasztani, hogy mely **oszlopokat** tartsd meg vagy zárj ki.

-   `dplyr::pivot_longer()`: segít "meghosszabbítani" az adatokat, növelve a sorok számát és csökkentve az oszlopok számát.

-   `dplyr::group_by()` és `dplyr::summarise()`: segít megtalálni az összefoglaló statisztikákat különböző csoportok számára, és egy szép táblázatba rendezni őket.

-   `dplyr::filter()`: létrehoz egy adat-alhalmazt, amely csak azokat a sorokat tartalmazza, amelyek megfelelnek a feltételeidnek.

-   `dplyr::mutate()`: segít új oszlopokat létrehozni vagy meglévőket módosítani.

Nézd meg Allison Horst [*művészet*-tel teli learnr oktatóanyagát](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome), amely bemutat néhány hasznos adatkezelési függvényt a dplyr-ben *(a Tidyverse része)*.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Most nézzük meg a funkciót, hogy képet kapjunk a tíz legnépszerűbb hozzávalóról konyhák szerint. Próbáljuk ki a `thai_df` adathalmazzal.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

Az előző részben a `geom_col()`-t használtuk, nézzük meg, hogyan használhatod a `geom_bar`-t is oszlopdiagramok készítéséhez. Használd a `?geom_bar` parancsot további olvasáshoz.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

Csináljuk ugyanezt a japán adatokkal.


In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


Mi a helyzet a kínai konyhával?


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

Végül ábrázolja a koreai hozzávalókat.


In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

A vizualizációk alapján most elhagyhatjuk azokat a leggyakoribb hozzávalókat, amelyek zavart keltenek a különböző konyhák megkülönböztetése során, a `dplyr::select()` használatával.

Mindenki szereti a rizst, a fokhagymát és a gyömbért!


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## Adatok előfeldolgozása receptek segítségével 👩‍🍳👨‍🍳 - Kiegyensúlyozatlan adatok kezelése ⚖️

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Illusztráció: @allison_horst</figcaption>

Mivel ez a lecke a konyhákról szól, a `recepteket` kontextusba kell helyeznünk.

A Tidymodels egy újabb remek csomagot kínál: `recipes` - egy csomag az adatok előfeldolgozásához.


Nézzük meg újra a konyháink eloszlását.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

Amint látható, a konyhák számának eloszlása meglehetősen egyenlőtlen. A koreai konyhák majdnem háromszor annyian vannak, mint a thai konyhák. Az egyensúlyhiányos adatok gyakran negatívan befolyásolják a modell teljesítményét. Gondoljunk csak egy bináris osztályozásra. Ha az adatok többsége egy osztályhoz tartozik, a gépi tanulási modell gyakrabban fogja azt az osztályt előre jelezni, egyszerűen azért, mert több adat áll rendelkezésre róla. Az adatok kiegyensúlyozása segít eltávolítani ezt az egyensúlyhiányt az eltorzult adatokból. Sok modell akkor teljesít a legjobban, ha a megfigyelések száma egyenlő, és ezért nehézségeik vannak az egyensúlyhiányos adatokkal.

Az egyensúlyhiányos adathalmazok kezelésére alapvetően két módszer létezik:

-   megfigyelések hozzáadása a kisebbségi osztályhoz: `Túlmintavételezés`, például SMOTE algoritmus használatával

-   megfigyelések eltávolítása a többségi osztályból: `Alulminta-vételezés`

Most bemutatjuk, hogyan lehet egyensúlyhiányos adathalmazokat kezelni egy `recept` segítségével. A receptet úgy lehet elképzelni, mint egy tervrajzot, amely leírja, milyen lépéseket kell alkalmazni egy adathalmazon ahhoz, hogy készen álljon az adatelemzésre.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

Vizsgáljuk meg az előfeldolgozási lépéseinket.

-   A `recipe()` függvény hívása egy formulával megadja a receptnek a változók *szerepeit*, a `df_select` adatok alapján. Például a `cuisine` oszlopnak az `outcome` szerepet adtuk, míg a többi oszlopnak a `predictor` szerepet.

-   A [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) egy receptlépés *specifikációját* hozza létre, amely szintetikusan generál új példákat a kisebbségi osztályból, ezeknek az eseteknek a legközelebbi szomszédai alapján.

Most, ha meg szeretnénk nézni az előfeldolgozott adatokat, először [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) és [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) függvényeket kell használnunk a receptünkhöz.

`prep()`: becsléseket végez a szükséges paraméterekre egy tanuló adathalmazon, amelyeket később más adathalmazokra is alkalmazhatunk.

`bake()`: egy előkészített receptet vesz, és az abban meghatározott műveleteket alkalmazza bármely adathalmazra.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

Most nézzük meg a konyhák eloszlását, és hasonlítsuk össze azokat a kiegyensúlyozatlan adatokkal.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

Nyam! Az adatok szépek, tiszták, kiegyensúlyozottak, és nagyon finomak 😋!

> Általában egy receptet előfeldolgozóként használnak a modellezéshez, ahol meghatározza, hogy milyen lépéseket kell alkalmazni egy adathalmazon annak érdekében, hogy az készen álljon a modellezésre. Ebben az esetben általában egy `workflow()`-t használnak (ahogy azt már korábbi leckéinkben láttuk) ahelyett, hogy manuálisan becsülnénk meg egy receptet.
>
> Emiatt általában nincs szükség arra, hogy **`prep()`** és **`bake()`** függvényeket használj, amikor a tidymodels-t alkalmazod, de ezek hasznos funkciók lehetnek az eszköztáradban, hogy megerősítsd, hogy a receptek azt csinálják, amit elvársz – mint a mi esetünkben.
>
> Amikor egy előkészített receptet **`bake()`**-elsz **`new_data = NULL`** beállítással, akkor visszakapod azokat az adatokat, amelyeket a recept meghatározásakor megadtál, de már átestek az előfeldolgozási lépéseken.

Most mentsünk el egy másolatot ezekről az adatokról, hogy a későbbi leckékben is használhassuk őket:


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

Ez a friss CSV mostantól a gyökéradatok mappájában található.

**🚀Kihívás**

Ez a tananyag számos érdekes adatállományt tartalmaz. Nézd át a `data` mappákat, és nézd meg, hogy van-e köztük olyan adatállomány, amely alkalmas lehet bináris vagy többosztályos osztályozásra! Milyen kérdéseket tennél fel ezzel az adatállománnyal kapcsolatban?

## [**Előadás utáni kvíz**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **Áttekintés és önálló tanulás**

-   Nézd meg a [themis csomagot](https://github.com/tidymodels/themis). Milyen egyéb technikákat használhatnánk az egyensúlytalan adatok kezelésére?

-   Tidy models [referencia weboldal](https://www.tidymodels.org/start/).

-   H. Wickham és G. Grolemund, [*R for Data Science: Vizualizálás, modellezés, átalakítás, rendezés és adatimportálás*](https://r4ds.had.co.nz/).

#### KÖSZÖNET ILLETI:

[`Allison Horst`](https://twitter.com/allison_horst/) az elképesztő illusztrációkért, amelyek barátságosabbá és vonzóbbá teszik az R-t. További illusztrációkat találhatsz a [galériájában](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) és [Jen Looper](https://www.twitter.com/jenlooper) az eredeti Python verzió elkészítéséért ♥️

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>Illusztráció: @allison_horst</figcaption>



---

**Felelősségkizárás**:  
Ez a dokumentum az [Co-op Translator](https://github.com/Azure/co-op-translator) AI fordítási szolgáltatás segítségével készült. Bár törekszünk a pontosságra, kérjük, vegye figyelembe, hogy az automatikus fordítások hibákat vagy pontatlanságokat tartalmazhatnak. Az eredeti dokumentum az eredeti nyelvén tekintendő hiteles forrásnak. Kritikus információk esetén javasolt a professzionális, emberi fordítás igénybevétele. Nem vállalunk felelősséget a fordítás használatából eredő félreértésekért vagy téves értelmezésekért.
