## Introducere în clasificare: Curăță, pregătește și vizualizează datele tale

În aceste patru lecții, vei explora un aspect fundamental al învățării automate clasice - *clasificarea*. Vom parcurge utilizarea diferitelor algoritmi de clasificare cu un set de date despre toate bucătăriile geniale din Asia și India. Sperăm că ți-e foame!

<p >
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>Celebrăm bucătăriile pan-asiatice în aceste lecții! Imagine de Jen Looper</figcaption>


<!--![Celebrăm bucătăriile pan-asiatice în aceste lecții! Imagine de Jen Looper](../../../../../../4-Classification/1-Introduction/solution/R/images/pinch.png)-->

Clasificarea este o formă de [învățare supravegheată](https://wikipedia.org/wiki/Supervised_learning) care are multe în comun cu tehnicile de regresie. În clasificare, antrenezi un model pentru a prezice în ce `categorie` se încadrează un element. Dacă învățarea automată se referă la prezicerea valorilor sau denumirilor pentru lucruri folosind seturi de date, atunci clasificarea se împarte, în general, în două grupuri: *clasificare binară* și *clasificare multiclasă*.

Amintește-ți:

-   **Regresia liniară** te-a ajutat să prezici relațiile dintre variabile și să faci predicții precise despre unde ar putea să se încadreze un nou punct de date în raport cu acea linie. De exemplu, ai putea prezice valori numerice precum *ce preț ar avea un dovleac în septembrie vs. decembrie*.

-   **Regresia logistică** te-a ajutat să descoperi "categorii binare": la acest punct de preț, *este acest dovleac portocaliu sau nu-portocaliu*?

Clasificarea folosește diferiți algoritmi pentru a determina alte moduri de a stabili eticheta sau clasa unui punct de date. Hai să lucrăm cu aceste date despre bucătării pentru a vedea dacă, observând un grup de ingrediente, putem determina originea bucătăriei.

### [**Chestionar înainte de lecție**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Introducere**

Clasificarea este una dintre activitățile fundamentale ale cercetătorului în învățare automată și ale specialistului în date. De la clasificarea de bază a unei valori binare ("este acest email spam sau nu?"), până la clasificarea și segmentarea complexă a imaginilor folosind viziunea computerizată, este întotdeauna util să poți sorta datele în clase și să pui întrebări despre ele.

Pentru a exprima procesul într-un mod mai științific, metoda ta de clasificare creează un model predictiv care îți permite să mapezi relația dintre variabilele de intrare și variabilele de ieșire.

<p >
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Probleme binare vs. multiclasă pentru algoritmii de clasificare. Infografic de Jen Looper</figcaption>



Înainte de a începe procesul de curățare a datelor, vizualizarea lor și pregătirea pentru sarcinile de învățare automată, să învățăm puțin despre diferitele moduri în care învățarea automată poate fi utilizată pentru a clasifica datele.

Derivată din [statistică](https://wikipedia.org/wiki/Statistical_classification), clasificarea folosind învățarea automată clasică utilizează caracteristici precum `fumător`, `greutate` și `vârstă` pentru a determina *probabilitatea de a dezvolta boala X*. Ca o tehnică de învățare supravegheată similară cu exercițiile de regresie pe care le-ai realizat anterior, datele tale sunt etichetate, iar algoritmii de învățare automată folosesc aceste etichete pentru a clasifica și prezice clasele (sau 'caracteristicile') unui set de date și pentru a le atribui unui grup sau rezultat.

✅ Ia un moment să îți imaginezi un set de date despre bucătării. Ce ar putea răspunde un model multiclasă? Ce ar putea răspunde un model binar? Ce-ar fi dacă ai vrea să determini dacă o anumită bucătărie este probabil să folosească schinduf? Ce-ar fi dacă ai vrea să vezi dacă, având un cadou constând într-o pungă de cumpărături plină cu anason stelat, anghinare, conopidă și hrean, ai putea crea un fel de mâncare tipic indian?

### **Salut 'clasificator'**

Întrebarea pe care vrem să o adresăm acestui set de date despre bucătării este, de fapt, o întrebare **multiclasă**, deoarece avem mai multe bucătării naționale potențiale cu care să lucrăm. Având un lot de ingrediente, în care dintre aceste multe clase se va încadra datele?

Tidymodels oferă mai mulți algoritmi diferiți pentru a clasifica datele, în funcție de tipul de problemă pe care vrei să o rezolvi. În următoarele două lecții, vei învăța despre câțiva dintre acești algoritmi.

#### **Prerechizite**

Pentru această lecție, vom avea nevoie de următoarele pachete pentru a curăța, pregăti și vizualiza datele:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) este o [colecție de pachete R](https://www.tidyverse.org/packages) concepută pentru a face știința datelor mai rapidă, mai ușoară și mai distractivă!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) este un cadru [colecție de pachete](https://www.tidymodels.org/packages/) pentru modelare și învățare automată.

-   `DataExplorer`: Pachetul [DataExplorer](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) este destinat simplificării și automatizării procesului de explorare a datelor și generării de rapoarte.

-   `themis`: Pachetul [themis](https://themis.tidymodels.org/) oferă pași suplimentari pentru rețete pentru a gestiona datele dezechilibrate.

Le poți instala astfel:

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

Alternativ, scriptul de mai jos verifică dacă ai pachetele necesare pentru a finaliza acest modul și le instalează pentru tine în cazul în care lipsesc.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

Vom încărca mai târziu aceste pachete grozave și le vom face disponibile în sesiunea noastră curentă de R. (Aceasta este doar pentru ilustrare, `pacman::p_load()` a făcut deja asta pentru tine)


## Exercițiu - curăță și echilibrează datele tale

Prima sarcină, înainte de a începe acest proiect, este să cureți și să **echilibrezi** datele pentru a obține rezultate mai bune.

Să facem cunoștință cu datele! 🕵️


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


Interesant! Din câte se pare, prima coloană este un fel de coloană `id`. Să obținem puțin mai multe informații despre date.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

Din rezultat, putem vedea imediat că avem `2448` rânduri și `385` coloane și `0` valori lipsă. De asemenea, avem 1 coloană discretă, *cuisine*.

## Exercițiu - învățăm despre tipurile de bucătărie

Acum începe partea mai interesantă. Haideți să descoperim distribuția datelor, pe tipuri de bucătărie.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Există un număr finit de bucătării, dar distribuția datelor este inegală. Poți remedia acest lucru! Înainte de a face asta, explorează puțin mai mult.

În continuare, să atribuim fiecare bucătărie unui tibble individual și să aflăm cât de multe date sunt disponibile (rânduri, coloane) pentru fiecare bucătărie.

> Un [tibble](https://tibble.tidyverse.org/) este un cadru de date modern.

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>Ilustrație de @allison_horst</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **Exercițiu - Descoperirea ingredientelor principale pe bucătărie folosind dplyr**

Acum poți analiza mai profund datele și să afli care sunt ingredientele tipice pentru fiecare bucătărie. Ar trebui să elimini datele recurente care creează confuzie între bucătării, așa că hai să învățăm despre această problemă.

Creează o funcție `create_ingredient()` în R care returnează un dataframe de ingrediente. Această funcție va începe prin eliminarea unei coloane inutile și va sorta ingredientele în funcție de frecvența lor.

Structura de bază a unei funcții în R este:

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

O introducere simplă în funcțiile R poate fi găsită [aici](https://skirmer.github.io/presentations/functions_with_r.html#1).

Să trecem direct la treabă! Vom folosi [verbele dplyr](https://dplyr.tidyverse.org/) pe care le-am învățat în lecțiile anterioare. Ca recapitulare:

-   `dplyr::select()`: te ajută să alegi ce **coloane** să păstrezi sau să excluzi.

-   `dplyr::pivot_longer()`: te ajută să "extinzi" datele, crescând numărul de rânduri și reducând numărul de coloane.

-   `dplyr::group_by()` și `dplyr::summarise()`: te ajută să găsești statistici sumare pentru diferite grupuri și să le pui într-un tabel organizat.

-   `dplyr::filter()`: creează un subset de date care conține doar rândurile ce îndeplinesc condițiile tale.

-   `dplyr::mutate()`: te ajută să creezi sau să modifici coloane.

Aruncă o privire la acest tutorial [*plin de artă*](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) realizat de Allison Horst, care introduce câteva funcții utile pentru manipularea datelor în dplyr *(parte din Tidyverse)*.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Acum putem folosi funcția pentru a obține o idee despre cele mai populare zece ingrediente în funcție de bucătărie. Hai să o testăm cu `thai_df`.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

În secțiunea anterioară, am folosit `geom_col()`, să vedem cum poți folosi și `geom_bar` pentru a crea diagrame cu bare. Folosește `?geom_bar` pentru lecturi suplimentare.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


Ce părere ai despre bucătăriile chinezești?


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

Din vizualizările de date, putem acum elimina cele mai comune ingrediente care creează confuzie între bucătării distincte, folosind `dplyr::select()`.

Toată lumea iubește orezul, usturoiul și ghimbirul!


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## Preprocesarea datelor folosind rețete 👩‍🍳👨‍🍳 - Gestionarea datelor dezechilibrate ⚖️

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Ilustrație de @allison_horst</figcaption>

Având în vedere că această lecție este despre bucătării, trebuie să punem `rețetele` în context.

Tidymodels oferă încă un pachet grozav: `recipes` - un pachet pentru preprocesarea datelor.


Să aruncăm din nou o privire asupra distribuției bucătăriilor noastre.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

După cum se poate observa, există o distribuție destul de inegală în numărul de bucătării. Bucătăriile coreene sunt aproape de trei ori mai numeroase decât cele thailandeze. Datele dezechilibrate au adesea efecte negative asupra performanței modelului. Gândiți-vă la o clasificare binară. Dacă majoritatea datelor aparțin unei singure clase, un model de învățare automată va prezice acea clasă mai frecvent, doar pentru că există mai multe date pentru aceasta. Echilibrarea datelor ia orice distribuție dezechilibrată și ajută la eliminarea acestui dezechilibru. Multe modele funcționează cel mai bine atunci când numărul de observații este egal și, prin urmare, tind să întâmpine dificultăți cu datele dezechilibrate.

Există în principal două modalități de a gestiona seturile de date dezechilibrate:

-   adăugarea de observații la clasa minoritară: `Over-sampling`, de exemplu, utilizând un algoritm SMOTE

-   eliminarea observațiilor din clasa majoritară: `Under-sampling`

Haideți să demonstrăm acum cum să gestionăm seturile de date dezechilibrate folosind un `recipe`. Un recipe poate fi considerat ca un plan care descrie ce pași ar trebui aplicați unui set de date pentru a-l pregăti pentru analiza datelor.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

Să analizăm pașii noștri de preprocesare.

-   Apelul către `recipe()` cu o formulă indică rețetei *rolurile* variabilelor folosind datele din `df_select` ca referință. De exemplu, coloana `cuisine` a fost atribuită rolul de `outcome`, în timp ce restul coloanelor au fost atribuite rolul de `predictor`.

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) creează o *specificație* a unui pas din rețetă care generează sintetic noi exemple ale clasei minoritare utilizând cei mai apropiați vecini ai acestor cazuri.

Acum, dacă am dori să vedem datele preprocesate, ar trebui să [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) și [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) rețeta noastră.

`prep()`: estimează parametrii necesari dintr-un set de antrenament care pot fi aplicați ulterior altor seturi de date.

`bake()`: ia o rețetă pregătită și aplică operațiile asupra oricărui set de date.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

Să verificăm acum distribuția bucătăriilor noastre și să le comparăm cu datele dezechilibrate.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

Mmm! Datele sunt curate, echilibrate și foarte delicioase 😋!

> De obicei, o rețetă este folosită ca un preprocesor pentru modelare, unde definește ce pași ar trebui aplicați unui set de date pentru a-l pregăti pentru modelare. În acest caz, un `workflow()` este utilizat în mod tipic (așa cum am văzut deja în lecțiile anterioare) în loc să estimăm manual o rețetă.
>
> Astfel, de regulă nu este necesar să folosești **`prep()`** și **`bake()`** pentru rețete atunci când utilizezi tidymodels, dar acestea sunt funcții utile de avut în trusa ta de instrumente pentru a confirma că rețetele funcționează așa cum te aștepți, cum este cazul nostru.
>
> Când folosești **`bake()`** pe o rețetă pregătită cu **`new_data = NULL`**, obții înapoi datele pe care le-ai furnizat atunci când ai definit rețeta, dar care au trecut prin pașii de preprocesare.

Să salvăm acum o copie a acestor date pentru a le folosi în lecțiile viitoare:


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

Acest fișier CSV nou poate fi găsit acum în folderul principal de date.

**🚀Provocare**

Acest curriculum conține mai multe seturi de date interesante. Răsfoiește folderele `data` și vezi dacă vreunul conține seturi de date potrivite pentru clasificare binară sau multi-clasă. Ce întrebări ai pune despre acest set de date?

## [**Chestionar post-lectură**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **Recapitulare & Studiu individual**

-   Consultă [pachetul themis](https://github.com/tidymodels/themis). Ce alte tehnici am putea folosi pentru a gestiona datele dezechilibrate?

-   Site-ul de referință pentru Tidy models: [reference website](https://www.tidymodels.org/start/).

-   H. Wickham și G. Grolemund, [*R for Data Science: Visualize, Model, Transform, Tidy, and Import Data*](https://r4ds.had.co.nz/).

#### MULȚUMIRI SPECIALE:

[`Allison Horst`](https://twitter.com/allison_horst/) pentru crearea ilustrațiilor uimitoare care fac R mai accesibil și captivant. Găsește mai multe ilustrații în [galeria ei](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) și [Jen Looper](https://www.twitter.com/jenlooper) pentru crearea versiunii originale în Python a acestui modul ♥️

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>Ilustrație de @allison_horst</figcaption>



---

**Declinarea responsabilității**:  
Acest document a fost tradus folosind serviciul de traducere AI [Co-op Translator](https://github.com/Azure/co-op-translator). Deși depunem eforturi pentru a asigura acuratețea, vă rugăm să aveți în vedere că traducerile automate pot conține erori sau inexactități. Documentul original în limba sa nativă ar trebui considerat sursa autoritară. Pentru informații critice, se recomandă traducerea profesională realizată de un specialist uman. Nu ne asumăm răspunderea pentru eventualele neînțelegeri sau interpretări greșite care pot apărea din utilizarea acestei traduceri.
