# Lezzetli Asya ve Hint Mutfağı: Bir sınıflandırma modeli oluşturun


## Sınıflandırmaya Giriş: Verilerinizi Temizleyin, Hazırlayın ve Görselleştirin

Bu dört derste, klasik makine öğreniminin temel odak noktalarından biri olan *sınıflandırmayı* keşfedeceksiniz. Asya ve Hindistan'ın tüm muhteşem mutfakları hakkında bir veri seti kullanarak çeşitli sınıflandırma algoritmalarını inceleyeceğiz. Umarım acıkmışsınızdır!

<p >
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>Bu derslerde pan-Asya mutfaklarını kutlayın! Görsel: Jen Looper</figcaption>


<!--![Bu derslerde pan-Asya mutfaklarını kutlayın! Görsel: Jen Looper](../../../../../../4-Classification/1-Introduction/solution/R/images/pinch.png)-->

Sınıflandırma, regresyon teknikleriyle birçok ortak noktası olan bir [denetimli öğrenme](https://wikipedia.org/wiki/Supervised_learning) biçimidir. Sınıflandırmada, bir öğenin hangi `kategoriye` ait olduğunu tahmin etmek için bir model eğitirsiniz. Makine öğrenimi, veri setlerini kullanarak değerleri veya şeylerin isimlerini tahmin etmekle ilgiliyse, sınıflandırma genellikle iki gruba ayrılır: *ikili sınıflandırma* ve *çoklu sınıflandırma*.

Unutmayın:

-   **Doğrusal regresyon**, değişkenler arasındaki ilişkileri tahmin etmenize ve yeni bir veri noktasının bu çizgiyle ilişkili olarak nerede yer alacağını doğru bir şekilde tahmin etmenize yardımcı oldu. Örneğin, *Eylül ve Aralık aylarında bir kabağın fiyatının ne olacağını* tahmin edebilirsiniz.

-   **Lojistik regresyon**, "ikili kategorileri" keşfetmenize yardımcı oldu: bu fiyat noktasında, *bu kabak turuncu mu yoksa turuncu değil mi*?

Sınıflandırma, bir veri noktasının etiketini veya sınıfını belirlemenin diğer yollarını belirlemek için çeşitli algoritmalar kullanır. Bu mutfak verileriyle çalışarak, bir grup malzemeyi gözlemleyerek, bu malzemelerin hangi mutfağa ait olduğunu belirleyip belirleyemeyeceğimizi görelim.

### [**Ders Öncesi Testi**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Giriş**

Sınıflandırma, makine öğrenimi araştırmacısının ve veri bilimcisinin temel faaliyetlerinden biridir. Basit bir ikili değerin sınıflandırılmasından ("bu e-posta spam mi değil mi?"), bilgisayarla görme kullanarak karmaşık görüntü sınıflandırma ve segmentasyona kadar, verileri sınıflara ayırmak ve onlara sorular sormak her zaman faydalıdır.

Bu süreci daha bilimsel bir şekilde ifade etmek gerekirse, sınıflandırma yöntemi, giriş değişkenleri ile çıkış değişkenleri arasındaki ilişkiyi haritalamanıza olanak tanıyan bir tahmin modeli oluşturur.

<p >
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Sınıflandırma algoritmalarının ele alması gereken ikili ve çoklu sınıf problemleri. Bilgilendirme görseli: Jen Looper</figcaption>



Verilerimizi temizleme, görselleştirme ve makine öğrenimi görevlerimiz için hazırlama sürecine başlamadan önce, makine öğreniminin verileri sınıflandırmak için kullanılabileceği çeşitli yollar hakkında biraz bilgi edinelim.

[İstatistikten](https://wikipedia.org/wiki/Statistical_classification) türetilen klasik makine öğrenimi ile sınıflandırma, `sigara içen`, `kilo` ve `yaş` gibi özellikleri kullanarak *X hastalığını geliştirme olasılığını* belirler. Daha önce gerçekleştirdiğiniz regresyon egzersizlerine benzer bir denetimli öğrenme tekniği olarak, verileriniz etiketlenir ve makine öğrenimi algoritmaları bu etiketleri kullanarak bir veri setinin sınıflarını (veya 'özelliklerini') sınıflandırır ve bunları bir gruba veya sonuca atar.

✅ Bir mutfaklar hakkında bir veri seti hayal etmek için bir an durun. Çoklu sınıf modeli neyi cevaplayabilir? İkili model neyi cevaplayabilir? Belirli bir mutfağın çemen otu kullanma olasılığını belirlemek isteseydiniz ne olurdu? Ya yıldız anason, enginar, karnabahar ve yaban turpu dolu bir market çantası hediye aldığınızda, tipik bir Hint yemeği yapıp yapamayacağınızı görmek isteseydiniz?

### **Merhaba 'sınıflandırıcı'**

Bu mutfak veri setine sormak istediğimiz soru aslında bir **çoklu sınıf sorusu**, çünkü çalışabileceğimiz birkaç olası ulusal mutfak var. Bir grup malzeme verildiğinde, bu birçok sınıftan hangisine veri uyacak?

Tidymodels, çözmek istediğiniz problemin türüne bağlı olarak verileri sınıflandırmak için kullanabileceğiniz çeşitli algoritmalar sunar. Önümüzdeki iki derste, bu algoritmalardan birkaçını öğreneceksiniz.

#### **Ön Koşul**

Bu ders için, verilerimizi temizlemek, hazırlamak ve görselleştirmek için aşağıdaki paketlere ihtiyacımız olacak:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/), veri bilimi işlemlerini daha hızlı, kolay ve eğlenceli hale getirmek için tasarlanmış bir [R paketleri koleksiyonudur](https://www.tidyverse.org/packages).

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) çerçevesi, modelleme ve makine öğrenimi için bir [paketler koleksiyonudur](https://www.tidymodels.org/packages/).

-   `DataExplorer`: [DataExplorer paketi](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html), EDA sürecini ve rapor oluşturmayı basitleştirmek ve otomatikleştirmek için tasarlanmıştır.

-   `themis`: [themis paketi](https://themis.tidymodels.org/), Dengesiz Verilerle Başa Çıkmak için Ek Tarif Adımları sağlar.

Bu paketleri şu şekilde yükleyebilirsiniz:

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

Alternatif olarak, aşağıdaki script, bu modülü tamamlamak için gereken paketlere sahip olup olmadığınızı kontrol eder ve eksik olanları sizin için yükler.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

Daha sonra bu harika paketleri yükleyip mevcut R oturumumuzda kullanılabilir hale getireceğiz. (Bu sadece bir örnekleme için, `pacman::p_load()` bunu zaten sizin için yaptı)


## Alıştırma - Verilerinizi temizleyin ve dengeleyin

Bu projeye başlamadan önceki ilk görev, daha iyi sonuçlar elde etmek için verilerinizi temizlemek ve **dengelemektir**.

Haydi verilerle tanışalım!🕵️


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


İlginç! Görünüşe göre, ilk sütun bir tür `id` sütunu. Hadi veri hakkında biraz daha bilgi edinelim.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

Çıktıdan hemen görebiliyoruz ki `2448` satır ve `385` sütun ile `0` eksik değerimiz var. Ayrıca 1 ayrık sütunumuz var, *cuisine*.

## Alıştırma - mutfaklar hakkında bilgi edinme

Şimdi işler daha ilginç hale gelmeye başlıyor. Haydi, veri dağılımını her bir mutfak için keşfedelim.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Mutfak türleri sınırlıdır, ancak veri dağılımı dengesizdir. Bunu düzeltebilirsiniz! Ancak önce biraz daha keşfetmeye devam edin.

Sonraki adımda, her bir mutfak türünü kendi tibble'ına atayalım ve her mutfak türü için ne kadar veri olduğunu (satırlar, sütunlar) öğrenelim.

> Bir [tibble](https://tibble.tidyverse.org/) modern bir veri çerçevesidir.

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>@allison_horst tarafından yapılmış bir eser</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **Alıştırma - dplyr ile mutfaklara göre en popüler malzemeleri keşfetmek**

Artık verilere daha derinlemesine bakabilir ve her mutfak için tipik malzemelerin neler olduğunu öğrenebilirsiniz. Mutfaklar arasında kafa karışıklığına neden olan tekrar eden verileri temizlemeniz gerekiyor, bu sorunu birlikte inceleyelim.

R'de bir `create_ingredient()` fonksiyonu oluşturun ve bu fonksiyon bir malzeme veri çerçevesi döndürsün. Bu fonksiyon, işe yaramaz bir sütunu kaldırarak başlayacak ve malzemeleri sayısına göre sıralayacak.

R'deki bir fonksiyonun temel yapısı şu şekildedir:

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

R fonksiyonlarına dair düzenli bir giriş [burada](https://skirmer.github.io/presentations/functions_with_r.html#1) bulunabilir.

Hadi başlayalım! Daha önceki derslerimizde öğrendiğimiz [dplyr fiillerini](https://dplyr.tidyverse.org/) kullanacağız. Hatırlatma olarak:

-   `dplyr::select()`: hangi **sütunları** tutacağınızı veya hariç tutacağınızı seçmenize yardımcı olur.

-   `dplyr::pivot_longer()`: veriyi "uzatmanıza" yardımcı olur, satır sayısını artırır ve sütun sayısını azaltır.

-   `dplyr::group_by()` ve `dplyr::summarise()`: farklı gruplar için özet istatistikler bulmanıza ve bunları düzenli bir tabloya koymanıza yardımcı olur.

-   `dplyr::filter()`: yalnızca koşullarınızı karşılayan satırları içeren bir veri alt kümesi oluşturur.

-   `dplyr::mutate()`: sütunlar oluşturmanıza veya mevcut sütunları değiştirmenize yardımcı olur.

Allison Horst tarafından hazırlanan, dplyr *(Tidyverse'in bir parçası)* içindeki bazı kullanışlı veri düzenleme fonksiyonlarını tanıtan bu [*sanat*-dolu learnr eğitimine](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) göz atabilirsiniz.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Şimdi, mutfağa göre en popüler on malzeme hakkında bir fikir edinmek için fonksiyonu kullanabiliriz. Hadi bunu `thai_df` ile deneyelim.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

Önceki bölümde `geom_col()` kullandık, şimdi de çubuk grafikler oluşturmak için `geom_bar` nasıl kullanılır görelim. Daha fazla bilgi için `?geom_bar` kullanın.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

Haydi Japonca veriler için de aynısını yapalım.


In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


Peki ya Çin mutfağı?


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

Son olarak, Kore malzemelerini çiz.


In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

Veri görselleştirmelerinden, artık farklı mutfaklar arasında karışıklık yaratan en yaygın malzemeleri `dplyr::select()` kullanarak çıkarabiliriz.

Herkes pirinci, sarımsağı ve zencefili sever!


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## Tarifler kullanarak veri ön işleme 👩‍🍳👨‍🍳 - Dengesiz veriyle başa çıkma ⚖️

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Çizim: @allison_horst</figcaption>

Bu dersin mutfaklarla ilgili olduğunu göz önünde bulundurarak, `tarifleri` bağlama oturtmamız gerekiyor.

Tidymodels, veri ön işleme için başka bir harika paket sunar: `recipes` - veri ön işleme için bir paket.


Haydi mutfaklarımızın dağılımına bir kez daha göz atalım.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

Gördüğünüz gibi, mutfak türlerinin sayısında oldukça eşitsiz bir dağılım var. Kore mutfakları, Tayland mutfaklarının neredeyse 3 katı. Dengesiz veriler genellikle model performansı üzerinde olumsuz etkilere sahiptir. Bir ikili sınıflandırmayı düşünün. Eğer verilerinizin çoğu bir sınıfa aitse, bir ML modeli, sadece o sınıfa ait daha fazla veri olduğu için, o sınıfı daha sık tahmin edecektir. Verilerin dengelenmesi, herhangi bir dengesizliği giderir ve bu eşitsizliği ortadan kaldırmaya yardımcı olur. Birçok model, gözlem sayılarının eşit olduğu durumlarda en iyi performansı gösterir ve bu nedenle dengesiz verilerle çalışırken zorlanır.

Dengesiz veri setleriyle başa çıkmanın temel olarak iki yolu vardır:

-   azınlık sınıfına gözlem eklemek: `Over-sampling` örneğin, bir SMOTE algoritması kullanarak

-   çoğunluk sınıfından gözlem çıkarmak: `Under-sampling`

Şimdi bir `recipe` kullanarak dengesiz veri setleriyle nasıl başa çıkılacağını gösterelim. Bir recipe, bir veri setine hangi adımların uygulanması gerektiğini tanımlayan bir plan olarak düşünülebilir ve veri analizi için hazır hale getirilmesini sağlar.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

Ön işleme adımlarımızı inceleyelim.

-   Bir formül ile `recipe()` çağrısı, `df_select` verilerini referans alarak değişkenlerin *rollerini* tarif eder. Örneğin, `cuisine` sütunu bir `outcome` rolü alırken, diğer sütunlar bir `predictor` rolü almıştır.

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html), bu vakaların en yakın komşularını kullanarak azınlık sınıfının sentetik olarak yeni örneklerini oluşturan bir tarif adımının *spesifikasyonunu* oluşturur.

Şimdi, ön işlenmiş veriyi görmek istersek, tarifimizi [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) ve [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) ile işlememiz gerekir.

`prep()`: Eğitim setinden gerekli parametreleri tahmin eder ve bu parametreler daha sonra diğer veri setlerine uygulanabilir.

`bake()`: Hazırlanmış bir tarifi alır ve işlemleri herhangi bir veri setine uygular.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

Haydi şimdi mutfaklarımızın dağılımını kontrol edelim ve bunları dengesiz verilerle karşılaştıralım.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

Yum! Veriler temiz, dengeli ve çok lezzetli 😋!

> Normalde, bir tarif genellikle modelleme için bir ön işlemci olarak kullanılır ve bir veri setine modellemeye hazır hale getirmek için hangi adımların uygulanması gerektiğini tanımlar. Bu durumda, genellikle (önceki derslerimizde gördüğümüz gibi) bir `workflow()` kullanılır, tarifleri manuel olarak tahmin etmek yerine.
>
> Bu nedenle, tidymodels kullanırken genellikle tarifleri **`prep()`** ve **`bake()`** yapmanız gerekmez, ancak tariflerin beklentilerinizi karşılayıp karşılamadığını doğrulamak için bizim durumumuzda olduğu gibi bu işlevler faydalı olabilir.
>
> Bir hazırlanmış tarifi **`new_data = NULL`** ile **`bake()`** ettiğinizde, tarifi tanımlarken sağladığınız veriyi geri alırsınız, ancak ön işleme adımlarından geçmiş olur.

Şimdi bu verinin bir kopyasını gelecekteki derslerde kullanmak için kaydedelim:


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

Bu yeni CSV artık kök veri klasöründe bulunabilir.

**🚀Meydan Okuma**

Bu müfredat birkaç ilginç veri seti içeriyor. `data` klasörlerini inceleyin ve ikili veya çok sınıflı sınıflandırma için uygun olabilecek veri setleri içerip içermediğini kontrol edin. Bu veri seti hakkında hangi soruları sorardınız?

## [**Ders sonrası test**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **Gözden Geçirme ve Kendi Kendine Çalışma**

-   [package themis](https://github.com/tidymodels/themis)'e göz atın. Dengesiz veriyle başa çıkmak için başka hangi teknikleri kullanabiliriz?

-   Tidy models [referans web sitesi](https://www.tidymodels.org/start/).

-   H. Wickham ve G. Grolemund, [*R for Data Science: Görselleştirme, Modelleme, Dönüştürme, Düzenleme ve Veri İçe Aktarma*](https://r4ds.had.co.nz/).

#### TEŞEKKÜRLER:

[`Allison Horst`](https://twitter.com/allison_horst/) R'yi daha sıcak ve ilgi çekici hale getiren harika çizimler oluşturduğu için. Daha fazla çizimi onun [galerisinde](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM) bulabilirsiniz.

[Cassie Breviu](https://www.twitter.com/cassieview) ve [Jen Looper](https://www.twitter.com/jenlooper) bu modülün orijinal Python versiyonunu oluşturdukları için ♥️

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>@allison_horst tarafından yapılmış sanat eseri</figcaption>



---

**Feragatname**:  
Bu belge, [Co-op Translator](https://github.com/Azure/co-op-translator) adlı yapay zeka çeviri hizmeti kullanılarak çevrilmiştir. Doğruluk için çaba göstersek de, otomatik çevirilerin hata veya yanlışlıklar içerebileceğini lütfen unutmayın. Belgenin orijinal dili, yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanımından kaynaklanan yanlış anlama veya yanlış yorumlamalardan sorumlu değiliz.
