# 分類モデルを構築する: 美味しいアジア料理とインド料理


## 分類の入門: データのクリーンアップ、準備、可視化

この4つのレッスンでは、古典的な機械学習の基本的な焦点である*分類*を探求します。アジアとインドの素晴らしい料理に関するデータセットを使い、さまざまな分類アルゴリズムを実践していきます。お腹が空いてきましたか？

<p>
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>これらのレッスンでパンアジア料理を祝おう！画像提供: Jen Looper</figcaption>

<!--![これらのレッスンでパンアジア料理を祝おう！画像提供: Jen Looper](../../../../../../translated_images/pinch.b33c0ba76f284aad94a3c4e3ed83e13ed1e17fbcf4db8ca8583c3a0c135e2e99.ja.png)-->

分類は[教師あり学習](https://wikipedia.org/wiki/Supervised_learning)の一形態で、回帰手法と多くの共通点を持っています。分類では、アイテムがどの`カテゴリ`に属するかを予測するモデルを訓練します。機械学習がデータセットを使って値や名前を予測することだとすれば、分類は一般的に次の2つのグループに分けられます: *二値分類*と*多クラス分類*。

覚えておきましょう:

- **線形回帰**は、変数間の関係を予測し、新しいデータポイントがその線に対してどこに位置するかを正確に予測するのに役立ちました。例えば、*9月と12月でカボチャの価格がいくらになるか*を予測することができました。

- **ロジスティック回帰**は、「二値カテゴリ」を発見するのに役立ちました。この価格帯では、*このカボチャはオレンジ色か、それともオレンジ色ではないか*？

分類では、データポイントのラベルやクラスを決定するためにさまざまなアルゴリズムを使用します。この料理データを使って、材料のグループを観察することで、その料理の起源を特定できるかどうかを見てみましょう。

### [**講義前のクイズ**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **イントロダクション**

分類は、機械学習研究者やデータサイエンティストの基本的な活動の1つです。単純な二値値の分類（「このメールはスパムかどうか？」）から、コンピュータビジョンを使用した複雑な画像分類やセグメンテーションまで、データをクラスに分類し、それに質問を投げかける能力は常に有用です。

科学的に言い換えると、分類手法は、入力変数と出力変数の関係をマッピングする予測モデルを作成します。

<p>
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>分類アルゴリズムが扱う二値問題と多クラス問題。インフォグラフィック提供: Jen Looper</figcaption>

データをクリーンアップし、可視化し、機械学習タスクの準備を始める前に、データを分類するために機械学習を活用するさまざまな方法について少し学びましょう。

[統計学](https://wikipedia.org/wiki/Statistical_classification)に由来する古典的な機械学習を使用した分類では、`喫煙者`、`体重`、`年齢`などの特徴を使用して、*X病を発症する可能性*を判断します。以前に行った回帰演習と同様の教師あり学習手法として、データにはラベルが付けられており、MLアルゴリズムはそのラベルを使用してデータセットのクラス（または「特徴」）を分類し、グループや結果に割り当てます。

✅ 料理に関するデータセットを想像してみてください。多クラスモデルではどのような質問に答えられるでしょうか？二値モデルではどのような質問に答えられるでしょうか？特定の料理がフェヌグリークを使用する可能性があるかどうかを判断したい場合はどうでしょう？また、スターアニス、アーティチョーク、カリフラワー、ホースラディッシュが入った食材袋を渡された場合、それで典型的なインド料理を作れるかどうかを知りたい場合は？

### **「分類器」にこんにちは**

この料理データセットに対して私たちが尋ねたい質問は、実際には**多クラスの質問**です。なぜなら、扱う可能性のある国の料理が複数あるからです。一連の材料が与えられた場合、それらのデータはどのクラスに適合するでしょうか？

Tidymodelsは、解決したい問題の種類に応じて、データを分類するためのさまざまなアルゴリズムを提供します。次の2つのレッスンでは、これらのアルゴリズムのいくつかについて学びます。

#### **前提条件**

このレッスンでは、データをクリーンアップし、準備し、可視化するために以下のパッケージが必要です:

- `tidyverse`: [tidyverse](https://www.tidyverse.org/)は、データサイエンスをより速く、簡単に、そして楽しくするために設計された[Rパッケージのコレクション](https://www.tidyverse.org/packages)です。

- `tidymodels`: [tidymodels](https://www.tidymodels.org/)フレームワークは、モデリングと機械学習のための[パッケージのコレクション](https://www.tidymodels.org/packages/)です。

- `DataExplorer`: [DataExplorerパッケージ](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html)は、EDAプロセスとレポート生成を簡素化し自動化することを目的としています。

- `themis`: [themisパッケージ](https://themis.tidymodels.org/)は、不均衡データを扱うための追加のレシピステップを提供します。

以下のコマンドでこれらをインストールできます:

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

または、以下のスクリプトを使用して、このモジュールを完了するために必要なパッケージがインストールされているか確認し、欠けている場合はインストールします。


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

後でこれらの素晴らしいパッケージを読み込み、現在のRセッションで利用可能にします。（これは単なる説明のためであり、`pacman::p_load()`はすでにそれを行っています）


## 演習 - データをクリーンアップしてバランスを取る

このプロジェクトを始める前に、最初のタスクとしてデータをクリーンアップし、**バランスを取る**ことで、より良い結果を得る準備をしましょう。

それでは、データを確認してみましょう！🕵️


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


面白いですね！見たところ、最初の列は一種の`id`列のようです。データについてもう少し情報を得ましょう。


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

出力から、`2448`行と`385`列があり、欠損値が`0`であることがすぐにわかります。また、1つの離散的な列、*cuisine* が含まれています。

## 演習 - 料理について学ぶ

ここから作業がより興味深いものになっていきます。料理ごとのデータ分布を見ていきましょう。


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

料理の種類は有限ですが、データの分布は均一ではありません。それを修正することができます！その前に、もう少し探索してみましょう。

次に、各料理を個別のtibbleに割り当て、それぞれの料理にどれだけのデータ（行、列）があるかを確認してみましょう。

> [tibble](https://tibble.tidyverse.org/) は、現代的なデータフレームです。

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>@allison_horstによるアートワーク</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **演習 - dplyrを使って料理ごとの主要な食材を発見する**

ここではデータをさらに深掘りして、料理ごとに典型的な食材が何かを学びます。料理間で混乱を引き起こすような繰り返しのデータを取り除く必要があるので、この問題について学んでいきましょう。

Rで`create_ingredient()`という関数を作成し、食材のデータフレームを返すようにします。この関数では、まず役に立たない列を削除し、食材をその出現回数で並べ替えます。

Rにおける関数の基本構造は以下の通りです：

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

R関数の簡潔な入門は[こちら](https://skirmer.github.io/presentations/functions_with_r.html#1)で確認できます。

それでは早速始めましょう！これまでのレッスンで学んだ[dplyrの動詞](https://dplyr.tidyverse.org/)を活用します。復習として：

-   `dplyr::select()`: **列**を選択して保持または除外するのに役立ちます。

-   `dplyr::pivot_longer()`: データを「縦長」に変換し、行数を増やして列数を減らすのに役立ちます。

-   `dplyr::group_by()`と`dplyr::summarise()`: 異なるグループの要約統計を見つけ、それをきれいなテーブルにまとめるのに役立ちます。

-   `dplyr::filter()`: 条件を満たす行のみを含むデータのサブセットを作成します。

-   `dplyr::mutate()`: 列を作成または変更するのに役立ちます。

Allison Horstによる[*アート*満載のlearnrチュートリアル](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome)では、dplyr（Tidyverseの一部）の便利なデータ整形関数が紹介されていますので、ぜひチェックしてみてください。


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

では、この関数を使って、料理ごとの人気のある材料トップ10を確認してみましょう。`thai_df`で試してみましょう。


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

前のセクションでは、`geom_col()`を使用しましたが、`geom_bar`を使って棒グラフを作成する方法も見てみましょう。詳しくは`?geom_bar`を参照してください。


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

日本語のデータでも同じことをしましょう


In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


中国料理はどうですか？


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

最後に、韓国の材料をプロットします。


In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

データビジュアライゼーションから、異なる料理の区別を曖昧にする最も一般的な食材を、`dplyr::select()`を使って除外することができます。

みんなが大好きな米、ニンニク、そしてショウガ！


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## レシピを使ったデータの前処理 👩‍🍳👨‍🍳 - 不均衡データの対処 ⚖️

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>@allison_horstによるイラスト</figcaption>

このレッスンが料理に関するものであることを考えると、`recipes`を文脈に合わせて考える必要があります。

Tidymodelsはもう一つ便利なパッケージを提供しています。それがデータ前処理用のパッケージ、`recipes`です。


もう一度、私たちの料理の分布を見てみましょう。


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

ご覧の通り、料理の種類の数にはかなりの偏りがあります。韓国料理はタイ料理の約3倍です。データの不均衡は、モデルの性能に悪影響を及ぼすことがよくあります。例えば、二値分類を考えてみてください。データの大半が一つのクラスに偏っている場合、機械学習モデルはそのクラスを頻繁に予測する傾向があります。これは、そのクラスのデータが多いからです。データを均衡化することで、この偏りを取り除くことができます。多くのモデルは観測数が均等であるときに最も良い性能を発揮し、不均衡なデータでは苦戦する傾向があります。

不均衡なデータセットに対処する方法は主に2つあります：

- 少数派クラスの観測値を追加する: `オーバーサンプリング` 例: SMOTEアルゴリズムを使用する

- 多数派クラスの観測値を削除する: `アンダーサンプリング`

では、`recipe`を使って不均衡なデータセットに対処する方法を示してみましょう。レシピは、データ分析の準備をするためにデータセットに適用すべき手順を記述した設計図のようなものと考えることができます。


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

前処理のステップを分解して説明します。

-   `recipe()`をフォーミュラと共に呼び出すことで、`df_select`データを参照として変数の*役割*をレシピに伝えます。例えば、`cuisine`列は`outcome`の役割を割り当てられ、他の列は`predictor`の役割を割り当てられています。

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html)は、少数派クラスの新しい例をこれらのケースの最近傍を使用して合成的に生成するレシピステップの*仕様*を作成します。

さて、前処理されたデータを確認したい場合は、[**`prep()`**](https://recipes.tidymodels.org/reference/prep.html)と[**`bake()`**](https://recipes.tidymodels.org/reference/bake.html)を使用する必要があります。

`prep()`: トレーニングセットから必要なパラメータを推定し、それを他のデータセットに適用できるようにします。

`bake()`: 前処理済みのレシピを取り、それを任意のデータセットに適用します。


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

料理の分布を確認し、不均衡なデータと比較してみましょう。


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

おいしい！データはきれいでバランスが取れていて、とても美味しそうです😋！

> 通常、レシピはモデリングの前処理として使用され、データセットをモデリングに適した状態にするために適用すべき手順を定義します。この場合、手動でレシピを評価する代わりに、通常は `workflow()` が使用されます（これまでのレッスンで既に見てきた通りです）。
>
> そのため、tidymodels を使用する際には、通常 **`prep()`** や **`bake()`** を使う必要はありませんが、レシピが期待通りに動作しているか確認するために便利な関数です。今回のケースでも同様です。
>
> **`new_data = NULL`** を指定して準備済みのレシピを **`bake()`** すると、レシピを定義した際に提供したデータが、前処理ステップを経た状態で戻ってきます。

それでは、このデータを次回以降のレッスンで使用するためにコピーを保存しましょう：


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

この新しいCSVは、ルートデータフォルダーにあります。

**🚀チャレンジ**

このカリキュラムにはいくつかの興味深いデータセットが含まれています。`data`フォルダーを掘り下げて、バイナリまたは多クラス分類に適したデータセットが含まれているか確認してみましょう。このデータセットに対してどのような質問をしますか？

## [**講義後のクイズ**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **復習と自己学習**

-   [themisパッケージ](https://github.com/tidymodels/themis)をチェックしてみましょう。不均衡なデータに対処するために他にどのような手法が使えるでしょうか？

-   Tidy modelsの[参考ウェブサイト](https://www.tidymodels.org/start/)。

-   H. WickhamとG. Grolemundによる[*R for Data Science: Visualize, Model, Transform, Tidy, and Import Data*](https://r4ds.had.co.nz/)。

#### 感謝:

[`Allison Horst`](https://twitter.com/allison_horst/)に感謝します。彼女はRをより親しみやすく魅力的にする素晴らしいイラストを作成してくれました。彼女の[ギャラリー](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM)でさらに多くのイラストを見ることができます。

[Cassie Breviu](https://www.twitter.com/cassieview)と[Jen Looper](https://www.twitter.com/jenlooper)に感謝します。彼女たちはこのモジュールの元となるPython版を作成してくれました♥️

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>@allison_horstによるアートワーク</figcaption>



---

**免責事項**:  
この文書は、AI翻訳サービス [Co-op Translator](https://github.com/Azure/co-op-translator) を使用して翻訳されています。正確性を期すよう努めておりますが、自動翻訳には誤りや不正確な部分が含まれる可能性があります。元の言語で記載された原文が正式な情報源とみなされるべきです。重要な情報については、専門の人間による翻訳を推奨します。本翻訳の利用に起因する誤解や誤認について、当方は一切の責任を負いません。
