# <b>機械学習の基礎-2</b>

ここからは主に機械学習の主要タスクである分類/識別(classification)、クラスタリング(clustering)について記す。  
これらは回帰よりも使われることが多い。  

本ドキュメントの参考資料：  
* 米国データサイエンティストのブログ　https://datawokagaku.com/
* Udemy「【後編】米国データサイエンティストがやさしく教える機械学習超入門【Pythonで実践】」

## ○ 分類/識別(Classification)
カテゴリーやクラス、ラベルと呼ばれる”種類”を判別する。  
例えばある物件の駐車場の有無を家賃と広さから予測するなど。  
応用例として、医用画像診断、迷惑メールフィルタ、顔認証、音声認識などがある。  

回帰と違い、目的変数が質的変数になる (回帰では目的変数が量的変数)。  
分類タスクでは、決定境界（例：駐車場の有無でデータ群を2分する境界）を作ってデータを分類することを目的とする。  
決定境界を引く機械学習モデルを分類器(classifier、読み方：クラシファイアー)という。  

左図：線形の分類器の例　右図：非線形の分類器の例  
![image.png](attachment:8122a560-6b5f-4325-b606-0e89fc1c0b5f.png)  

下記の理由により、目的変数を0/1の2値としてそれを回帰モデルから予測することは分類のアルゴリズムとしては不適切。  
* 回帰では予測値が0~1の範囲を超えてしまうことがあり、解釈できないためそのままでは使えない。
* 多クラスの場合（例：赤、青、緑）、それぞれ0, 1, 2…の様に単純に数値化して量的変数のようにすることはできない。  
  これは本来であれば赤、青、緑は値として等価であるにもかかわらず、0,1,2のように差がある扱いになってしまうため。
* また、目的変数が2値しかないため、外れ値一つ（例：超家賃高くて広いのに駐車場なしなど）で大きく回帰曲線が変わり、分類結果が変わってしまう  

そこで、少なくとも特徴量に対する予測の結果が0~1の間にあればどちらかといえば0,1などが言える（解釈可能）ので、  
このようなアルゴリズムを分類アルゴリズムとして採用する。  
→ロジスティック回帰（一例）


参考：https://datawokagaku.com/logistic_reg/

## ○ ロジスティック回帰
分類アルゴリズムの最も基本的なアルゴリズム。  
「回帰」と付いているが、分類のアルゴリズムであることに注意。  
（由来はロジスティック回帰の中で回帰モデルを使用するからである）  

ロジスティック回帰にはシグモイド関数（別名：ロジスティック関数）を使う。  
$$z = \frac {1}{1+e^{-x}}$$

シグモイド関数は負の無限大で0、正の無限大で1に限りなく近づき、どのような$x$に対しても0~1の値をとる。  
![image.png](attachment:bbbbdbb0-6edc-4053-815d-84ec9e46c020.png)  

図：https://ja.wikipedia.org/wiki/%E3%82%B7%E3%82%B0%E3%83%A2%E3%82%A4%E3%83%89%E9%96%A2%E6%95%B0

したがって、"線形"回帰モデル$\hat{f}(x)$をシグモイド関数の$x$に入れることで、回帰モデルの予測結果を0～1に変換することができる。  
このとき、ロジスティック回帰の数式モデル$p(x)$ (※probabilityのp)を下記で表わす。  
$$p(x) = \frac {1}{1+e^{-(\hat{f}(x))}}$$

こうすることで回帰モデルの予測結果は0～1に変換されるので、これを目的変数の2値をとり得る確率として解釈する。  

※ロジスティック回帰に使う回帰モデルは線形回帰モデルを前提とする  
$$\hat{f}(X)=\theta_0+\theta_1X_1+\theta_2X_2+ ... \theta_nX_n$$  
特徴量が一つであれば、ロジスティック回帰モデルは下記になる。
$$p(x) = \frac {1}{1+e^{-(\theta_0+\theta_1X_1)}}$$
https://ja.wikipedia.org/wiki/%E3%83%AD%E3%82%B8%E3%82%B9%E3%83%86%E3%82%A3%E3%83%83%E3%82%AF%E5%9B%9E%E5%B8%B0