# 分類とアルゴリズム
「機械学習の機能」において、
分類アルゴリズム**サポートベクターマシン**（SVM）を使った分類の例をみました。

SVMは理論に裏付けられた強力で代表的な分類アルゴリズムですが、
SVM以外にも優秀な分類アルゴリズムが存在します。

この資料では、
同じ分布から得られるサンプルデータを訓練データとして用いて、
複数の分類アルゴリズムを比較してみましょう。

まず、次のプログラムで訓練データを作成します。

```python
import numpy as np
import matplotlib.pyplot as plt

n = 50

pos = np.random.multivariate_normal((1,1), [[0.5,0],[0,0.5]], 2*n)
plt.figure(figsize=(5,5))
plt.scatter(pos[:,0], pos[:,1], c='g')
neg = np.random.multivariate_normal((-1,-1), [[0.5,0],[0,0.5]], n)
neg = np.vstack([neg, np.random.multivariate_normal((2,2), [[0.1,0],[0,0.1]], n)])
plt.scatter(neg[:,0], neg[:,1], c='r')
plt.show()

data = np.vstack([pos,neg])
label = [1]*(2*n) + [-1]*(2*n)
```

次に、サポートベクターマシン（SVM）を、
rbfを類似度関数（カーネル）として利用して平面を、
赤の領域と緑の領域に区分して見ます。

| アルゴリズム | sklearnのクラス |
| :--- | :--- |
| SVM | sklearn.svm.SVC |

次のプログラムを実行します。

```python
from sklearn.svm import SVC
clf = SVC(kernel='rbf')
clf.fit(data,label)
x_min = min(data[:,0])
x_max = max(data[:,0])
y_min = min(data[:,1])
y_max = max(data[:,1])
xp = []
yp = []
xn = []
yn = []
for x in np.linspace(x_min, x_max, 101):
  for y in np.linspace(y_min, y_max, 101):
    p = clf.predict([(x, y)])
    if p[0] == 1:
      xp.append(x)
      yp.append(y)
    else:
      xn.append(x)
      yn.append(y)
plt.figure(figsize=(5,5))
plt.scatter(xp, yp, c='g', alpha=0.1)
plt.scatter(xn, yn, c='r', alpha=0.1)
plt.scatter(pos[:,0], pos[:,1], c='g')
plt.scatter(neg[:,0], neg[:,1], c='r')
plt.show()
```

以下の代表的な分類アルゴリズムで同じように平面を赤の領域と緑の領域に区分して下さい。
> これらのアルゴリズムではカーネルを用いないので、ハイパーパラメータの設定`kernel=`は不要です。

| アルゴリズム | sklearnのクラス |
| :--- | :--- |
| 多層パーセプトロン | sklearn.neural_network.MLPClassifier |
| $k$最近傍法 | sklearn.neighbors.KNeighborsClassifier |
| 決定木 | sklearn.tree.DecisionTreeClassifier |
| ランダム木 | sklearn.ensemble.RandomForestClassifier |



In [None]:
# 多層パーセプトロン


In [None]:
# k最近傍法


In [None]:
# 決定木


In [None]:
# ランダム木


分類アルゴリズムが異なると、異なる予測が得られることが観察できます。

**解決しようとしている問題に最適な分類アルゴリズムを選択する必要**があります。

分類アルゴリズムの問題への適合性を定量的に評価する方法については、
別の機会に学びます。