# 機械学習とは

## 機械学習の分類

|分類|説明|
|:--|:--|
|教師あり学習|データとともに正解が与えられる<br>未知のデータに対して予測を行う|
|教師なし学習|正解データは与えられない<br>未知のデータから規則性を発見する|
|強化学習|行動により部分的に正解が与えられる<br>データから最適化な解を見つける|

## 機械学習の応用分野


1. クラス分類 Classififcation
2. グループ分け・クラスタリング Clustering
3. 推薦 Recommendation
4. 回帰 Regression
5. 次元削減 Dimensionality Reduction

# 機械学習はじめの一歩

## XOR演算を学習させてみよう

論理演算と結果

|P|Q|P XOR Q|
|:--|:--|:--|
|0|0|0|
|1|0|1|
|0|1|1|
|1|1|0|

In [1]:
from sklearn import svm

In [3]:
# XORの演算結果・学習器に与える入力データ
xor_data = [
    #P, Q, result
    [0,0,0],
    [0,1,1],
    [1,0,1],
    [1,1,0]
]

In [4]:
# 学習させるためにデータトラベルに分ける
data = []
label = []
for row in xor_data:
    p = row[0]
    q = row[1]
    r = row[2]
    data.append([p, q])
    label.append(r)

In [5]:
# データの学習
clf = svm.SVC()
clf.fit(data, label)

SVC(C=1.0, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='scale', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

In [7]:
# データを予測
pre = clf.predict(data)
print("予測結果:", pre)

予測結果: [0 1 1 0]


In [11]:
# 正解とあっているか結果を確認
ok = 0
total = 0
for idx, answer in enumerate(label):
    p = pre[idx]
    if p == answer:
        ok += 1
    total += 1
print("正解率:", ok, "/", total, "=", ok/total)

正解率: 4 / 4 = 1.0


### フレームワークを利用してプログラムを楽に書く

In [29]:
import pandas as pd
from sklearn import svm, metrics

In [13]:
xor_input = [
    [0,0,0],
    [0,1,1],
    [1,0,1],
    [1,1,0]
]

In [26]:
# 入力を学習データトラベルに分ける
xor_df = pd.DataFrame(xor_input)
xor_data = xor_df[[0,1]] # データ
xor_label = xor_df[2] # ラベル

In [27]:
# データの学習と予測
clf = svm.SVC()
clf.fit(xor_data, xor_label)
pre = clf.predict(xor_data)

In [30]:
# 正解率を求める
ac_score = metrics.accuracy_score(xor_label, pre)
print("正解率=", ac_score)

正解率= 1.0


## アヤメを品種ごとに分類しよう

In [31]:
from sklearn import svm, metrics
import random, re

In [41]:
# アヤメのCSVデータを読み込む
csv = []
with open('iris.csv', 'r', encoding='utf-8') as fp:
    # 一行ずつ読む
    for line in fp:
        line = line.strip() # 改行を削除
        cols = line.split(',') # カンマで区切る
        # 文字列データを数値に変換
        fn = lambda n : float(n) if re.match(r'^[0-9\.]+$', n) else n
        cols = list(map(fn, cols))
        csv.append(cols)

In [42]:
# 先頭のヘッダー行を削除
del csv[0]

In [43]:
# データをシャッフル
random.shuffle(csv)

In [44]:
# 学習用とテストように分割する(2:1の比率)
total_len = len(csv)
train_len = int(total_len * 2 / 3)
train_data = []
train_label = []
test_data = []
test_label = []
for i in range(total_len):
    data = csv[i][0:4]
    label = csv[i][4]
    if i < train_len:
        train_data.append(data)
        train_label.append(label)
    else:
        test_data.append(data)
        test_label.append(label)

In [45]:
# データを学習し、予測する
clf = svm.SVC()
clf.fit(train_data, train_label)
pre = clf.predict(test_data)

In [46]:
# 正解率を求める
ac_score = metrics.accuracy_score(test_label, pre)
print("正解率 = ", ac_score)

正解率 =  0.94


### 訓練データとテストデータの分割を専用メソッドで

In [49]:
import pandas as pd
from sklearn import svm, metrics
from sklearn.model_selection import train_test_split

In [51]:
# アヤメのCSVデータを読み込む
csv = pd.read_csv('iris.csv')

In [54]:
# 任意の列を取り出す
csv_data = csv[["SepalLength", "SepalWidth", "PetalLength", "PetalWidth"]]
csv_label = csv["Name"]

In [56]:
# 学習用とテストように分割する
train_data, test_data, train_label, test_label  = \
    train_test_split(csv_data, csv_label)

In [57]:
# データを学習し、予測する
clf = svm.SVC()
clf.fit(train_data, train_label)
pre = clf.predict(test_data)

In [58]:
# 正解率を求める
ac_score = metrics.accuracy_score(test_label, pre)
print("正解率=", ac_score)

正解率= 0.9736842105263158
