# Pythonによる機械学習入門

以下のリンクからスクリプトをダウンロードできます。  
コードはこのページにコピペ済みですが、元のpyファイルが欲しい方はどうぞ。  
後半でスクリプトやデータが必須になりますが、とりあえずは用意しなくても結構です。  
[Pythonによる機械学習入門](http://www.ohmsha.co.jp/data/link/978-4-274-21963-4/)

## 第1章 はじめに
## 1.1 機械学習とは
機械学習とは、機械による学習を実現しようとする技術です。  
データから反復的に学習し、そこに潜むパターンを見つけ出します。  
パターン認識(手書き文字の認識など)に広く使われています。

## 1.4 Python早わかり-Numpyとmatplotlib
## 1.4.1 NumPy
NumPyはPythonの科学技術計算パッケージで、線形代数、フーリエ変換や乱数など、高等数学の計算を容易に行うことができます。  
ここではNumPyの配列の扱い方を学びます。

In [None]:
# 各方程式を設定するためにNumPyをインポート
import numpy as np

### NumPy配列の生成

In [None]:
np.zeros((2,3)) # np.zeros(shape, dtype=None)

In [None]:
a = np.zeros((2,3)) # np.zeros(shape, dtype=None)
print(a)

In [None]:
np.ones((3,2), dtype=np.int32)

In [None]:
b = np.ones((3,2), dtype=np.int32)
print(b)

In [None]:
c = np.array([[1,2,3],[4,5,6]])
print(c)

### NumPy配列の計算

In [None]:
a + a

In [None]:
c * 2

In [None]:
# aは2×3行列、bは3×2行列なので足し算できない
print(a.shape)
print(b.shape)

print(a + b) # 計算不能のためエラーが起こる

In [None]:
# aは2×3行列、bは3×2行列なので掛け算はできる
np.dot(a, b)

In [None]:
# cは2×3行列, bは3×2行列なので, bを転置させれば足し算できる
print(c)
print(b.T) 
print(c + b.T)

参考になるかも  
<http://ibisforest.org/index.php?python%2Fnumpy>

## 1.4.2 matplotlib
matplotlibはPythonの様々なグラフの描画を可能にするライブラリです。

In [None]:
#各方程式を設定するためにNumPyをインポート
import numpy as np
# matplotlibのpyplotをpltでインポート
import matplotlib.pyplot as plt
%matplotlib inline

# x軸の領域と精度を設定し、x値を用意
x = np.arange(-3, 3, 0.1) # arange([start],stop,[step],[dtype]) []付きは省略可能, startを省略すると0から

#各方程式のy値を用意
y_sin = np.sin(x)
x_rand = np.random.rand(100) * 6 - 3
y_rand = np.random.rand(100) * 6 - 3

# figureオブジェクトを作成
plt.figure()

# 1つのグラフで表示する設定
plt.subplot(1, 1, 1) # subplot(行数, 列数, 何番目のプロットか)

#各方程式の線形とマーカー、ラベルを設定し、プロット
##線形図
plt.plot(x, y_sin, marker='o', markersize=5, label='line')

##散布図
plt.scatter(x_rand, y_rand, label='scatter')

#凡例表示を設定
plt.legend()
#グリッド線を表示
plt.grid(True)

#グラフ表示
plt.show()

## 1.5 クイックツアー
###こんな課題
機械学習の代表的な課題である「分類」、「回帰」、「クラスタリング」を手早く体験しましょう。  
- 「分類」問題とは与えられたデータから分類（クラス）を予測する問題です。正解データから分類のルールを学び、未知のデータに対しても分類ができるようになることを目指します。
- 「回帰」問題とは与えられたデータから数値を予測する問題です。
- 「クラスタリング」とはデータの性質に従って、データのかたまり（クラスタ）を作る技術です。データの性質に着目し、正解を必要としません。

###こんなデータ
 
- 2次関数（$ y=x^2 $）のデータで、yの値にノイズが乗っているものを利用します。
- 分類問題ではデータを2つのクラスに分けます。今回は原点からの距離が近い/遠いで2つに分けます。学習データと得られた分類の性能を測るためのテストデータとの分離が必要です。
- 回帰問題では学習データとテストデータの分離のみ行います。クラス分けは不要です。
- クラスタリングでは元データをそのまま使用します。

### 1.5.2 データの準備

In [None]:
########################################
#### データの準備

import matplotlib.pyplot as plt
import numpy as np 
%matplotlib inline

### 各種定義

# x軸の定義範囲
x_max = 1
x_min = -1

# y軸の定義範囲
y_max = 2
y_min = -1

# スケール、１単位に何点を使うか
SCALE = 50

# train/testでTestデータの割合を指定
TEST_RATE = 0.3


### データ生成

data_x = np.arange(x_min, x_max, 1 / float(SCALE)).reshape(-1, 1)  

data_ty = data_x * data_x  # ｘ**2 がノイズが乗る前の値
data_vy = data_ty.reshape(-1, 1) + np.random.randn(len(data_ty), 1) * 0.5  # ノイズを乗せる


### 学習データ／テストデータに分割（分類問題、回帰問題で使用）

# 学習データ／テストデータの分割処理
def split_train_test(array):
    length = len(array)
    n_train = int(length * (1 - TEST_RATE))

    indices = list(range(length))
    np.random.shuffle(indices)
    idx_train = indices[:n_train]
    idx_test = indices[n_train:]

    return sorted(array[idx_train]), sorted(array[idx_test])

# インデックスリストを分割
indices = np.arange(len(data_x))  # インデックス値のリスト
idx_train, idx_test = split_train_test(indices)

# 学習データ
x_train = data_x[idx_train]
y_train = data_vy[idx_train]

# テストデータ
x_test = data_x[idx_test]
y_test = data_vy[idx_test]


### グラフ描画

# 分析対象点の散布図
plt.scatter(data_x, data_vy, label='target')

# 元の線を表示
plt.plot(data_x, data_ty, linestyle=':', label='non noise curve') # 元の線を表示

# x 軸 / y 軸の範囲を設定
plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)

# 凡例の表示位置を指定
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left', borderaxespad=0)

# グラフを表示
plt.show()

### 1.5.3 分類問題
用意したデータを原点から近い/遠いで2つのクラスに分け、さらに学習データとテストデータの計4種類に分割します。近い/遠いの両方の学習データで学習し、テストデータで分類器の性能を見ます。

In [None]:
########################################
#### 分類問題

### 分類ラベル作成

# クラスの閾値。原点からの半径
CLASS_RADIUS = 0.6

# 近い／遠いでクラス分け -- 近いと True, 遠いと False
labels = (np.square(data_x) + np.square(data_vy)) < CLASS_RADIUS**2

# 学習データ／テストデータに分割
label_train = labels[idx_train]  # 学習データ
label_test = labels[idx_test]  # テストデータ


### グラフ描画

plt.scatter(x_train[label_train], y_train[label_train], marker='v', label='near train')
plt.scatter(x_train[label_train != True], y_train[label_train != True], marker='+', label='far train')

plt.scatter(x_test[label_test], y_test[label_test], marker='^', label='near test')
plt.scatter(x_test[label_test != True], y_test[label_test != True], marker='x', label='far test')

# 元の線を表示
plt.plot(data_x, data_ty, linestyle=':', label='non noise curve') # 元の線を表示

# クラスの分離円
circle  = plt.Circle((0,0), CLASS_RADIUS, alpha=0.1, label='near area')
ax = plt.gca()
ax.add_patch(circle)

# x 軸 / y 軸の範囲を設定
plt.xlim(x_min, x_max)  #X軸範囲設定
plt.ylim(y_min, y_max)  #Y軸範囲設定

# 凡例の表示位置を指定
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left', borderaxespad=0)

# グラフを表示
plt.show()

それでは分類を実行しましょう。

In [None]:
### 学習

from sklearn import svm
from sklearn.metrics import confusion_matrix, accuracy_score

data_train = np.c_[x_train, y_train]
data_test = np.c_[x_test, y_test]

# SVMの分類器を作成、学習
classifier = svm.SVC(gamma=1) # SVMの分類器を生成
classifier.fit(data_train, label_train.reshape(-1)) # 渡したデータに基いて学習を行う

# Testデータで評価
pred_test = classifier.predict(data_test) # 予測

# Accuracyを表示
print('accuracy_score:\n', accuracy_score(label_test.reshape(-1), pred_test)) 

# 混同行列を表示
print('Confusion matrix:\n', confusion_matrix(label_test.reshape(-1), pred_test))

___
- 正答率(Accuracy)
$$ \frac{TP + TN}{TP + FP + FN + TN} $$  

- 混同行列(Confusion Matrix)  


|                |  　Positive (予測)   |   Negative (予測)    |
|:---------------|:-------------------:|:-------------------:|
| Positive (実際) | True Positive (TP)  | False Negative (FP) |
| Negative (実際) | False Positvie (FP) | True Negative (TN)  |
___

### 1.5.4 回帰問題
1次元（直線）、2次元、9次元の多項式で回帰させてみます。

In [None]:
########################################
#### 回帰問題

from sklearn import linear_model


### 1 次式で回帰

# x 値
X1_TRAIN = x_train
X1_TEST  = x_test

# 学習
model = linear_model.LinearRegression()
model.fit(X1_TRAIN, y_train)

# グラフに描画
plt.plot(x_test, model.predict(X1_TEST), linestyle='-.', label='poly deg 1')


### 2 次式で回帰

# x 値
X2_TRAIN = np.c_[x_train**2, x_train]
X2_TEST  = np.c_[x_test**2, x_test]

# 学習
model = linear_model.LinearRegression()
model.fit(X2_TRAIN, y_train)

# グラフに描画
plt.plot(x_test, model.predict(X2_TEST), linestyle='--', label='poly deg 2')

### 9 次式で回帰

# x 値
X9_TRAIN = np.c_[x_train**9, x_train**8, x_train**7, x_train**6, x_train**5,
                 x_train**4, x_train**3, x_train**2, x_train]
X9_TEST  = np.c_[x_test**9, x_test**8, x_test**7, x_test**6, x_test**5,
                 x_test**4, x_test**3, x_test**2, x_test]
# 学習
model = linear_model.LinearRegression()
model.fit(X9_TRAIN, y_train)

# グラフに描画
plt.plot(x_test, model.predict(X9_TEST), linestyle='-', label='poly deg 9')


### データの表示

plt.scatter(x_train, y_train, marker='v',label="train")
plt.scatter(x_test, y_test, marker='x',label="test")

# 元の線を表示
plt.plot(data_x, data_ty, linestyle=':', label='non noise curve') # 元の線を表示

# x 軸 / y 軸の範囲を設定
plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)

# 凡例の表示位置を指定
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left', borderaxespad=0)

# グラフを表示
plt.show()

___

### 1.5.5 クラスタリング
データ作成時に分類は使用せず、データのみからクラスタを作成します。

In [None]:
########################################
#### クラスタリング

from sklearn import cluster

# x, y データを結合
data = np.c_[data_x, data_vy]

# 学習 → ３つのクラスタに分類
model = cluster.KMeans(n_clusters=3)
model.fit(data)

# data の分類結果（0 ～ (n_clusters - 1) の番号が付けられている）
labels = model.labels_

plt.scatter(data_x[labels == 0], data_vy[labels == 0], marker='v', label='cluster 0')
plt.scatter(data_x[labels == 1], data_vy[labels == 1], marker='x', label='cluster 1')
plt.scatter(data_x[labels == 2], data_vy[labels == 2], marker='o', label='cluster 2')

# 元の線を表示
plt.plot(data_x, data_ty, linestyle=':', label='non noise curve') # 元の線を表示

# x 軸 / y 軸の範囲を設定
plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)

# 凡例の表示位置を指定
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left', borderaxespad=0)

# グラフを表示
plt.show()

おまけ 深層学習  
<http://playground.tensorflow.org/>

___

## 第3章 基礎編
## 3.1 分類問題とは
教師あり学習の一つ。正解付きデータ（学習データ）によって学習することで、未知のデータを分類できるようになることを目指す。
## 3.2 分類器
### 3.2.1 digits データセット

In [None]:
import matplotlib.pyplot as plt
from sklearn import datasets

# digits データをロード
digits = datasets.load_digits()

# 画像を 2 行 5 列に表示
for label, img in zip(digits.target[:10], digits.images[:10]):
    plt.subplot(2, 5, label + 1)
    plt.axis('off')
    plt.imshow(img, cmap=plt.cm.gray_r, interpolation='nearest')
    plt.title('Digit: {0}'.format(label))
    
plt.show()

### 3.2.2 分類器を作って評価してみる
3と8のデータを分類する分類器をscikit-learnで作ってみましょう。

In [None]:
import matplotlib.pyplot as plt
from sklearn import datasets

# 手書き数字データの読み込み
digits = datasets.load_digits()

# 3 と 8 のデータ位置を求める
flag_3_8 = (digits.target == 3) + (digits.target == 8)

# 3 と 8 のデータを取得
images = digits.images[flag_3_8]
labels = digits.target[flag_3_8]

# 3 と 8 の画像データを 1 次元化
images = images.reshape(images.shape[0], -1)

分類器を生成して学習を実施します。

In [None]:
from sklearn import tree

# 3 と 8 の画像データを 1 次元化
images = images.reshape(images.shape[0], -1)

# 分類器の生成
n_samples = len(flag_3_8[flag_3_8])
train_size = int(n_samples * 3 / 5)
classifier = tree.DecisionTreeClassifier(max_depth=3)
classifier.fit(images[:train_size], labels[:train_size])

分類器の性能（正答率）を計算してみましょう。

In [None]:
from sklearn import metrics

expected = labels[train_size:]
predicted = classifier.predict(images[train_size:])

print('Accuracy:\n',
      metrics.accuracy_score(expected, predicted))

#続きはまた来月