# 1. Scikit-learn入門

## 1.1 はじめに

[Scikit-learn](http://scikit-learn.org/stable/)とは，[Python](https://www.python.org/)の機械学習ライブラリです．本ノートブックでは，[公式Tutorial](http://scikit-learn.org/stable/tutorial/index.html)を参考に，機械学習およびScikit-learnの基礎を復習します．

## 1.2 機械学習とは

一般に**学習問題**（learning problem）とは，n個のサンプルデータから未知のデータの特性を予測する問題を指します．サンプルが複数の次元を持つ場合，「データが複数の**特徴**（features）を持つ」と言います．

学習問題を，次のように大別できます．

* **教師あり学習**（supervised learning）：予測対象となる特性（attribute）が訓練データに与えられている問題です．詳細は，Scikit-learnの[supervised learningのページ](http://scikit-learn.org/stable/supervised_learning.html#supervised-learning)をご参照ください．教師あり学習として，以下の二種類があります．
  * **分類**（classification）：データの属するクラスを予測する問題です．分類問題の例としては，手書き文字認識があります．予測対象が離散値の問題，と考えることもできます．
  * **回帰**（regression）：予測対象が連続値の問題です．回帰問題の例としては，年齢や重さから，鮭の体長を予測する問題があります．
* **教師なし学習**（unsupervised learning）：予測対象となる特性が訓練データに与えられていない問題です．教師なし学習の目的は，似たような特徴を持つグループを発見すること（**clustering**）や，データの分布関数を推定すること（**density estimation**）や，高次元データを低次元に射影すること（**dimentionality reduction**）があります．詳細は，Scikit-learnの[unsupervised learningのページ](http://scikit-learn.org/stable/unsupervised_learning.html#unsupervised-learning)をご参照ください．

### 訓練データ（training set）とテストデータ（testing set）

慣習的に，機械学習では，手元のデータを２つに分けて使います．一つはモデルを訓練するために使う訓練データであり，もう一つはモデルを評価するために使うテストデータです．

## 1.3 データセットの読み込み

Scikit-learnでは，分類問題用のサンプルデータとして[iris dataset](http://archive.ics.uci.edu/ml/datasets/Pen-Based+Recognition+of+Handwritten+Digits)と[digits dataset](http://archive.ics.uci.edu/ml/datasets/Pen-Based+Recognition+of+Handwritten+Digits)，回帰問題用のサンプルデータとして[boston house prices dataset](http://archive.ics.uci.edu/ml/datasets/Housing)を用意しています．

以下では，`iris`と`digits`を読み込みます．

In [2]:
from sklearn import datasets
iris = datasets.load_iris()
digits = datasets.load_digits()

データセットは，辞書型です．データは`.data`メンバに格納されており，サンプル数×特徴数の`numpy.array`です．教師あり学習問題の場合，予測対象（target）は`.target`メンバに格納されています．詳細は[こちら](http://scikit-learn.org/stable/datasets/index.html#datasets)をご参照ください．

In [3]:
iris.data

array([[ 5.1,  3.5,  1.4,  0.2],
       [ 4.9,  3. ,  1.4,  0.2],
       [ 4.7,  3.2,  1.3,  0.2],
       [ 4.6,  3.1,  1.5,  0.2],
       [ 5. ,  3.6,  1.4,  0.2],
       [ 5.4,  3.9,  1.7,  0.4],
       [ 4.6,  3.4,  1.4,  0.3],
       [ 5. ,  3.4,  1.5,  0.2],
       [ 4.4,  2.9,  1.4,  0.2],
       [ 4.9,  3.1,  1.5,  0.1],
       [ 5.4,  3.7,  1.5,  0.2],
       [ 4.8,  3.4,  1.6,  0.2],
       [ 4.8,  3. ,  1.4,  0.1],
       [ 4.3,  3. ,  1.1,  0.1],
       [ 5.8,  4. ,  1.2,  0.2],
       [ 5.7,  4.4,  1.5,  0.4],
       [ 5.4,  3.9,  1.3,  0.4],
       [ 5.1,  3.5,  1.4,  0.3],
       [ 5.7,  3.8,  1.7,  0.3],
       [ 5.1,  3.8,  1.5,  0.3],
       [ 5.4,  3.4,  1.7,  0.2],
       [ 5.1,  3.7,  1.5,  0.4],
       [ 4.6,  3.6,  1. ,  0.2],
       [ 5.1,  3.3,  1.7,  0.5],
       [ 4.8,  3.4,  1.9,  0.2],
       [ 5. ,  3. ,  1.6,  0.2],
       [ 5. ,  3.4,  1.6,  0.4],
       [ 5.2,  3.5,  1.5,  0.2],
       [ 5.2,  3.4,  1.4,  0.2],
       [ 4.7,  3.2,  1.6,  0.2],
       [ 4

In [5]:
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

データは常に二次元配列で表現されますが，ものによっては別の形状もあり得ます．例えば`digits`の場合は，オリジナルの画像データ（8x8）に，次のようにアクセス可能です．

In [6]:
digits.images[0]

array([[  0.,   0.,   5.,  13.,   9.,   1.,   0.,   0.],
       [  0.,   0.,  13.,  15.,  10.,  15.,   5.,   0.],
       [  0.,   3.,  15.,   2.,   0.,  11.,   8.,   0.],
       [  0.,   4.,  12.,   0.,   0.,   8.,   8.,   0.],
       [  0.,   5.,   8.,   0.,   0.,   9.,   8.,   0.],
       [  0.,   4.,  11.,   0.,   1.,  12.,   7.,   0.],
       [  0.,   2.,  14.,   5.,  10.,  12.,   0.,   0.],
       [  0.,   0.,   6.,  13.,  10.,   0.,   0.,   0.]])


## 学習と予測

## モデルの保存

## Tips