# 第2回講義

<small><i>Kenji Ogawa, Yusuke Sugomori</i></small>

**目的**: numpy, scipy, scikit-learn の使い方を理解する

- すでに知っているという人は宿題を進めてください。
- 宿題も終わってしまった人は[100 numpy exercises](http://www.labri.fr/perso/nrougier/teaching/numpy.100/)に挑戦してみてください。


### 目次

#### 1. numpy実装 vs 自前実装 （講義の内容の確認）

#### 2. numpy

  - 準備

    - dir
    - サブモジュール
    - ?
    - version

  - 実践
  
    - 行列・ベクトルに関する計算
    - 成分の取り出し、スライス
    - 演算子
    - 初期化
    - Broadcasting
    
    ** 問題 1: 1-1, 1-2 **
    <br><br>

    - 行列の成分をリストとして取り出す
    - 条件式
    - 乱数
      - 乱数シード


#### 3. scikit-learn (sklearn)

    - train_test_split
  
  - MNIST 手書き数字データ  
    - データの取得

  - Train, Validation, Test
    - Train
    - Validation
    - Test
    
  - Train, Validation, Test 例
  
#### 参考：画像処理

  - matplotlib
  - ２次元画像の扱い

** 問題 2: 2-1, 2-2, 2-3, 2-4 **
<br><br>

## 1. numpy実装 vs 自前実装

$$ \displaystyle\sum_{n = 1}^{N} \frac{1}{n^2} $$

の実装での比較

In [1]:
import numpy as np

def sum_handmade_1(xs):
    sum_ = .0
    for x in xs:
        sum_ += x
    return sum_

In [2]:
N = 100000000
xs = 1 / (np.arange(1, N))**2

In [3]:
# numpy
%time a = xs.sum()

In [4]:
# native implementation (handmade)
%time b = sum_handmade_1(xs)

In [5]:
# compare results
print('{0:.15f}'.format(a))
print('{0:.15f}'.format(b))

計算中の丸め込みにより自前実装だと誤差が大きいことが確認できる。
自前でも誤差を小さくするよう実装をすることはできるが...

In [6]:
def sum_handmade_2(xs):
    src = xs
    while(len(src) > 1):
        sums_neighbor = []
        for i in range(len(src) // 2):
            sums_neighbor.append(src[2 * i] + src[2 * i + 1])
        if len(src) % 2 == 1:
            sums_neighbor.append(src[-1])
        src = sums_neighbor
    return sums_neighbor[0]

In [7]:
%time c = sum_handmade_2(xs)

In [8]:
print('{0:.15f}'.format(c))

それでもnumpyを使ったほうが正確で、かつ `sum_handmade_2` は処理に時間がかかってしまう。

**数値計算はライブラリに頼って、Deep Learningの理論の理解に時間をかけましょう**

## 2. numpy


### 準備

#### dir: モジュールやクラスメンバーの確認

In [9]:
import numpy as np
dir(np)

##### サブモジュールにも関数が入っています

In [10]:
dir(np.linalg)

In [11]:
dir(np.random)

#### ?: 関数の詳細を確認

In [13]:
np.random.randint?

#### __version__: バージョン確認

In [14]:
np.__version__

#### 実践

すべての機能について説明することはできないので、ここでは特に今後の講義・演習で必要になってくる基本的な事柄について触れていきます。


※ コードの部分は、結果を予想してから実行ボタンを押してください。

※ どのような挙動になるのか、自分で一部変更して結果を確認してみてください。

#### 行列・ベクトルに関する計算

In [15]:
import numpy as np

W = np.array([[1, 2, 3], [4, 5, 6]])
x = np.array([7, 8, 9])

print(W)
print(x)

# transpose
print(W.T)

# flatten
print(W.flatten())

# reshape
print(W.reshape(3, 2))

In [16]:
# dot product（内積）

W = np.array([[1, 2, 3], [4, 5, 6]])
x = np.array([7, 8, 9])

print(np.dot(W, x))
print(np.dot(x, W.T))

In [17]:
# scalar operation（スカラー演算）

W = np.array([[1, 2, 3], [4, 5, 6]])
x = np.array([7, 8, 9])

print(W * 2)
print(-x)

#### 成分の取り出し、スライス

```
x[begin: end: slice]
x[begin: end] （2番めのコロンは省略可）
```

※ begin と end の考え方

```
x = np.array([7, 8, 9, 10])

component 7  8  9  10
index     0  1  2   3  4
          |            |
          begin        end
```

In [18]:
x = np.array([7, 8, 9, 10])

print(x[0])
print(x[-1])
print()

print(x[0:4:1])
print(x[:-1])
print(x[1:])
print()

print(x[::2])
print(x[::-1])
print(x[1::2])

In [19]:
W = np.array([[1, 2, 3], [4, 5, 6]])

print(W)
print()

print(W[0])
print(W[1])
print()

print(W[:, 0])
print(W[:, 1])
print(W[:, 2])
print()

print(W[::-1])
print()

print(W[:, ::-1])
print()

print(W[::-1, ::-1])

#### 演算子 (sum, norm)

In [20]:
# sum, axis
W = np.array([[1, 2, 3], [4, 5, 6]])

print(W)
print()

print(W.sum())
print()

print(W.sum(axis=0))
print()

print(W.sum(axis=1))

In [21]:
# squared norm
# sqrt(7*7 + 8*8 + 9*9) = 13.928....
x = np.array([7, 8, 9])
np.linalg.norm(x, ord=2)

#### 初期化 (ones, zeros, reshape)

In [22]:
#　ones, zeros, reshape

print(np.zeros(10))
print()

print(np.ones(10))
print()

print((np.ones(10) * 0.5))
print()

print(np.arange(10).reshape(2, 5))
print()

z = np.zeros(10)
x = np.arange(7, 10)
z[:len(x)] += x
print(z)

#### Broadcasting

`W.shape = (M,N)`, `x.shape = (N,)`の場合

(N,) => (M, N) とする事で `x`を`W`の`shape`に合わせる

※ ただし (M,) => (M, N) のような broadcast はできない。

参考：
- http://docs.scipy.org/doc/numpy-1.10.1/user/basics.broadcasting.html
- http://sucrose.hatenablog.com/entry/2014/12/15/000352

In [23]:
# broadcast

W = np.array([[1, 2, 3], [4, 5, 6]])
x = np.array([7, 8, 9])

print(W)
print(x)
print()

print(x - 1)
print()

print(W - 1)
print()

print(W * x)
print()

print(W + x)
print()

##### numpy.newaxis を使った broadcasting

`x.shape = (3,1)`, `y.shape = (3,)` のとき
まず右側の数字 `x.shape[-1]` と `y.shape[-1]` を合わせる

`x.shape (3,1) => (3,3)`

次に足りないのはそのままコピーされる

`y.shape (3,) => (3,3)`

In [24]:
W = np.array([[1, 2, 3], [4, 5, 6]])
x = np.array([7, 8, 9])

print(W.shape)
print(W.T.shape)
print()

print(x.shape)
print(x.T.shape)  # x と x.T の shape は同じ
print()

print(x[np.newaxis, :])  # two dimension
print()

print(x[np.newaxis, :].shape)
print()

print(x[:, np.newaxis])  # two dimension with different shape
print()

print(x[:, np.newaxis].shape)

print(x[:, np.newaxis] * x)
print()

print(x[np.newaxis].shape)  # x[np.newaxis,:]と同じ
print()

print(W.T + x[np.newaxis, :].T)

## 問題 1

### 1-1. 

```
x = np.array([7, 8, 9])
W = np.array([[1, 2, 3], [4, 5, 6]])
```

と同様の `x`, `W` を得るように `np.arange` を用いてコードを書いてください。


### 1-2.

以下のような表式を得るように `W` を変形してください。

```
[[ 1.  0. -1.]
[ 4.  3.  2.]]
```

<small>ヒント: 縦の差は3,横の差は-1</small>

In [1]:
# write down your code （解答は一番下にあります）

#### 行列の成分をリストとして取り出す

参考：(Advanced Indexing) http://docs.scipy.org/doc/numpy-1.10.0/reference/arrays.indexing.html

In [26]:
x = np.arange(1, 3)[:, np.newaxis] * np.arange(1, 5)
print(x)
print()

y = x[[0, 1, 0, 1], [0, 1, 2, 3]]
print(y)
print()

# z is equivalent as y
# [(0,0), (1,1), (0,2), (1,3)] is zip([0,1,0,1], [0,1,2,3]) 
z = np.array([x[0, 0], x[1, 1], x[0, 2], x[1, 3]])
print(z)
print()

#### 条件式

- `numpy.array`に条件式を書くと、成分毎の`True`, `False`を返す
- `numpy.array`のかぎ括弧内に条件式を書くと`True`になっている成分だけを取り出した配列を返す

※ `numpy.array`ではなく、`list`だと振る舞いは異なる。

In [27]:
a = np.arange(10)
print(a)
print(a < 5)
print()

b = np.arange(50, 60)
print(b)
print(b[a < 5])

#### 乱数

In [28]:
# ガウス分布

import numpy as np
import matplotlib.pyplot as plt

# グラフをipython notebook内に表示
%matplotlib inline

r = np.random.normal(0, 10, 1000)  # この数字を色々変えてみましょう。
plt.plot(r, 'x')
plt.show()

In [29]:
# 一様乱数

r = np.random.uniform(-10, 10, 1000)  # この数字を変えてみよう。
plt.plot(r, 'x')
plt.show()

##### 乱数シード

乱数を用いて実験を行うと都度実験結果が異なってしまい、結果を適切に評価できなくなってしまうため、機械学習や深層学習の実験では、はじめに乱数シードを行うことが多いです。

In [31]:
import numpy as np
import sklearn.utils

# random.seedを設定するといつも同じ乱数が生成される

np.random.seed(12345)  # ここをコメントアウトすると？, (123) => ()にすると？

print(sklearn.utils.shuffle(range(10)))
print(sklearn.utils.shuffle(range(10)))
print(sklearn.utils.shuffle(range(10)))

In [32]:
# 応用編

# RandomStateを使った書き方, 目的別に乱数を発生させる場合に必要
import numpy as np
import sklearn

rng0 = np.random.RandomState(12345)
rng1 = np.random.RandomState(34567)

print(sklearn.utils.shuffle(range(10), random_state=rng0))
print(sklearn.utils.shuffle(range(10), random_state=rng1))
print(sklearn.utils.shuffle(range(10), random_state=rng0))
print(sklearn.utils.shuffle(range(10), random_state=rng1))
print()


rng0 = np.random.RandomState(12345)
rng1 = np.random.RandomState(34567)

print(sklearn.utils.shuffle(range(10), random_state=rng1))
print(sklearn.utils.shuffle(range(10), random_state=rng1))
print(sklearn.utils.shuffle(range(10), random_state=rng0))
print(sklearn.utils.shuffle(range(10), random_state=rng0))

## 3. sklearn

http://scikit-learn.org/stable/

#### train_test_split

学習データとテストデータを高速に分割してくれる

In [36]:
from sklearn.cross_validation import train_test_split
import string

lettersAtoE = string.ascii_uppercase[:5]
print(lettersAtoE)
print()

train0to4, test0to4, trainAtoE, testAtoE = train_test_split(range(5), lettersAtoE)

# ABCDEを01234と読みかえるとどうなるか？
print(train0to4)
print(trainAtoE)
print()

print(test0to4)
print(testAtoE)

### MNIST 手書き数字データ

http://yann.lecun.com/exdb/mnist/

#### データの取得

In [37]:
from sklearn.datasets import fetch_mldata
import matplotlib.pyplot as plt  # matplotlib の使い方は後述
%matplotlib inline

# load data on your directry ~/scikit_learn_data/mldata/
# if data does'nt exist, it downloads the data from site.
mnist = fetch_mldata('MNIST original')

# mnist.dataにはたくさんの画像データ（手書き数字）が入っている。
print(mnist.data.shape)  # image 28 x 28 pixel
print(mnist.target.shape)  # the label 0,1,2,...,9
print(set(mnist.target))

plt.imshow(mnist.data[0].reshape(28, 28), cmap='gray', interpolation='none')
plt.show()

### Train, Validation, Test 例

In [39]:
# Select one of Classifeir (LinearSVC, KNeighbor, SDG) using validation set
# and test best set

import numpy as np

from sklearn.cross_validation import train_test_split
from sklearn.datasets import fetch_mldata
from sklearn.svm import LinearSVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import SGDClassifier

from sklearn.metrics import accuracy_score

mnist = fetch_mldata('MNIST original')
M = len(mnist.data)
N = 2000  # Use part of MNIST data to save computation time
# randomly select N numbers from 0 to M
selected = np.random.permutation(range(M))[:N]

# Split data into Train, Valid, Test
train_valid_X, test_X, train_valid_y, test_y =\
    train_test_split(mnist.data[selected], mnist.target[selected])
train_X, valid_X, train_y, valid_y =\
    train_test_split(train_valid_X, train_valid_y)

classifiers = [LinearSVC(), KNeighborsClassifier(), SGDClassifier()]

# Train each classifier with Train set
accs = []
for clf_type, classifier in enumerate(classifiers):
    classifier.fit(train_X, train_y)
    pred_train = classifier.predict(train_X)
    acc_train = accuracy_score(train_y, pred_train)
    pred_valid = classifier.predict(valid_X)
    acc_valid = accuracy_score(valid_y, pred_valid)
    print("classifier type: %d, Train Accuracy: %f, Validation Accuracy %f" \
        % (clf_type, acc_train, acc_valid))
    accs.append(acc_valid)

# Chose best classifier with the highest validation accuracy
i_clf_best = np.argmax(accs)
print("Best Classifier: %d" % i_clf_best)
clf_best = classifiers[i_clf_best]

# Test selected classifier
pred = clf_best.predict(test_X)
acc = accuracy_score(test_y, pred)
print("Test(Best Classifier): %f" % acc)

### 参考： 画像処理

In [40]:
import scipy.ndimage

ZOOM = 10  # 変えてみよう
SIGMA = 10  # 変えてみよう
ANGLE = 45  # 変えてみよう

img = mnist.data[-1].reshape(28, 28)
plt.imshow(img, cmap='gray', interpolation='none')
plt.show()

# 縮小拡大
img = scipy.ndimage.zoom(img, (ZOOM, ZOOM), order=1)
# ぼかし
img = scipy.ndimage.gaussian_filter(img, SIGMA)
# 回転
img = scipy.ndimage.rotate(img, ANGLE)

plt.imshow(img, cmap='gray', interpolation='none')
plt.show()
# edge抽出など
# http://scikit-image.org/docs/dev/auto_examples/plot_canny.html
# http://www.tp.umu.se/~nylen/fnm/pylect/advanced/image_processing/index.html

In [42]:
import sklearn
imgs = list(map(lambda x: x.reshape(28, 28), sklearn.utils.shuffle(mnist.data)))

fig = plt.figure()
ax = fig.add_subplot(1, 4, 1)  # change to (2,2,1)
ax.imshow(imgs[0], cmap='gray', interpolation='none')
ax = fig.add_subplot(1, 4, 2)  # change to (2,2,2)
ax.imshow(imgs[1], cmap='gray', interpolation='none')
ax = fig.add_subplot(1, 4, 3)  # change to (2,2,3)
ax.imshow(imgs[2], cmap='gray', interpolation='none')
ax = fig.add_subplot(1, 4, 4)  # change to (2,2,4)
ax.imshow(imgs[3], cmap='gray', interpolation='none')
plt.show()

### matplotlib

In [43]:
import matplotlib.pyplot as plt
%matplotlib inline

y = [0, 2, 1]

plt.plot(y)
plt.show()

In [46]:
import matplotlib.pyplot as plt
%matplotlib inline

# 2 curves
y1 = [0, 2, 1]
y2 = [1, 3, 4]

plt.plot(y1)
plt.plot(y2)
plt.show()

In [47]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

x = [3, 4.5, 5, 6]
y = [0, 2, 1, 3]

plt.plot(x, y)
plt.show()

# scatter plot
plt.plot(x, y, 'o')
plt.show()

#### 2次元画像の扱い

`pyplot.imshow` を用いる

参考：
- http://matplotlib.org/users/pyplot_tutorial.html
- http://matplotlib.org/1.4.1/examples/index.html

In [48]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

# By default, largest value is assigned as white, smallest value is assigned as black
a = [[1.0, 0.7], [0.2, 0.0]]
plt.imshow(a, cmap='gray', interpolation='none')
plt.show()

In [49]:
# using subplot
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

a = [[1.0, 0.7], [0.2, 0.0]]
b = [[0.0, 0.2], [0.7, 1.0]]
fig = plt.figure()
ax = fig.add_subplot(1, 2, 1)  # タテ１　ヨコ２　１番目
ax.imshow(a, cmap='gray', interpolation='none')
ax = fig.add_subplot(1, 2, 2)  # タテ１　ヨコ２　２番目
ax.imshow(b, cmap='gray', interpolation='none')
plt.show()

## 問題 2

2-1. `mnist.data` には画像は何枚あるでしょうか。

2-2. 画像データはどのようなグレースケールで表されているでしょうか。

2-3. ４枚の数字を 縦2 $\times$ 横2 で表示してみましょう。

2-4. mnist にはどの数字がどれだけ入っているでしょうか。

In [2]:
# WRITE DOWN YOUR CODE

<br><br>
### 問題 1 の答え

In [3]:
import numpy as np

W = np.array([[1,2,3],[4,5,6]])
x = np.arange(7, 10)
W = np.arange(1,7).reshape(2, 3)
print(x)
print(W)

print(W[:, ::-1] - 2)

<br><br>
### 問題 2 の答え

In [7]:
import sklearn
from sklearn.datasets import fetch_mldata

import matplotlib.pyplot as plt
%matplotlib inline

mnist = fetch_mldata('MNIST original')

# 2-1
print(len(mnist.data))

# 2-2
print(mnist.data.dtype)
print(mnist.data.max())
print(mnist.data.min())

# 2-3
imgs = list(map(lambda x: x.reshape(28, 28), sklearn.utils.shuffle(mnist.data)))

fig = plt.figure()
for i in range(4):
    ax = fig.add_subplot(2, 2, i + 1)
    ax.imshow(imgs[i], cmap='gray', interpolation='none')
    
# 2-4
import collections
collections.Counter(mnist.target)