# ニコニコAIスクール 第2回 機械学習入門 基礎演習
## 今日の目標
* 機械学習の目的及び種類とその評価方法を理解する。
* 第1回に引き続き、numpyで頻出する関数の使い方を実践的に理解する。
* csvファイルを題材として、実データの読み書きができる。
* k-NN法を理解し、それをnumpyを用いて実装できる。

## 目次
* 総和、平均、最大値、最小値(np.sum, np.mean, np.max, np.min)
* L2ノルム (np.linalg.norm)
* 数学関数 (np.sin, np.cos, np.tah, np.exp, np.log など)
* 乱数生成 (np.random.random, np.random.normal)
* ソート関連(np.sort, np.argsort)
* ユークリッド距離・コサイン類似度
* ファイル入出力

# はじめに

* エラーがでたら落ち着いてエラーを読んでみましょう(エラーを恐れる必要はありません)
* エラーを読んでも理解できない場合は，エラー文をそのままググると解決法が見つかることが多いです
* 詰まったな，と思ったら気軽に質問して下さい
* numpyはドキュメントが充実しています．こんな計算出来ないだろうか，この関数の引数について知りたい，といった場合はドキュメントを見ると解決することが多いです
(https://docs.scipy.org/doc/)

## Colaboratoryことはじめ
* コードの編集：各セルをクリックして、直接編集
* コードの実行：セル左上の再生ボタンをクリックまたはShift+Enter
* 実行停止：セル左上の停止ボタンをクリック
* Notebook中のコードを全て実行："Runtime"->"Run all"
* 再起動："Runtime"->"Restart runtime"
* 出力のクリア："Edit"->"Clear all outputs"

詳しい操作はチュートリアルを参照してください。

### Jupyter notebookとの比較
|操作|Colaboratory|Jupyter Notebook|
|:--|--:|--:|
|コードの編集|セルをクリック|セルをクリック|
|コードの実行|セル左上の再生ボタン|画面上の再生ボタン|
|実行停止|セル左上の停止ボタン|画面上の停止ボタン|
|全て実行|"Runtime"->"Run all"|"Cell"->"Run all"|
|再起動|"Runtime"->"Restart runtime"|"Kernel"->"Restart"|
|クリア|"Edit"->"Clear all outputs"|"Kernel"->"Restart and clear output"|

## この演習をJupyter notebook上で実行したい方へ
Pythonは通常インデントの幅を4とすることが多いのですが、Colaboratoryのデフォルトのインデント幅は例外的に2になっています。  
そこで、本来デフォルトの4に設定されているJupyter notebook側の設定を変更する必要があります。  

もしこの演習をJupyter notebook上で実行したい場合は、次の指示に従ってください:
1. "F12"キーを押して、出てきた画面内の「コンソール (Console)」タブをクリック
2. 次のコードをコンソールに入力、実行：

```
var cell = Jupyter.notebook.get_selected_cell();
var config = cell.config;
var patch = {
      CodeCell:{
        cm_config:{indentUnit:2}
      }
    }
config.update(patch)
```

もし設定を戻したい場合は、同様に次のコードを実行すると戻ります：
```
var cell = Jupyter.notebook.get_selected_cell();
var config = cell.config;
var patch = {
      CodeCell:{
        cm_config:{indentUnit: null} // only change here.
      }
    }
config.update(patch)
```

参考：http://jupyter-notebook.readthedocs.io/en/stable/frontend_config.html

ただし、一部の画像の表示が乱れる場合があります。

# 1. Numpy入門 (2)

In [None]:
import numpy as np  # numpyを'np'という名前でインポートする

## 配列の総和、平均、最大値、最小値 (np.sum, np.mean, np.max, np.min) 
* ベクトルの最大値を得る
* データの平均を計算する
* 行列の各行の最小値を得る

などの操作は非常に頻繁に現れます。Numpyでは、配列の形状にかかわらず上記の操作を1行で書くことができます。

In [None]:
# 長さ5のベクトル
x = np.array([0.1, 0.2, 0.3, 0.4, 0.5])
x.shape

In [None]:
# np.sum: 配列の総和
np.sum(x)

In [None]:
# np.mean: 配列の平均
np.mean(x)

In [None]:
# np.max: 配列の最大値
np.max(x)

In [None]:
# np.min: 配列の最小値
np.min(x)

In [None]:
# 同じ操作を多次元配列で行ってみる
X = np.random.random((5, 10))  # (5, 10)の乱数行列を生成 (後述)
X.shape

In [None]:
print(np.sum(X))
print(np.mean(X))
print(np.max(X))
print(np.min(X))

### axis (軸) の指定
上記の関数は、デフォルトでは配列全体にたいして1つの値しか返しません。  
「各行 (0軸目)」「各列 (1軸目)」などの特定の軸上で平均値等を計算したい場合には**axisキーワード**を指定します。  
軸のインデックスは0から始まります。

In [None]:
print(np.sum(X, axis=0))  # 各行 (0軸目) の総和を求める (各要素は1行=5つの総和)
print(np.sum(X, axis=0).shape)  # 結果は1次元配列になる

In [None]:
print(np.sum(X, axis=1))  # 各列 (1軸目) の総和を求める (各要素は1列=10個の総和)
print(np.sum(X, axis=1).shape)  # 結果は1次元配列になる

## 最大/最小値のインデックスを取る (np.argmax, np.argmin)
さて、これで配列中の最大/最小値を取ることが出きました。  
では、**最大・最小値をとる要素が配列中のどこにあるのか**がほしい場合はどうすればいいでしょう？  
np.argmaxとnp.argminを使いましょう！

In [None]:
# 長さ5のベクトル
x = np.array([0.1, 0.2, 0.3, 0.4, 0.5])
x.shape

In [None]:
np.argmax(x)  # -> 4 (5つ目の要素)

In [None]:
np.argmin(x)  # -> 0 (1つ目の要素)

## 書いてみよう：配列の操作
1. [1, 2, ..., 10]なるベクトルをnp.arange関数で作成し、その総和と平均を計算せよ。
2. 多値分類問題では、「サンプルiがクラスcに所属する確率」を(N, C)の行列に格納し、各サンプルにおいて最も大きい確率を取るインデックスをとる処理が行われる。
    <img src="http://artilects.net/nico2ai/exercise_fig1.png" width=50%>
y = XW + bを計算し、np.argmax関数を使って最大値を得るインデックスを計算せよ。

In [None]:
# Q1
# WRITE ME!

In [None]:
# Q2
N = 10
D = 2
C = 5
X = np.random.random((N, D))
W = np.random.random((D, C))
b = np.random.random((1, C))  # ブロードキャスティングができるように0次元目に1を詰める

# WRITE ME!
# まずXW + bを計算 (行列積を使おう)

## データをどう格納するか？ (講義資料末尾参照)
実際にnumpyでアルゴリズムを書く時、「データ」はどういう形で入っているのでしょうか？  
Pythonについては、基本的に **(サンプル数、次元数)** の形で格納することをおすすめします。  
どちらでも全く問題なく書けるのですが、

* 「i番目のサンプル」にアクセスするときに data[i] と書ける (逆の場合data[:, i])
* scikit-learnなどの主要ライブラリが上記に従っている
* Numpyがデフォルトでrow-major orderを採用している (下記参照)

などの理由によりサンプル数を0次元目とするのが一般的です。

### *行アクセスと列アクセスの速度の違い
numpyがどのように配列をメモリ上に配置しているかは、次の簡単な実験からも類推することができます：  
(参考： http://kaisk.hatenadiary.com/entry/2015/02/19/224531)

In [None]:
a = np.random.rand(2000, 2000)
%timeit a[0,:].sum()  # 行へのアクセスは速い
%timeit a[:,0].sum()  # 列へのアクセスは遅い

## ノルム (np.linalg.norm)
np.linalg.normは、ベクトルを引数としてとった場合、L2ノルム (ざっくり言うとユークリッド距離)
\begin{equation}
\|x\|_2 = \sqrt{x_1^2 + x_2^2 + \dots + x_n^2}
\end{equation}

行列を引数としてとった場合、フロベニウスノルム
\begin{equation}
\|A\|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n \left| a_{ij}^2 \right|}
\end{equation}

を返します。axisを指定することで、行列から各行または列のL2ノルムを求めるなど、頻繁に使われます。

In [None]:
e = [-4, -3, -2, -1,  0,  1,  2,  3, 4]
np.linalg.norm(e)

In [None]:
f = [1, 1]
np.linalg.norm(f)

In [None]:
g = np.array([[1, 2], 
              [3, 4]])
np.linalg.norm(g, axis=1)  # axis=1 (各行) に関してL2ノルムを計算

## 数学関数 (np.sin, np.cos, np.tah, np.exp, np.log など)
NumpyにはPythonの標準とは別に専用の数学関数が用意されています。  
また、これらの関数は**ベクトルや行列を引数として**、要素ごとに演算を適用できます。

In [None]:
np.sin(np.pi / 2.0)  # π/2=90度

In [None]:
np.log([1, np.e, np.e ** 2, np.e ** 3])  # **演算子は累乗

In [None]:
np.log(0)  # log0は定義できないのでnumpyではマイナス無限大が返る

## 乱数生成

続いて乱数の作り方を覚えましょう。  
乱数は次のような場面で使います：
* 学習器のパラメータ (重み行列) をランダムに初期化する
* 複数のサンプルをランダムにシャッフルする

### np.random.seed(seed)
乱数の「種」を初期化します。「種」には自由に値を設定できます。  
通常乱数は環境によって毎回結果が変わってしまいますが、「種」が一緒であれば異なる環境でも同じ数字を再現できます。  
この機能は (この講義のように) 再現性が重要な場合に非常に重要です。

### np.random.random(size)
0以上1未満の一様分布を生成します (shapeには形状のタプルが入ります)。

### np.random.random(loc=0.0, scale=1.0, size)
平均がloc、分散がscaleの正規分布 (ガウス分布) N(loc, scale) を生成します。

わからなくなったらドキュメントを参照しましょう：
* https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.random.random.html#numpy.random.random
* https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.random.normal.html

In [None]:
# Ctrl+Enterで同じセルを何回か実行してみよう (種を指定しない)
np.random.random()

In [None]:
# Ctrl+Enterで同じセルを何回か実行してみよう (種を指定する)
np.random.seed(1701)
np.random.random()

In [None]:
# 複数一気に作る
np.random.random(5)

In [None]:
# 正規分布
np.random.normal(size=5)  # random.randomと微妙に呼び出しが違うので注意

試しに1000個程度値を生成してプロットしてみると一目瞭然です：

In [None]:
import matplotlib.pyplot as plt
plt.figure()
plt.hist(np.random.random(1000), bins=20)
plt.title("Uniform distribution U[0, 1]")
plt.show()

In [None]:
plt.figure()
plt.hist(np.random.normal(0, 1, 1000), bins=20)
plt.title("Normal (Gaussian) distribution N(0, 1)")
plt.show()

### 配列をシャッフル
配列のシャッフルにはnp.random.shuffleを、配列からランダムに選び出すにはnp.random.choiceを使います。  

In [None]:
x = np.arange(10)
print(x)
np.random.shuffle(x)  # ランダムにシャッフル
print(x)

In [None]:
x = np.arange(12)
print(np.random.choice(x, 10))  # ランダムに10個選ぶ (重複を許す)
print(np.random.choice(x, 10, replace=False))  # ランダムに10個選ぶ (重複を許さない)

## 書いてみよう：乱数生成
1. -1から1までの一様な乱数を生成せよ
2. 深層学習では、重み行列を入力側の層のユニット数nに対して、
$$ N(0, \frac{1}{\sqrt{n}}) $$

なる正規分布に従う乱数で初期化するテクニックが知られている (Xavierの初期化)。  
入力層のユニット数が100、出力層のユニット数が50である重み行列WをXavierの初期化に従って作成せよ。

### ヒント
* 重み行列の形状は(100, 50)
* 平方根はnp.sqrt
* np.random.normalでscaleを指定するかN(0, 1) * scaleとしてやれば良い (正規分布の性質)

In [None]:
# Q1
# WRITE ME!

In [None]:
# Q2
# WRITE ME!
W = np.zeros((100, 50))  # これを書き換える

In [None]:
# プロットしてみよう
plt.figure()
plt.hist(W.flatten(), bins=20)
plt.title("Xavier initialization (red line is 2sigma)")
plt.axvline(x=0.2, c='r')
plt.axvline(x=-0.2, c='r')
plt.show()

### *整数の乱数 np.random.randint(low, high, size)
もちろん整数も作れます。  
low <= x < highなる整数を作ります。  
https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.random.randint.html

In [None]:
np.random.randint(10, size=(100,))  # 0から9

In [None]:
np.random.randint(-10, 11, size=(100,))  # -10から10

## ソート関連(np.sort, np.argsort)
k-NNアルゴリズムでは**距離が小さいベクトルをk本取得する**操作を使います。  
高速なソートアルゴリズムもnumpyは備えています。

In [None]:
f = np.array([5, 2, 3, 1, 4])
np.sort(f)

In [None]:
np.argsort(f)

In [None]:
f[np.argsort(f)]  # 確かにインデックスが取れている (advanced indexingを使用)

大きい順で欲しい場合には、スライシング [start:end:step]を使いましょう：

In [None]:
np.sort(f)[::-1]  # 逆順で取るときにはstepを-1にすれば良い

## 書いてみよう：ソート
Q: np.sortを使用して，fの最大の数，上から2番目の数，最小の数を出力せよ。

In [None]:
# WRITE ME!

## 2. 機械学習の距離尺度 (ユークリッド距離・マンハッタン距離・コサイン類似度)
### ユークリッド距離
講義で述べたとおり、
今日扱うk-NN法では、ユークリッド距離 (L2ノルム)
$$ \|p - q\|_2 = \sqrt{\sum_{i=1}^D (p_i - q_i)^2}$$
を使います。ユークリッド距離はnp.linalg.normを用いて書くことができます。

In [None]:
x = np.array([1, 0])
y = np.array([0, -1])

def euclidian_distance(p, q):
  return np.linalg.norm(p - q)
  
euclidian_distance(x, y)

### マンハッタン距離
ユークリッド距離に続いてよく使われる距離尺度としては、マンハッタン距離 (L1ノルム)
$$ \|p - q\|_1 = \sum_{i=1}^D |p_i - q_i|$$
があります。これも同様に書くことができます。

In [None]:
def manhattan_distance(p, q):
  return np.linalg.norm(p - q, ord=1)
  
manhattan_distance(x, y)

### コサイン類似度 (コサイン距離)
コサイン類似度は、次のように定義される尺度で、-1から1までの値が得られます。  
コサイン類似度が1の時2本のベクトルは最も近く、-1の時は最も遠いと判断されます。  
コサイン類似度は距離の公理を満たしませんが、自然言語処理などの分野でしばしば使用されます。

$$ cosine(p, q) = \frac{p \cdot q}{\| p \| \cdot \|q \|} $$

## 書いてみよう：コサイン類似度
Q: 上記のコサイン類似度を実装せよ。

In [None]:
def cosine_similarity(p, q):
  # WRITE ME!
  
print(cosine_similarity(x, y))
print(cosine_similarity(x, x))
print(cosine_similarity(x, -x))

# 3. ファイルの入出力
本節では、実データに機械学習を適用する際に不可欠な、データの読み書きに焦点をあて、csvファイルの読み書きを題材にその基礎を解説・実践します。  
実際には、以下に示すモジュールを用いればサンプルより簡単にデータを読み込み・処理できますが、時間の関係上今回は飛ばします。
* csvモジュール
* jsonモジュール
* pandas (データ解析支援ライブラリ)

とはいえ、pandasは大規模データを取り扱うための各種機能を搭載しているため、データがある程度複雑なら、**pandasを利用したほうが良い**です。

## osモジュール
通常、処理コードとデータは別々のディレクトリに保存されており、適切なファイルパスを指定し、それを読み込む必要があります。こうした
* ディレクトリ間の移動
* ディレクトリの作成
* パスの作成・加工
などを担うのがosモジュールです。今回は、
1. テキストファイルの読み込み
2. CSVファイル (irisデータセット) の読み書き
3. The Allen Mouse Brain Connectivity Atlasの読み込み
の3つの題材を通じて、osモジュールの主要関数の使い方を学習します。

### 今回のディレクトリ構成
```
+---nico2ai_lecture2_exercise.ipynb (このファイル)
+---nico2ai_lecture2_practice.ipynb
+---data/
    +---sample.txt
    +---iris.csv
    +---nature/
        +---nature13186-s3.csv
        +---nature13186-s4-w-ipsi.csv
        +---nature13186-s5.csv
```

### 事前準備 (一度のみ実行)

In [None]:
!wget  https://www.dropbox.com/s/8fqayqdai15en2f/data.zip
!unzip -n data.zip

### ファイルの読み込み
ファイルの読み込みには、**open関数**を用いまず。第2引数のモードには
* "r": 読み込み専用
* "w": 書き込み専用 (ファイルが存在しない場合、新規作成)
* "r+": 読み書き療養
* "a": 追記用 (すでに同名のファイルが存在する場合、その末尾から追記)
の4種類がありますが、まずは読み込み専用の"r"を使いましょう。

In [None]:
f = open("data/sample.txt", "r")  # open関数が成功すると、ファイルオブジェクトが返る
for line in f:  
  print(line.strip("\n"))  # 余計な改行を除去
    
# 古い書き方：今は直接for文で行ごとに読み込める
#line = f.readline()
#while line:
#    print(line)
#    line = f.readline()
    
f.close()  # 必ずcloseする

### with ~ as文
上記の例では、openしたファイルを必ずcloseしなければならず、後処理を忘れる危険性がありました。  
with文を使うと、同じ式をエレガントに書けます。

In [None]:
with open("data/sample.txt", "r") as f:  # Closeする必要なし
  for line in f:  
    print(line.strip("\n"))  # 余計な改行を除去

上記の原文は亀語 (単語の並び順が人間語と逆順) であるため、配列のアクセスを工夫して人間語に戻してあげましょう。  
(サンプルの出典： Roald Dahl, "Esio Trot", Viking Press, 1990)  
その際、次の文字列操作関数を用います：
* str.strip(str): 文字列中からstrを取り除く
* str.split(delimiter): delimiterで文字列を区切り、区切られた部分文字列のリストを返す
* str.join(str_list): splitと逆の操作を行い、strを区切り文字としてstr_listの各要素を連結して返す
* str.replace(str1, str2): 文字列中のstr1をstr2に置き換える

In [None]:
with open("data/sample.txt", "r") as f:
  for line in f:
    line = line.strip("\n")
    words = line.split(" ")
    words_reversed = []
    for word in words:  # 始点・終点を変えずに逆順に進める
      words_reversed.append(word[::-1])  # 始点・終点を変えずに逆順に進める
      line_reversed = " ".join(words_reversed)  # スペースで連結
      line_reversed = line_reversed.replace("OISE ,TORT", "TORT OISE,")  # TORT OISEが本来1語であるのを逆にしてしまったので、元に戻す
    print(line_reversed)

句読点が若干変ですが、これで読めました。大きくなあれ！

## csvの読み込みとパース
続いて、csvファイルの読み込みを行います。csv (comma-separated values)は、その名の示す通り、ファイル内の要素がカンマで区切られています。そのため、カンマ区切りの各要素を読みだしたうえで、そのデータ型に合わせて適切にパース (parse) しなければなりません。  
文字列から数値への変換及びその逆は
```
float("3.1") -> 3.1
int("5") -> 5
str(5) -> "5"
```
などで行うことができます。

### Irisデータセット
今回サンプルcsvとして用いるのは、"Iris"と呼ばれる非常に有名なデータセットです。
* Setosa
* Verisicolor
* Virginica

という3種類の品種のアヤメの

* がく片の長さ (1列目)
* がく片の幅 (2列目)
* 花弁の長さ (3列目)
* 花弁の幅 (4列目)

がcm単位で格納されています。5列目は品種名(文字列)です。  
1列目〜4列目まではすべてfloatに変換できるので、5列目を除いたデータをnumpy配列に変換してみましょう。

In [None]:
with open("data/iris.csv", "r") as f:
  lines = []
  for line in f:
    strs = line.split(",")[0:4]
    lines.append([float(x) for x in strs])  # すべての要素をfloatに変換
        
  data = np.array(lines)
  print(data)

### ファイルの書き込み
続いて、前項でnumpy配列として読み込んだデータを再びリストに戻し、スペース区切りのファイルとして再保存しましょう。  
処理の流れは次のようになります：

1. os.makedirsとos.path.existsの組み合わせで出力先のフォルダを作成する
2. open関数で書き込み用にファイルを開く
3. numpy配列をtolist関数でリストに戻す
4. 各行をスペース区切りの文字列として、ファイルに書き込む

その際、使用する関数は次のとおりです。これらはPythonのデータ処理で頻出するので覚えておきましょう。

* os.path.join(str1, str2, ...)：パスの連結。"/"の有無を吸収してパスを結合してくれるので、文字列を単純に連結するより安全
* os.path.exists(path)：そのパスにファイルまたはディレクトリが存在するかを返す
* os.makedirs(path)：新規ディレクトリを作成する。ただし、すでに作成済みである場合にはエラーを返すので常にその存在性を注意する必要がある
* f.write(str)：ファイルの末尾の行に文字列を書き込む
* tolist()：numpy配列を通常のリストに変換する

In [None]:
import os
outdir_name = "outputs"
outpath = os.path.join(outdir_name, "processed.txt")

if not os.path.exists(outdir_name):  # もしディレクトリが存在しなければ
  os.makedirs(outdir_name)  # outdir_nameと同じ名前のディレクトリを作成する
                       
with open(outpath, "w") as f:  # 書き込み用
  for line_data in data.tolist():
    f.write(" ".join([str(x) for x in line_data]) + "\n")  # 末尾に改行を加える

### *Colaboratoryからのファイルの取得
colaboratoryからファイルを取得するには、次のコードを使用してください (Jupyter notebookでは動きません)

In [None]:
# 使用するにはコメントアウト
# from google.colab import files
# files.download("outputs/processed.txt")

## 書いてみよう：irisデータの読み書き
Q: Irisデータセットの品種名は文字列で格納されているが、これはラベルとしては扱いにくい形をしている。

* Setosa -> 0
* Verisicolor -> 1
* Virginica -> 2

というIDを振り、5列目を品種名ではなく品種IDに書き換えたものをoutputs/iris_with_label.csvとしてカンマ区切りで出力せよ。

### ヒント：
* str.replaceを用いる
* 各行の文字列を置換するだけで今回の操作は実現できる (数値に変換する必要はない)

In [None]:
# WRITE ME!

### *おまけ
余裕があれば、次の関数を用いて、irisデータの各特徴の平均や分散を求めてみましょう：
* np.mean
* np.var
* np.sum

各関数の解説は、numpyのリファレンスから読めます：  
https://docs.scipy.org/doc/numpy/reference/

In [None]:
#WRITE ME!