# NICO2AI  第１回 Python入門 (6/3) 基礎演習
## 今日の目標
* Pythonのデータ型と各データ型の取り扱い方を覚える。
* Pythonで頻出する概念を覚える。
* Numpyを用いてベクトル・行列の計算及び操作を記述し、実行できる。
* csvファイルを題材として、実データの読み書きができる。

## キーワード
* Python3
* データ型 (int, float, str, bool)
* リスト、タプル、辞書
* numpy
* osモジュール

## Jupyter notebookことはじめ
コードの編集：各セルをクリックして、その中で直接編集  
コードの実行：画面上の再生ボタンをクリックまたはShift+Enter  
実行停止：画面上の停止ボタンをクリック  
Notebook中のコードをすべて実行：「Cell」→「Run all」
何かトラブったら：「Kernel」→「Restart」  

## 基礎演習の進め方
1. 講師がコードの説明をします
2. 講師の指示にしたがって、各セルのコードを実行してください
3. 一部のコードは、「エラー例」「参考」用としてコメントアウトされています。必要に応じてコメントアウトを解除して挙動を確かめよう
4. "WRITE ME!"と書かれている部分は講師の指示とヒントに従いながら自分の手で書いてみましょう

# 1. Python3入門
今回の講義では、Python3.5を用います。Python2.7系とは若干文法が異なることに注意しましょう。

## print文とデータ型

In [1]:
print("Hello, World!")

# 数字 (整数型)
a = 1  
print(type(a))  # -> int

# 数字 (浮動小数点型)
b = 0.555  
print(type(b))  # -> float

# 文字列
c = "NICO2AI"  
print(type(c))  # -> str

# 真偽値
d = True
print(type(d))  # -> bool

Hello, World!
<class 'int'>
<class 'float'>
<class 'str'>
<class 'bool'>


## 書式付きprint (フォーマット)

In [2]:
print("Hello, {0}!".format(c))
print("{0} + {1} is {2}".format(a, b, a + b))
print("{:.2f}".format(b))  # 番号は省略可能、:.2fは小数点2桁目まで表示することを意味

print("{0:06.2f}".format(53.055))  # この場合、少数点は2桁目までで、全部で6桁になるように表示 (足りない場合はゼロ埋めする)
print("{0:6.2f}".format(53.055))  # この場合、少数点は2桁目までで、全部で6桁になるように表示 (足りない場合はゼロ埋めしない)

Hello, NICO2AI!
1 + 0.555 is 1.5550000000000002
0.56
053.05
 53.05


## 四則演算
Pythonでは、特別な注意なく足し算、引き算、掛け算ができる。  
ただし、Python3は、標準の割り算( / )では**割り切れる・切れないにかかわらず浮動小数点**を返すことに注意する。  
整数を返して欲しい場合、 // を用いる。

In [3]:
# 足し算
print(5 + 3)

# 引き算
print(5 - 3)

# 掛け算
print(10 * 3)

# 通常の割り算は必ず浮動小数点を返す
a = 5 / 2
print(a)
print(type(a))  # -> float

b = 4 / 2
print(b)
print(type(b))  # -> float

# 整数を返して欲しい場合は//を使う
c = 5 // 2
print(c)
print(type(c))  # -> int

d = 4 // 2
print(d)
print(type(d))  # -> int

# 剰余演算子 (あまり)
print(5 % 2)

8
2
30
2.5
<class 'float'>
2.0
<class 'float'>
2
<class 'int'>
2
<class 'int'>
1


## if文と比較演算子
比較には==, !=, >, >=, <, <=を用いる。ただし、変数がNone(値、中身が存在しないことを示す)かどうかを判定する場合はisを用いる。
if文の条件文の最後には必ずコロン(:)をつけ、カッコの代わりに**インデント (半角4文字)**で条件節の中身の処理を記述する。

例えば、
```
if 条件:
    print("これはif文が真の時のみ実行されるが")
print("これはif文の中身とは関係がない")
```

### 補足：Noneとの比較について
Noneとの比較では、is文の使用が推奨されている。==でも比較可能であるが、次の2つの理由によりis文を使うべきとされている。

* is文の方が高速である (http://jaredgrubb.blogspot.jp/2009/04/python-is-none-vs-none.html)
* PEP 8 (Pythonの公式スタイルガイド) にてis文の使用が強く推奨されている (https://www.python.org/dev/peps/pep-0008/#programming-recommendations)

実際、上記PEP 8では次の様に説明されている：
```
Comparisons to singletons like None should always be done with is or is not , never the equality operators. 
```

In [4]:
a = 5
if a == 5:  # 比較には==を使用
    print("a is equal to 5")
else:
    print("a is not equal to 5")
    
b = "banana"
print(b == "banana")  # 文字列の比較にも==を使用 True

print(5 > 2)  # True
print(5 <= 6)  # False
print(a != 5)  # False

# CAUTION!
c = None
if c is None:
    print("c is None")

a is equal to 5
True
True
True
False
c is None


## for文

In [5]:
cnt = 0
for idx in range(10):
    cnt += 1  # cnt = cnt + 1 に同じ
print(cnt)

10


## range文
range([start], stop, step)：start以上stop**未満**, 刻み幅stepの数列を作成する。  
for文と組み合わせる場合が多い。  
Python3ではイテレータ(iterator)を返すので、リストとして欲しい場合はlist()で囲う。

In [6]:
# [0, 1, 2]
for i in range(3):
    print(i)

# [0, 3, 6] (9はない)
for j in range(0, 9, 3):
    print(j)
    
a = range(5)
print(a)  # Python3ではイテレータが返る
print(list(a))  # List

0
1
2
0
3
6
range(0, 5)
[0, 1, 2, 3, 4]


## リスト・タプル・辞書
Pythonでは、組み込みのデータ構造として
* リスト (list)：変更可能なデータ列
* タプル (tuple)：変更不可能なデータ列
* 辞書 (dict)：キーと値の組み合わせてデータを格納、連想配列
の3つのデータ構造を持っている。複数の値を順番に格納・更新する場合はリスト、一度宣言したら更新しない属性 (配列のサイズなど) の格納にはタプル、順番ではなく格納データの種類に意味がある場合・属性名を付けたい場合には辞書を用いる。  
  
Pythonでは、**0から配列の添字(index)を数える**ことに注意する。  

データ構造 (公式)  
https://docs.python.jp/3/tutorial/datastructures.html

### リスト (list)

In [7]:
# リスト
sample_list = []  # リストの初期化
sample_list.append(1)  # リストの末尾に値を追加
print(sample_list)
print(len(sample_list))
sample_list.extend([2, 3, 4, 5])  # リストの末尾に別のリストを合流
print(sample_list)

print(sample_list[1])  # 要素にアクセス (添字(index)は0から始まるので、1は2番目の要素を指す)
print(sample_list[2:4])  # リストの一部を取り出すことも可能

print([1, 2] + [3, 4])  # リストは+演算子で連結可能 (足し算ではない！)

[1]
1
[1, 2, 3, 4, 5]
2
[3, 4]
[1, 2, 3, 4]


### 便利機能：リストの後ろからのアクセス

In [8]:
print(sample_list)
print(sample_list[len(sample_list)-1])  # 通常、一番後ろの要素にはこうアクセスするが…
print(sample_list[-1])  # これだけで書ける！便利！

print(sample_list[-4:-2])  # 後ろより2番めより前

[1, 2, 3, 4, 5]
5
5
[2, 3]


### タプル (tuple)

In [9]:
# タプル
sample_tuple = (224, 224, 3)

# sample_tuple[0] = 192  # 書き換えはできないのでエラー

### 辞書 (dict)
辞書オブジェクトを宣言には、中括弧{}を用いる。
辞書内の各要素は
```
{
    key1: value1,
    key2: value2,
    ...
}
```
というキー (key)と 値 (value) の組み合わせによって表現される。キーには、**変更不可能なもの** (数値、文字列、**タプル**) を指定することができる。辞書を使うことで、所望の要素にキーの名前でアクセスすることができる。  

その他、辞書は次の性質を持つ：
* 辞書の各要素は順番を持たない (順番を保持したい場合は[collections.OrderedDict](https://docs.python.jp/3/library/collections.html#collections.OrderedDict)を用いる)
* 同じキーが2つ以上存在してはならない

豆知識：Pythonのdictとデータの保存格納に使われるjsonは、キーと値の組み合わせで記述できる点が共通しており、直感的には対応関係にある (厳密にはルールが一部異なる)。Python3にはjsonモジュールが用意されており、dictとjsonの相互変換の機能を提供している。  

json — JSON エンコーダおよびデコーダ (公式)  
https://docs.python.jp/3/library/json.html


In [10]:
# 辞書の宣言
sample_dict = {}

# 要素の代入
sample_dict["apple"] = "gorilla"
sample_dict[2] = "two"
sample_dict[(1, 2, 3)] = [4, 5, 6]
print(sample_dict)

# sample_dict[[1]] = 2  # リストは変更可能なのでエラー

{'apple': 'gorilla', 2: 'two', (1, 2, 3): [4, 5, 6]}


### 要素へのアクセス

In [11]:
print(sample_dict)
print(sample_dict["apple"])

# キーのリスト、値のリストの取得にはkeys(), values()を用いる
# ただし、その順番は保証されない！
print("Key only:")
for key in sample_dict.keys():
    print(key)

print("Value only:")
for value in sample_dict.values():
    print(value)
    
# キー及び値の組のリストの取得にはitems()を用いる
print("Key and value:")
for key, value in sample_dict.items():
    print(key, value)
    
# 存在しないキーを指定するとエラー
# print(sample_dict["banana"])

{'apple': 'gorilla', 2: 'two', (1, 2, 3): [4, 5, 6]}
gorilla
Key only:
apple
2
(1, 2, 3)
Value only:
gorilla
two
[4, 5, 6]
Key and value:
apple gorilla
2 two
(1, 2, 3) [4, 5, 6]


### 辞書の使い方
例えば：画像ファイルの幅 (width) と高さ (height) を格納する場合

In [12]:
image_list = ["img1.jpg", "img2.jpg", "img3.jpg"]

# 辞書はネストできる
image_size_dict = {
    "img1.jpg": {
        "width": 640,
        "height": 480
    }
}

for image_name in image_list:
    if image_name not in image_size_dict:  # in構文でdict内に指定のキーを持つ要素が存在するか調べられる
        image_size_dict[image_name] = {}
        image_size_dict[image_name]["width"] = 1920
        image_size_dict[image_name]["height"] = 1080
        
print(image_size_dict)

{'img2.jpg': {'width': 1920, 'height': 1080}, 'img3.jpg': {'width': 1920, 'height': 1080}, 'img1.jpg': {'width': 640, 'height': 480}}


## 関数とクラス
他のプログラミング言語同様、Python3には関数とクラスの概念が存在する。
### 関数 (function)
プログラミング言語で一般的に用いられるテクニックとして、同じ処理をその入力のみを変えて何度も繰り返すための関数を定義すると便利な場合がある。Pythonでは、defキーワードを用いて関数を定義する。

In [13]:
# 累乗を計算する関数
# 引数は分かりやすいように書く
def power(base, exponent):
    result = 1
    for i in range(exponent):
        result *= base
    return result

print(power(2, 2))  # -> 4
print(power(3, 3))  # -> 27

4
27


### クラス (class)
Pythonは、オブジェクト指向プログラミング (Object Oriented Programming) を意識した言語の1つである。そのため、C++に比較的近いクラスの機能が定義されている。関数はその機能のみをひとくくりにしていたが、クラスでは関数 (メソッド) と使用するデータを纏めて、分かりやすく保守性の高いコードを書くことができる。  
今回は深入りせず、その簡単な紹介に留めておく。詳しくは第3回で解説する。  
今日は、次のことを覚えておこう。
* クラスは、メソッド (クラス内の関数) とインスタンス変数 (クラス内の変数) の2つからなる
* クラスの宣言にはclassキーワードを用いる
* クラスは設計図であり、それを呼び出してインスタンス (実体) を作ることで初めて利用可能になる
* クラスの初期化は\_\_init\_\_メソッドに実装する
* メソッドの1番目の引数にはselfをつける

In [14]:
# クラスの例
class AdaGrad:
    def __init__(self, learning_rate, eps=1e-6):  # 初期化には__init__メソッドを用いる
        self.lr = learning_rate  # 学習率
        self.eps = eps  # 平滑化項
        self.iter_cnt = 0  # イテレーション数
    
    # 重みの更新：過去の勾配累積を用いて学習率を減衰
    def update(self, W, grad):  #必ずselfを第1引数に入れる
        if self.iter_cnt == 0:
            self.G = np.zeros(len(W))
        self.G += grad ** 2
        self.iter_cnt += 1
        return W - (self.lr / np.sqrt(G) + self.eps) * grad
    
adagrad_optimizer = AdaGrad(0.01)  #  インスタンスの作成・この時、初期化の処理が行われる

## 書いてみよう：フィボナッチ数列
フィボナッチ数列とは、次の条件を満たす数列である。
\begin{align*}
f(0) &= 0 \\
f(1) &= 1 \\
f(k+1) &= f(k) + f(k-1)\ \ (k=1, 2,\dots) \\
\end{align*}
Q: 上記の漸化式に従う数列を返す関数を実装せよ。

### ヒント：
* f(0), f(1)からf(2), f(3), ...を順に計算していけば良い
* f(k)の計算にはf(k-1)とf(k-2)の2つの値だけ持っておけば良い
* 同時代入が便利 (後述)

### 同時代入
Pythonでは、次の2つのコードは等価である：
```
a = 1
b = 2
tmp = b
b = a
a = tmp
```

```
a = 1
b = 2
a, b = b, a
```

In [15]:
# WRITE ME!
def fib(k):
    a, b = 0, 1
    if k == 1:
        return 1
    for x in range(k-1):
        a, b = b, a + b  # 同時代入
    if n == 0:
        return 0
    else:
        return b

In [16]:
# 解答チェック
fib_answer = [0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233]
if all([fib(i) == x for i, x in enumerate(fib_answer)]):
    print("You are smart!")
else:
    print("Opps...something wrong")
    print([fib(i) for i, x in enumerate(fib_answer)])

You are smart!


# 2. Numpy入門 (1)

## ライブラリの使用 (import)
ライブラリの機能を使うためには、そのライブラリをインポートする必要がある。  
numpyの機能は、ライブラリ名を前につけて、呼び出したいメソッドなどをドット(.)で繋いで呼び出す。
```
import hoge
hoge.foo.bar()
```
Numpyでは、いちいちnumpy.と呼び出すのが面倒であることから、慣習的にimport as文を用いてnp.とするのが一般的である。

In [17]:
import numpy as np  # numpyを'np'という名前でインポートする
import time

## 配列(ndarray)の定義と性質
配列の定義には、np.arrayを用いる。  
numpy配列はそれぞれ形状 (shape) を持ち、その形状の種類の数を「次元数」と呼ぶ。

In [18]:
# ndarrayの定義
a = np.array([1, 2, 3])

print(len(a))  # 長さは3
print(a.ndim)  # 1次元配列

b = np.array([[1, 2, 3], [4, 5, 6]])

print(b.shape)  # 配列の形状は2×3 (Pythonのリストとしては、「長さ3のリストが2つあるリスト」)
print(b.size)  # 配列の総要素数
print(b.dtype)  # この配列のデータ型 (後ほど)

c = np.array([[2, 2, 2], [2, 2, 2]])
print(b + c)  # 配列の和
print(b - c)  # 配列の差
print(b * c)  # 配列の要素積　(b * c = {b_i + c_i})

3
1
(2, 3)
6
int64
[[3 4 5]
 [6 7 8]]
[[-1  0  1]
 [ 2  3  4]]
[[ 2  4  6]
 [ 8 10 12]]


## 配列の生成
* np.ones(shape)：中身がすべて1の配列を作成
* np.zeros(shape) : 中身がすべて0の配列を作成
* np.arange([start], stop, [step]): range関数と似た機能を提供。連続した数列を作成

### np.zeros

In [19]:
print(np.zeros(1))  # 大きさ (1,)
print(np.zeros((2, 3))) # 注意：複数次元の場合はカッコで囲う
# print(np.zeros(2, 3))  # エラー

[ 0.]
[[ 0.  0.  0.]
 [ 0.  0.  0.]]


### np.ones

In [20]:
print(np.ones((2, 2, 2)))  # np.onesも同様
print(np.ones((3, 3))*5)  # 要素積と組み合わせると幅が拡がる

[[[ 1.  1.]
  [ 1.  1.]]

 [[ 1.  1.]
  [ 1.  1.]]]
[[ 5.  5.  5.]
 [ 5.  5.  5.]
 [ 5.  5.  5.]]


### np.arange

In [21]:
print(np.arange(5))  # 0から4 (!= 5) までの数列を作成
print(np.arange(0, 10, 3))  # 3刻みの数列を作成
print(np.arange(10, 0, -1))  # 降順のリストも書ける

[0 1 2 3 4]
[0 3 6 9]
[10  9  8  7  6  5  4  3  2  1]


## ちょっと寄り道：リスト内包表記
Numpyの機能ではないが、ちょっと複雑なリストときによく用いる。  
通常のfor文よりも高速なので、numpy配列が直接宣言できない場合に使おう。  
  
**実行速度： numpyで用意されている関数 >> リスト内包表記 > 通常のリスト**

In [22]:
# 例1: 1から50までの奇数
odd_numbers = [x * 2 + 1 for x in range(25)]
print(odd_numbers)

# 例2: 例1をfor文を用いて用意した場合
odd_numbers = []
for x in range(25):
    odd_numbers.append(x * 2 + 1)
print(odd_numbers)

# 例3: np.arangeを用いた場合
odd_numbers = np.arange(1, 50, 2)
print(odd_numbers)

# 実行時間の比較
start = time.time()  # time関数同士の時間を比較することで、実行時間を秒で計測できる
for trial in range(50000):
    odd_numbers = [x * 2 + 1 for x in range(25)]
end = time.time()
print("For内包表記: {} (s)".format(end - start))

start = time.time()
for trial in range(50000):
    odd_numbers = []
    for x in range(25):
        odd_numbers.append(x * 2 + 1)
end = time.time()
print("Forループ: {} (s)".format(end - start))

start = time.time()
for trial in range(50000):
    odd_numbers = np.arange(1, 50, 2)
    
end = time.time()
print("Numpy: {} (s)".format(end - start))

[1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 41, 43, 45, 47, 49]
[1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 41, 43, 45, 47, 49]
[ 1  3  5  7  9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49]
For内包表記: 0.3061408996582031 (s)
Forループ: 0.22621560096740723 (s)
Numpy: 0.056116580963134766 (s)


### リスト内包表記と要素のフィルタリング
if文と組み合わせることによって、リスト内包表記で要素のフィルタリングを行うことができる。

In [23]:
# 1から49までの奇数
odds = [x for x in range(50) if x % 2 == 1]
print(odds)

[1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 41, 43, 45, 47, 49]


## 要素の切り出し・変形
numpyの配列は、リスト同様そのうちの1つまたは一部を切り出すことができる。このとき、切り出した部分配列の要素を書き換えると、**元の配列も書き換わる**ことに注意。これは、配列のメモリ上の位置はそのままで、始点と終点を変えているだけであるからである。  
また、np.reshapeを用いることで、配列の形状を変えることができる。当然、要素の総数は同じではくてはならない。

In [24]:
sample_array = np.arange(12).reshape((4, 3))  # (12,)の配列を(4, 3)に変形
print(sample_array)
print(sample_array[0, :])  # 1行目を取り出す
print(sample_array[:, 0])  # 1列目を取り出す

sample_view = sample_array[1:3, 1:3]  # 各次元ごとに切り出す
print(sample_view)

# 切り出した配列を書き換えると、元の配列も書き換わる
sample_view[0, 0] = -1
print(sample_view)
print(sample_array)

a = np.ones((10, 2, 2)).reshape((-1, 2))  # 1つの要素を-1に指定すると、総要素数に合わせて変形してくれる
print(a.shape)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
[0 1 2]
[0 3 6 9]
[[4 5]
 [7 8]]
[[-1  5]
 [ 7  8]]
[[ 0  1  2]
 [ 3 -1  5]
 [ 6  7  8]
 [ 9 10 11]]
(20, 2)


## ブロードキャスティング (broadcasting)
numpyの強力な機能の1つがこのブロードキャスティングである。ブロードキャスティングは、次のルールにしたがって、**異なる大きさの配列同士の計算を許可**する。
* 2つの配列の次元数が同じで、**各次元についてどちらか片方の要素数が1の場合**
* 2つの配列の次元数から異なる場合、次元数の大きい配列の後ろの次元から比較して、対応する各次元の要素数が1または同じである場合

説明ではわかりにくいので、実際の例で確認しよう：

In [25]:
#　2配列の形状が全く同一である場合は当然OK
a = np.ones((3, 3))
b = np.ones((3, 3))
print((a + b).shape)  # -> (3, 3)

# どちらか片方の次元数が1なら、その次元について中身をコピーして形状を合わせてくれる
a = np.ones((4, 1, 5))
b = np.ones((1, 7, 1))
print((a + b).shape)  # -> (4, 7, 5)

# 次元数が異なる場合でも後ろから見て要素数の不一致がなければOK
a = np.ones((224, 224, 3))
b = np.ones(3)

print((a + b).shape)  # -> (224, 224, 3)

# 一見ダメなように見える例も…
a = np.ones((5, 5, 3))
b = np.ones((5, 1))

print((a + b).shape)  # -> (5, 5, 3)

(3, 3)
(4, 7, 5)
(224, 224, 3)
(5, 5, 3)


### ブロードキャスティングに失敗する例

In [26]:
# CAUTION! 以下のコードはすべてエラーになる
a = np.ones((3, 3))
b = np.ones((2, 3))
# print((a + b).shape)  # -> ERROR!

a = np.ones((5, 3))
b = np.ones(5)
# print((a + b).shape)  # -> ERROR! 後ろから数えると5 != 3

### np.newaxisを用いて次元を合わせる
前項の(5, 3)と(5,)の足し算のような例は実際のコーディングでも頻発するが、そのままではブロードキャスティングに失敗してしまう。  
本来変数bに期待する形状は(5,)ではなく(5, 1)であり、そのように変形すれば良い。  
そのための便利な機能として、np.newaxisがある。np.newaxisは次元を任意の位置に追加する。

In [27]:
a = np.ones((5, 3))
b = np.ones(5)
c = a + b[:, np.newaxis]  # bの2次元目に(,1)を追加するので、(5, 3) + (5, 1) -> (5, 3)となる
print(c.shape)

(5, 3)


## 書いてみよう：配列の計算とブロードキャスティング
* Q1: (3, 3)の配列を2つ用意して、その和・差・要素積を計算せよ。
* Q2: すべての要素の大きさが5の(10, 10)の行列を構成せよ。
* Q3: 配列AとBは大きさが違うが、ブロードキャスティングによりその和を計算できる。答えを予想した後に実行して結果を確かめよ。

In [28]:
# 課題用 
A = np.ones((3, 5, 5))
B = np.array([[1, 2, 3, 4, 5]])

# WRITE ME!
# Q1
a = np.ones((3, 3))
b = np.arange(9).reshape((3, 3))
print(a + b)
print(a - b)
print(a * b)

# Q2
c = np.ones((10, 10)) * 5

# Q3
print((A + B).shape)

[[ 1.  2.  3.]
 [ 4.  5.  6.]
 [ 7.  8.  9.]]
[[ 1.  0. -1.]
 [-2. -3. -4.]
 [-5. -6. -7.]]
[[ 0.  1.  2.]
 [ 3.  4.  5.]
 [ 6.  7.  8.]]
(3, 5, 5)


## 行列積の記述 (np.matmul, np.dot)
すでに述べた通り、\*演算子は行列の要素積であり、行列同士に定義される通常の掛け算ではなかった。  
行列積を記述する場合、np.matmulまたはnp.dotを用いる。  
np.matmulとnp.dotは配列が行列(2次元)である場合には同様の挙動を示すが、**3次元以上のテンソルの場合には結果が変わる**ことに注意する。  
ただ、3次元以上の配列の積を記述することは稀かつ、どの次元の積和を取るかが非直感的になるので、その場合はnp.einsum (今回は解説しない) などを用いると良い。

たとえば、行列$W$と列ベクトル$x$の掛け算
\begin{align*}
{\bf y} = W{\bf x}
\end{align*}
は
```
y = np.matmul(W, x)
```
または
```
y = np.dot(W, x)
```
と書ける。

In [29]:
W = np.array([[3, 5], [1, 2]])  # (2, 2)
x = np.array([1, 2])  # (2,)
y = np.matmul(W, x)
print(y)
y = np.dot(W, x)
print(y)

[13  5]
[13  5]


### 3次元以上のテンソルの場合の結果の比較

In [30]:
A = np.ones((3, 4, 5))*2
B = np.ones((3, 5, 1))*2

print(np.dot(A, B).shape)  # Aの最後の次元(5,)とBの後ろから2番めの次元(5,)を足し上げ、その他は放置
print(np.matmul(A, B).shape)  # 後ろ2次元分はnp.dotと同じだが、それより前の次元については要素積を取る

A = np.ones((3, 4, 5))*2
B = np.ones((4, 5, 1))*2

print(np.dot(A, B).shape)  # これはOKだが
# print(np.matmul(A, B).shape)  # これは最初の次元が3 != 4なのでエラー

(3, 4, 3, 1)
(3, 4, 1)
(3, 4, 4, 1)


# 3. ファイルの入出力
本節では、実データに機械学習を適用する際に不可欠な、データの読み書きに焦点をあて、csvファイルの読み書きを題材にその基礎を解説・実践する。  
実際には、以下に示すモジュールを用いればサンプルより簡単にデータを読み込み・処理できるが、それは応用トピックとして各人で独習されたい。
* csvモジュール
* jsonモジュール
* pandas (データ解析支援ライブラリ)

特に、pandasは大規模データを取り扱うための各種機能を搭載している。そのため、データがある程度複雑なら、**pandasを利用したほうが良い**。

## osモジュール
通常、処理コードとデータは別々のディレクトリに保存されており、適切なファイルパスを指定し、それを読み込む必要がある。こうした
* ディレクトリ間の移動
* ディレクトリの作成
* パスの作成・加工
などを担うのがosモジュールである。今回は、
1. テキストファイルの読み込み
2. CSVファイル (irisデータセット) の読み書き
3. The Allen Mouse Brain Connectivity Atlasの読み込み
の3つの題材を通じて、osモジュールの主要関数の使い方を学習する。

### 今回のディレクトリ構成
```
+---nico2ai_lecture1_exercise.ipynb (このファイル)
+---nico2ai_lecture1_practice.ipynb
+---data/
    +---sample.txt
    +---iris.csv
    +---nature/
        +---nature13186-s3.csv
        +---nature13186-s4-w-ipsi.csv
        +---nature13186-s5.csv
```
### ファイルの読み込み
ファイルの読み込みには、**open関数**を用いる。第2引数のモードには
* "r": 読み込み専用
* "w": 書き込み専用 (ファイルが存在しない場合、新規作成)
* "r+": 読み書き療養
* "a": 追記用 (すでに同名のファイルが存在する場合、その末尾から追記)
の4種類があるが、まずは読み込み専用の"r"を使う。

In [31]:
f = open("data/sample.txt", "r")  # open関数が成功すると、ファイルオブジェクトが返る
for line in f:  
    print(line.strip("\n"))  # 余計な改行を除去
    
# 古い書き方：今は直接for文で行ごとに読み込める
#line = f.readline()
#while line:
#    print(line)
#    line = f.readline()
    
f.close()  # 必ずcloseする

ESIO TROT, ESIO TROT,
TEG REGGIB REGGIB!
EMOC NO, ESIO TROT,
WORG PU, FFUP PU, TOOHS PU!
GNIRPS PU, WOLB PU, LLEWS PU!
EGROG! ELZZUG! FFUTS! PLUG!
TUP NO TAF, ESIO TROT, TUP NO TAF!
TEG NO, TEG NO, ELBBOG DOOF!


### with ~ as文
上記の例では、openしたファイルを必ずcloseしなければならず、忘れる危険性があった。  
with文を使うと、同じ式をエレガントに書ける。

また、原文は亀語 (単語の並び順が人間語と逆順) であるため、配列のアクセスを工夫して人間語に戻してあげよう。  
(サンプルの出典： Roald Dahl, "Esio Trot, Viking Press, 1990)  
その際、次の文字列操作関数を用いる：
* str.strip(str): 文字列中からstrを取り除く
* str.split(delimiter): delimiterで文字列を区切り、区切られた部分文字列のリストを返す
* str.join(str_list): splitと逆の操作を行い、strを区切り文字としてstr_listの各要素を連結して返す
* str.replace(str1, str2): 文字列中のstr1をstr2に置き換える

In [32]:
with open("data/sample.txt", "r") as f:  # Closeする必要なし
    for line in f:
        line = line.strip("\n")
        words = line.split(" ")
        words_reversed = []
        for word in words:  # 始点・終点を変えずに逆順に進める
            words_reversed.append(word[::-1])  # 始点・終点を変えずに逆順に進める
        line_reversed = " ".join(words_reversed)  # スペースで連結
        line_reversed = line_reversed.replace("OISE ,TORT", "TORT OISE,")  # TORT OISEが本来1語であるのを逆にしてしまったので、元に戻す
        print(line_reversed)

TORT OISE, TORT OISE,
GET BIGGER !BIGGER
COME ,ON TORT OISE,
GROW ,UP PUFF ,UP SHOOT !UP
SPRING ,UP BLOW ,UP SWELL !UP
!GORGE !GUZZLE !STUFF !GULP
PUT ON ,FAT TORT OISE, PUT ON !FAT
GET ,ON GET ,ON GOBBLE !FOOD


## csvの読み込みとパース
続いて、csvファイルの読み込みを行う。csv (comma-separated values)は、その名の示す通り、ファイル内の要素がカンマで区切られている。そのため、カンマ区切りの各要素を読みだしたうえで、そのデータ型に合わせて適切にパース (parse) しなければならない。  
文字列から数値への変換及びその逆は
```
float("3.1") -> 3.1
int("5") -> 5
str(5) -> "5"
```
などで行うことができる。

### Irisデータセット
今回サンプルcsvとして用いるのは、"Iris"と呼ばれる非常に有名なデータセットである。
* Setosa
* Verisicolor
* Virginica

という3種類の品種のアヤメの

* がく片の長さ (1列目)
* がく片の幅 (2列目)
* 花弁の長さ (3列目)
* 花弁の幅 (4列目)

がcm単位で格納されている。5列目は品種名(文字列)である。  
まず、1列目〜4列目まではすべてfloatに変換できるので、5列目を除いたデータをnumpy配列に変換してみよう。

In [33]:
with open("data/iris.csv", "r") as f:
    lines = []
    for line in f:
        strs = line.split(",")[0:4]
        lines.append([float(x) for x in strs])  # すべての要素をfloatに変換
        
    data = np.array(lines)
    print(data)

[[ 5.1  3.5  1.4  0.2]
 [ 4.9  3.   1.4  0.2]
 [ 4.7  3.2  1.3  0.2]
 [ 4.6  3.1  1.5  0.2]
 [ 5.   3.6  1.4  0.2]
 [ 5.4  3.9  1.7  0.4]
 [ 4.6  3.4  1.4  0.3]
 [ 5.   3.4  1.5  0.2]
 [ 4.4  2.9  1.4  0.2]
 [ 4.9  3.1  1.5  0.1]
 [ 5.4  3.7  1.5  0.2]
 [ 4.8  3.4  1.6  0.2]
 [ 4.8  3.   1.4  0.1]
 [ 4.3  3.   1.1  0.1]
 [ 5.8  4.   1.2  0.2]
 [ 5.7  4.4  1.5  0.4]
 [ 5.4  3.9  1.3  0.4]
 [ 5.1  3.5  1.4  0.3]
 [ 5.7  3.8  1.7  0.3]
 [ 5.1  3.8  1.5  0.3]
 [ 5.4  3.4  1.7  0.2]
 [ 5.1  3.7  1.5  0.4]
 [ 4.6  3.6  1.   0.2]
 [ 5.1  3.3  1.7  0.5]
 [ 4.8  3.4  1.9  0.2]
 [ 5.   3.   1.6  0.2]
 [ 5.   3.4  1.6  0.4]
 [ 5.2  3.5  1.5  0.2]
 [ 5.2  3.4  1.4  0.2]
 [ 4.7  3.2  1.6  0.2]
 [ 4.8  3.1  1.6  0.2]
 [ 5.4  3.4  1.5  0.4]
 [ 5.2  4.1  1.5  0.1]
 [ 5.5  4.2  1.4  0.2]
 [ 4.9  3.1  1.5  0.1]
 [ 5.   3.2  1.2  0.2]
 [ 5.5  3.5  1.3  0.2]
 [ 4.9  3.1  1.5  0.1]
 [ 4.4  3.   1.3  0.2]
 [ 5.1  3.4  1.5  0.2]
 [ 5.   3.5  1.3  0.3]
 [ 4.5  2.3  1.3  0.3]
 [ 4.4  3.2  1.3  0.2]
 [ 5.   3.5

### ファイルの書き込み
続いて、前項でnumpy配列として読み込んだデータを再びリストに戻し、スペース区切りのファイルとして再保存しよう。  
処理の流れは次のようになる：

1. os.makedirsとos.path.existsの組み合わせで出力先のフォルダを作成する
2. open関数で書き込み用にファイルを開く
3. numpy配列をtolist関数でリストに戻す
4. 各行をスペース区切りの文字列として、ファイルに書き込む

その際、使用する関数は次のとおりである。これらはPythonのデータ処理で頻出するので覚えておこう。

* os.path.join(str1, str2, ...)：パスの連結。"/"の有無を吸収してパスを結合してくれるので、文字列を単純に連結するより安全
* os.path.exists(path)：そのパスにファイルまたはディレクトリが存在するかを返す
* os.makedirs(path)：新規ディレクトリを作成する。ただし、すでに作成済みである場合にはエラーを返すので常にその存在性を注意する必要がある
* f.write(str)：ファイルの末尾の行に文字列を書き込む
* tolist()：numpy配列を通常のリストに変換する

In [34]:
import os
outdir_name = "outputs"
outpath = os.path.join(outdir_name, "processed.txt")

if not os.path.exists(outdir_name):  # もしディレクトリが存在しなければ
    os.makedirs(outdir_name)  # outdir_nameと同じ名前のディレクトリを作成する
                       
with open(outpath, "w") as f:  # 書き込み用
    for line_data in data.tolist():
        f.write(" ".join([str(x) for x in line_data]) + "\n")  # 末尾に改行を加える

## 書いてみよう：irisデータの読み書き
Q: Irisデータセットの品種名は文字列で格納されているが、これは機械学習でラベルとして扱う場合には扱いづらい。

* Setosa -> 0
* Verisicolor -> 1
* Virginica -> 2

というIDを振り、5列目を品種名ではなく品種IDに書き換えたものをoutputs/iris_with_label.csvとしてカンマ区切りで出力せよ。

### ヒント：
* str.replaceを用いる
* 各行の文字列を置換するだけで今回の操作は実現できる (数値に変換する必要はない)

In [1]:
# WRITE ME!
with open("data/iris.csv", "r") as f:
    with open("outputs/iris_with_label.csv", "w") as fw:
        for line in f:
            line = line.replace("Iris-setosa", "0")
            line = line.replace("Iris-versicolor", "1")
            line = line.replace("Iris-virginica", "2")
            fw.write(line)

### おまけ
余裕があれば、次の関数を用いて、irisデータの各特徴の平均や分散を求めてみよう：
* np.mean
* np.var
* np.sum

各関数の解説は、numpyのリファレンスから読める：  
https://docs.scipy.org/doc/numpy/reference/

In [36]:
#WRITE ME!