# ニコニコAIスクール 第１回 Python入門 基礎演習
## 今日の目標
* Pythonのデータ型と各データ型の取り扱い方を覚える。
* Pythonで頻出する概念を覚える。
* Numpyを用いてベクトル・行列の計算及び操作を記述し、実行できる。

## キーワード
* Python3
* データ型 (int, float, str, bool)
* リスト、タプル、辞書
* numpy

## Jupyter notebookことはじめ
コードの編集：各セルをクリックして、その中で直接編集  
コードの実行：画面上の再生ボタンをクリックまたはShift+Enter  
実行停止：画面上の停止ボタンをクリック  
Notebook中のコードをすべて実行：「Cell」→「Run all」
何かおかしいと感じたら：「Kernel」→「Restart」  

## 基礎演習の進め方
1. 講師がコードの説明をします
2. 講師の指示にしたがって、各セルのコードを実行してください
3. 一部のコードは、「エラー例」「参考」用としてコメントアウトされています。必要に応じてコメントアウトを解除して挙動を確かめよう
4. "WRITE ME!"と書かれている部分は講師の指示とヒントに従いながら自分の手で書いてみましょう

**注意：頭に\*が書かれている節は進行状況に応じて解説を飛ばしますので、興味のある方のみ確認してください。**

# 1. Python3入門
今回の講義では、Python3.5を用います。Python2系とは若干文法が異なるため、Webサイトなどで情報を確認する際は違いに注意してください。

## print文と組み込み型
Pythonで頻出する4つの組み込み型 (int, float, str, bool) を紹介します。  
型とは、その変数にどのような種類の情報を格納できるかを示したものです。  
Pythonは動的型付け言語に分類され、変数の型は自動的に与えられるが、場合によっては誤った挙動を引き起こす点に留意が必要になります。  

In [0]:
print("Hello, World!")

# 数字 (整数型)
a = 1  
print(type(a))  # -> int

# 数字 (浮動小数点型)
b = 0.555  
print(type(b))  # -> float

# 文字列 (ダブルクオートまたはシングルクオートで囲む)
c = "NICO2AI"  
print(type(c))  # -> str
c2 = 'NICO2AI'
print(type(c2))  # -> str

# 真偽値 (True または False)
d = True
print(type(d))  # -> bool
d2 = True
print(type(d2))  # -> bool

## *注意：文字列の囲いについて
Pythonにおいては、文字列を表す方法として

* シングルクオートで囲む ('hoge')
* ダブルクオートで囲む ("hoge")

という2つの方法があり、**どちらで書くべきかは指示されていません**。  
そのため、**好きなように書いて構いません**。  
慣習的にはシンボルと自然言語とで使い分ける場合があります (興味のある方は以下を参照)  
https://stackoverflow.com/questions/56011/single-quotes-vs-double-quotes-in-python

## 書式付きprint (フォーマット)

In [0]:
print("Hello, {0}!".format(c))
print("{0} + {1} is {2}".format(a, b, a + b))
print("{:.2f}".format(b))  # 番号は省略可能、:.2fは小数点2桁目まで表示することを意味

print("{0:06.2f}".format(53.055))  # この場合、少数点は2桁目までで、全部で6桁になるように表示 (足りない場合はゼロ埋めする)
print("{0:6.2f}".format(53.055))  # この場合、少数点は2桁目までで、全部で6桁になるように表示 (足りない場合はゼロ埋めしない)

## 四則演算
Pythonでは、特別な注意なく足し算、引き算、掛け算ができます。  
ただし、Python3は、標準の割り算( / )では**割り切れる・切れないにかかわらず浮動小数点**を返すことに注意しましょう。  
整数を返して欲しい場合、 // を使いましょう。  

In [0]:
# 足し算
print(5 + 3)

# 引き算
print(5 - 3)

# 掛け算
print(10 * 3)

# 通常の割り算は必ず浮動小数点を返す
a = 5 / 2
print(a)
print(type(a))  # -> float

b = 4 / 2
print(b)
print(type(b))  # -> float

# 整数を返して欲しい場合は//を使う
c = 5 // 2
print(c)
print(type(c))  # -> int

d = 4 // 2
print(d)
print(type(d))  # -> int

# 剰余演算子 (あまり)
print(5 % 2)

## if文と比較演算子
比較には==, !=, >, >=, <, <=を用いる。ただし、変数がNone(値、中身が存在しないことを示す)かどうかを判定する場合はisを用います。
if文の条件文の最後には必ずコロン(:)をつけ、カッコの代わりに**インデント (半角4文字)**で条件節の中身の処理を記述します。  

記述例：
```
if 条件:
    print("これはif文が真の時のみ実行されるが")
print("これはif文の中身とは関係がない")
```

### 補足：Noneとの比較について
Noneとの比較では、is文の使用が推奨されています。==でも比較可能ですが、次の2つの理由によりis文を使うべきとされています。

* is文の方が高速である (http://jaredgrubb.blogspot.jp/2009/04/python-is-none-vs-none.html)
* PEP 8 (Pythonの公式スタイルガイド) にてis文の使用が強く推奨されている (https://www.python.org/dev/peps/pep-0008/#programming-recommendations)

実際、上記PEP 8では次の様に説明されています：
```
Comparisons to singletons like None should always be done with is or is not , never the equality operators. 
```

In [0]:
a = 5
if a == 5:  # 比較には==を使用
    print("a is equal to 5")
else:
    print("a is not equal to 5")
    
b = "banana"
print(b == "banana")  # 文字列の比較にも==を使用 True

print(5 > 2)  # True
print(5 <= 6)  # False
print(a != 5)  # False

In [0]:
c = None
if c is None:
    print("c is None")

In [0]:
# 未定義の変数に対してはエラー (コメントアウトして実行)
#if z is None:  # -> ERROR!
#    print("z is None")

## for文

In [0]:
cnt = 0
for idx in range(10):
    cnt += 1  # cnt = cnt + 1 に同じ
print(cnt)

## range文
range([start], stop, step)：start以上stop**未満**, 刻み幅stepの数列を作成します。  
しばしばfor文と組み合わせて使用されます。  
Python3ではイテレータ(iterator)を返すので、**リストとして欲しい場合はlist()で囲う必要があります**。

In [0]:
# [0, 1, 2]
for i in range(3):
    print(i)

# [0, 3, 6] (9はない)
for j in range(0, 9, 3):
    print(j)
    
a = range(5)
print(a)  # Python3ではイテレータが返る
print(list(a))  # List

## 関数
プログラミング言語で一般的に用いられるテクニックとして、同じ処理をその入力のみを変えて何度も繰り返すための関数を定義すると便利な場合があります。Pythonでは、defキーワードを用いて関数を定義します。

関数の名前及び引数 (関数名の後ろにつく、関数内で使われる変数) 名は基本的に自由に名付けることができます。  
分かりやすい命名を心がけましょう。  
変数名の付け方については例えば『リーダブルコード ―より良いコードを書くためのシンプルで実践的なテクニック』(オライリージャパン、2012) などの参考書を参照のこと。

In [0]:
# 累乗を計算する関数
# 引数は分かりやすいように書く
def power(base, exponent):  # def 関数名(引数1, 引数2, ...)
    result = 1
    for i in range(exponent):
        result *= base
    return result

print(power(2, 2))  # -> 4
print(power(3, 3))  # -> 27

### 書いてみよう1: 級数
Q: 1から10までの数の総和を計算する関数my_sum()を実装せよ。

#### ヒント：
* 関数の定義は def my_sum():
* for文とrange(start, end, step)を組み合わせて、値を足していく

In [0]:
# WRITE ME!

In [0]:
# 解答チェック
if my_sum() == 55:
    print("You are smart!")
else:
    print("Opps...something wrong")
    print(my_sum())

## *書いてみよう2：フィボナッチ数列
フィボナッチ数列とは、次の条件を満たす数列である。
\begin{align*}
f(0) &= 0 \\
f(1) &= 1 \\
f(k+1) &= f(k) + f(k-1)\ \ (k=2, 3,\dots) \\
\end{align*}
Q: kを引数として受け取り、f(k)を返す関数fib(k)を実装せよ。

### ヒント：
* f(0)、f(1)はif文を使ってそれぞれ0, 1を返せば良い
* for文を使って、f(0), f(1)からf(2), f(3), ...を順に計算していけば良い
* 同時代入が便利 (後述)
* まずはf(2), f(3)などの簡単なケースで正解になることを確認する

### 同時代入
Pythonでは、次の2つのコードは等価である：
```
a = 1
b = 2
tmp = b
b = a
a = tmp
```

```
a = 1
b = 2
a, b = b, a
```

In [0]:
# WRITE ME!

In [0]:
# 解答チェック
fib_answer = [0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233]
if all([fib(i) == x for i, x in enumerate(fib_answer)]):
    print("You are smart!")
else:
    print("Opps...something wrong")
    print([fib(i) for i, x in enumerate(fib_answer)])

## リスト・タプル・辞書
Pythonは、組み込みのデータ構造として
* リスト (list)：変更可能なデータ列
* タプル (tuple)：変更不可能なデータ列
* 辞書 (dict)：キーと値の組み合わせてデータを格納、連想配列

の3つのデータ構造を持っています。複数の値を順番に格納・更新する場合はリスト、一度宣言したら更新しない属性 (配列のサイズなど) の格納にはタプル、順番ではなく格納データの種類に意味がある場合・属性名を付けたい場合には辞書を用います。  
  
Pythonでは、**0から配列の添字(index)を数える**ことに注意しましょう。  

データ構造 (公式)  
https://docs.python.jp/3/tutorial/datastructures.html

### リスト (list)

In [0]:
# リスト
sample_list = []  # リストの初期化
sample_list.append(1)  # リストの末尾に値を追加
print(sample_list)
print(len(sample_list))
sample_list.extend([2, 3, 4, 5])  # リストの末尾に別のリストを合流
print(sample_list)

print(sample_list[1])  # 要素にアクセス (添字(index)は0から始まるので、1は2番目の要素を指す)
print(sample_list[2:4])  # リストの一部を取り出すことも可能

print([1, 2] + [3, 4])  # リストは+演算子で連結可能 (足し算ではない！)

### *便利機能：リストの後ろからのアクセス

In [0]:
print(sample_list)
print(sample_list[len(sample_list)-1])  # 通常、一番後ろの要素にはこうアクセスするが…
print(sample_list[-1])  # これだけで書ける！便利！

print(sample_list[-4:-2])  # 後ろより2番めより前

### タプル (tuple)

In [0]:
# タプル
sample_tuple = (224, 224, 3)

# sample_tuple[0] = 192  # 書き換えはできないのでエラー

### 辞書 (dict)
辞書オブジェクトを宣言には、中括弧{}を用います。
辞書内の各要素は
```
{
    key1: value1,
    key2: value2,
    ...
}
```
というキー (key)と 値 (value) の組み合わせによって表現されます。  
キーには、**変更不可能なもの** (数値、文字列、**タプル**) を指定することができます。  
辞書を使うことで、所望の要素にキーの名前でアクセスすることができるようになります。  

その他、辞書は次の性質を持ちます：
* 辞書の各要素は順番を持たない (順番を保持したい場合は[collections.OrderedDict](https://docs.python.jp/3/library/collections.html#collections.OrderedDict)を用いる)
* 同じキーが2つ以上存在してはならない

**豆知識：**Pythonのdictとデータの保存格納に使われるjsonは、キーと値の組み合わせで記述できる点が共通しており、直感的には対応関係にある (厳密にはルールが一部異なる)。Python3にはjsonモジュールが用意されており、dictとjsonの相互変換の機能を提供しています。  

json — JSON エンコーダおよびデコーダ (公式)  
https://docs.python.jp/3/library/json.html


In [0]:
# 辞書の宣言
sample_dict = {}

# 要素の代入
sample_dict["apple"] = "gorilla"
sample_dict[2] = "two"
sample_dict[(1, 2, 3)] = [4, 5, 6]
print(sample_dict)

# sample_dict[[1]] = 2  # リストは変更可能なのでエラー

### 要素へのアクセス

In [0]:
print(sample_dict)
print(sample_dict["apple"])

# キーのリスト、値のリストの取得にはkeys(), values()を用いる
# ただし、その順番は保証されない！
print("Key only:")
for key in sample_dict.keys():
    print(key)

print("Value only:")
for value in sample_dict.values():
    print(value)
    
# キー及び値の組のリストの取得にはitems()を用いる
print("Key and value:")
for key, value in sample_dict.items():
    print(key, value)
    
# 存在しないキーを指定するとエラー
# print(sample_dict["banana"])

### 辞書の使い方
例えば：画像ファイルの幅 (width) と高さ (height) を格納する場合

In [0]:
image_list = ["img1.jpg", "img2.jpg", "img3.jpg"]

# 辞書はネストできる
image_size_dict = {
    "img1.jpg": {
        "width": 640,
        "height": 480
    }
}

for image_name in image_list:
    if image_name not in image_size_dict:  # in構文でdict内に指定のキーを持つ要素が存在するか調べられる
        image_size_dict[image_name] = {}
        image_size_dict[image_name]["width"] = 1920
        image_size_dict[image_name]["height"] = 1080
        
print(image_size_dict)

# 2. Numpy入門 (1)

## ライブラリの使用 (import)
ライブラリの機能を使うためには、そのライブラリをインポートする必要があります。  
numpyの機能を呼び出す際は、ライブラリ名を前につけて、呼び出したいメソッドなどをドット(.)で繋いで呼び出します。
```
import hoge
hoge.foo.bar()
```
Numpyでは、いちいちnumpy.と呼び出すのが面倒であることから、以下のように慣習的にimport as文を用いてnp.とするのが一般的です。  
(一方で、省略記法を嫌う人もいるので、議論の分かれるところです)

In [0]:
import numpy as np  # numpyを'np'という名前でインポートする
import time  # 時間計測用のライブラリ

## 配列(ndarray)の定義と性質
配列の定義には、np.arrayを用います。  
numpyは、基本的に全てのデータをこのndarray型に納め、その上で処理を行います。  
numpy配列はそれぞれ形状 (shape) を持ち、その形状の要素数を「次元数」と呼びます。

In [0]:
# ndarrayの定義
a = np.array([1, 2, 3])

print(len(a))  # 長さは3
print(a.ndim)  # 1次元配列

b = np.array([[1, 2, 3], [4, 5, 6]])

print(b.shape)  # 配列の形状は2×3 (Pythonのリストとしては、「長さ3のリストが2つあるリスト」)
print(b.size)  # 配列の総要素数
print(b.dtype)  # この配列のデータ型 (後ほど)

c = np.array([[2, 2, 2], [2, 2, 2]])
print(b + c)  # 配列の和
print(b - c)  # 配列の差
print(b * c)  # 配列の要素積　(b * c = {b_i + c_i})

## 配列の生成
* np.ones(shape)：中身がすべて1の配列を作成
* np.zeros(shape) : 中身がすべて0の配列を作成
* np.arange([start], stop, [step]): range関数と似た機能を提供。連続した数列を作成

### np.zeros

In [0]:
print(np.zeros(1))  # 大きさ (1,)
print(np.zeros((2, 3))) # 注意：複数次元の場合はカッコで囲う
# print(np.zeros(2, 3))  # エラー

### np.ones

In [0]:
print(np.ones((2, 2, 2)))  # np.onesも同様
print(np.ones((3, 3))*5)  # 要素積と組み合わせると幅が拡がる

### np.arange

In [0]:
print(np.arange(5))  # 0から4 (!= 5) までの数列を作成
print(np.arange(0, 10, 3))  # 3刻みの数列を作成
print(np.arange(10, 0, -1))  # 降順のリストも書ける

## ちょっと寄り道：リスト内包表記
Python本体の機能として、ちょっと複雑なリストを表記する際によく用いられます。  
通常のfor文よりも高速なので、numpy配列が直接宣言できない場合に使いましょう。  
  
**実行速度： numpyの関数 >> リスト内包表記 > 通常のリスト**

In [0]:
# 例1: 1から50までの奇数
odd_numbers = [x * 2 + 1 for x in range(25)]
print(odd_numbers)

# 例2: 例1をfor文を用いて用意した場合
odd_numbers = []
for x in range(25):
    odd_numbers.append(x * 2 + 1)
print(odd_numbers)

# 例3: np.arangeを用いた場合
odd_numbers = np.arange(1, 50, 2)
print(odd_numbers)

# 実行時間の比較
start = time.time()  # time関数同士の時間を比較することで、実行時間を秒で計測できる
for trial in range(50000):
    odd_numbers = [x * 2 + 1 for x in range(25)]
end = time.time()
print("For内包表記: {} (s)".format(end - start))

start = time.time()
for trial in range(50000):
    odd_numbers = []
    for x in range(25):
        odd_numbers.append(x * 2 + 1)
end = time.time()
print("Forループ: {} (s)".format(end - start))

start = time.time()
for trial in range(50000):
    odd_numbers = np.arange(1, 50, 2)
    
end = time.time()
print("Numpy: {} (s)".format(end - start))

### *リスト内包表記と要素のフィルタリング
if文と組み合わせることによって、リスト内包表記で要素のフィルタリングを行うことができます。

In [0]:
# 1から49までの奇数
odds = [x for x in range(50) if x % 2 == 1]
print(odds)

## 要素の切り出し・変形
numpyの配列は、リスト同様そのうちの1つまたは一部を切り出すことができます。このとき、切り出した部分配列の要素を書き換えると、**元の配列も書き換わる**ことに注意しましょう。  
これは、配列のメモリ上の位置はそのままで、始点と終点を変えているだけであるからです。  
(そして、これがnumpyが速い理由のひとつです)

また、np.reshapeを用いることで、配列の形状を変えることができます。当然、要素の総数は同じではくてはなりません。

In [0]:
sample_array = np.arange(12).reshape((4, 3))  # (12,)の配列を(4, 3)に変形
print(sample_array)
print(sample_array[0, :])  # 1行目を取り出す
print(sample_array[:, 0])  # 1列目を取り出す

sample_view = sample_array[1:3, 1:3]  # 各次元ごとに切り出す
print(sample_view)

# 切り出した配列を書き換えると、元の配列も書き換わる
sample_view[0, 0] = -1
print(sample_view)
print(sample_array)

a = np.ones((10, 2, 2)).reshape((-1, 2))  # 1つの要素を-1に指定すると、総要素数に合わせて変形してくれる
print(a.shape)

## ブロードキャスティング (broadcasting)
numpyの強力な機能の1つがこのブロードキャスティングです。ブロードキャスティングは、次のルールに従って、**異なる大きさの配列同士の計算**を可能にします。
* 2つの配列の次元数が同じで、**各次元についてどちらか片方の要素数が1の場合**
* 2つの配列の次元数から異なる場合、次元数の大きい配列の後ろの次元から比較して、対応する各次元の要素数が1または同じである場合

説明ではわかりにくいので、実際の例で確認しましょう：

In [0]:
#　2配列の形状が全く同一である場合は当然OK
a = np.ones((3, 3))
b = np.ones((3, 3))
print((a + b).shape)  # -> (3, 3)

# どちらか片方の次元数が1なら、その次元について中身をコピーして形状を合わせてくれる
a = np.ones((4, 1, 5))
b = np.ones((1, 7, 1))
print((a + b).shape)  # -> (4, 7, 5)

# 次元数が異なる場合でも後ろから見て要素数の不一致がなければOK
a = np.ones((224, 224, 3))
b = np.ones(3)

print((a + b).shape)  # -> (224, 224, 3)

# 一見ダメなように見える例も…
a = np.ones((5, 5, 3))
b = np.ones((5, 1))

print((a + b).shape)  # -> (5, 5, 3)

### ブロードキャスティングに失敗する例

In [0]:
# CAUTION! コメントアウトして実行
a = np.ones((3, 3))
b = np.ones((2, 3))
# print((a + b).shape)  # -> ERROR!

a = np.ones((5, 3))
b = np.ones(5)
# print((a + b).shape)  # -> ERROR! 後ろから数えると5 != 3

### np.newaxisを用いて次元を合わせる
前項の(5, 3)と(5,)の足し算のような例は実際のコーディングでも頻発しますが、そのままではブロードキャスティングに失敗してしまいます。  
本来変数bに期待する形状は(5,)ではなく(5, 1)であり、そのように変形すれば良さそうです。   
そのための便利な機能として、np.newaxisがあります。np.newaxisは次元を任意の位置に追加します。

In [0]:
a = np.ones((5, 3))
b = np.ones(5)
c = a + b[:, np.newaxis]  # bの2次元目に(,1)を追加するので、(5, 3) + (5, 1) -> (5, 3)となる
print(c.shape)

## 書いてみよう3：配列の計算とブロードキャスティング
* Q1: (3, 3)の配列を2つ用意して、その和・差・要素積を計算せよ。
* Q2: すべての要素の大きさが5の(10, 10)の行列を構成せよ。
* Q3: 配列AとBは大きさが違うが、ブロードキャスティングによりその和を計算できる。答えを予想した後に実行して結果を確かめよ。

In [0]:
# 課題用 
A = np.ones((3, 5, 5))
B = np.array([[1, 2, 3, 4, 5]])

# WRITE ME!
# Q1

# Q2

# Q3

## 行列積の記述 (np.matmul, np.dot)
すでに述べた通り、\*演算子は行列の要素積であり、行列同士に定義される行列積ではありませんでした。  
行列積を記述する場合、np.matmulまたはnp.dotを用います。  
np.matmulとnp.dotは配列が行列(2次元)である場合には同様の挙動を示します。  
どちらも一般的に使われているため、両方覚えましょう。  

ただし、**3次元以上のテンソルの演算の場合には結果が変わる**ため、そのようなコードを見かけた場合注意しましょう。
一方で、3次元以上の配列の積を記述することは稀かつ、どの次元の積和を取るかが非直感的になるので、その場合はnp.einsum (今回は解説しない) を用いると良いでしょう。

たとえば、行列$W$と列ベクトル$x$の掛け算
\begin{align*}
{\bf y} = W{\bf x}
\end{align*}
は
```
y = np.matmul(W, x)
```
または
```
y = np.dot(W, x)
```
と書けます。

In [0]:
W = np.array([[3, 5], [1, 2]])  # (2, 2)
x = np.array([1, 2])  # (2,)
y = np.matmul(W, x)
print(y)
y = np.dot(W, x)
print(y)

### 書いてみよう4：行列積
Q: (10, 2)の行列と(2, 10)の適当な行列を作成し、その積を計算せよ。

In [0]:
# WRITE ME!

### *3次元以上のテンソルの場合の結果の比較

In [0]:
A = np.ones((3, 4, 5)) * 2
B = np.ones((3, 5, 1)) * 2

print(np.dot(A, B).shape)  # Aの最後の次元(5,)とBの後ろから2番めの次元(5,)を足し上げ、その他は放置
print(np.matmul(A, B).shape)  # 後ろ2次元分はnp.dotと同じだが、それより前の次元については要素積を取る

A = np.ones((3, 4, 5)) * 2
B = np.ones((4, 5, 1)) * 2

print(np.dot(A, B).shape)  # これはOKだが
# print(np.matmul(A, B).shape)  # これは最初の次元が3 != 4なのでエラー