# NumPy

NumPyは一般的にnpという略称でインポートします。 

In [None]:
import numpy as np

# 1. 配列の生成

## 1.1. Pythonのリストから配列を生成

まずは、Pythonの `list` を作成します。

In [None]:
lst = [1, 2, 3, 4, 5]

print(type(lst))
print(lst)

Pythonの `list` を `array()` 関数に与えると `ndarray` クラスのオブジェクトが生成されます。

In [None]:
arr = np.array(lst)

print(type(arr))
print(arr)

入れ子状の `list` を入れると、多次元の `ndarray` を作れます。  

In [None]:
arr_2d = np.array([[1, 2, 3], 
                   [4, 5, 6]]) # 改行すると見やすい
print(arr_2d)

### 【発展】Pythonのリストとndarrayの違い

Pythonの `list` において、和 (+) は**配列の結合**を意味します。

In [None]:
lst_a = [1, 2, 3, 4, 5]
lst_b = [10, 20, 30, 40, 50]

print(lst_a + lst_b)

`ndarray` の和は、**各要素の和**を返します。

In [None]:
arr_a = np.array(lst_a)
arr_b = np.array(lst_b)

print(arr_a + arr_b)

Pythonの `list` は、数値以外にも文字列などさまざまな種類のデータを扱うことができるため、特定の型に依存しない汎用的な処理が定義されています。  
一方、NumPyの `ndarray` は基本的に同じ型の数値データを扱うことを前提としているため、**数値配列に対する計算が効率よく、かつ直感的に行える**ように設計されています。  

この設計により、配列全体に対する演算を簡潔に記述できるとともに、**数値計算の高速化**につながります。  
例として、1千万要素の配列の各要素を足し合わせる操作を `list` および `ndarray`でそれぞれ実施してみます。

In [None]:
import time

# listを作成
lst_a = [1] * 10_000_000 # 1を1千万個持つ配列
lst_b = [2] * 10_000_000 # 2を1千万個持つ配列

# ndarrayに変換
arr_a = np.array(lst_a)
arr_b = np.array(lst_b)

# pythonのlistで各要素を足し合わせる
start = time.time()
c = []
for i in range(10_000_000):
    value = lst_a[i] + lst_b[i]
    c.append(value)
print("Python:", time.time() - start)

# NumPyで各要素を足し合わせる
start = time.time()
c = arr_a + arr_b
print("NumPy:", time.time() - start)

`list` では各要素の足し算を行うために Pythonの `for` 文で繰り返し処理をする必要があります。この場合、Pythonは**各要素について「どの型のオブジェクトか」「どの演算を行うべきか」を実行の度に確認**しながら処理を進めるため、計算速度が遅くなります。

一方、`ndarray` では配列全体の計算が**C言語で実装された内部ループに一度**に渡されます。配列の型はあらかじめ決まっているため、ループの中で毎回型を判別する必要がなく、高速に処理することができます。

## 1.2. 数列を生成

`zeros()` 関数は0をすべての要素に持つ配列を生成します。

In [None]:
print(np.zeros(5))

`ones()`関数は1をすべての要素に持つ配列を生成します。

In [None]:
# 次元をタプル（）で与えてあがれば多次元配列を生成
print(np.ones((2,5)))

等差数列を生成するには`linspace()`関数が使えます。  
(開始数値, 終了数値, 要素数) を与えると、開始数値と終了数値の間を指定された要素数の配列を生成します。

In [None]:
print(np.linspace(0, 1, 21))

## 1.3. 乱数を生成

まずは以下のコードを実行して、乱数生成器オブジェクトを作ります。

In [None]:
rng = np.random.default_rng()

`rng.[分布の種類]` のように使用する確率分布の種類を指定して乱数を生成します。  
ここでは一様分布 `random` を用いるが、他にも正規分布 `norm`、ポアソン分布 `poisson`など様々な確率分布が用意されています。

In [None]:
rng.random(10)

# 2. 配列の次元

## 2.1. 形状の確認（ndim, shape）

In [None]:
arr = np.array([[11, 12, 13, 14],
                [21, 22, 23, 24],
                [31, 32, 33, 34]])
print(arr)

次元数は`ndim`メソッドで確認できます。

In [None]:
print(arr.ndim)

形状は`shape`で確認できます。

In [None]:
print(arr.shape)

shapeはカッコ`()`で囲まれたタプルで表示されます。２次元配列の場合、(行, 列)の順に対応しています。

## 2.2. 形状を操作する（reshape, transpose）

`reshape()`メソッドによって `ndarray`の次元や形状を変更することができる。

In [None]:
arr_1d = np.array([[11, 12, 13, 14, 21, 22, 23, 24, 31, 32, 33, 34]])
print(arr_1d)

In [None]:
arr_2d = arr_1d.reshape(3, 4)
print(arr_2d)

reshapeにおいて、**`-1`は補完の機能**を持ちます。  
例えば、`reshape(2, -1)`は、配列を2行にすることを意味し、列数は適切な値を補完してくれます。

In [None]:
print(arr_2d.reshape(2, -1))

`ndarray`の転置には`transpose()`メソッドを使います。  
`T`という略式なメソッドもあります。この場合には`()`はつけない点には注意が必要です。

In [None]:
print(arr_2d.transpose())
print()
print(arr_2d.T)

## 2.3. 行ベクトルと列ベクトル

`array()`関数で生成された配列は、数値が横に並んだ行ベクトルです。  
行ベクトルを転置すると列ベクトルになります。

In [None]:
arr_1d = np.array([[11, 12, 13, 14, 21, 22, 23, 24, 31, 32, 33, 34]])
print(arr_1d)
print()
print(arr_1d.T)

厳密に言えば、**NumPyの１次元配列には行ベクトル、列ベクトルといった概念はありません**。上で見た行列は1行n列の２次元行列、n行１列の２次元行列となります。  

例えば`zeros()`等で生成された配列は純粋な１次元配列であり、行ベクトルでも列ベクトルでもありません。  
そのため、転置しても列ベクトルにはならず、列ベクトルに変換するには`reshape()`を使用します。

In [None]:
arr_zero = np.zeros(12)

print(arr_zero.T) # 転置はできない
print()
print(arr_zero.reshape(-1, 1)) # 行数は補完して、列数に１を指定しています。

# 3. 配列の操作

## 3.1. 要素へのアクセス

In [None]:
print(arr_2d)

２次元の`ndarray`の要素にアクセスする際には、ndarray[行インデックス, 列インデックス]のように指定します。  
**行および列インデックスは0から始まる点に注意**が必要です。

In [None]:
print(arr_2d[2, 2])

複数の行や列にアクセスしたい場合は、指定したい行や列のインデックスを`[]`で囲んでリストとして渡します。

In [None]:
print(arr_2d[2, [1,2]])

コロン`:`を使って、区間を指定することも可能です（**slice**）。  
※pythonリストと同様、stepアクセス、逆順、末尾からのアクセスも可能です。

In [None]:
print(arr_2d[2, 1:3])

行もしは列のいずれかに**コロン `:` を指定すると、すべて取り出します**。

In [None]:
print(arr_2d[2, :])

## 3.2. ndarrayの基本演算関数

In [None]:
print(arr_2d)

`ndarray`には便利な演算を行う関数やメソッドが用意されています。

In [None]:
# 最大値
print(arr_2d.max())

# 平均値
print(arr_2d.mean())

# 配列の要素の和
print(arr_2d.sum())

間数の引数に`axis = 0 or 1`を指定すると、行ごと、列ごとに計算されます。  
ただし、**行列の方向が混乱しやすい点、いずれも返り値は1次元配列**である点には注意が必要です。

In [None]:
# axis = 0を指定すると、列ごとの計算結果
print(arr_2d.max(axis = 0))

# axis = 1を指定すると、行ごとの計算結果
print(arr_2d.max(axis = 1))

## 3.3. 四則演算

行列に数値を掛けると、すべての要素に掛け算が適用されます。

In [None]:
arr_ones = np.ones((3, 4))
arr_ten = arr_ones * 10

print(arr_ones)
print()
print(arr_ten)

同じ形状の配列を掛け合わせると、要素ごとに掛け算が適用されます。

In [None]:
print(arr_ones * arr_ten)

これは**数学的な行列計算とは異なる、NumPyの実用的な機能**です。  
行列の積を計算する場合には、@を使用します。  
（行列の積は1つ目の行列の列数と2つ目の行列の行数が一致している必要があります）

In [None]:
print(arr_ones @ arr_ten.T)

同じ形状の配列を足し合わせると、要素ごとに足し算が適用されます。

In [None]:
print(arr_ones + arr_ten)

### 【発展】ブロードキャスト

一つ前の演算は以下のようにも書くことができます。

In [None]:
print(arr_ones + 10)

数学の行列ではこのような計算はできませんが、NumPyではこのように**サイズが不揃いの場合でも要素を拡張させて計算することができます（ブロードキャスト）**。  
ブロードキャストはサイズが合っていれば、行ベクトルや列ベクトルを適用することも可能です。  
※拡張のさせ方が明確な場合以外には、無理やり拡張されることはありません。

In [None]:
# 列数と同じ要素数の行ベクトルを適用
arr_row = np.array([1, 10, 100, 1000])

print(arr_row)
print()
print(arr_ones * arr_row)

In [None]:
# 行数と同じ要素数の列ベクトルを適用
arr_col = np.array([1, 10, 100]).reshape(-1,1)

print(arr_col)
print()
print(arr_ones * arr_col)

# 4. データの型

Pythonのリストでは、**要素ごとに型が定義**されています。

In [None]:
lst = [1, "a", 3.14]

print(type(lst))
print(type(lst[0]))
print(type(lst[1]))
print(type(lst[2]))

一方、NumPyにおいては、**１つの`ndarray`に１つの型が定義**されており、異なる型の要素を持つことはできません。  
`ndarray`のデータの型は`dtype`メソッドで確認します。

In [None]:
arr_2d.dtype

よく使われる型の種類として、以下のものが挙げられます。
- 整数：デフォルト`int64`（`int8`, `int16`, `int32`）
- 浮動小数点数：デフォルト`float64`（`float16`, `float32`）
- 真偽値：`bool`

NumPyは与えられたデータから、型を自動で判別します。

In [None]:
arr_int = np.array([1, 2, 3])
arr_float = np.array([1.0, 2.0, 3.0])
arr_bool = np.array([True, False])
print(arr_int.dtype)
print(arr_float.dtype)
print(arr_bool.dtype)

`array`関数で配列を生成する時に、手動で型を指定することも可能です。

In [None]:
arr_int = np.array([1, 2, 3], dtype = 'int8')
print(arr_int.dtype)

astype()メソッドを用いて、一度生成されたndarrayの型を後から変更することも可能です。  
なお、boolは1=True, 0=Falseの間で変換が可能です。

In [None]:
arr_zero = np.zeros(3)
print(arr_zero)
print(arr_zero.astype(bool))

## 【発展】オーバーフロー

`int` や `float` の後に続く数字は、その値を表現するために使用する ビット数 を表します。  
ビット数が小さいほど**メモリは節約できますが、その分表現できる数値の範囲が制限されます**（例：int8 は -128 から 127 まで）。

この範囲を超えると、値は循環するように変化し（オーバーフロー）、予期しない値になることがあります。

In [None]:
arr = np.array([1, 10, 100], dtype=np.int8)
print(arr)
print(arr.dtype)

In [None]:
arr *= 2 # すべての要素を２倍する
print(arr)

基本的には**デフォルトの`int64`, `float64`を使用することが無難**です。  
しかし、深層学習等の大量の計算を必要とする処理ではあえて`float32`等を使用する場合もあります。  
（ただし、浮動小数点数ではビット数を下げると有効桁数が減少するため、数値誤差が大きくなる可能性がある点に注意が必要です。）

# 5. 【発展】view

viewはPythonやRではあまり使われませんが、NumPyでは重要な仕組みです。  
これを理解していないとデータを意図せず書き換えてしまう可能性があります。  

例えば、３サンプルの４遺伝子発現量データを扱うことを考えてみましょう。

In [None]:
arr = np.array([[10, 12, 11],
                [50, 74, 62],
                [20, 25, 21],
                [55, 53, 48]])
print(arr)

可視化や解析の入力形式によって、転置したりデータをいじったりする場合があるかと思います。

In [None]:
# 転置して、arr_tという変数に代入
arr_t = arr.T
print(arr_t)

In [None]:
# 特定の遺伝子の発現量を0にする
arr_t[:, 2] = 0
print(arr_t)

すると、元のarrはいじっていないにもかかわらず、、、

In [None]:
print(arr)

何が起きているのか、ndarrayの構成から確認してみましょう。 

重要な点として、NumPyの配列は「行列そのもの」として保存されているわけではなく、  
**連続したメモリ領域（data）と、そのデータをどのような形で解釈するか**という情報が分かれて管理されています。

<p align="center">
  <img src="./source/ndarray.png" width="800">
</p>

このような構成により、**データを変えることなく、読み方を変える**だけで、異なる配列を扱うことができます（view）。

転置では、`strides`の行方向、列方向を入れ替えることで、同じデータを表面上転置して扱うことができます。

In [None]:
print(arr.strides)
print(arr_t.strides)

ただし、ndarrayのすべての操作がviewになるわけではありません。  
- viewになる操作：slice, transpose, reshape 等
- copyになる操作：インデックスによるデータアクセス 等

In [None]:
# viewになる操作
arr_t = arr.T
arr_slice = arr[0:2, 1:2]
arr_reshape = arr.reshape(1, -1)

# copyになる操作
arr_ind = arr[1, 2]

# baseはviewで参照している配列を表示する
print(arr_t.base)
print()
print(arr_slice.base)
print()
print(arr_reshape.base)
print()
print(arr_ind.base)

transpose等、デフォルトでviewになる操作でも、`.copy()`メソッドを追加すると新しい配列が生成されるため、元の配列が変更されることはありません。

In [None]:
arr_t = arr.T.copy()
print(arr_t.base)