# numpyとは

## 高速な行列演算

配列表現を高速に処理するライブラリ。数値ベクトルの処理に特に強い。通常のPythonは大量の計算を行うことが得意ではないため、様々な工夫により動作が高速になるように設計されている。

## 機械学習ライブラリの土台

numpyは"数値データを効率的に扱う"という最も基本的な機能を提供しているため、他の機械学習ライブラリの基礎、土台として機能する。

例えば、pandasでは、内部でのデータ処理にnumpyが用いられている。このほかにも、scikit-learnやmatplotlibなどは、numpyで作成されたデータを直接取り扱えるように設計されている。

これ以降の解説のため、numpyを読み込む。

In [None]:
import numpy as np

# 行列の作成･取扱い

## 行列の作成

numpyでは様々な行列の作成方法がある。一例を示す。

In [None]:
np.array([1, 2, 3, 4, 5])

In [None]:
np.zeros(10, dtype=int)

In [None]:
np.ones((3, 5), dtype=float)

In [None]:
np.full((3, 5), 3.14)

In [None]:
np.arange(0, 20, 3)

In [None]:
np.linspace(0, 1, 5)

In [None]:
np.random.random((3, 4))

In [None]:
np.random.normal(0, 1, (3, 3))

In [None]:
np.random.randint(0, 20, (3, 4))

In [None]:
np.eye(4)

## 行列の情報を得る

numpy形式の配列は行列に関する様々な情報を取得することができる。ここでは、digitsというデータセットを用いて取得できる情報を紹介する。

digitsは0から9の手書き数字が書かれた8x8ピクセルの小さな画像と、画像に何の数字が書かれているかの情報の2つからなる。画像と、何が書かれているかの情報のペアは全部で1797ペアが存在する。

In [None]:
from sklearn import datasets

mnist = datasets.load_digits()

データセットの中の`'images'`には行列形式で保管された0から9の数値が含まれる。

In [None]:
mnist['images']

同様に`'target'`には、各画像に何が書かれているかの情報が含まれる。

In [None]:
mnist['target']

`ndim`は行列の次元数を示す。

In [None]:
mnist['images'].ndim

In [None]:
mnist['target'].ndim

`shape`は行列の形状を示す。

In [None]:
mnist['images'].shape

In [None]:
mnist['target'].shape

ここからは、小さな配列を用いてそれぞれがどのような意味なのかを確認する。

In [None]:
x1 = np.zeros(6, dtype=np.float16)
x2 = np.zeros((3, 4), dtype=np.uint8)
x3 = np.zeros((3, 4, 5), dtype=np.float32)

In [None]:
x1

In [None]:
x2

In [None]:
x3

### 次元数

In [None]:
x1.ndim

In [None]:
x2.ndim

In [None]:
x3.ndim

### シェイプ

In [None]:
x1.shape

In [None]:
x2.shape

In [None]:
x3.shape

### 合計サイズ

In [None]:
x1.size

In [None]:
x2.size

In [None]:
x3.size

### データ型

データ型は、それぞれの行列が整数なのか、小数なのかなどを意味する。

In [None]:
x1.dtype

In [None]:
x2.dtype

In [None]:
x3.dtype

## 行列の中身を取得する

ここでは、行列の中身から一部の値を取り出す方法を紹介する。

### インデックス

##### 1次元の配列

In [None]:
x1 = np.random.randint(10, size=(6))
x1

In [None]:
x1[0]

In [None]:
x1[3]

In [None]:
x1[-1]

In [None]:
x1[-4]

In [None]:
x1[2] = 8
x1

##### 多次元の配列

In [None]:
x2 = np.random.randint(10, size=(3, 4))
x2

In [None]:
x2[0, 0]

In [None]:
x2[2, 2]

In [None]:
x2[2, -1]

In [None]:
x2[0, 0] = 12
x2

### ビュー

ビューを用いると、行列の一部を切り出して処理を行える。切り出した行列は元の行列とリンクした状態で操作されるため、ビューの行列の値を変更すると元の行列に影響する。

In [None]:
x2 = np.random.randint(10, size=(3, 4))
x2

In [None]:
x2_sub = x2[:2, :2]
x2_sub

In [None]:
x2_sub[0, 0] = 99
x2_sub

In [None]:
x2

### コピー

ビューでは元の行列に変更した内容が影響を与えるが、明示的にコピーすることで、元の行列の部分行列を別個に扱える。

In [None]:
x2 = np.random.randint(10, size=(3, 4))
x2

In [None]:
x2_sub_copy = x2[:2, :2].copy()
x2_sub_copy

In [None]:
x2_sub_copy[0, 0] = 42
x2_sub_copy

In [None]:
x2

## 行列の形状変更

行列の形状を変えるには`reshape()`メソッドを用いる。計算を行うときに行列の形状を変更する作業は良く行う。

In [None]:
grid = np.arange(1, 10)
grid

In [None]:
grid.reshape((3, 3))

In [None]:
grid.reshape((2, 5))

In [None]:
x = np.array([1, 2, 3])
x

`reshape`を使った行ベクトルの作成

In [None]:
x.reshape((1, 3))

`newaxis`を使った行ベクトルの作成

In [None]:
x[np.newaxis]

`reshape`を使った列ベクトルの作成

In [None]:
x.reshape((3, 1))

`newaxis`を用いた列ベクトルの作成

In [None]:
x[:, np.newaxis]

In [None]:
x3 = np.random.randint(10, size=(3, 4))
x3

In [None]:
x3[:, np.newaxis, :]

## 行列の連結

複数の行列を`concatenate()`関数を用いることで連結できる。

### 1次元

In [None]:
x = np.array([1, 2, 3])
x

In [None]:
y = np.array([3, 2, 1])
y

In [None]:
np.concatenate([x, y])

In [None]:
z = [99, 99, 99]
z

In [None]:
np.concatenate([x, y, z])

### 多次元

In [None]:
grid = np.array([[1, 2, 3],
                 [4, 5, 6]])

In [None]:
grid.shape

In [None]:
grid2 = np.concatenate([grid, grid], axis=0)
grid2

In [None]:
grid2.shape

In [None]:
grid3 = np.concatenate([grid, grid], axis=1)
grid3

In [None]:
grid3.shape

In [None]:
aaa = np.random.randint(10, size=(3, 4, 3))
aaa

In [None]:
np.concatenate([aaa, aaa], axis=2).shape

In [None]:
np.concatenate([aaa, aaa], axis=1).shape

In [None]:
np.concatenate([aaa, aaa], axis=0).shape

# 行列の演算

numpyでは行列に対して容易に演算を行える。

### 四則演算

In [None]:
x = np.arange(4)
x

In [None]:
x + 5

In [None]:
x - 5

In [None]:
x * 2

In [None]:
x / 2

In [None]:
x // 2

In [None]:
x ** 3

In [None]:
x % 2

In [None]:
-(0.5*x + 1) ** 2

## 集約

numpy行列には集約処理が用意されている。集約処理を用いると、行列の特徴に関する情報を求めることができる。

### 配列の合計

In [None]:
L = np.random.random(100)
L

In [None]:
np.sum(L)

In [None]:
L.sum()

### 最大･最小

In [None]:
np.min(L)

In [None]:
np.max(L)

In [None]:
L.min()

In [None]:
L.max()

### 多次元配列の集約

In [None]:
M = np.random.random((3, 4))
M

In [None]:
M.sum()

In [None]:
M.min(axis=0)

In [None]:
M.max(axis=1)

### その他の集約関数

#### 平均･中央値･最頻値

In [None]:
np.mean(L)

In [None]:
np.median(L)

## マスク

マスクを用いると、特定の条件に該当する要素だけを絞り込める。

In [None]:
x = np.random.randint(3, size=(30))
x

In [None]:
x > 0

In [None]:
x[x > 1]

0より大きいときだけの平均を求められる。
例えば、雨が降った日の平均降水量、交通事故の死亡者数の平均など。

In [None]:
np.mean(x[x > 0])