[markdown記法](https://qiita.com/tbpgr/items/989c6badefff69377da7)

[米国データサイエンティストがやさしく教えるデータサイエンスのためのPython講座](https://www.udemy.com/course/ds_for_python/learn/lecture/21511724#overview)

# 19.NumPyとは

行列計算できるため、非常によく使う

In [1]:
import numpy as np

In [2]:
np.__file__

'/opt/anaconda3/lib/python3.8/site-packages/numpy/__init__.py'

# 20.NumPy Arrays (ndarray)

In [5]:
matrix = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]], dtype=float)
print(matrix)
print(matrix[0][0])
type(matrix[0][0])

[[1. 2. 3.]
 [4. 5. 6.]
 [7. 8. 9.]]
1.0


numpy.float64

arrayの中の数値はnumpy.int64とかfloat64とか

**NumPy独自のデータタイプであることに注意！**

In [6]:
ndarray = np.array([1, 2, 3], dtype=np.uint8)  # unsigned + - integer 8bit
ndarray

array([1, 2, 3], dtype=uint8)

uint8
- 2^8 = 256
- 0~255までの256個（8bit）
- 画像を扱うときに使う

これらも使う
- dtype=np.float32：　uint8で足りないとき
- dtype=np.float64：　データ量が多くなる。機械学習のモデル学習などで使用

# 21.ndarrayの演算
- Broadcasting

In [7]:
array1 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
array2 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

In [8]:
array1 + array2

array([[ 2,  4,  6],
       [ 8, 10, 12],
       [14, 16, 18]])

行列同士の演算ができる
info リストではできないので注意

In [4]:
array1 = np.array([1, 2, 3])
array2 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
array3 = np.array([[1, 2, 3], [1, 2, 3], [1, 2, 3]])

## Broadcasting

行列の足りない要素を自動で補完して計算してくれる

In [7]:
# array1をarray2の形に補完して計算してくれる
array1 + array2

array([[ 2,  4,  6],
       [ 5,  7,  9],
       [ 8, 10, 12]])

In [5]:
# 全ての要素に3を足す
array2 + 3

array([[ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

# 22.Shape
- ndarray.shape
- ndarray.reshape()
- np.expand_dims(ndarray, axis)
- np.squeeze(ndarray)

In [9]:
# 3行2列の行列を作成
ndarray = np.array([[1, 2], [3, 4], [5, 6]])
ndarray.shape

(3, 2)

ndarrayを作ってまず最初に確認するのがshape


In [10]:
# reshape()関数で行数と列数を変えられる。
ndarray.reshape(2, 3)

array([[1, 2, 3],
       [4, 5, 6]])

In [12]:
# ただし、要素数が合うようにするべし。
ndarray.reshape(1, 3)

ValueError: cannot reshape array of size 6 into shape (1,3)

In [14]:
# 1次元の例と2次元の例。[]の数に注意
ndarray1 = np.array([1, 2, 3])
ndarray2 = np.array([[1, 2, 3]])

print(ndarray1.shape)
print(ndarray2.shape)

(3,)
(1, 3)


2次元(rank2)
- 白黒画像
- （高さ、横）

3次元(rank3)
- カラー画像
- （高さ、横、奥行き）

4次元(rank4)
- カラー画像が複数枚ある
- （個数、高さ、横、奥行き）

## 次元の増減 np.expand_dims(ndarray, axis)

In [15]:
# axis = 0 だと(3,)の3の前に1が入るイメージ
np.expand_dims(ndarray1, axis=0)

array([[1, 2, 3]])

In [16]:
np.expand_dims(ndarray1, axis=-1)

array([[1],
       [2],
       [3]])

axis = -1 で最後に追加できる。よく使う

In [22]:
expand_ndarray = np.expand_dims(ndarray1, axis=0)
expand_ndarray

array([[1, 2, 3]])

In [23]:
# shapeで1のrankをなくす
np.squeeze(expand_ndarray)

array([1, 2, 3])

In [20]:
ndarray = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
ndarray.shape

(3, 3)

In [21]:
# .flatten()関数で1次元に変換できる
ndarray.flatten()

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

# 23.IndexingとSlicing

In [28]:
ndarray = np.array([1, 2, 3, 4])
print(ndarray[-1])

4


In [31]:
ndarray = np.array([[1, 2], [3, 4], [5, 6]])
print(ndarray[0, 1])

2


In [30]:
ndarray = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13, 14, 15, 16]])
print(ndarray[:3, 2:])

[[ 3  4]
 [ 7  8]
 [11 12]]


# 24.np.arange(), np.linspace(), np.logspace()

ある規則で並んだ行列を作りたいときに使用

## np.arange(start=0, stop, step)

stepがわかっている場合に使う

In [32]:
np.arange(3, 15, 2)

array([ 3,  5,  7,  9, 11, 13])

## np.linspace(start, stop, step)

範囲がわかっているときに使う

In [33]:
np.linspace(2.0, 3.0, 5)

array([2.  , 2.25, 2.5 , 2.75, 3.  ])

## np.logspace(start, stop, num=50)

In [22]:
np.logspace(0, 3.0, 10)
# 10^0, 10^0.333, 10^0.666, 10^1, ..., 10^3

array([   1.        ,    2.15443469,    4.64158883,   10.        ,
         21.5443469 ,   46.41588834,  100.        ,  215.443469  ,
        464.15888336, 1000.        ])

# 25.行列生成 zeros, ones, eye

### np.zeros(shape)

In [36]:
shape = (3, 4)
np.zeros(shape)

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

NumPyのShapeはtupleで定義

### np.ones(shape)

In [37]:
shape = (5, 4)
np.ones(shape)

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

**np.ones((5, 4))*5 など　定数で埋めた行列を作れる**

### np.eye(shape)

In [38]:
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

# 26.np.randomを使って乱数生成
- np.random.rand()
- np.random.seed()
- np.random.randn()
    - 標準正規分布
    - np.random.normal()
        任意の正規分布（平均と標準偏差を指定）
- np.random.randint()
- np.random.choice()

### np.random.rand()

In [23]:
## 擬似乱数 pseudo random
np.random.rand(3, 4)

array([[0.59932493, 0.01608126, 0.52262721, 0.76101366],
       [0.37341283, 0.55265336, 0.46863453, 0.37597373],
       [0.23729634, 0.89875519, 0.64668055, 0.06727597]])

### np.random.seed()

In [24]:
np.random.seed(1)
np.random.rand()

0.417022004702574

### np.random.randn

In [25]:
np.random.randn(3, 4)

array([[-0.80217284, -0.44887781, -1.10593508, -1.65451545],
       [-2.3634686 ,  1.13534535, -1.01701414,  0.63736181],
       [-0.85990661,  1.77260763, -1.11036305,  0.18121427]])

In [42]:
np.random.normal(3, 1)  ##任意の正規分布

3.5643448655784566

### np.random.randint()

In [43]:
np.random.randint(10, 100, (2, 3))

array([[19, 17, 73],
       [71, 32, 67]])

### np.random.choice()

In [29]:
a = [1, 2, 3]
np.random.choice(a)
### リストの中身のどれかをランダムにとってくる

2

# 27.統計量を求める
- 最大値
    - .max()
    - np.max()
- 最小値
    - .min()
    - .argmin() - インデックス番号を得る
- 平均値
    - .mean()
- 中央値
    - np.median()
- 標準偏差
    - np.std()

**max, min などの()にaxisを指定すると、行ごと、列ごとに統計量を計算できる**

In [33]:
std_norm = np.random.randn(5, 5)
std_norm

array([[ 0.7299756 ,  0.37299379,  0.53381091, -0.0919733 ,  1.91382039],
       [ 0.33079713,  1.14194252, -1.12959516, -0.85005238,  0.96082   ],
       [-0.21741818,  0.15851488,  0.87341823, -0.11138337, -1.03803876],
       [-1.00947983, -1.05825656,  0.65628408, -0.06249159, -1.73865429],
       [ 0.103163  , -0.62166685,  0.27571804, -1.09067489, -0.60998525]])

### 最大値とそのindex

In [None]:
print(std_norm.max())
print(std_norm.argmax())

In [47]:
print(std_norm.max(axis=0))  # 列ごと
print(std_norm.max(axis=1))  # 行ごと

[0.17133845 0.17532267 1.70490377 1.0149868  1.3814073 ]
[0.77735121 1.70490377 1.3814073  1.0149868  0.06770979]


### 最小値とそのindex

In [None]:
print(std_norm.min())
print(std_norm.argmin())

In [49]:
std_norm.flatten()[20]

-0.2870998934432889

### 平均値

In [None]:
std_norm.mean()

### 中央値

In [34]:
np.median(std_norm)
# std_norm.median()は使えない
# データを並び替えるので処理に時間がかかる
# 外れ値に強い

-0.06249159330061683

In [35]:
# 中央値vs平均値
import time

a = np.random.rand(1000, 1000)
before = time.time()
np.median(a)
after_median = time.time()
np.mean(a)
after_mean = time.time()
print("{} sec".format(after_median - before))
print("{} sec".format(after_mean - after_median))

0.011454105377197266 sec
0.0005705356597900391 sec


### 標準偏差

In [None]:
np.std(std_norm)

# 28.数学で使う便利関数
- 平方根
- log
- 指数関数
- ネイピア数
- 合計
- 絶対値

## 平方根　square root

In [39]:
np.sqrt([1, 2, 3, 4])

array([1.        , 1.41421356, 1.73205081, 2.        ])

## log (logarithm)
デフォルトは底がe

In [40]:
x = np.linspace(1, 10, 10)
print(x)
np.log(x)

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]


array([0.        , 0.69314718, 1.09861229, 1.38629436, 1.60943791,
       1.79175947, 1.94591015, 2.07944154, 2.19722458, 2.30258509])

## 指数関数 Exponential function

In [41]:
np.exp(x)

array([2.71828183e+00, 7.38905610e+00, 2.00855369e+01, 5.45981500e+01,
       1.48413159e+02, 4.03428793e+02, 1.09663316e+03, 2.98095799e+03,
       8.10308393e+03, 2.20264658e+04])

## ネイピア数

In [43]:
np.e

2.718281828459045

## 合計

In [45]:
array = np.arange(1, 11)
np.sum(array)

55

In [126]:
ndarray = array.reshape(2, 5)
ndarray

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

連番で行列にしたいとき、arange()で作って、reshapeが良い

In [128]:
np.sum(ndarray, axis=1)

array([15, 40])

## 絶対値 absolute value

In [47]:
array = np.arange(-10, 0)
print(array)
np.abs(array)

[-10  -9  -8  -7  -6  -5  -4  -3  -2  -1]


array([10,  9,  8,  7,  6,  5,  4,  3,  2,  1])

# 29.np.nanとnp.isnan()

In [132]:
# Nan : Not a Number

In [133]:
np.log(-100)

  np.log(-100)


nan

In [134]:
type(np.nan)

float

floatに関するエラーが出たらnanを疑うとよい

In [136]:
a = None
a is None

True

In [137]:
np.isnan(np.log(-100))

  np.isnan(np.log(-100))


True

# 30.その他便利関数

### np.clip()
最小値と最大値の範囲外を最小値、最大値にする

In [142]:
array = np.arange(10)
array

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [143]:
np.clip(array, 3, 7)

array([3, 3, 3, 3, 4, 5, 6, 7, 7, 7])

log(0.0000......1)は－infとなるため、途中で区切ったりする

### np.where()

In [57]:
array = np.arange(10)
# Trueなら1に、Falseなら0に置き換える
np.where(array > 3, 1, 0)

array([0, 0, 0, 0, 1, 1, 1, 1, 1, 1])

In [147]:
np.where(array > 3)

(array([4, 5, 6, 7, 8, 9]),)

In [151]:
ndarray = array.reshape(2, 5)
ndarray[ndarray > 3]

array([4, 5, 6, 7, 8, 9])

In [152]:
ndarray

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [153]:
ndarray > 3

array([[False, False, False, False,  True],
       [ True,  True,  True,  True,  True]])

In [154]:
# ()内が全てTrueかどうかを判定
(ndarray > 3).all()

False

In [155]:
# ()内に一つでもTrueがあるかどうかを判定
(ndarray > 3).any()

True

In [157]:
print((ndarray > 3).all(axis=0))
print((ndarray > 3).all(axis=1))

[False False False False  True]
[False  True]


## np.unique()

In [58]:
array = np.array([1, 1, 2, 3, 4, 2, 3, 4, 5])
np.unique(array)

array([1, 2, 3, 4, 5])

In [161]:
# 各要素のカウントを返す
np.unique(array, return_counts=True)

(array([1, 2, 3, 4, 5]), array([2, 2, 2, 2, 1]))

### np.bincount()

In [163]:
# 0からの連番がいくつあるかを数える
np.bincount(array)

array([0, 2, 2, 2, 2, 1])

# 31.結合と転置

## np.concatenate()とnp.stack

concatenateは次元そのまま。stackは指定の次元に並べる

In [164]:
ndarray_even = np.arange(0, 18, 2).reshape(3, 3)
ndarray_even

array([[ 0,  2,  4],
       [ 6,  8, 10],
       [12, 14, 16]])

In [165]:
ndarray_odd = np.arange(1, 19, 2).reshape(3, 3)
ndarray_odd

array([[ 1,  3,  5],
       [ 7,  9, 11],
       [13, 15, 17]])

In [170]:
np.concatenate([ndarray_even, ndarray_odd], axis=0)

array([[ 0,  2,  4],
       [ 6,  8, 10],
       [12, 14, 16],
       [ 1,  3,  5],
       [ 7,  9, 11],
       [13, 15, 17]])

In [184]:
stacked_array = np.stack([ndarray_even, ndarray_odd], axis=1)
stacked_array

array([[[ 0,  2,  4],
        [ 1,  3,  5]],

       [[ 6,  8, 10],
        [ 7,  9, 11]],

       [[12, 14, 16],
        [13, 15, 17]]])

In [185]:
stacked_array.shape

(3, 2, 3)

## np.transpose .T

In [187]:
ndarray = np.random.randn(3, 4)
ndarray

array([[-0.51744967, -1.22614045, -1.28761623, -0.38284118],
       [-0.69651913, -0.55193062, -1.0309493 ,  1.02331539],
       [-0.92479879,  0.39317429,  1.77091299,  1.01769962]])

In [188]:
ndarray.shape

(3, 4)

In [191]:
transpose_ndarray = np.transpose(ndarray) # = ndarray.T
transpose_ndarray

array([[-0.51744967, -0.69651913, -0.92479879],
       [-1.22614045, -0.55193062,  0.39317429],
       [-1.28761623, -1.0309493 ,  1.77091299],
       [-0.38284118,  1.02331539,  1.01769962]])

# 32.np.save('path', array) と np.load('path')

In [196]:
ndarray = np.random.randn(3, 4, 5)
ndarray.shape

(3, 4, 5)

In [198]:
np.save('sample_ndarray', ndarray)

In [200]:
loaded_ndarray = np.load('sample_ndarray.npy')
loaded_ndarray.shape

(3, 4, 5)

ndarrayだけではなくて、別の情報を付け加えることが多い

In [204]:
dictionary = {
    'id': 123456,
    'image': ndarray
}

In [205]:
np.save('sample_dict.npy', dictionary)

In [215]:
# np.load('sample_dict.npy')
# ValueError: Object arrays cannot be loaded when allow_pickle=False
loaded_dict = np.load('sample_dict.npy', allow_pickle=True)[()]
# [()]があると、dictで返ってくる

In [216]:
loaded_dict

{'id': 123456,
 'image': array([[[-2.66496736,  1.07158398,  0.67518412,  0.34140565,
           0.31371954],
         [-0.57574864,  1.33204124,  0.03437017,  0.36067161,
          -0.34504026],
         [ 0.68413796, -1.47544572,  0.61216361,  0.20259417,
          -1.05855594],
         [-0.1673645 ,  0.1027716 ,  0.43130781,  0.50729077,
          -0.24760692]],
 
        [[-0.84521031,  0.46022314, -1.49038305,  0.02840563,
          -0.833289  ],
         [ 0.23688517, -0.57912198,  1.12009359, -0.28930985,
          -1.11057421],
         [ 1.012917  ,  0.30285226, -1.37770875, -0.06016355,
           1.32330957],
         [ 0.4527403 , -0.19451466,  0.62439336,  1.49246696,
          -0.05152962]],
 
        [[-1.40479966, -0.06850061,  1.45857966, -2.90988703,
          -0.2549928 ],
         [ 1.13415863, -1.23972113, -0.75219392,  0.62397975,
           0.5637631 ],
         [-0.53552067,  0.74271355,  0.89965623, -0.8319315 ,
           0.70133264],
         [-1.0319369 , -