# Numpy Tutorial

In [2]:
import numpy as np

## 多次元配列の定義

In [3]:
# 一次元のベクトル定義
one_dim_arr = np.array([1, 2, 3])
one_dim_arr

array([1, 2, 3])

In [4]:
# 多次元配列の形の確認
one_dim_arr.shape

(3,)

In [5]:
# 多次元配列の次元数の確認
one_dim_arr.ndim

1

In [6]:
# 行列の定義
mat_arr = np.array(
    [[1, 2, 3],
     [4, 5, 6],
     [7, 8, 9]]
)

mat_arr

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [7]:
# 形と次元数の確認
print('Shape:', mat_arr.shape)
print('Rank:', mat_arr.ndim)

Shape: (3, 3)
Rank: 2


In [8]:
# 要素数の確認
mat_arr.size

9

In [9]:
# 形を指定して、要素が全て 0 で埋められた ndarray を作る
ele_zero_mat = np.zeros((3, 3))

ele_zero_mat

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [10]:
# 形を指定して、要素が全て 1 で埋められた ndarray を作る
ele_one_mat = np.ones((2, 3))

ele_one_mat

array([[1., 1., 1.],
       [1., 1., 1.]])

In [11]:
# 形と値を指定して、要素が指定した値で埋められた ndarray を作る
ele_nine_mat = np.full((3, 2), 9)

ele_nine_mat

array([[9, 9],
       [9, 9],
       [9, 9]])

In [12]:
# 指定された大きさの単位行列を表す ndarray を作る
identity_mat = np.eye(5)

identity_mat

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [13]:
# 形を指定して、 0 ~ 1 の間の乱数で要素を埋めた ndarray を作る
rand_mat = np.random.random((4, 5))

rand_mat

array([[0.47036207, 0.69003948, 0.75894345, 0.23622732, 0.95110865],
       [0.45141637, 0.93015777, 0.941126  , 0.12088373, 0.17819168],
       [0.54932002, 0.66134264, 0.34423835, 0.51196869, 0.97975118],
       [0.49665277, 0.17756449, 0.50773115, 0.12115641, 0.19302729]])

In [14]:
# 3 から始まり 10 になるまで 1 ずつ増加する数列を作る（10 は含まない）
arange_arr = np.arange(3, 10, 1)

arange_arr

array([3, 4, 5, 6, 7, 8, 9])

## 多次元配列の要素の選択

In [15]:
# rand_matの1行2列目の抽出
val = rand_mat[0, 1]

val

0.6900394846500031

In [16]:
# スライスを用いて4 x 5 行列rand_matの真ん中の 2 x 3 = 6 個の値を取り出す
center = rand_mat[1:3, 1:4]

center

array([[0.93015777, 0.941126  , 0.12088373],
       [0.66134264, 0.34423835, 0.51196869]])

In [17]:
# rand_matとcenterのshapeの比較
print('Shape of rand_mat:', rand_mat.shape)
print('Shape of center:', center.shape)

Shape of rand_mat: (4, 5)
Shape of center: (2, 3)


In [18]:
# 先程の真ん中の 6 個の値を 0 にする
rand_mat[1:3, 1:4] = 0

rand_mat

array([[0.47036207, 0.69003948, 0.75894345, 0.23622732, 0.95110865],
       [0.45141637, 0.        , 0.        , 0.        , 0.17819168],
       [0.54932002, 0.        , 0.        , 0.        , 0.97975118],
       [0.49665277, 0.17756449, 0.50773115, 0.12115641, 0.19302729]])

In [19]:
arr = np.array(
    [[1, 2, 3],
     [4, 5, 6],
     [7, 8, 9]]
)

arr

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [20]:
# 要素を選択し、新しい ndarray を作る
np.array([arr[0, 1], arr[2, 1], arr[1, 0]])

array([2, 8, 4])

In [21]:
# [[選択したい行],[選択したい列]]でndarrayを作る
arr[[0, 2, 1], [1, 1, 0]]

array([2, 8, 4])

## ndarrayのデータ型

In [22]:
# 整数（Python の int 型）の要素をもつリストを与えた場合
arr_int = np.array([1, 2, 3])

arr_int.dtype

dtype('int64')

In [23]:
# 浮動小数点数（Python の float 型）の要素をもつリストを与えた場合
arr_float = np.array([1., 2., 3.])

arr_float.dtype

dtype('float64')

In [24]:
# float32に変換したい場合
arr_to_float = np.array([1, 2, 3], dtype=np.float32)

arr_to_float.dtype

dtype('float32')

In [25]:
# 別の例（float32への変換）
arr_to_float = np.array([1, 2, 3], dtype='float32')

arr_to_float.dtype

dtype('float32')

In [26]:
# より簡潔にする場合（float32への変換）
arr_to_float = np.array([1, 2, 3], dtype='f')

arr_to_float.dtype

dtype('float32')

In [27]:
# 既に変換されたndarrayのデータ型を変換
arr_to_float = arr_to_float.astype(np.float64)

arr_to_float.dtype

dtype('float64')

## 多次元配列の計算

In [28]:
# 同じ形 (3 x 3) の行列を 2 つ定義する
a = np.array([
    [0, 1, 2],
    [3, 4, 5],
    [6, 7, 8]
])

b = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

In [29]:
# 要素ごとに平方根を計算する
c = np.sqrt(b)

c

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974],
       [2.64575131, 2.82842712, 3.        ]])

In [30]:
# 要素ごとに値を n 乗する
n = 2
c = np.power(b, n)

c

array([[ 1,  4,  9],
       [16, 25, 36],
       [49, 64, 81]])

In [31]:
# array同士の足し算
a = np.array([
    [0, 1, 2],
    [3, 4, 5],
    [6, 7, 8]
])

b = np.array([1, 2, 3])

c = a + b

c

array([[ 1,  3,  5],
       [ 4,  6,  8],
       [ 7,  9, 11]])

## ブロードキャスト
Numpyが暗黙に配列の形を同じ形に揃える操作

In [32]:
a = np.array([1, 2, 3])

a

array([1, 2, 3])

In [33]:
b = np.array([2, 2, 2])

c = a * b

c

array([2, 4, 6])

In [34]:
# ブロードキャストが起こっている例
c = a * 2

c

array([2, 4, 6])

In [35]:
# ブロードキャストをすることができない例
d = np.array([2, 2])

c = a * d

c

ValueError: operands could not be broadcast together with shapes (3,) (2,) 

次元内の要素数が異なるため、ブロードキャストすることができない（要素数が1の場合は可能）

In [54]:
# 0 ~ 9 の範囲の値をランダムに用いて埋められた (2, 1, 3) と (3, 1) という大きさの配列を作る
a = np.random.randint(0, 10, (2, 1, 3))
b = np.random.randint(0, 10, (3, 1))

print('a:\n', a)
print('\na.shape:', a.shape)
print('\na.rank:', a.ndim)
print('\nb:\n', b)
print('\nb.shape:', b.shape)
print('\nb.rank:', b.ndim)

# 加算
c = a + b

print('\na + b:\n', c)
print('\n(a + b).shape:', c.shape)
print('\n(a + b).rank:', c.ndim)

a:
 [[[9 2 7]]

 [[4 0 3]]]

a.shape: (2, 1, 3)

a.rank: 3

b:
 [[5]
 [9]
 [4]]

b.shape: (3, 1)

b.rank: 2

a + b:
 [[[14  7 12]
  [18 11 16]
  [13  6 11]]

 [[ 9  5  8]
  [13  9 12]
  [ 8  4  7]]]

(a + b).shape: (2, 3, 3)

(a + b).rank: 3


まず、bが(1, 3, 1)として扱われ、その後、bが(3, 1, 1)にブロードキャストされる

In [55]:
print('Original shape:', b.shape)

# bが(1, 3, 1)に変換
b_expanded = b[np.newaxis, :, :]

print('Added new axis to the top:', b_expanded.shape)

# bが(3, 1, 1)にブロードキャスト
b_expanded2 = b[:, np.newaxis, :]

print('Added new axis to the middle:', b_expanded2.shape)

Original shape: (3, 1)
Added new axis to the top: (1, 3, 1)
Added new axis to the middle: (3, 1, 1)


In [56]:
b

array([[5],
       [9],
       [4]])

In [59]:
b_expanded

array([[[5],
        [9],
        [4]]])

In [60]:
b_expanded2

array([[[5]],

       [[9]],

       [[4]]])

### 実行速度

In [None]:
a = np.array([
    [0, 1, 2, 1, 0],
    [3, 4, 5, 4, 3],
    [6, 7, 8, 7, 6],
    [3, 4, 5, 4, 4],
    [0, 1, 2, 1, 0]
])

b = np.array([1, 2, 3, 4, 5])

# 結果を格納する配列を先に作る
c = np.empty((5, 5))

pythonのforループの場合

In [65]:
%%timeit
for i in range(a.shape[0]):
    c[i, :] = a[i, :] + b

7.87 µs ± 169 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [66]:
c

array([[ 1.,  3.,  5.,  5.,  5.],
       [ 4.,  6.,  8.,  8.,  8.],
       [ 7.,  9., 11., 11., 11.],
       [ 4.,  6.,  8.,  8.,  9.],
       [ 1.,  3.,  5.,  5.,  5.]])

NumPy のブロードキャストの場合

In [67]:
%%timeit
c = a + b

1.53 µs ± 12.5 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [68]:
c

array([[ 1.,  3.,  5.,  5.,  5.],
       [ 4.,  6.,  8.,  8.,  8.],
       [ 7.,  9., 11., 11., 11.],
       [ 4.,  6.,  8.,  8.,  9.],
       [ 1.,  3.,  5.,  5.,  5.]])

## 行列積

In [69]:
# 行列 A の定義
A = np.array([
    [0, 1, 2],
    [3, 4, 5],
    [6, 7, 8]
])

# 行列 B の定義
B = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

In [71]:
# 行列積の計算(1)
C = np.dot(A, B)

C

array([[ 18,  21,  24],
       [ 54,  66,  78],
       [ 90, 111, 132]])

In [72]:
# 行列積の計算(2)
C = A.dot(B)

C

array([[ 18,  21,  24],
       [ 54,  66,  78],
       [ 90, 111, 132]])

## NumPy を用いた重回帰分析

In [76]:
# Xの定義
X = np.array([
    [2, 3],
    [2, 5],
    [3, 4],
    [5, 9],
])

X

array([[2, 3],
       [2, 5],
       [3, 4],
       [5, 9]])

In [77]:
# データ数（X.shape[0]) と同じ数だけ 1 が並んだ配列
ones = np.ones((X.shape[0], 1))

# concatenate を使い、1 次元目に 1 を付け加える
X = np.concatenate((ones, X), axis=1)

# 先頭に 1 が付け加わったデザイン行列
X

array([[1., 2., 3.],
       [1., 2., 5.],
       [1., 3., 4.],
       [1., 5., 9.]])

In [80]:
# t の定義(目標値)
t = np.array([1, 5, 6, 8])

t

array([1, 5, 6, 8])

正規方程式の解  
𝐰=(𝐗T𝐗)−1𝐗T𝐭

In [81]:
# Step 1. XTXの計算
xx = np.dot(X.T, X)

xx

array([[  4.,  12.,  21.],
       [ 12.,  42.,  73.],
       [ 21.,  73., 131.]])

In [82]:
# Step 2. 逆行列の計算(XTX^-1)
xx_inv = np.linalg.inv(xx)

xx_inv

array([[ 1.76530612, -0.39795918, -0.06122449],
       [-0.39795918,  0.84693878, -0.40816327],
       [-0.06122449, -0.40816327,  0.24489796]])

In [83]:
# Step 3. XTtの計算
xt = np.dot(X.T, t)

xt

array([ 20.,  70., 124.])

In [84]:
# Step 4. XTX^-1とXTtの積
w = np.dot(xx_inv, xt)

w

array([-0.14285714,  0.71428571,  0.57142857])

In [85]:
# 逆行列を計算し、ベクトルにかけるのを一度に行う
w_ = np.linalg.solve(X.T.dot(X), X.T.dot(t))

w_

array([-0.14285714,  0.71428571,  0.57142857])