### NumPy Basics: Arrays

In [1]:
#設定
import numpy as np
import matplotlib.pyplot as plt
from IPython.display import display
np.random.seed(12345)
plt.rc('figure', figsize=(10, 6))
np.set_printoptions(precision=4, suppress=True)

In [4]:
# NumPyを使うとリストより早い。
import numpy as np
my_arr = np.arange(1000000)
my_list = list(range(1000000))

%time for _ in range(10): my_arr2 = my_arr * 2
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

Wall time: 40 ms
Wall time: 1.57 s


### The NumPy ndarray: A Multidimensional Array Object

In [4]:
import numpy as np
# Generate some random ndarray data
data = np.random.randn(2, 3)
data

array([[-0.2047,  0.4789, -0.5194],
       [-0.5557,  1.9658,  1.3934]])

In [5]:
# ベクトル演算
# ndarrayは、各要素を計算するときにfor文を書く必要がない。一括で計算してくれる。
data * 10

array([[-2.0471,  4.7894, -5.1944],
       [-5.5573, 19.6578, 13.9341]])

In [6]:
data + data

array([[-0.4094,  0.9579, -1.0389],
       [-1.1115,  3.9316,  2.7868]])

In [7]:
# 配列次元数とそのサイズを格納するタプル
data.shape

(2, 3)

In [8]:
# 指定した次元数に直す。
print(data.reshape(3,2))

[[-0.2047  0.4789]
 [-0.5194 -0.5557]
 [ 1.9658  1.3934]]


In [16]:
# 配列要素に期待する型を示す
data.dtype

dtype('float64')

### Creating ndarrays

In [17]:
# リストを作ってndarrayにする。
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([ 6. ,  7.5,  8. ,  0. ,  1. ])

In [18]:
# リストをネストさせることで、行列を作れる。
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [27]:
# ndarrayの作り方1
print(np.zeros(10))
print(np.ones(10))

[ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
[ 1.  1.  1.  1.  1.  1.  1.  1.  1.  1.]


In [29]:
# ndarrayの作り方2
# 生成するndarrayのshapeを第一引数に渡す。
np.zeros((3, 6))

array([[ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.]])

In [31]:
# ndarrayの作り方3
# 生成するndarrayのshapeを第一引数に渡す。
np.empty((2, 3, 2))

array([[[ 0.,  0.],
        [ 0.,  0.],
        [ 0.,  0.]],

       [[ 0.,  0.],
        [ 0.,  0.],
        [ 0.,  0.]]])

In [32]:
# 等間隔に増減させた値で要素を満たす
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

### Basic Indexing and Slicing

In [39]:
# スライスが使える。
arr = np.arange(10)
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [40]:
# スライスが使える。
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [41]:
# スライスを格納した変数に対する変更は、もとのndarrayにも反映される。
arr_slice[0] = 12345
arr

array([    0,     1,     2,     3,     4, 12345,    12,    12,     8,     9])

In [17]:
# 2次元配列のインデックス
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print('2次元配列に対して、インデックスを1つ指定した場合、該当行を返す;', arr2d[2])
print('2次元配列に対して、列を指定する場合、次のように[行,列]を書く。', arr2d[:,2])

# 下記2つの書き方は同じ場所を参照できる。
print(arr2d[0][2])
print(arr2d[0, 2])

2次元配列に対して、インデックスを1つ指定した場合、該当行を返す; [7 8 9]
2次元配列に対して、列を指定する場合、次のように[行,列]を書く。 [3 6 9]
3
3


In [15]:
# 3次元配列のインデックス
# 基本的にn次元のndarrayに対して、m個のインデックスを指定すると、(n-m)次元のndarrayが抽出できる。
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
print('original:\n', arr3d)
print('\n')
print('indexing:\n', arr3d[0])
print('\n')
print('indexing2:\n', arr3d[1, 0])

original:
 [[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


indexing:
 [[1 2 3]
 [4 5 6]]


indexing2:
 [7 8 9]


### Indexing with slices

In [24]:
# 2次元配列に対して、次のようにスライスできる。
# ndarrayのスライスは「始点：終点-1」という感じで抽出する。
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print('arr2d:\n', arr2d)
print('\n')
print('slicing:\n', arr2d[:2]) # これは0軸に対して、2番目まで抽出する。
print('\n')
print('slicing2:\n', arr2d[:2, 1:]) # これは0軸に対して、2番目まで抽出し、1軸に対して2行目から抽出する。

arr2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]


slicing:
 [[1 2 3]
 [4 5 6]]


slicing2:
 [[2 3]
 [5 6]]


参考画像：
<img src="ndarray's slice.png"> 

### Boolean Indexing

In [27]:
# データの準備
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)
print('names\n', names)
print('data\n', data)

names
 ['Bob' 'Joe' 'Will' 'Bob' 'Will' 'Joe' 'Joe']
data
 [[-1.5491  0.0222  0.7584 -0.6605]
 [ 0.8626 -0.01    0.05    0.6702]
 [ 0.853  -0.9559 -0.0235 -2.3042]
 [-0.6525 -1.2183 -1.3326  1.0746]
 [ 0.7236  0.69    1.0015 -0.5031]
 [-0.6223 -0.9212 -0.7262  0.2229]
 [ 0.0513 -1.1577  0.8167  0.4336]]


In [29]:
# indexに次のような真偽値を渡して抽出することができる。つまり、0と3をindexに指定するのと同じこと。
# ブールインデックスで参照する場合、必ず「参照先配列の軸の要素数」と「真偽値の配列の要素数」が一致していなければならない。今回の場合、7個で一致。
print(names == 'Bob')
data[names == 'Bob']

[ True False False  True False False False]


array([[-1.5491,  0.0222,  0.7584, -0.6605],
       [-0.6525, -1.2183, -1.3326,  1.0746]])

In [30]:
# (参考)ブール値の反転のさせ方
#1: 「!=」を使う。
names != 'Bob'
#2: 「~(ブール値)」を使う。
data[~(names == 'Bob')]

array([False,  True,  True, False,  True,  True,  True], dtype=bool)

In [35]:
# 複数ブール条件の指定の仕方
mask = (names == 'Bob') | (names == 'Will')
data[mask]

array([[-1.5491,  0.0222,  0.7584, -0.6605],
       [ 0.853 , -0.9559, -0.0235, -2.3042],
       [-0.6525, -1.2183, -1.3326,  1.0746],
       [ 0.7236,  0.69  ,  1.0015, -0.5031]])

In [36]:
# 比較演算子を使った指定
data[data < 0] = 0
data

array([[ 0.    ,  0.0222,  0.7584,  0.    ],
       [ 0.8626,  0.    ,  0.05  ,  0.6702],
       [ 0.853 ,  0.    ,  0.    ,  0.    ],
       [ 0.    ,  0.    ,  0.    ,  1.0746],
       [ 0.7236,  0.69  ,  1.0015,  0.    ],
       [ 0.    ,  0.    ,  0.    ,  0.2229],
       [ 0.0513,  0.    ,  0.8167,  0.4336]])

### Fancy Indexing

In [41]:
# ファンシーインデックス参照：インデックス参照に整数配列を用いる方法
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
arr

array([[ 0.,  0.,  0.,  0.],
       [ 1.,  1.,  1.,  1.],
       [ 2.,  2.,  2.,  2.],
       [ 3.,  3.,  3.,  3.],
       [ 4.,  4.,  4.,  4.],
       [ 5.,  5.,  5.,  5.],
       [ 6.,  6.,  6.,  6.],
       [ 7.,  7.,  7.,  7.]])

In [43]:
# 複数の配列をインデックスに指定する場合：組み合わせを意識すること

# データの準備
arr = np.arange(32).reshape((8, 4))

print(arr)

arr[[1, 5, 7, 2], [0, 3, 1, 2]] # ここでは、(1,0),(5,3),(7,1),(2,2)の組み合わせでインデックス参照する。

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]


array([ 4, 23, 29, 10])

In [45]:
# 個人的に気に入った使い方
# 全行の、指定した列を抽出する。
arr[:,[1,3]]

array([[ 1,  3],
       [ 5,  7],
       [ 9, 11],
       [13, 15],
       [17, 19],
       [21, 23],
       [25, 27],
       [29, 31]])

### Transposing Arrays and Swapping Axes

In [48]:
# 転置行列の作り方： オブジェクト.T
# 3次元以上の場合、「オブジェクト.transpose()」も使える。引数の数はオブジェクトの次元数分必要で、順番を引数に指定する。例：transpose(1,0,2)
arr = np.arange(15).reshape((3, 5))
print('オリジナルの行列:\n', arr)
print('\n')
print('転置行列：\n', arr.T)

オリジナルの行列:
 [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


転置行列：
 [[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]]


In [49]:
# 行列の内積演算
np.dot(arr.T, arr)

array([[125, 140, 155, 170, 185],
       [140, 158, 176, 194, 212],
       [155, 176, 197, 218, 239],
       [170, 194, 218, 242, 266],
       [185, 212, 239, 266, 293]])

### Unique and Other Set Logic

In [None]:
# .unique(): 1次元配列に対して、重複を削除する。
# 和集合など他の集合用の関数も用意されているので、気になる際は調べること。
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
np.unique(names)
ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])
np.unique(ints)

### 便利な統計の関数
- np.mean(vals)#平均を返す。
- np.std(vals, ddof=1)#標準偏差を返す。
- np.min(vals)#最小値を返す。
- np.max(vals)#最大値を返す。

### 確率分布に基づいた乱数生成
以下の例以外にも、必要なら下記分布から選べる。
- 二項分布
- ベータ分布
- ガンマ分布
- カイ二乗分布

In [21]:
# 一様分布に基づいた乱数を3×5行列として出力する。
np.random.rand(3,5)

array([[ 0.68346294,  0.71270203,  0.37025075,  0.56119619,  0.50308317],
       [ 0.01376845,  0.77282662,  0.88264119,  0.36488598,  0.61539618],
       [ 0.07538124,  0.36882401,  0.9331401 ,  0.65137814,  0.39720258]])

In [12]:
# 正規分布に基づいた乱数を4×4行列として出力する。
# 引数は、平均、分散、件数
# ちなみに、標準正規分布を指定したい場合は、np.random.randn(size)でよい。
samples = np.random.normal(size=(4, 4))
samples

array([[ 0.8610285 , -1.78456659, -1.20595454,  0.16182299],
       [ 0.31520108, -0.90736066,  0.43571099, -0.68217406],
       [ 1.09729429, -0.17972704,  0.75153274,  0.03145958],
       [ 0.12805839,  0.22613138,  0.23594952, -0.717251  ]])

In [20]:
# 乱数の範囲を指定して乱数生成する。
# 引数は、下限、上限、件数
np.random.randint(1, 100, 10)

array([16, 50, 24, 27, 31, 44, 31, 27, 59, 93])

In [16]:
# 出力する乱数の再現性が重要な場合、np.random.seed(種)が使える
# 下記ソースコードを別の場所で試しても、同じ値が出力されるはずだ。
np.random.seed(1234)
np.random.rand()

0.1915194503788923

In [19]:
# 配列をランダムに並び替える。
# 多分、スライスとかうまく使うといい感じにできる。
arr1 = ['A', 'B', 'C', 'D', 'E']
np.random.shuffle(arr1)
arr1

['C', 'B', 'D', 'A', 'E']

### 線形代数の関数

In [13]:
# 逆行列
#   array([[-2. ,  1.5],
#          [ 1. , -0.5]])
a = np.array([[1., 3.], [2., 4.]])
print('逆行列の計算：\n', np.linalg.inv(a)) 

逆行列の計算：
 [[-2.   1.5]
 [ 1.  -0.5]]


In [14]:
# 方程式 y = axを解く
#   array([[ 0.5],
#          [ 1.5]])
y = np.array([[5.],[7.]])
print('方程式の計算：\n', np.linalg.solve(a, y))

方程式の計算：
 [[0.5]
 [1.5]]
