In [1]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# データIO

#### Numpyバイナリ形式(.npy)

In [2]:
in_data = np.arange(10)

# Numpyバイナリ形式でtest.npyというファイル名で保存
np.save('test.npy', in_data)

out_data = np.load('test.npy')
print(out_data)

[0 1 2 3 4 5 6 7 8 9]


#### Numpyバイナリ形式(.npz)

In [3]:
in_data1 = np.arange(10)
in_data2 = np.arange(3)*10

np.savez('test.npz', x=in_data1, y=in_data2)
# または
# np.savez_compressed('test.npz', x=in_data1, y=in_data2)
# savez_compressedだとデータを圧縮して保存できる

out_data3 = np.load('test.npz')
print(out_data3['x'])
print(out_data3['y'])

[0 1 2 3 4 5 6 7 8 9]
[ 0 10 20]


#### テキストファイル（フラットファイル）形式

In [4]:
in_data = np.arange(9).reshape(3,3)
np.savetxt('test.csv', in_data, delimiter=',')

out_data = np.loadtxt('test.csv', delimiter=',')
print(out_data)

[[0. 1. 2.]
 [3. 4. 5.]
 [6. 7. 8.]]


# データ生成およびデータ型の変換

In [5]:
# int32型のシーケンシャルな整数の発生
data = np.arange(5)
print(data)
print(data.dtype)

[0 1 2 3 4]
int32


In [6]:
# 要素数5, 要素がすべて0のベクトルを生成
data = np.zeros(5)
print(data)

[0. 0. 0. 0. 0.]


In [7]:
# 要素数5, 要素がすべて1のベクトルを生成
# numpy.onesやnp.zerosで発生させたデータは型を指定しなければfloat64となる
data = np.ones(5)
print(data)
print(data.dtype)

[1. 1. 1. 1. 1.]
float64


In [8]:
# int32に型指定して同じく次元5, 要素がすべて1のベクトルを生成
data = np.ones(5, dtype='i')
print(data)
print(data.dtype)

[1 1 1 1 1]
int32


In [9]:
# データ型をint64に変換する
data = data.astype(dtype='int64')
print(data.dtype)

int64


In [10]:
# 値の初期化を行わずメモリ確保のみを行う
# すべてのデータを上書きする場合に使用する
# ここではデータ型はfloat32とている
data = np.empty(5, dtype='f')
print(data)
print(data.dtype)

[1.e-45 1.e-45 1.e-45 1.e-45 1.e-45]
float32


# 形状変形

In [11]:
# 0から26までの整数を27個発生し, 3×3×3の大きさのデータに変換する
data = np.arange(27).reshape(3,3,3)
print(data.shape)

(3, 3, 3)


In [12]:
print(data)

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]]

 [[ 9 10 11]
  [12 13 14]
  [15 16 17]]

 [[18 19 20]
  [21 22 23]
  [24 25 26]]]


In [13]:
# 上で作成したデータの次元の入れ替えを行う
# ここでは1次元目と0次元目を入れ替えている
# 入れ替え後にデータがどのようになっているかは出力にて確認してほしい
data2 = data.transpose((1,0,2))
print(data2.shape)

(3, 3, 3)


In [14]:
print(data2)

[[[ 0  1  2]
  [ 9 10 11]
  [18 19 20]]

 [[ 3  4  5]
  [12 13 14]
  [21 22 23]]

 [[ 6  7  8]
  [15 16 17]
  [24 25 26]]]


# 四則演算

In [15]:
# 0 から 8 までの 9 個の整数を発生し，3 × 3 の行列に成形
data = np.arange(9).reshape(3,3)
print(data.shape)

(3, 3)


In [16]:
print(data)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [17]:
# 各要素に 1 を加算
print(data+1) 

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [18]:
# 各要素に 2 を乗算
print(data*2)

[[ 0  2  4]
 [ 6  8 10]
 [12 14 16]]


In [19]:
# 値が 2 の倍数である要素を 0 で置き換える
# np.where の第2引数は第1引数が True の要素の値
# 第3引数は第1引数が False の要素の値
# （ベクトルや行列などの場合は該当する要素で置き換えられる）
print(np.where(data%2==0 , 0, data))

[[0 1 0]
 [3 0 5]
 [0 7 0]]


In [20]:
# 行列とベクトルの要素同士の積
print(data*np.arange(3))

[[ 0  1  4]
 [ 0  4 10]
 [ 0  7 16]]


# 統計量の計算

In [21]:
# 0 から 8 までの 9 個の整数を発生し，3 × 3 の行列に成形
data = np.arange(9).reshape(3,3)
print(data)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [22]:
# 平均の計算
print(data.mean())

4.0


In [23]:
# 合計の計算
print(data.sum())

36


In [24]:
# 標準偏差の計算
print(data.std())

2.581988897471611


In [25]:
# 分散の計算
print(data.var())

6.666666666666667


In [26]:
# 行方向の総和を計算
print(data.sum(axis=0))

[ 9 12 15]


In [27]:
# 列方向の総和を計算
print(data.sum(axis=1))

[ 3 12 21]


# 乱数の発生とサンプリング

In [28]:
# 一様分布からのサンプリング
data = np.random.rand(10)
print(data)

[0.52972208 0.29402059 0.83390552 0.89688184 0.08107423 0.40188665
 0.46644995 0.11221471 0.19296828 0.2221454 ]


In [29]:
# 標準正規分布からのサンプリング
data = np.random.randn(10)
print(data)

[-0.78193203  0.48984161 -0.21092529 -0.58166482  0.4139495   0.42399733
 -0.98278972 -0.55003219  0.09887419  0.51707396]


In [30]:
# 平均20、標準偏差5の正規分布からのサンプリング
data = np.random.normal(20,5,size=10)
print(data)

[19.02071155 24.31305867 17.35029986 20.13420791 25.99014903 17.36166744
 33.63665271 21.14041912 20.63130646 20.96211331]


In [31]:
# サンプル数100、母集団比率0.5の二項分布からのサンプリング
# 直観的には確率pでオモテが出るコインをn回投げてオモテが出る回数と考えてよい
data = np.random.binomial(n=100, p=0.5, size=10)
print(data)

[57 49 47 43 51 48 47 38 52 54]


In [32]:
# 平均10のポアソン分布からのサンプリング
# ポアソン分布は稀にしか起きない現象を長時間観測したときに起きる回数の分布
data = np.random.poisson(lam=10, size=10)
print(data)

[11  8 11 18 10 11 11 12 11  9]


In [33]:
data = np.arange(10)

# 5個をランダム抽出（重複あり)
selected = np.random.choice(data, 5)
print(selected)

[5 7 7 9 9]


In [34]:
# 5個をランダム抽出（重複なし)
selected = np.random.choice(data, 5, replace=False)
print(selected)

[7 1 8 0 2]


In [35]:
# 重み
weight = [0.05, 0.05, 0.3, 0.1, 0.02, 0.03, 0.05, 0.1, 0.2, 0.1]
# 指定した確率で1個を抽出
selected = np.random.choice(data, p=weight)
print(selected)

5


# 線形代数

In [36]:
# 行列同士の内積
result = np.dot([1, 2], [2, 3])
print(result)

8


In [37]:
# 複素数を扱うこともできる
result = np.dot([1j, 2j], [2j, 3j])
print(result)

(-8+0j)


In [38]:
# 2 次元行列同士の内積を計算
a = [[2, 1], [1, 2]]
b = [[4, 2], [2, 1]]
result = np.dot(a, b)
print(result)

[[10  5]
 [ 8  4]]


In [39]:
# NumPy Arrayを起点に計算を行う場合は、同様の操作を以下のように行う事ができる
a = np.array([[2, 1], [1, 2]])
b = [[4, 2], [2, 1]]
result = a.dot(b)
print(result)

[[10  5]
 [ 8  4]]


In [40]:
data = np.array([[3, 1], [2, 4]])
w, v = np.linalg .eig(data)
# 固有値
print(w)

[2. 5.]


In [41]:
# 固有ベクトル(正規化済)
print(v)

[[-0.70710678 -0.4472136 ]
 [ 0.70710678 -0.89442719]]


In [42]:
data = np.array([[1, 2], [3, 4]])

# 逆行列の計算
result = np.linalg.inv(data)
print(result)

[[-2.   1. ]
 [ 1.5 -0.5]]


In [43]:
# A・A^{-1}が単位行列になることを確認
data_inv = np.linalg.inv(data)
result = data.dot(data_inv)
print(result)

[[1.00000000e+00 1.11022302e-16]
 [0.00000000e+00 1.00000000e+00]]


In [44]:
# 擬似逆行列の計算
data = np.array([[1, 2], [3, 4]])
data_pinv = np.linalg.pinv(data)
print(data_pinv)

[[-2.   1. ]
 [ 1.5 -0.5]]


In [45]:
# A・A^{-1}（単位行列になることを確認）
result = data.dot(data_pinv)
print(result)

[[ 1.0000000e+00 -4.4408921e-16]
 [ 8.8817842e-16  1.0000000e+00]]


In [46]:
# 正則ではない行列での逆行列の計算
data = np.array([[1, 2], [2, 4]])

# np.linalg.inv では計算できずエラー
data_inv = np.linalg.inv(data)

LinAlgError: Singular matrix

In [47]:
# 擬似逆行列の計算
data_pinv = np.linalg.pinv(data)
print(data_pinv)

[[0.04 0.08]
 [0.08 0.16]]


In [48]:
# A・A^{-1}
# 単位行列にはならない
result = data.dot(data_pinv)
print(result)

[[0.2 0.4]
 [0.4 0.8]]
