# 4.1 Numpy

* Pythonのサードパーティ製パッケージ
* 配列や行列を効率よく扱える
* データ分析で主に使用する
* 型
  * ndarray：配列用の型
  * matrix：行列用の型
  * 配列・行列の要素のデータ型
    * 一種類に揃える
    * Numpy由来の専用の数値型（int16,float32等）のみ
* 専用の演算関数やメソッド
  * 高速に配列や行列の計算ができる

# 4.1.2 Numpyでデータを扱う

## 1次元配列

In [1]:
import numpy as np
a = np.array([1,2,3])
a

array([1, 2, 3])

In [2]:
print(a)

[1 2 3]


In [3]:
type(a)

numpy.ndarray

In [4]:
a.shape

(3,)

## 2次元配列

In [5]:
b = np.array([[1,2,3],[4,5,6]])
b

array([[1, 2, 3],
       [4, 5, 6]])

In [6]:
b.shape

(2, 3)

## 変形（reshape）

In [7]:
c1 = np.array([0,1,2,3,4,5])
c1

array([0, 1, 2, 3, 4, 5])

In [8]:
c2 = c1.reshape((2,3))
c2

array([[0, 1, 2],
       [3, 4, 5]])

In [9]:
c3 = c2.ravel()


In [10]:
c4 = c2.flatten()
c4

array([0, 1, 2, 3, 4, 5])

## データ型（dtype）

In [11]:
a.dtype

dtype('int32')

In [12]:
d = np.array([1,2], dtype=np.int16)
d

array([1, 2], dtype=int16)

In [13]:
d.dtype

dtype('int16')

In [14]:
d.astype(np.float16)

array([1., 2.], dtype=float16)

## インデックスとスライス

In [15]:
a

array([1, 2, 3])

In [16]:
a[0]

1

In [17]:
a[1:]

array([2, 3])

In [18]:
a[-1]

3

In [19]:
b

array([[1, 2, 3],
       [4, 5, 6]])

In [20]:
b[0]

array([1, 2, 3])

In [21]:
b[1,0]

4

In [22]:
b[:, 2]

array([3, 6])

In [23]:
b[1,:]

array([4, 5, 6])

In [24]:
b[0, 1:]

array([2, 3])

In [25]:
b[:, [0,2]]

array([[1, 3],
       [4, 6]])

## データ再代入

In [26]:
a

array([1, 2, 3])

In [27]:
a[2] = 4
a

array([1, 2, 4])

In [28]:
b

array([[1, 2, 3],
       [4, 5, 6]])

In [29]:
b[1,2] = 7
b

array([[1, 2, 3],
       [4, 5, 7]])

In [30]:
b[:, 2] = 8
b

array([[1, 2, 8],
       [4, 5, 8]])

## 深いコピー（copy）

In [31]:
a1 = a
a1

array([1, 2, 4])

In [32]:
a1[1] = 5
a1

array([1, 5, 4])

In [33]:
a

array([1, 5, 4])

In [34]:
a2 = a.copy()
a2

array([1, 5, 4])

In [35]:
a2[0] = 6
a2

array([6, 5, 4])

In [36]:
a

array([1, 5, 4])

In [37]:
c2

array([[0, 1, 2],
       [3, 4, 5]])

In [38]:
c3 = c2.ravel()
c4 = c2.flatten()
c3[0] = 6
c4[1] = 7

In [39]:
c2

array([[6, 1, 2],
       [3, 4, 5]])

In [40]:
c3

array([6, 1, 2, 3, 4, 5])

In [41]:
c4

array([0, 7, 2, 3, 4, 5])

*※Python標準のリストでのスライス：コピーが戻る*

*※Numpyのリストでのスライス：参照が戻る*

In [42]:
py_list1 = [0,1]
py_list2 = py_list1[:]
print(py_list1)
print(py_list2)

py_list2[0] = 2
print(py_list1)
print(py_list2)

[0, 1]
[0, 1]
[0, 1]
[2, 1]


In [43]:
np_array1 = np.array([0,1])
np_array2 = np_array1[:]
print(np_array1)
print(np_array2)

np_array2[0] = 2
print(np_array1)
print(np_array2)

[0 1]
[0 1]
[2 1]
[2 1]


*浅いコピー（Shallow Copy）：参照のコピー*

*深いコピー（Deep Copy）：値のコピー*

## 数列を返す（arange）
* arange関数：Numpy配列（ndarray）を作成する

In [44]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [45]:
np.arange(1, 11)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [46]:
np.arange(1, 11, 2)

array([1, 3, 5, 7, 9])

*使い方はpythonのrange関数と同じ*

## 乱数

### np.random.random関数
 * 行と列のタプルを渡すと、0以上、1未満の範囲の乱数の2次元配列を生成
 * 0-1間のランダムな要素を持つ行列を作る際に便利

In [47]:
f = np.random.random((3,2))
f

array([[0.9591998 , 0.30469022],
       [0.32642921, 0.41667626],
       [0.95163668, 0.83009774]])

### シード値

In [48]:
np.random.seed(123)
np.random.random((3,2))

array([[0.69646919, 0.28613933],
       [0.22685145, 0.55131477],
       [0.71946897, 0.42310646]])

### np.random.rand関数
* 0-1の範囲の乱数の配列を生成する
* np.random.random関数とは異なり、2つの引数を渡して配列を生成する

In [49]:
np.random.seed(123)
np.random.rand(4, 2)

array([[0.69646919, 0.28613933],
       [0.22685145, 0.55131477],
       [0.71946897, 0.42310646],
       [0.9807642 , 0.68482974]])

### np.random.randint関数
* ある範囲内の任意の整数を生成する
* 引数が2つの場合、第1引数の値以上、第2引数の値未満のランダムな整数を出力
* 引数が3つの場合、第1引数の値以上、第2引数の値未満のランダムな整数を、第3引数のタプルで渡した行と列の2次元配列を生成する

In [50]:
np.random.seed(123)
np.random.randint(1, 10)

3

In [51]:
np.random.seed(123)
np.random.randint(1, 10, (3, 3))

array([[3, 3, 7],
       [2, 4, 7],
       [2, 1, 2]])

### np.random.uniform関数
* 第一引数以上かつ、第二引数未満のランダムな小数値を、第三引数としてタプルで渡した行と列の2次元配列で生成
* 第一引数、第二引数は省略可能
  * 第一引数を省略：0.0をデフォルトで設定
  * 第二引数を省略：1.0をデフォルトで設定

In [52]:
np.random.seed(123)
np.random.uniform(0.0, 5.0, size=(2,3))

array([[3.48234593, 1.43069667, 1.13425727],
       [2.75657385, 3.59734485, 2.1155323 ]])

In [53]:
np.random.seed(123)
np.random.uniform(size=(4, 3))

array([[0.69646919, 0.28613933, 0.22685145],
       [0.55131477, 0.71946897, 0.42310646],
       [0.9807642 , 0.68482974, 0.4809319 ],
       [0.39211752, 0.34317802, 0.72904971]])

### np.random.randn関数
* 引数に形状を渡す
* 出力される乱数は標準正規分布に従い、平均0、分散1の分布で出力される

In [54]:
np.random.seed(123)
np.random.randn(4,2)

array([[-1.0856306 ,  0.99734545],
       [ 0.2829785 , -1.50629471],
       [-0.57860025,  1.65143654],
       [-2.42667924, -0.42891263]])

### np.random.normal関数
* 平均、標準偏差、size（形状）を引数とする
* 正規分布乱数を出力する

In [55]:
np.random.seed(123)
np.random.normal(0.0, 5.0, size=(2, 3))

array([[-5.42815302,  4.98672723,  1.41489249],
       [-7.53147357, -2.89300126,  8.25718269]])

## 同じ要素の数列を作る

### np.zeros関数
* 引数で渡した要素数の0.0が入った配列を取得
* 2要素のタプルを渡すと2次元配列を作成する

In [56]:
np.zeros(3)

array([0., 0., 0.])

In [57]:
np.zeros((2,3))

array([[0., 0., 0.],
       [0., 0., 0.]])

### np.ones関数
* 引数で指定した要素数の1.0が入った配列を取得
* 2要素のタプルを渡すと2次元配列を作成する

In [58]:
np.ones(2)

array([1., 1.])

In [59]:
np.ones((3,4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

## 単位行列

### np.eye関数
* 指定する対角要素を持った単位行列を作成する

In [60]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

## 指定値で埋める

### np.full関数
* 第1引数に要素数、第2引数にすべての要素に設定する値を取り、指定値で埋めた配列を取得する
* 第1引数に2要素のタプルを渡すと、2次元配列で取得する

In [61]:
np.full(3, 3.14)

array([3.14, 3.14, 3.14])

In [62]:
np.full((2, 4), np.pi)

array([[3.14159265, 3.14159265, 3.14159265, 3.14159265],
       [3.14159265, 3.14159265, 3.14159265, 3.14159265]])

### np.pi
* 円周率を表す定数

### np.nan
* nan:Not a Numberの略
* データ型としてはfloat型に分類される特殊な定数

In [63]:
np.nan

nan

In [64]:
np.array([1, 2, np.nan])

array([ 1.,  2., nan])

## 範囲指定で均等割りデータを作る

### np.linspace関数
* 第1引数に最小値、第2引数に最大値、第3引数に分割数を渡して、均等割りデータの配列を取得する

In [65]:
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

**↑np.arange(0.0, 1.1, 0.25)と同等**

In [66]:
np.linspace(0, np.pi, 21)

array([0.        , 0.15707963, 0.31415927, 0.4712389 , 0.62831853,
       0.78539816, 0.9424778 , 1.09955743, 1.25663706, 1.41371669,
       1.57079633, 1.72787596, 1.88495559, 2.04203522, 2.19911486,
       2.35619449, 2.51327412, 2.67035376, 2.82743339, 2.98451302,
       3.14159265])

## 要素間の差分

### np.diff関数
* 第1引数に配列を渡して、要素間の差分を取得する

In [67]:
l = np.array([2, 2, 6, 1, 3])
np.diff(l)

array([ 0,  4, -5,  2])

## 連結

In [68]:
print(a)
print(a1)

[1 5 4]
[1 5 4]


### np.concatenate関数
* 第1引数に配列を渡して、配列内の要素を連結した配列を取得する
* 第2引数以降でaxisを指定すると列を増やす

In [69]:
np.concatenate([a, a1])

array([1, 5, 4, 1, 5, 4])

*2次元配列の連結*

In [70]:
b

array([[1, 2, 8],
       [4, 5, 8]])

In [71]:
b1 = np.array([[10], [20]])
b1

array([[10],
       [20]])

In [72]:
np.concatenate([b, b1], axis = 1)

array([[ 1,  2,  8, 10],
       [ 4,  5,  8, 20]])

In [73]:
np.hstack([b, b1])

array([[ 1,  2,  8, 10],
       [ 4,  5,  8, 20]])

**np.concatenate([b, b1], axis = 1)とnp.hstack([b, b1])は同じ結果を返す**

### np.vstack関数
* 第1引数で渡した配列内の要素を、行を増やす方向に連結した結果を取得する

In [74]:
b2 = np.array([30, 60, 45])
b2

array([30, 60, 45])

In [75]:
b3 = np.vstack([b, b2])
b3

array([[ 1,  2,  8],
       [ 4,  5,  8],
       [30, 60, 45]])

*0～1行目：bの0～1行目、2行目：b2の0行目*

## 分割

### np.hsplit関数
* 第1引数に分割対象の配列、第2引数に列数を渡して、指定列数に分割した2次元配列を取得する

In [76]:
first, second = np.hsplit(b3, [2]) ## firstにb3を2列まで取得した2次元配列、secondにb3の3列目以降を取得した2次元配列を取得する

In [77]:
first

array([[ 1,  2],
       [ 4,  5],
       [30, 60]])

In [78]:
second

array([[ 8],
       [ 8],
       [45]])

### np.vsplit関数
* 第1引数に分割対象の配列、第2引数に行数を渡して、指定行数に分割した2次元配列を取得する

In [79]:
first1, second1 = np.vsplit(b3, [2]) # first1にb3の2行目までを取得した2次元配列、second1にb3の3行目以降を取得した2次元配列を取得する

In [80]:
first1

array([[1, 2, 8],
       [4, 5, 8]])

In [81]:
second1

array([[30, 60, 45]])

## 転置

In [82]:
b

array([[1, 2, 8],
       [4, 5, 8]])

### np.array.T
* 転置した値を取得する

In [83]:
b.T

array([[1, 4],
       [2, 5],
       [8, 8]])

## 次元追加

In [84]:
a

array([1, 5, 4])

### np.newaxis
* 行方向または列方向に次元を追加する

In [85]:
a[np.newaxis, :] # 行方向に次元を追加

array([[1, 5, 4]])

In [86]:
a[:, np.newaxis] # 列方向に次元を追加

array([[1],
       [5],
       [4]])

#### resharpとの相違
* resharp：要素数の指定が必須
* np.newaxis：要素数の指定は不要（単純に1増やすだけ）

## グリッドデータの生成

### np.meshgrid関数
* 第1引数と第2引数に渡された配列から、グリッドデータを作成する
* 第1戻り値：第1引数の配列を行方向に、第2引数の配列の長さ分コピーした2次元配列
* 第2戻り値：第2引数の配列を列方向に、第1引数の配列の長さ分コピーした2次元配列

In [87]:
m = np.arange(0, 4)
m

array([0, 1, 2, 3])

In [88]:
n = np.arange(4, 7)

In [89]:
n

array([4, 5, 6])

In [90]:
xx, yy = np.meshgrid(m, n) # 配列mとnからグリッドデータを作成する
xx

array([[0, 1, 2, 3],
       [0, 1, 2, 3],
       [0, 1, 2, 3]])

In [91]:
yy

array([[4, 4, 4, 4],
       [5, 5, 5, 5],
       [6, 6, 6, 6]])

# 4.1.3 Numpyの各機能

## Numpyのインポート

In [95]:
import numpy as np

# この後の項で使用する配列を作成しておく
a = np.arange(3)
b = np.arange(-3, 3).reshape((2, 3))
c = np.arange(1, 7).reshape((2, 3))
d = np.arange(6).reshape((3, 2))
e = np.linspace(-1, 1, 10)
print("a:", a)
print("b:", b)
print("c:", c)
print("d:", d)
print("e:", e)

a: [0 1 2]
b: [[-3 -2 -1]
 [ 0  1  2]]
c: [[1 2 3]
 [4 5 6]]
d: [[0 1]
 [2 3]
 [4 5]]
e: [-1.         -0.77777778 -0.55555556 -0.33333333 -0.11111111  0.11111111
  0.33333333  0.55555556  0.77777778  1.        ]


In [96]:
print("a:", a.shape)
print("b:", b.shape)
print("c:", c.shape)
print("d:", d.shape)
print("e:", e.shape)

a: (3,)
b: (2, 3)
c: (2, 3)
d: (3, 2)
e: (10,)


## ユニバーサルファンクション
* 配列要素内のデータを一括で置換する

### 配列全要素の絶対値の配列を取得する

In [97]:
# python標準で実装
li = [[-3, -2, -1],
     [0, 1, 2]]
new = []

for i, j in enumerate(li):
    new.append([])
    for k in j:
        new[i].append(abs(k))
        
new

[[3, 2, 1], [0, 1, 2]]

### np.abs関数
* 第1引数で渡した配列の全要素について絶対値で構成された配列を取得する

In [99]:
np.abs(b)

array([[3, 2, 1],
       [0, 1, 2]])

### np.sin関数
* 第1引数で渡した配列の全要素についてsinで構成された配列を取得する

In [100]:
np.sin(e)

array([-0.84147098, -0.70169788, -0.52741539, -0.3271947 , -0.11088263,
        0.11088263,  0.3271947 ,  0.52741539,  0.70169788,  0.84147098])

### np.cos関数
* 第1引数で渡した配列の全要素についてcosで構成された配列を取得する

In [101]:
np.cos(e)

array([0.54030231, 0.71247462, 0.84960756, 0.94495695, 0.99383351,
       0.99383351, 0.94495695, 0.84960756, 0.71247462, 0.54030231])

### np.log関数
* 第1引数で渡した配列の全要素についてネイピア数を底とする自然対数logで構成された配列を取得する

In [102]:
np.log(a)

  """Entry point for launching an IPython kernel.


array([      -inf, 0.        , 0.69314718])

### np.log10関数
* 第1引数で渡した配列の全要素について、常用対数（logの底が10の場合の数）で構成された配列を取得する

In [103]:
np.log10(c)

array([[0.        , 0.30103   , 0.47712125],
       [0.60205999, 0.69897   , 0.77815125]])

### np.exp関数
* 第1引数で渡した配列の全要素について、自然対数の底eで構成された配列を取得する

In [104]:
np.exp(a)

array([1.        , 2.71828183, 7.3890561 ])

## ブロードキャスト
* 配列の内部データに直接演算などが行える
* 次元の違うデータでも演算が行える

In [105]:
a

array([0, 1, 2])

In [106]:
a + 10 # 配列aの各要素に10が加算される

array([10, 11, 12])

In [107]:
b

array([[-3, -2, -1],
       [ 0,  1,  2]])

In [108]:
a + b # 配列aの各要素が配列bの各行の同じ列の要素に加算される

array([[-3, -1,  1],
       [ 0,  2,  4]])

In [109]:
a1 = a[:, np.newaxis]
a1

array([[0],
       [1],
       [2]])

In [110]:
a + a1 # 配列aが3行に拡張され、a1の各行の要素が対応した行の要素に加算される

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

In [111]:
aa = np.array([0, 1, 2])
aa

array([0, 1, 2])

In [112]:
aa1 = (aa + 10)[:, np.newaxis]

In [113]:
aa1

array([[10],
       [11],
       [12]])

In [114]:
aa + aa1

array([[10, 11, 12],
       [11, 12, 13],
       [12, 13, 14]])

### np.mean関数
* 第1引数で渡した配列の全要素の平均値を取得する

In [116]:
c

array([[1, 2, 3],
       [4, 5, 6]])

In [117]:
c - np.mean(c)

array([[-2.5, -1.5, -0.5],
       [ 0.5,  1.5,  2.5]])

In [118]:
np.mean(c)

3.5

In [119]:
b * 2 # 各要素を2倍する

array([[-6, -4, -2],
       [ 0,  2,  4]])

In [120]:
b ** 3 # 各要素を3乗する

array([[-27,  -8,  -1],
       [  0,   1,   8]], dtype=int32)

In [125]:
print("a:", a)
print("b:", b)
print("c:", c)

a: [0 1 2]
b: [[-3 -2 -1]
 [ 0  1  2]]
c: [[1 2 3]
 [4 5 6]]


In [121]:
b - a # 形状の異なる配列同士の引き算

array([[-3, -3, -3],
       [ 0,  0,  0]])

*bの各列の要素について、aの対応した列の要素が引き算される*

In [122]:
a * b # 形状の異なる配列同士の掛け算

array([[ 0, -2, -2],
       [ 0,  1,  4]])

*bの各列の要素について、aの対応した列の要素が掛け算される*

In [126]:
a / c # 配列の割り算

array([[0.        , 0.5       , 0.66666667],
       [0.        , 0.2       , 0.33333333]])

*行数は大きい方に合わせ、配列cの各要素を配列aの同じ列の要素で割り算する*

In [127]:
c / a # 配列の割り算（0で除算した場合）

  """Entry point for launching an IPython kernel.


array([[inf, 2. , 1.5],
       [inf, 5. , 3. ]])

### inf
* 無限大を示す定数

In [128]:
c / ( a + 1e-6)

array([[1.00000000e+06, 1.99999800e+00, 1.49999925e+00],
       [4.00000000e+06, 4.99999500e+00, 2.99999850e+00]])

**infを出力させたくない場合は、各要素に極小値（この場合は1e-6=10の-6乗）を足してから割り算する**

**この場合の0除算部分の演算結果は非常に大きな数値、0除算以外の演算結果はほぼ同じ数値が出力される**

## ドット積

### np.dot関数
* 第1引数、第2引数に演算対象の配列を渡して、ドット積を取得する

In [129]:
print("a:", a)
print("b:", b)
print("d:", d)

a: [0 1 2]
b: [[-3 -2 -1]
 [ 0  1  2]]
d: [[0 1]
 [2 3]
 [4 5]]


In [130]:
np.dot(b, a)

array([-4,  5])

*python3.5以降では、"@"演算子でもドット積を求められる*

In [131]:
b @ a

array([-4,  5])

In [132]:
b @ d # 2次元配列同士のドット積（2x3行列と3x2行列のドット積）

array([[ -8, -14],
       [ 10,  13]])

In [133]:
d @ b # 3x2行列と2x3行列のドット積

array([[  0,   1,   2],
       [ -6,  -1,   4],
       [-12,  -3,   6]])