# numpy

#### seikit-learn では主にベクトル・配列の機能を中心に用いる

## array : 配列

In [2]:
import numpy as np

In [3]:
# 1次元配列
a = np.array([1, 2, 3])
a

array([1, 2, 3])

In [4]:
print(a)

[1 2 3]


In [5]:
# object
type(a)

numpy.ndarray

ndarray は nmupy の配列の型

In [6]:
# 配列の次元と要素数を調べる
a.shape

(3,)

1次元の場合は次元が省略されて出力される

In [7]:
# 2次元配列
b = np.array([[1, 2, 3], [4, 5, 6]])
b

array([[1, 2, 3],
       [4, 5, 6]])

[ [  ] ] 括弧が２重になっている　：　中身が２次元 list

In [8]:
print(b)

[[1 2 3]
 [4 5 6]]


## 配列の型変換

In [9]:
# 1次元 -> 2次元
c = np.array([2, 4, 6, 8, 10, 12])

# tuple型で指定 / 行, 列
c1 = c.reshape((2, 3))
c1

array([[ 2,  4,  6],
       [ 8, 10, 12]])

In [10]:
print(c1)

[[ 2  4  6]
 [ 8 10 12]]


- reshape で与える値 ( 行, 列 ) は .shape の時に出てきた形を与えれあげる　=　tuple型

In [11]:
c1.shape

(2, 3)

In [12]:
# 2次元 -> １次元
c2 = c1.ravel()
c2

array([ 2,  4,  6,  8, 10, 12])

- 参照なので元の　data が変わると参照先 data　も変わる

In [13]:
c1[0, 0] = 1
c1

array([[ 1,  4,  6],
       [ 8, 10, 12]])

In [14]:
c2

array([ 1,  4,  6,  8, 10, 12])

In [15]:
# ２次元 -> 1次元
c3 = c1.flatten()
c3

array([ 1,  4,  6,  8, 10, 12])

- flatten はコピーなので、元の data を変更しても影響はない

In [16]:
c1[0, 0] = 2
c1

array([[ 2,  4,  6],
       [ 8, 10, 12]])

In [17]:
# flatten()
c3

array([ 1,  4,  6,  8, 10, 12])

In [18]:
# ravel( )
c2

array([ 2,  4,  6,  8, 10, 12])

- 状況に応じて　ravel( ), flatten( )　を使用する
    - flatten( ) はコピーdata なので `同じ量のdataを２つ　=　2倍作成する事になる` = **メモリを消費する**
    - *あまりに大量の data でやってしまうと遅くなってしまう可能性がある*

## Data型の取得と変換

In [19]:
# data型の取得
a.dtype

dtype('int64')

In [20]:
# np.int64型の dataの作成
d = np.array([1, 3], dtype=np.int64)
d.dtype

dtype('int64')

- big data や AI 機械学習をやろうと思ったら、しっかりと data size 処理も行わないと上手くいかない場合がある

In [21]:
# data型の変更 (np.float16へ　)
d1 = d.astype(np.float16)
d1

array([1., 3.], dtype=float16)

## index　と　slice

In [22]:
# index　と　slice
a = np.array([1, 2, 3, 4, 5, 6])
a

array([1, 2, 3, 4, 5, 6])

In [23]:
a[0]

1

In [24]:
a[-1]

6

In [25]:
# 3以上
a[3:]

array([4, 5, 6])

In [26]:
# index 3 未満
a[:3]

array([1, 2, 3])

In [27]:
# index 2次元配列
b = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])
b

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [28]:
# 0行目
b[0]

array([1, 2, 3, 4])

In [29]:
# 1行目
b[1]

array([5, 6, 7, 8])

In [30]:
b[0, 3]

4

In [31]:
b[1, 2]

7

In [32]:
# 0と１行目　の　２列目
b[:, 2]

array([3, 7])

In [33]:
# 0行目の 2列目以降
b[0, 1:]

array([2, 3, 4])

## dataの設定

In [34]:
# データを変更
a = np.array([1, 2, 3, 4])
a[2] = 10
a

array([ 1,  2, 10,  4])

In [35]:
a = np.array([1, 2, 3, 4])
a[:] = 0
a

array([0, 0, 0, 0])

In [36]:
# ２次元の場合
b = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])
b[0, 2] = 10
b

array([[ 1,  2, 10,  4],
       [ 5,  6,  7,  8]])

In [37]:
# 2列目を ０　に変更
b[:, 1] = 0
b

array([[ 1,  0, 10,  4],
       [ 5,  0,  7,  8]])

## 乱数
- random.seed( )　->　擬似乱数の 「 種 」 の設定
- 乱数の種　->　乱数を発生させる関数の初期値
- 同じ種のものは、同じパターンの擬似乱数を発生させる


- **擬似乱数**
    - 完全な乱数では無い
    - 乱数らしきモノを発生させる


- **再現性ががいといけない**
    - どんな人がやっても同じ値が返ってくるようで無いといけない
    - ***apple** と翻訳機に入力したら　**りんご**　と返してほしいという事*
        - <u>同じ結果が得られるという事が必要になる</u>

In [38]:
# 乱数の発生
np.random.seed(1)  # 乱数の種の設定 (1)
np.random.random() # 0.0 ~ 1.0の乱数

0.417022004702574

In [39]:
# seed を指定しないと変わってしまう
np.random.random()

0.7203244934421581

In [40]:
# 引数の値を変える
np.random.seed(1)   # 乱数の種の設定 (1)
np.random.random(4) # n個からなる　１次元配列を発生させる 

array([4.17022005e-01, 7.20324493e-01, 1.14374817e-04, 3.02332573e-01])

In [41]:
# 2次元の乱数発生させる
np.random.seed(1)         # 乱数の種の設定 (1)
np.random.random((3, 2))  # (( 行,列 ))　括弧は２重

array([[4.17022005e-01, 7.20324493e-01],
       [1.14374817e-04, 3.02332573e-01],
       [1.46755891e-01, 9.23385948e-02]])

In [42]:
# 乱数を整数で発生させる
np.random.seed(1)         # 乱数の種の設定 (1)
np.random.randint(1, 10)  # (行,列)　１　〜　１０　未満の間の整数

6

## data の生成

In [43]:
# 数列を返す
np.arange(10)  # 10未満

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [44]:
# 範囲指定
np.arange(3, 10) # 3以上、　１０未満

array([3, 4, 5, 6, 7, 8, 9])

### meshgrid (メッシュグリッド)
- 2つの arange の数値全ての組み合わせを作る

In [45]:
# X座標
x = np.arange(3)  # array([0, 1, 2])
# Y座標
y = np.arange(5)  # array([0, 1, 2, 3, 4])
# 格子点作成
xx, yy = np.meshgrid(x, y)
# 格子点の組み併せを表示
for vx, vy in zip(xx, yy):
    for px, py in zip(vx, vy):
        print("[{}, {}]".format(px, py))

[0, 0]
[1, 0]
[2, 0]
[0, 1]
[1, 1]
[2, 1]
[0, 2]
[1, 2]
[2, 2]
[0, 3]
[1, 3]
[2, 3]
[0, 4]
[1, 4]
[2, 4]


In [46]:
print(x)
print(y)

[0 1 2]
[0 1 2 3 4]


#### X, Y の総当たりの組み合わせになっている

In [47]:
a = np.zeros(3)
a

array([0., 0., 0.])

In [48]:
b = np.zeros((3, 3))
b

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [49]:
c = np.ones(3)
c

array([1., 1., 1.])

In [50]:
d = np.ones((3, 3))
d

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [51]:
# full : 10 とういう値を３個もつ一次元配列
e = np.full(3, 10)
e

array([10, 10, 10])

In [52]:
f = np.full((3, 3), 10)
f

array([[10, 10, 10],
       [10, 10, 10],
       [10, 10, 10]])

In [53]:
# 均等割りのdata　：　（ 始点, 終点, いくつに分割するか ）
l = np.linspace(0, 1, 5)
l

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

## data　の結合と分離

### concatenate( )
- ２次元配列は axis で縦軸横軸の結合を指定
- `dataはリンク : 結合前と結合後で相関関係がある`

In [54]:
a1 = np.array([1, 2, 3])
a2 = np.array([4, 5, 6])
a3 = np.concatenate([a1, a2])
a3

array([1, 2, 3, 4, 5, 6])

- **結合前と結合後 data は相関関係がある**

In [55]:
b1 = np.array([[1, 2, 3], [4, 5, 6]])
b2 = np.array([[7, 8, 9], [10, 11, 12]])
b3 = np.concatenate([b1, b2], axis=1)
b3

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [56]:
b1 = np.array([[1, 2, 3], [4, 5, 6]])
b2 = np.array([[7, 8, 9], [10, 11, 12]])
b3 = np.concatenate([b1, b2], axis=0)
b3

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

- 2次元配列は axis で縦横の結合方法を変更する

### hstack( )
- 2次元配列を横軸方向で結合
- `data はコピー`

In [57]:
b1 = np.array([[1, 2, 3], [4, 5, 6]])
b2 = np.array([[7, 8, 9], [10, 11, 12]])
b3 = np.hstack([b1, b2])
b3

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

### vstack( )
- ２次元配列を縦軸方向に結合
- `dataはコピー`

In [58]:
# 縦軸方向に結合
c1 = np.array([[1, 2, 3], [4, 5, 6]])
c2 = np.array([[7, 8, 9], [10, 11, 12]])
c3 = np.vstack([b1, b2])
c3

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

- 状況に応じて　concatenate( ), stack( ), vstack( )　を使用する
    - v,stack( ) はコピーdata なので `同じ量のdataを２つ　=　2倍作成する事になる` = **メモリを消費する**
    - *あまりに大量の data でやってしまうと遅くなってしまう可能性がある*
    - concatenate( ) はメモリをなるべく使用したくない時に使用する

## 分割

### hsplit( )
- 列に対する分割
- 分割する列の位置は listで考える
- 分割は コピー

In [59]:
h = np.array([[1, 2, 3, 7, 8, 9], [4, 5, 6, 10, 11, 12]])
h1, h2 = np.hsplit(h, [3])  # index を指定　3列目で分割
print(f'h1:\n{h1}\nh2:\n{h2}')

h1:
[[1 2 3]
 [4 5 6]]
h2:
[[ 7  8  9]
 [10 11 12]]


In [60]:
h

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [61]:
h = np.array([[1, 2, 3, 7, 8, 9], [4, 5, 6, 10, 11, 12]])
h1, h2, h3 = np.hsplit(h, [2, 4])  # index を指定　3列目, 4列目で分割
print(f'h1:\n{h1}\nh2:\n{h2}\nh3:\n{h3}')

h1:
[[1 2]
 [4 5]]
h2:
[[ 3  7]
 [ 6 10]]
h3:
[[ 8  9]
 [11 12]]


### vsplit( )
- 行に対する分割
- 分割する行は listで与える
- 分割は コピー

In [62]:
v = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
v1, v2 = np.vsplit(v, [3])  # index を指定　3列目で分割
print(f'v1:\n{v1}\nv2:\n{v2}')

v1:
[[1 2 3]
 [4 5 6]
 [7 8 9]]
v2:
[[10 11 12]]


In [63]:
v

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [64]:
v = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
v1, v2, v3 = np.vsplit(v, [2, 3])  # index を指定　2行目, 3行目で分割
print(f'v1:\n{v1}\nv2:\n{v2}\nv3:\n{v3}')

v1:
[[1 2 3]
 [4 5 6]]
v2:
[[7 8 9]]
v3:
[[10 11 12]]


### 転地
- T　：　配列の行と列を入れ替える（横・縦入れ替え）

In [65]:
v

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [66]:
v.T

array([[ 1,  4,  7, 10],
       [ 2,  5,  8, 11],
       [ 3,  6,  9, 12]])

## 演算処理
-  universal function
    - 配列の全要素に演算処理を行い、結果を配列で返す関数
    - abs　:　絶対値を決める / absolute の略
    - **np.abs(a)**　:　配列 a の全ての要素に **np.ads**

In [67]:
a = np.array([-1, 2, 3, -3, 5])
np.abs(a)

array([1, 2, 3, 3, 5])

- **np.sin(a)**　:　配列の a の全ての要素に **np.sin**

In [68]:
a = np.array([0.0, np.pi / 4.0, np.pi / 2.0])
np.sin(a) # sinの計算

array([0.        , 0.70710678, 1.        ])

In [69]:
a

array([0.        , 0.78539816, 1.57079633])

### broadcasting
- NumPy配列ndarray同士の二項演算（四則演算など）ではブロードキャスト（broadcasting）という仕組み

In [70]:
# ブロードキャスト
a = np.array([1, 2, 3, 4, 5])
print(f'{a + 10}\n{a - 10}\n{2 * a}\n{a / 2}\n')

[11 12 13 14 15]
[-9 -8 -7 -6 -5]
[ 2  4  6  8 10]
[0.5 1.  1.5 2.  2.5]



In [71]:
a = np.array([1, 2, 3, 4, 5])
b = np.array([2, 4, 6, 8, 10])
print(f'{a + b}\n{a - b}\n{a * b}\n{a / b}')

[ 3  6  9 12 15]
[-1 -2 -3 -4 -5]
[ 2  8 18 32 50]
[0.5 0.5 0.5 0.5 0.5]


## 判定・論理値

In [72]:
a = np.array([1, -2, 3, -5])
np.array(a > 0)

array([ True, False,  True, False])

### count_nonzero( )
- 配列の中で　0 ではない要素をカウント

In [73]:
a = np.array([1, -2, 3, -5])
b = np.count_nonzero(a > 0)
print(f'0より大き数値は{b}個ある/True: {b}つ')

0より大き数値は2個ある/True: 2つ


### sum( )
- 配列の要素の合計

In [74]:
a = np.array([1, -2, 3, -5])
s = np.sum(a > 0)
s

2

### any( 条件 )
- 配列の中に一つでも条件を満たすものがあるかを調べる
    - *１つでも当てはまれば　True　で値を返す*

In [75]:
a = np.array([1, -2, 3, -5])
np.any(a > 0)

True

### all( 条件 )
- 配列の要素が全て条件を満たすか調べる

In [76]:
a = np.array([1, -2, 3, -5])
np.all(a > 0)

False

### 配列[ 条件 ]
- 配列の中から条件を満たす要素のみで配列を作成

In [77]:
a = np.array([1, -2, 3, -5])
# aの中から０より大きい要素のみの配列を取得
a[a > 0]

array([1, 3])

- **filter　の役割を果たす**

### 配列 == 配列
- 2つの異なる配列の比較

In [78]:
a = np.array([1, 2, 3, 4])
b = np.array([1, 0, 3, 0])
# 対応する要素が等しければ True を返す
a == b

array([ True, False,  True, False])

### allclose( )
- 配列の全要素が等しいかどうかを調べる
    - True　:　全要素が等しい
    - False　:　要素が等しく無いものが存在する

In [79]:
a = np.array([1, 2, 3, 4])
b = np.array([1, 2, 3, 4])
c = np.array([1, 2, 3, 5])
# ２つの配列が同じ値を取っているか調べる
print(f'{np.allclose(a, b)}\n{np.allclose(a, c)}')

True
False


In [80]:
# atol を指定すると、等しい条件に誤差を確認
a = np.array([1, 2, 3, 4])
b = np.array([1, 2, 3, 10])
c = np.array([1, 2, 3, 100])
# ２つの配列が指定された誤差( atol で指定した )範囲内に収まっているか調べる
print(f'{np.allclose(a, b, atol=10)}\n{np.allclose(a, c, atol=10)}')

True
False


- *誤差を１０まで認める*

## 問題１

In [96]:
a = np.array([1, 2, 3, 4, 5, 6])
a

array([1, 2, 3, 4, 5, 6])

In [97]:
a = (a * 2)
a

array([ 2,  4,  6,  8, 10, 12])

In [101]:
a = a.reshape((2, 3)) # tuple型, list型で指定
a

array([[ 2,  4,  6],
       [ 8, 10, 12]])

In [87]:
a = np.hsplit(a, [2])
a

[array([[ 2,  4],
        [ 8, 10]]),
 array([[ 6],
        [12]])]

In [91]:
b = np.array([1, 2, 3, 4])
c = np.array([5, 6, 7, 8])
con = np.concatenate([b, c])
con

array([1, 2, 3, 4, 5, 6, 7, 8])

In [93]:
d = np.array([[1, 2, 3], [4, 5, 6]])
e = np.array([[7, 8, 9], [10, 11, 12]])
hst = np.hstack((d, e))
hst

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [94]:
d = np.array([[1, 2, 3], [4, 5, 6]])
e = np.array([[7, 8, 9], [10, 11, 12]])
vst = np.vstack((d, e))
vst

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])