# Numpy

Numpy는 Numerical Python의 줄임말로, 파이썬에서 산술 계산을 위한 가장 중요한 패키지 중 하나입니다. 과학 계산을 위한 대부분의 패키지는 Numpy의 배열 객체를 데이터 교환을 위한 공통 언어처럼 사용합니다.

### Numpy 라이브러리 import

In [1]:
import numpy as np

### Numpy ndarray
Numpy의 핵심 기능 중 하나는 ndarray라고 하는 N차원의 배열 객체인데 파이썬에서 할 수 있는 대규모 데이터 집합을 담을 수 있는 빠르고 유연한 자료구조입니다.

In [2]:
a = np.array([1, 2, 3])
print(a, type(a))

[1 2 3] <class 'numpy.ndarray'>


### List와 비교

In [3]:
L = [1, 2, 3]
A = np.array([1, 2, 3])
print(L)
print(A)

[1, 2, 3]
[1 2 3]


In [4]:
A

array([1, 2, 3])

In [5]:
for item in L:
  print(item)

1
2
3


In [6]:
for item in A:
  print(item)

1
2
3


In [7]:
L.append(4)
print(L)

[1, 2, 3, 4]


In [8]:
A = A.append(4)
print(A)

AttributeError: ignored

In [9]:
A = np.append(A, 4)
print(A)

[1 2 3 4]


In [10]:
L = L + [5]
print(L)

[1, 2, 3, 4, 5]


In [11]:
A = A + np.array([5])
print(A)

[6 7 8 9]


In [12]:
# list의 모든 원소를 2배로 만들기
L = [1, 2, 3]
L2 = []
for item in L:
  L2.append(item*2)
print(L2)

[2, 4, 6]


In [13]:
# ndarray의 모든 원소 2배로 만들기
A = np.array(L)
A2 = A*2
print(A2)

[2 4 6]


In [14]:
L * 2

[1, 2, 3, 1, 2, 3]

### 배열
numpy 배열은 모두 같은 유형의 값이며 음수가 아닌 정수의 튜플로 인덱싱됩니다. 차원의 수는 배열의 랭크입니다. 배열의 shape은 각 차원별 배열 크기의 튜플입니다.
중첩 된 파이썬 리스트로부터 numpy 배열을 초기화 할 수 있고 대괄호를 사용하여 요소에 접근 할 수 있습니다. 

#### 배열 생성하기

In [15]:
a = np.array([1, 2, 3])
print(a)
print(type(a), a.ndim, a.shape, a.dtype)

[1 2 3]
<class 'numpy.ndarray'> 1 (3,) int64


In [16]:
b = np.asarray(a)
print(b)

[1 2 3]


In [17]:
b[0] = 9
print(a)
print(b)

[9 2 3]
[9 2 3]


In [18]:
c = np.array(a)
print(c)

[9 2 3]


In [19]:
c[0] = 1
print(a)
print(b)
print(c)

[9 2 3]
[9 2 3]
[1 2 3]


In [20]:
a = np.zeros((3,4))
print(a)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [21]:
b = np.ones((5,2))
print(b)

[[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]


In [22]:
c = np.full((2,3), 4)
print(c)

[[4 4 4]
 [4 4 4]]


In [23]:
d = np.empty((3,3))
print(d)

[[0.00000000e+000 1.77863633e-322 0.00000000e+000]
 [0.00000000e+000 0.00000000e+000 7.12773286e-067]
 [3.21443587e-057 5.33262783e-091 3.43834124e+179]]


In [24]:
e = np.zeros_like(a)
f = np.ones_like(a)
g = np.full_like(a, 2)
h = np.empty_like(a)
print(e)
print(f)
print(g)
print(h)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]
[[2. 2. 2. 2.]
 [2. 2. 2. 2.]
 [2. 2. 2. 2.]]
[[1.11840494e-316 0.00000000e+000 0.00000000e+000 0.00000000e+000]
 [0.00000000e+000 0.00000000e+000 0.00000000e+000 0.00000000e+000]
 [0.00000000e+000 0.00000000e+000 0.00000000e+000 0.00000000e+000]]


In [25]:
i = np.eye(3)
j = np.identity(3)
print(i)
print(j)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [26]:
k = np.arange(10)
print(k)

[0 1 2 3 4 5 6 7 8 9]


In [27]:
# uniform distribution
l = np.random.rand(2,2)
print(l)

[[0.47057577 0.92575882]
 [0.43181432 0.68387511]]


In [28]:
# normal distribution
m = np.random.randn(2,2)
print(m)

[[ 0.9363834   0.45571485]
 [ 0.62363607 -1.14514204]]


#### 배열의 dtype

In [29]:
 a = np.array([1, 2, 3])
 b = np.array([1, 2, 3], dtype=np.float64)
 c = np.array([1, 2, 3], dtype=np.int32)

 print(a.dtype, b.dtype, c.dtype)

int64 float64 int32


In [30]:
d = np.array([1, 2, 3], dtype='i1')
e = np.array([1, 2, 3], dtype='i2')
f = np.array([1, 2, 3], dtype='i4')
g = np.array([1, 2, 3], dtype='i8')

print(d.dtype, e.dtype, f.dtype, g.dtype)

int8 int16 int32 int64


In [31]:
d = np.array([1, 2, 3], dtype='u1')
e = np.array([1, 2, 3], dtype='u2')
f = np.array([1, 2, 3], dtype='u4')
g = np.array([1, 2, 3], dtype='u8')

print(d.dtype, e.dtype, f.dtype, g.dtype)

uint8 uint16 uint32 uint64


In [32]:
h = np.array([1, 2, 3], dtype='f2')
i = np.array([1, 2, 3], dtype='f4')
j = np.array([1, 2, 3], dtype='f8')
k = np.array([1, 2, 3], dtype='f16')

print(h.dtype, i.dtype, j.dtype, k.dtype)

float16 float32 float64 float128


In [33]:
# h = np.array([1, 2, 3], dtype='f2')
i = np.array([1, 2, 3], dtype='f')
j = np.array([1, 2, 3], dtype='d')
k = np.array([1, 2, 3], dtype='g')

print(h.dtype, i.dtype, j.dtype, k.dtype)

float16 float32 float64 float128


In [34]:
i = i.astype(np.int32)
print(i.dtype)

int32


In [35]:
j = j.astype(i.dtype)
print(j.dtype)

int32


### 배열 indexing(색인)과 slicing(슬라이싱)



#### indexing, slicing 기본

In [36]:
a = np.arange(10)
print(a)

[0 1 2 3 4 5 6 7 8 9]


In [37]:
# indexing
print(a[5])

5


In [38]:
# slicing
print(a[5:8])

[5 6 7]


In [39]:
print(a[-1])

9


In [40]:
print(a[7:-1])

[7 8]


In [41]:
a[5:8] = 10
print(a)

[ 0  1  2  3  4 10 10 10  8  9]


#### indexing과 slicing의 차이
indexing을 사용하면 항상 랭크가 감소합니다. 반면에 slicing을 사용하면 차원이 유지됩니다.

In [42]:
b = np.arange(1, 13)
# b = b.reshape(3, 4)
print(b)
print(b.shape)
print(b.ndim)

[ 1  2  3  4  5  6  7  8  9 10 11 12]
(12,)
1


In [43]:
indexing = b[1]
slicing = b[1:2]
print(indexing, indexing.shape, indexing.ndim)
print(slicing, slicing.shape, slicing.ndim)

2 () 0
[2] (1,) 1


이것은 indexing과 slicing을 함께 사용할 때도 마찬가지입니다. indexing의 개수만큼 랭크는 감소합니다.

In [44]:
b = b.reshape(3, 4)
print(b)
print(b.shape)
print(b.ndim)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
(3, 4)
2


In [45]:
row_r1 = b[1, :]
row_r2 = b[1:2, :]
print(row_r1, row_r1.shape, row_r1.ndim)
print(row_r2, row_r2.shape, row_r2.ndim)

[5 6 7 8] (4,) 1
[[5 6 7 8]] (1, 4) 2


#### slicing examples

In [46]:
c = np.arange(24).reshape(2,3,4)
print(c)
print(c.shape)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]
(2, 3, 4)


In [47]:
print(c[:,:,:1])
print(c[...,:1])

[[[ 0]
  [ 4]
  [ 8]]

 [[12]
  [16]
  [20]]]
[[[ 0]
  [ 4]
  [ 8]]

 [[12]
  [16]
  [20]]]


In [48]:
print(c[0:1])
print(c[0::-1])

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]]
[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]]


#### boolean indexing

In [49]:
print(c)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


In [50]:
bool_idx = (c > 10)
print(bool_idx)

[[[False False False False]
  [False False False False]
  [False False False  True]]

 [[ True  True  True  True]
  [ True  True  True  True]
  [ True  True  True  True]]]


In [51]:
print(c[bool_idx])

[11 12 13 14 15 16 17 18 19 20 21 22 23]


In [52]:
c[c>10] = -1
print(c)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 -1]]

 [[-1 -1 -1 -1]
  [-1 -1 -1 -1]
  [-1 -1 -1 -1]]]


#### fancy indexing

In [53]:
d = np.arange(8).reshape(8,-1)
print(d, d.shape)

[[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]] (8, 1)


In [54]:
d = np.hstack((d, d, d, d))
print(d, d.shape)

[[0 0 0 0]
 [1 1 1 1]
 [2 2 2 2]
 [3 3 3 3]
 [4 4 4 4]
 [5 5 5 5]
 [6 6 6 6]
 [7 7 7 7]] (8, 4)


In [55]:
print(d[[3, 5, 1, 0]])

[[3 3 3 3]
 [5 5 5 5]
 [1 1 1 1]
 [0 0 0 0]]


In [56]:
print(d[[-3, -5, -7]])

[[5 5 5 5]
 [3 3 3 3]
 [1 1 1 1]]


In [57]:
e = np.arange(32).reshape(8,4)
print(e, e.shape)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]] (8, 4)


In [58]:
print(e[[1,5,7,2], [0,3,1,2]])

[ 4 23 29 10]


In [59]:
print(e[[1,5,7,2]][:, [0,3,1,2]])

[[ 4  7  5  6]
 [20 23 21 22]
 [28 31 29 30]
 [ 8 11  9 10]]


### Transpose

In [60]:
f = np.arange(16).reshape(2,2,4)
print(f, f.shape)

[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]] (2, 2, 4)


In [61]:
print(f.transpose(1, 0, 2))

[[[ 0  1  2  3]
  [ 8  9 10 11]]

 [[ 4  5  6  7]
  [12 13 14 15]]]


In [62]:
print(f.swapaxes(0, 1))

[[[ 0  1  2  3]
  [ 8  9 10 11]]

 [[ 4  5  6  7]
  [12 13 14 15]]]


### Numpy 연산

In [63]:
x = np.array([[1,2], [3,4]], dtype=np.float64)
y = np.array([[5,6], [7,8]], dtype=np.float64)
print(x)
print(y)

[[1. 2.]
 [3. 4.]]
[[5. 6.]
 [7. 8.]]


In [64]:
print(x + y)
print(np.add(x, y))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]


In [65]:
print(x - y)
print(np.subtract(x, y))

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]


In [66]:
print(x * y)
print(np.multiply(x, y))

[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]


In [67]:
print(x / y)
print(np.divide(x, y))

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]


In [68]:
print(x @ y)
print(np.matmul(x, y))

[[19. 22.]
 [43. 50.]]
[[19. 22.]
 [43. 50.]]


In [69]:
z = np.arange(1, 11).reshape(2, 5)
print(z)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]


In [70]:
print(np.sum(z))

55


In [71]:
sum1 = np.sum(z, axis=0)
sum2 = np.sum(z, axis=1)
sum3 = np.sum(z, axis=-1)
print(sum1, sum1.shape)
print(sum2, sum2.shape)
print(sum3, sum3.shape)

[ 7  9 11 13 15] (5,)
[15 40] (2,)
[15 40] (2,)


여기서 축(axis)은 각 배열의 차원에 해당되는 index 입니다.

axis=0에 대하여 sum을 하라는 것은 0번 축 혹은 차원이 없어지는 방향으로 원소들을 모두 더하라는 얘기입니다.

즉, 위 예에서 sum1의 경우, z[0,:]+z[1,:]의 연산을 하라는 의미이고,

sum2의 경우에는 z[:,0]+z[:,1]+z[:,2]+z[:,3]+z[:,4]의 연산을 하라는 의미입니다.

In [72]:
print(z[0,:] + z[1,:])

[ 7  9 11 13 15]


In [73]:
print(z[:,0] + z[:,1] + z[:,2] + z[:,3] + z[:,4])

[15 40]


### Broadcasting

Broadcasting은 numpy가 산술 연산을 수행 할 때 다른 모양의 배열로 작업 할 수있게 해주는 강력한 메커니즘입니다. 종종 더 작은 배열과 더 큰 배열이 있을 때 더 작은 배열을 여러 번 사용하여 더 큰 배열에서 어떤 연산을 수행하기를 원할 때가 있습니다.

예를 들어, 행렬의 각 행에 상수 벡터를 추가하려 한다고 가정합시다. numpy에서는 다음과 같이 할 수 있습니다.

In [74]:
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10,11,12]])
y = np.array([1,0,2])

In [75]:
print(x, x.shape)
print(y, y.shape)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]] (4, 3)
[1 0 2] (3,)


In [76]:
z = x + y
print(z, z.shape)

[[ 2  2  5]
 [ 5  5  8]
 [ 8  8 11]
 [11 11 14]] (4, 3)


z = x + y 는 broadcasting으로 인해 x가 shape (4, 3)이고 y가 shape (3)인데도 작동합니다. 이 행은 y가 실제로 shape (4, 3)인 것처럼 작동합니다. 각 행은 y의 사본이었고, 합계는 요소별로 수행되었습니다.

두 개의 배열을 브로드캐스팅하는 것은 다음 규칙을 따릅니다.

1. 배열의 랭크가 같지 않으면 두 모양이 같은 길이가 될 때까지 배열의 낮은 랭크쪽에 1을 붙입니다.
2. 두 배열은 차원에서 크기가 같거나 배열 중 하나의 차원에 크기가 1 인 경우 차원에서 호환 가능하다고 합니다.
3. 배열은 모든 차원에서 호환되면 함께 broadcast 될 수 있습니다.
4. Broadcast 후 각 배열은 두 개의 입력 배열의 요소 모양 최대 개수와 동일한 모양을 가진 것처럼 동작합니다.
5. 한 배열의 크기가 1이고 다른 배열의 크기가 1보다 큰 차원에서 첫 번째 배열은 마치 해당 차원을 따라 복사 된 것처럼 작동합니다

실제로 동작하는 방식을 생각해 봅시다.

1. A와 B의 모양을 생각합니다.
2. 두 배열이 len(A.shape) == len(B.shape)인지 확인을 합니다.
3. 같지 않은 경우에는 두 배열의 모양 길이가 같아질때까지 적은 쪽의 shape 앞에 1 을 추가해 줍니다.
- 예: (5,3)–>(1,5,3)
4. shape이 1인 곳은 복사가 됩니다.
- 예: shape의 변화는 아래와 같게 될겁니다.
- (5, 3)+(3,)
- (5, 3)+(1, 3)
- (5, 3) + (5, 3)
- (5, 3)

이 설명이 이해가되지 않으면 문서 또는 이 설명을 읽으십시오.

https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html

http://scipy.github.io/old-wiki/pages/EricsBroadcastingDoc

Broadcasting을 지원하는 함수들을 보편 함수라고합니다. 이 문서에서 모든 보편 함수 목록을 찾을 수 있습니다.
https://docs.scipy.org/doc/numpy/reference/ufuncs.html#available-ufuncs


In [77]:
x = np.array([1,2,3]).reshape(1,3)
y = np.array([4,5]).reshape(1,2)
print(x, x.shape)
print(y, y.shape)

[[1 2 3]] (1, 3)
[[4 5]] (1, 2)


In [78]:
# broadcasting 조건에 맞지 않음
print(x + y)

ValueError: ignored

In [79]:
y = y.swapaxes(0, 1)
print(y, y.shape)

[[4]
 [5]] (2, 1)


In [80]:
# broadcasting 발생
print(x + y)

[[5 6 7]
 [6 7 8]]


### Shape 변경

In [81]:
a = np.arange(24).reshape(2,3,4)
print(a, a.shape)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]] (2, 3, 4)


In [82]:
a = a.reshape(4, -1)
print(a, a.shape)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]] (4, 6)


In [83]:
a = a[..., np.newaxis]
print(a, a.shape)

[[[ 0]
  [ 1]
  [ 2]
  [ 3]
  [ 4]
  [ 5]]

 [[ 6]
  [ 7]
  [ 8]
  [ 9]
  [10]
  [11]]

 [[12]
  [13]
  [14]
  [15]
  [16]
  [17]]

 [[18]
  [19]
  [20]
  [21]
  [22]
  [23]]] (4, 6, 1)


In [84]:
a = a.reshape(4, 6)
a = np.expand_dims(a, axis=0)
print(a, a.shape)

[[[ 0  1  2  3  4  5]
  [ 6  7  8  9 10 11]
  [12 13 14 15 16 17]
  [18 19 20 21 22 23]]] (1, 4, 6)


In [85]:
b = a.copy()
print(b, b.shape)

[[[ 0  1  2  3  4  5]
  [ 6  7  8  9 10 11]
  [12 13 14 15 16 17]
  [18 19 20 21 22 23]]] (1, 4, 6)


In [86]:
c = np.concatenate((a, b), axis=-1)
print(c, c.shape)

[[[ 0  1  2  3  4  5  0  1  2  3  4  5]
  [ 6  7  8  9 10 11  6  7  8  9 10 11]
  [12 13 14 15 16 17 12 13 14 15 16 17]
  [18 19 20 21 22 23 18 19 20 21 22 23]]] (1, 4, 12)


In [87]:
c = np.concatenate((a, b), axis=0)
print(c, c.shape)

[[[ 0  1  2  3  4  5]
  [ 6  7  8  9 10 11]
  [12 13 14 15 16 17]
  [18 19 20 21 22 23]]

 [[ 0  1  2  3  4  5]
  [ 6  7  8  9 10 11]
  [12 13 14 15 16 17]
  [18 19 20 21 22 23]]] (2, 4, 6)


In [88]:
d = np.stack((a, b), axis=-1)
print(d, d.shape)

[[[[ 0  0]
   [ 1  1]
   [ 2  2]
   [ 3  3]
   [ 4  4]
   [ 5  5]]

  [[ 6  6]
   [ 7  7]
   [ 8  8]
   [ 9  9]
   [10 10]
   [11 11]]

  [[12 12]
   [13 13]
   [14 14]
   [15 15]
   [16 16]
   [17 17]]

  [[18 18]
   [19 19]
   [20 20]
   [21 21]
   [22 22]
   [23 23]]]] (1, 4, 6, 2)


In [89]:
d = np.stack((a, b), axis=0)
print(d, d.shape)

[[[[ 0  1  2  3  4  5]
   [ 6  7  8  9 10 11]
   [12 13 14 15 16 17]
   [18 19 20 21 22 23]]]


 [[[ 0  1  2  3  4  5]
   [ 6  7  8  9 10 11]
   [12 13 14 15 16 17]
   [18 19 20 21 22 23]]]] (2, 1, 4, 6)
