# Numpy
Numpy는 Numerical Python의 줄임말로, 파이썬에서 산술 계산을 위한 가장 중요한 패키지다.</br>
과학 계산을 위한 대부분의 패키지는 Numpy의 배열 객체를 데이터 교환을 위한 공통 언어처럼 사용한다.

## Numpy 라이브러리 import

In [2]:
import numpy as np

### Numpy ndarray
Numpy의 핵심 기능 중 하나는 ndarray라고 하는 N차원의 배열 객체다.</br>
파이썬에서 할 수 있는 대규모 데이터 집합을 담을 수 있는 빠르고 유연한 자료구조이다.

In [5]:
a = np.array([1, 2, 3])
print(a, type(a))

[1 2 3] <class 'numpy.ndarray'>


### List와 비교

In [21]:
L = [1, 2, 3]
A = np.array([1, 2, 3])
print(L)
print(A)

[1, 2, 3]
[1 2 3]


In [22]:
for i in L:
    print(i)

1
2
3


In [23]:
for i in A:
    print(i)

1
2
3


In [24]:
L.append(4)
print(L)

[1, 2, 3, 4]


In [25]:
A = np.append(A, 4)
print(A)

[1 2 3 4]


In [26]:
L = L + [5]
print(L)

[1, 2, 3, 4, 5]


In [27]:
A = A + np.array([5])
print(A) # 브로드캐스팅 현상

[6 7 8 9]


In [29]:
# list의 모든 원소를 2배로 만들기
L = [1, 2, 3]
L2 = []
for i in L:
    L2.append(i * 2)
print(L2)

[2, 4, 6]


In [32]:
A = np.array([1, 2, 3])
A2 = np.array([])

for i in A:
    A2 = np.append(i * 2)
print(A2)

TypeError: append() missing 1 required positional argument: 'values'

In [33]:
A = np.array(L)
A2 = A * 2
print(A2)

[2 4 6]


In [34]:
L * 2

[1, 2, 3, 1, 2, 3]

### 배열
Numpy 배열은 모두 같은 유형의 값이며, 음수가 아닌 정수 튜플로 인덱싱된다. 차원의 수는 배열의 랭크이다.</br>
배열의 shape은 각 차원별 배열 크기의 튜플이다. 중첩된 파이썬 리스트로부터 numpy배열을 초기화 할 수 있고 대괄호를 사용하여 요소에 접근할 수 있다.

In [35]:
a = np.array([1, 2, 3])
print(a)
print(type(a), a.ndim, a.shape, a.dtype)

[1 2 3]
<class 'numpy.ndarray'> 1 (3,) int64


In [8]:
# asarray를 사용하면 원본 데이터를 그대로 복사(연결되어 있다), 값을 수정하면 원본도 바뀐다.
b = np.asarray(a)

print(b)

[9 2 3]


In [7]:
b[0] = 9
print(a)
print(b)

[9 2 3]
[9 2 3]


In [9]:
c = np.array(a)
print(c)

[9 2 3]


In [10]:
c[0] = 1
print(a)
print(b)
print(c)

[9 2 3]
[9 2 3]
[1 2 3]


In [19]:
a = np.zeros((3, 4)) #3행 4열
print(a)
print(type(a))
print(a.dtype)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
<class 'numpy.ndarray'>
float64


In [14]:
b = np.ones((5,2))
print(b)

[[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]


In [15]:
c = np.full((2,3), 4)
print(c)

[[4 4 4]
 [4 4 4]]


In [23]:
d = np.empty((3,3))
print(d)

[[ 2.60605835e-31 -5.21211670e-31  1.30302917e-31]
 [-5.21211670e-31  1.13363538e-30 -3.51817877e-31]
 [ 1.30302917e-31 -3.51817877e-31  2.01969522e-31]]


In [25]:
e = np.zeros_like(a)
f = np.ones_like(a)
g = np.full_like(a, 2)
h = np.empty_like(a)
print(e)
print(f)
print(g)
print(h)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]
[[2. 2. 2. 2.]
 [2. 2. 2. 2.]
 [2. 2. 2. 2.]]
[[2. 2. 2. 2.]
 [2. 2. 2. 2.]
 [2. 2. 2. 2.]]


In [28]:
# 항등행렬, 대각선 방향으로 1을 채우고 나머지는 0
i = np.eye(3)
j = np.identity(10)
print(i)
print(j)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[[1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]


In [36]:
k = np.arange(10)
print(k)

[0 1 2 3 4 5 6 7 8 9]


In [43]:
k = np.arange(10, 0, -1)
print(k)

[10  9  8  7  6  5  4  3  2  1]


In [35]:
for i in range(1, 10):
    print(i)

1
2
3
4
5
6
7
8
9


In [41]:
# uniform distribution
I = np.random.rand(2,2)
print(I)

[[0.76777479 0.950071  ]
 [0.99460117 0.85262658]]


In [42]:
# normal distribution
m = np.random.randn(2,2)
print(m)

[[-1.80815784  0.38622606]
 [-0.96925605  0.28784517]]


### 배열의 dtype

In [46]:
a = np.array([1, 2, 3])
b = np.array([1, 2, 3], dtype = np.float64)
c = np.array([1, 2, 3], dtype = np.int32)

print(a, b, c)
print(a.dtype, b.dtype, c.dtype)

[1 2 3] [1. 2. 3.] [1 2 3]
int64 float64 int32


In [48]:
d = np.array([1, 2, 3], dtype = 'i1')
e = np.array([1, 2, 3], dtype = 'i2')
f = np.array([1, 2, 3], dtype = 'i4')
g = np.array([1, 2, 3], dtype = 'i8')

print(d.dtype, e.dtype, f.dtype, g.dtype)

int8 int16 int32 int64


In [49]:
d = np.array([1, 2, 3], dtype = 'u1')
e = np.array([1, 2, 3], dtype = 'u2')
f = np.array([1, 2, 3], dtype = 'u4')
g = np.array([1, 2, 3], dtype = 'u8')

print(d.dtype, e.dtype, f.dtype, g.dtype)

uint8 uint16 uint32 uint64


In [50]:
d = np.array([1, 2, 3], dtype = 'f2')
e = np.array([1, 2, 3], dtype = 'f4')
f = np.array([1, 2, 3], dtype = 'f8')
g = np.array([1, 2, 3], dtype = 'f16')

print(d.dtype, e.dtype, f.dtype, g.dtype)

float16 float32 float64 float128


In [55]:
d = np.array([1, 2, 3], dtype = 'i')
e = np.array([1, 2, 3], dtype = 'd')
f = np.array([1, 2, 3], dtype = 'g')

print(d.dtype, e.dtype, f.dtype)

int32 float64 float128


In [58]:
d = d.astype(np.float64)
print(d.dtype)

float64


In [61]:
j = f.astype(f.dtype)

### 배열 Indexing(색인)과 slicing

In [74]:
a = np.arange(10)
print(a)

[0 1 2 3 4 5 6 7 8 9]


In [75]:
print(a[5])
print(a[0])

5
0


In [76]:
print(a[5:8])

[5 6 7]


In [77]:
print(a[-1])

9


In [79]:
print(a[7:-1])

[7 8]


In [80]:
a[5:8] = 10
print(a)

[ 0  1  2  3  4 10 10 10  8  9]


#### indexing을 사용하면 항상 랭크가 감소합니다. 반면에 slicing을 사용하면 차원이 유지됩니다.

In [81]:
b = np.arange(1, 13)
print(b)
print(b.shape)
print(b.ndim)

[ 1  2  3  4  5  6  7  8  9 10 11 12]
(12,)
1


In [83]:
indexing = b[1]
slicing = b[1:2]
print(indexing, indexing.shape, indexing.ndim)
print(slicing, slicing.shape, slicing.ndim)

2 () 0
[2] (1,) 1


이것은 Indexing과 slicing을 함께 사용할 때도 마찬가지이다. Indexing의 개수만큼 랭크는 감소한다.

In [84]:
b = b.reshape(3, 4)
print(b)
print(b.shape)
print(b.ndim)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
(3, 4)
2


In [86]:
row_r1 = b[1, : ]
row_r2 = b[1:2, :]
print(row_r1, row_r1.shape, row_r1.ndim)
print(row_r2, row_r2.shape, row_r2.ndim)

[5 6 7 8] (4,) 1
[[5 6 7 8]] (1, 4) 2


#### slicing examples

In [87]:
c = np.arange(24).reshape(2,3,4)
print(c)
print(c.shape)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]
(2, 3, 4)


In [88]:
c = np.arange(24).reshape(3,2,4)
print(c)

[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]

 [[16 17 18 19]
  [20 21 22 23]]]


In [105]:
print(c[:,:,3:])

[[[ 3]
  [ 7]]

 [[11]
  [15]]

 [[19]
  [23]]]


In [107]:
print(c[:,:,:1])

[[[ 0]
  [ 4]]

 [[ 8]
  [12]]

 [[16]
  [20]]]


In [106]:
print(c[:1,...])

[[[0 1 2 3]
  [4 5 6 7]]]


In [118]:
print(c[0:1])
print(c[0::3])

[[[0 1 2 3]
  [4 5 6 7]]]
[[[0 1 2 3]
  [4 5 6 7]]]


### boolean indexing

In [120]:
c = np.arange(24).reshape(2,3,4)
print(c)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


In [121]:
bool_idx = (c > 10)
print(bool_idx)

[[[False False False False]
  [False False False False]
  [False False False  True]]

 [[ True  True  True  True]
  [ True  True  True  True]
  [ True  True  True  True]]]


In [122]:
print(c[bool_idx])

[11 12 13 14 15 16 17 18 19 20 21 22 23]


In [123]:
c[c>10] = -1
print(c)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 -1]]

 [[-1 -1 -1 -1]
  [-1 -1 -1 -1]
  [-1 -1 -1 -1]]]


### fancy indexing

In [11]:
d = np.arange(8).reshape(8,-1)
print(d, d.shape)

[[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]] (8, 1)


In [12]:
d = np.hstack((d, d, d, d))
print(d, d.shape)

[[0 0 0 0]
 [1 1 1 1]
 [2 2 2 2]
 [3 3 3 3]
 [4 4 4 4]
 [5 5 5 5]
 [6 6 6 6]
 [7 7 7 7]] (8, 4)


In [18]:
print(d[[3,5,1,0,1,2]]) # list형태로 데이터 인덱싱

[[3 3 3 3]
 [5 5 5 5]
 [1 1 1 1]
 [0 0 0 0]
 [1 1 1 1]
 [2 2 2 2]]


In [14]:
print(d[[-3,-5,-7]]) # list형태로 데이터 인덱싱

[[5 5 5 5]
 [3 3 3 3]
 [1 1 1 1]]


In [19]:
e = np.arange(32).reshape(8,4)
print(e, e.shape)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]] (8, 4)


In [21]:
print(e[[1, 5, 7, 2]])

[[ 4  5  6  7]
 [20 21 22 23]
 [28 29 30 31]
 [ 8  9 10 11]]


In [22]:
print(e[[1, 5, 7, 2], [0, 3, 1, 2,]])

[ 4 23 29 10]


In [24]:
print(e[[1, 5, 7, 2]])

[[ 4  5  6  7]
 [20 21 22 23]
 [28 29 30 31]
 [ 8  9 10 11]]


In [31]:
print(e[[1, 5, 7, 2]][:, [0, 3, 1, 2]])

[[ 4  7  5  6]
 [20 23 21 22]
 [28 31 29 30]
 [ 8 11  9 10]]


In [32]:
print(e[[1, 5, 7, 2]][0, [0, 3, 1, 2]])

[4 7 5 6]


In [28]:
print(e[[1, 5, 7, 2]][1, [0, 3, 1, 2]])

[20 23 21 22]


In [30]:
print(e[[1, 5, 7, 2]][2, [0, 3, 1, 2]])

[28 31 29 30]


### Tranpose

In [34]:
f = np.arange(16).reshape(2,2,4)
print(f, f.shape)

[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]] (2, 2, 4)


In [38]:
print(f.transpose(1, 0, 2))

[[[ 0  1  2  3]
  [ 8  9 10 11]]

 [[ 4  5  6  7]
  [12 13 14 15]]]


### Numpy 연산

In [49]:
x = np.array([[1, 2], [3, 4]], dtype = np.float64)
y = np.array([[5, 6], [7, 8]], dtype = np.float64)
print(x)
print(y)

[[1. 2.]
 [3. 4.]]
[[5. 6.]
 [7. 8.]]


In [44]:
x = np.arange(1, 5).reshape(1, 2, 2)
print(x, x.shape)

[[[1 2]
  [3 4]]] (1, 2, 2)


In [51]:
x = np.arange(1, 5).reshape(2, 2).astype(np.float64)
print(x, x.shape, x.dtype)

[[1. 2.]
 [3. 4.]] (2, 2) float64


In [55]:
y = np.arange(5, 9).reshape(2, 2).astype(np.float64)
print(y, y.shape, y.dtype)

[[5. 6.]
 [7. 8.]] (2, 2) float64


In [56]:
print(x + y)
print(np.add(x, y))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]


In [58]:
print(x - y)
print(np.subtract(x, y))

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]


In [59]:
print(x * y)
print(np.multiply(x, y))

[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]


In [60]:
print(x/y)
print(np.divide(x, y))

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]


In [61]:
print(x @ y)
print(np.matmul(x, y))

[[19. 22.]
 [43. 50.]]
[[19. 22.]
 [43. 50.]]


In [69]:
z = np.arange(1, 11).reshape(2, 5)
print(z)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]


In [76]:
sum1 = np.sum(z, axis = 0)
sum2 = np.sum(z, axis = 1)
sum3 = np.sum(z, axis = -1)

print(sum1, sum1.shape)
print(sum2, sum2.shape)
print(sum3, sum3.shape)

[ 7  9 11 13 15] (5,)
[15 40] (2,)
[15 40] (2,)


여기서 축(axis)은 각 배열의 차원에 해당되는 index입니다.</br>
axis = 0에 대하여 sum을 하라는 것은 0번 축 혹은 차원이 없어지는 방향으로 원소들을 모두 더하라는 이야기다.</br>
즉, 위 예에서 sum1의 경우 z[0, :] + z[1, :]의 연산을 의미하고,</br>
sum2의 경우에는 z[:, 0] + z[:, 1] + z[:, 2] + z[:, 3] + z[:, 4]의 연산을 의미한다.

In [70]:
print(z[0, :] + z[1, :])

[ 7  9 11 13 15]


In [74]:
print(z[1, 0] + z[1, 1] + z[1, 2] + z[1, 3] + z[1, 4])

40


In [73]:
print(z[:2, 0] + z[:2, 1] + z[:2, 2] + z[:2, 3] + z[:2, 4])

[15 40]


### Broadcasting
Broadcasting은 Numpy가 산술 연산을 수행할 때 다른 모양의 배열로 작업할 수 있게 해주는 강력한 매커니즘이다.</br>
종종 더 작은 배열과 더 큰 배열이 있을 때 더 작은 배열을 여러 번 사용하여 더 큰 배열에서 어떤 연산을 수행하기를 원할 때가 있다.</br>
예를 들어, 행렬의 각 행에 상수 벡터를 추가하려 한다고 가정하자. numpy에서는 다음과 같이 할 수 있다.

In [79]:
x = np.arange(1, 13).reshape(4,3)
y = np.array([1, 0, 2])

In [80]:
print(x, x.shape)
print(y, y.shape)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]] (4, 3)
[1 0 2] (3,)


In [81]:
z = x + y
print(z, z.shape)

[[ 2  2  5]
 [ 5  5  8]
 [ 8  8 11]
 [11 11 14]] (4, 3)


In [83]:
x = np.arange(1, 4).reshape(1,3)
y = np.arange(4, 6).reshape(1,2)

In [84]:
print(x + y)

ValueError: operands could not be broadcast together with shapes (1,3) (1,2) 

In [87]:
y = y.swapaxes(0, 1)
print(y, y.shape)

[[4]
 [5]] (2, 1)


In [88]:
print(x + y)

[[5 6 7]
 [6 7 8]]


### shape

In [89]:
a = np.arange(24).reshape(2, 3, 4)
print(a, a.shape)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]] (2, 3, 4)


In [95]:
a = a.reshape(4, -1) # -1을 이용하면, 가장 뒷 번호, 24/4는 6이므로 6열로 reshape가 일어난다.
print(a, a.shape)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]] (4, 6)


In [96]:
a = a.reshape(4, 6) # 원래는 이렇게 해야 하지만, -1을 이용하면 굳이 생각하지 않고, 가장 뒷 번호를 이용해 정렬할 수 있다.
print(a, a.shape)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]] (4, 6)


In [97]:
a = a[..., np.newaxis]
print(a, a.shape)

[[[ 0]
  [ 1]
  [ 2]
  [ 3]
  [ 4]
  [ 5]]

 [[ 6]
  [ 7]
  [ 8]
  [ 9]
  [10]
  [11]]

 [[12]
  [13]
  [14]
  [15]
  [16]
  [17]]

 [[18]
  [19]
  [20]
  [21]
  [22]
  [23]]] (4, 6, 1)


In [108]:
a = a.reshape(4, -1)
a = np.expand_dims(a, axis = 0)
print(a, a.shape)

[[[ 0  1  2  3  4  5]
  [ 6  7  8  9 10 11]
  [12 13 14 15 16 17]
  [18 19 20 21 22 23]]] (1, 4, 6)


In [132]:
a = a.reshape(4, -1)
a = np.expand_dims(a, axis = 0)
print(a, a.shape)

[[[ 0  1  2  3  4  5]
  [ 6  7  8  9 10 11]
  [12 13 14 15 16 17]
  [18 19 20 21 22 23]]] (1, 4, 6)


In [133]:
b = a.copy()

In [120]:
c = np.concatenate((a, b), axis = -1)
print(c, c.shape)

[[[ 0  1  2  3  4  5  0  1  2  3  4  5]
  [ 6  7  8  9 10 11  6  7  8  9 10 11]
  [12 13 14 15 16 17 12 13 14 15 16 17]
  [18 19 20 21 22 23 18 19 20 21 22 23]]] (1, 4, 12)


In [121]:
c = np.concatenate((a, b), axis = 0)
print(c, c.shape)

[[[ 0  1  2  3  4  5]
  [ 6  7  8  9 10 11]
  [12 13 14 15 16 17]
  [18 19 20 21 22 23]]

 [[ 0  1  2  3  4  5]
  [ 6  7  8  9 10 11]
  [12 13 14 15 16 17]
  [18 19 20 21 22 23]]] (2, 4, 6)


In [130]:
c = np.concatenate((a, b), axis = 1)
print(c, c.shape)

[[[ 0  1  2  3  4  5]
  [ 6  7  8  9 10 11]
  [12 13 14 15 16 17]
  [18 19 20 21 22 23]
  [ 0  1  2  3  4  5]
  [ 6  7  8  9 10 11]
  [12 13 14 15 16 17]
  [18 19 20 21 22 23]]] (1, 8, 6)


In [131]:
c = np.concatenate((a, b), axis = 2)
print(c, c.shape)

[[[ 0  1  2  3  4  5  0  1  2  3  4  5]
  [ 6  7  8  9 10 11  6  7  8  9 10 11]
  [12 13 14 15 16 17 12 13 14 15 16 17]
  [18 19 20 21 22 23 18 19 20 21 22 23]]] (1, 4, 12)


In [135]:
d = np.stack((a, b), axis = -1)
print(d, d.shape)

[[[[ 0  0]
   [ 1  1]
   [ 2  2]
   [ 3  3]
   [ 4  4]
   [ 5  5]]

  [[ 6  6]
   [ 7  7]
   [ 8  8]
   [ 9  9]
   [10 10]
   [11 11]]

  [[12 12]
   [13 13]
   [14 14]
   [15 15]
   [16 16]
   [17 17]]

  [[18 18]
   [19 19]
   [20 20]
   [21 21]
   [22 22]
   [23 23]]]] (1, 4, 6, 2)


In [136]:
d = np.stack((a, b), axis = 0)
print(d, d.shape)

[[[[ 0  1  2  3  4  5]
   [ 6  7  8  9 10 11]
   [12 13 14 15 16 17]
   [18 19 20 21 22 23]]]


 [[[ 0  1  2  3  4  5]
   [ 6  7  8  9 10 11]
   [12 13 14 15 16 17]
   [18 19 20 21 22 23]]]] (2, 1, 4, 6)


In [138]:
print(a, a.shape)

[[[ 0  1  2  3  4  5]
  [ 6  7  8  9 10 11]
  [12 13 14 15 16 17]
  [18 19 20 21 22 23]]] (1, 4, 6)
