# Numpy 
- Numpy 는 Numerical Python 의 줄임말로, 파이썬에서 산술 계산을 위한 가장 중요한 패키지 중 하나이다. 과학 계산을 위한 대부분의 패키지는 Numpy 의 배열 객체를 데이터 교환을 위한 공통 언어처럼 사용한다. 

## Numpy 라이브러리 import

In [144]:
import numpy as np
print("Numpy version :", np.__version__)

Numpy version : 1.19.5


## Numpy ndarray 
- Numpy 의 핵심 기능 중 하나는 ndarray 라고 하는 N 차원의 배열 객체인데 파이썬에서 할 수 있는 대규모 데이터 집합을 담을 수 있는 빠르고 유연한 자료구조입니다. 

In [None]:
a = np.array([1, 2, 3])
print(a, type(a))

[1 2 3] <class 'numpy.ndarray'>


## List 와 비교

In [None]:
L = [1, 2, 3]
A = np.array([1, 2, 3])

print(L)
print(A) # , 없음

[1, 2, 3]
[1 2 3]


In [None]:
# iterable (순회 가능)
for item in L :
    print(item)

1
2
3


In [None]:
for item in A :
    print(item)

1
2
3


In [None]:
L = [1, 2, 3]
A = np.array([1, 2, 3])

L.append(4)
print(L)

[1, 2, 3, 4]


In [None]:
L = [1, 2, 3]
A = np.array([1, 2, 3])

A = np.append(A, 4)
print(A)

[1 2 3 4]


In [None]:
L = [1, 2, 3]

L = L + [5] 
print(L)

[1, 2, 3, 5]


In [None]:
# 더해주면 element wise calculation (Broadcasting)
A = np.array([1, 2, 3])

A = A + np.array([5])
print(A)

[6 7 8]


In [None]:
# List 의 모든 원소를 2 배로 만들기  
L = [1, 2, 3]

# 방법 1
L = [x*2 for x in L]
print("방법 1: ", L)
# 방법 2
L = [1, 2, 3]
L2 = [] 

for item in L :
    L2.append(item * 2)

print("방법 2:", L2)

방법 1:  [2, 4, 6]
방법 2: [2, 4, 6]


In [None]:
# ndarray 의 모든 원소 2배로 만들기 
L = [1, 2, 3]
A = np.array(L)

A * 2

array([2, 4, 6])

In [None]:
L = [1, 2, 3]
L * 2  # 리스트가 뒤에 붙는다

[1, 2, 3, 1, 2, 3]

## 배열
- numpy 배열은 모두 같은 유형의 값이며 음수가 아닌 정수의 튜플로 인덱싱 됩니다. 차원의  수는 배열의 랭크 입니다. 배열의 shape 은 각 차원별 배열 크기의 튜플입니다. 중첩 된 파이썬 리스트로부터 numpy 배열을 초기화 할 수 있고 대괄호를 사용하여 요소에 접근 할 수 있다. 

### 배열 생성하기

In [None]:
a = np.array([1, 2, 3])
print(a)
print(type(a), a.ndim, a.shape, a.dtype)

[1 2 3]
<class 'numpy.ndarray'> 1 (3,) int64


In [None]:
b = np.asarray(a)
print(b)

[1 2 3]


In [None]:
# asarray 로 ndarray 를 생성 하게 되면 view 역할을 하여 참조한 ndarray 도 같이 변환
b[0] = 9 
print(a)
print(b)

[9 2 3]
[9 2 3]


In [None]:
c = np.array(a)
print(c)

[9 2 3]


In [None]:
c[0] = 1 
print(a)
print(c)

[9 2 3]
[1 2 3]


In [None]:
# np.zeros
a = np.zeros(shape = (3, 4))
print(a)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [None]:
# np.ones
b = np.ones(shape = (3, 4))
print(b)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [None]:
# np.full(fill_value, shape)
c = np.full(fill_value=10, shape = (3, 4))
print(c)

[[10 10 10 10]
 [10 10 10 10]
 [10 10 10 10]]


In [None]:
# np.empty : just make figure
d = np.empty(shape = (3, 3))
print(d)

[[4.67852923e-310 6.79038653e-313 6.79038653e-313]
 [6.79038653e-313 6.79038653e-313 6.79038653e-313]
 [2.29175545e-312 2.14321575e-312 2.17716653e+183]]


In [None]:
# _like 
print("a" , a)
print("Shape of a:" , a.shape)
e = np.zeros_like(a)
f = np.ones_like(a)
g = np.full_like(a, fill_value = 2)
h = np.empty_like(a)

print("\n",e)
print(f)
print(g)
print(h)

a [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
Shape of a: (3, 4)

 [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]
[[2. 2. 2. 2.]
 [2. 2. 2. 2.]
 [2. 2. 2. 2.]]
[[4.67852959e-310 2.47032823e-322 0.00000000e+000 0.00000000e+000]
 [0.00000000e+000 2.92966904e-033 6.20515096e-091 2.35865822e+184]
 [1.52451505e-052 1.65717090e-047 3.99910963e+252 1.46030983e-319]]


In [None]:
# 항등 행렬
i = np.eye(3)
j = np.identity(3)

print(i)
print(j)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [None]:
k = np.arange(10)
print(k)

[0 1 2 3 4 5 6 7 8 9]


In [None]:
k = np.arange(1, 10) # 이상 , 미만
print(k) 

[1 2 3 4 5 6 7 8 9]


In [None]:
k = np.arange(10, 0, -1) # 이상 , 미만
print(k) 

[10  9  8  7  6  5  4  3  2  1]


In [None]:
# uniform distribution 
l = np.random.rand(2, 2)
print(l)

[[0.16726599 0.57450621]
 [0.33551349 0.32774813]]


In [None]:
# normal distribution
normal = np.random.randn(2, 2)
print(normal)

[[-0.0980758  -0.73418224]
 [-0.40230622  0.11560668]]


### 배열의 dtype

In [None]:
a = np.array([1, 2, 3])
b = np.array([1, 2, 3], dtype = np.float64)
c = np.array([1, 2, 3], dtype = np.int32)

print(a.dtype, b.dtype, c.dtype)

int64 float64 int32


In [None]:
# 1byte = 8bit
a = np.array([1, 2, 3], dtype = "i1")
b = np.array([1, 2, 3], dtype = "i2")
c = np.array([1, 2, 3], dtype = "i4")
d = np.array([1, 2, 3], dtype = "i8")

print(a.dtype, b.dtype, c.dtype, d.dtype)

int8 int16 int32 int64


In [None]:
# uint = unsigned integer
a = np.array([1, 2, 3], dtype = "u1")
b = np.array([1, 2, 3], dtype = "u2")
c = np.array([1, 2, 3], dtype = "u4")
d = np.array([1, 2, 3], dtype = "u8")

print(a.dtype, b.dtype, c.dtype, d.dtype)

uint8 uint16 uint32 uint64


In [None]:
# float
a = np.array([1, 2, 3], dtype = "f2")
b = np.array([1, 2, 3], dtype = "f4")
c = np.array([1, 2, 3], dtype = "f8")
d = np.array([1, 2, 3], dtype = "f16")

print(a.dtype, b.dtype, c.dtype, d.dtype)

float16 float32 float64 float128


In [None]:
# 약자
a = np.array([1, 2, 3], dtype = "f")
b = np.array([1, 2, 3], dtype = "d")
c = np.array([1, 2, 3], dtype = "g")

print(a.dtype, b.dtype, c.dtype)

float32 float64 float128


In [None]:
# 데이터 타입 변경 
i = i.astype(np.int32)
print(i.dtype)

int32


In [None]:
j = j.astype(i.dtype)
print(j.dtype)

int32


## 배열 indexing (색이) 과 slicing (슬라이싱)

### indexing, slicing 기본

In [None]:
a = np.arange(10)
print(a)

[0 1 2 3 4 5 6 7 8 9]


In [None]:
# indexing 
print(a[5])

5


In [None]:
# slicing 
print(a[0:4])

[0 1 2 3]


In [None]:
print(a[-1])
print(a[7:-1])

9
[7 8]


In [None]:
a[5:8] = 10
print(a)

[ 0  1  2  3  4 10 10 10  8  9]


### Indexing 과 Slicing 의 차이 
- indexing 을 사용하면 항상 랭크가 감소한다. 반면에 slicing 을 사용하면 차원이 유지된다.

In [None]:
b = np.arange(1, 13)
print(b)
print(b.shape)
print(b.ndim)

[ 1  2  3  4  5  6  7  8  9 10 11 12]
(12,)
1


In [None]:
indexing = b[1]
slicing = b[1:2]  
print(indexing , indexing.shape, indexing.ndim) # 1 dim => 0 dim
print(slicing , slicing.shape, slicing.ndim)    # 1 dim => 1 dim 

2 () 0
[2] (1,) 1


- 이것은 indexing 과 slicing 을 함께 사용할 때도 마찬가지이다. indexing 의 개수만큼 랭크는 감소한다.

In [None]:
b = b.reshape(3, 4)
print(b)
print(b.shape)
print(b.ndim)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
(3, 4)
2


In [None]:
row_r1 = b[1, :]
row_r2 = b[1:2, :]

print(row_r1, row_r1.shape, row_r1.ndim)
print(row_r2, row_r2.shape, row_r2.ndim)

[5 6 7 8] (4,) 1
[[5 6 7 8]] (1, 4) 2


### slilcing examples

In [None]:
# 3 dimension
c = np.arange(24).reshape(-1, 3, 4)
print(c)
print(c.shape)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]
(2, 3, 4)


In [None]:
# same code
print(c[:, :, :1])
print("\n 같은 표현 \n:", c[..., :1])

[[[ 0]
  [ 4]
  [ 8]]

 [[12]
  [16]
  [20]]]

 같은 표현 
: [[[ 0]
  [ 4]
  [ 8]]

 [[12]
  [16]
  [20]]]


In [None]:
print(c[0:1])
print(c[0 :: -1]) # 0에서 끝까지 # 가독성 떨어짐

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]]
[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]]


### boolean indexing

In [None]:
print(c)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


In [None]:
bool_idx = (c > 10)
print(bool_idx)

[[[False False False False]
  [False False False False]
  [False False False  True]]

 [[ True  True  True  True]
  [ True  True  True  True]
  [ True  True  True  True]]]


In [None]:
# ignore dimension
print(c[bool_idx])

[11 12 13 14 15 16 17 18 19 20 21 22 23]


In [None]:
c[c>10] = -1 
print(c)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 -1]]

 [[-1 -1 -1 -1]
  [-1 -1 -1 -1]
  [-1 -1 -1 -1]]]


### fancy indexing (integer indexing)

In [None]:
d = np.arange(8).reshape(8, -1)
print(d, d.shape, d.ndim)

[[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]] (8, 1) 2


In [None]:
# hstack => horizon wise stacking (가로)
d = np.hstack((d, d, d, d))
print(d, d.shape)

[[0 0 0 0]
 [1 1 1 1]
 [2 2 2 2]
 [3 3 3 3]
 [4 4 4 4]
 [5 5 5 5]
 [6 6 6 6]
 [7 7 7 7]] (8, 4)


In [None]:
# 3, 5, 1, 0번째 행으로 새로운 행렬을 생성
print(d[[3, 5, 1, 0]])

[[3 3 3 3]
 [5 5 5 5]
 [1 1 1 1]
 [0 0 0 0]]


In [None]:
print(d[[-3, -5, -7]])

[[5 5 5 5]
 [3 3 3 3]
 [1 1 1 1]]


In [None]:
e = np.arange(32).reshape(8, 4)
print(e, e.shape)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]] (8, 4)


In [None]:
print(e[[1, 5, 7, 2], [0, 3, 1, 2]]) # (1, 0) , (5, 3), (7, 1), (2, 2) 번째 원소

[ 4 23 29 10]


## Transpose(축을 변경하는 작업)

In [None]:
f = np.arange(16).reshape(-1, 2, 4)
print(f, f.shape)

[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]] (2, 2, 4)


In [None]:
print(f.transpose(2, 0, 1))
print(f.transpose(2, 0, 1).shape)

[[[ 0  4]
  [ 8 12]]

 [[ 1  5]
  [ 9 13]]

 [[ 2  6]
  [10 14]]

 [[ 3  7]
  [11 15]]]
(4, 2, 2)


In [None]:
print(f.transpose(1, 0, 2))
print(f.transpose(1, 0, 2).shape)

[[[ 0  1  2  3]
  [ 8  9 10 11]]

 [[ 4  5  6  7]
  [12 13 14 15]]]
(2, 2, 4)


In [None]:
# 0번째 축과 1번째 축을 change
print(f.swapaxes(0, 1))

[[[ 0  1  2  3]
  [ 8  9 10 11]]

 [[ 4  5  6  7]
  [12 13 14 15]]]


## Numpy 연산

In [None]:
x = np.array([[1,2], [3,4]], dtype = np.float64)
y = np.array([[5,6], [7,8]], dtype = np.float64)
print(x)
print(y)

[[1. 2.]
 [3. 4.]]
[[5. 6.]
 [7. 8.]]


In [None]:
# add 
print(x+y)
print(np.add(x, y))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]


In [None]:
# subtract 
print(x - y)
print(np.subtract(x, y))

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]


In [None]:
# multiply
print(x * y)
print(np.multiply(x, y))

[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]


In [None]:
# divide 
print(x / y)
print(np.divide(x, y))

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]


In [None]:
# matrix multiply
print(x @ y)
print(np.matmul(x, y))

[[19. 22.]
 [43. 50.]]
[[19. 22.]
 [43. 50.]]


In [None]:
z = np.arange(1, 11).reshape(2, 5)
print(z)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]


In [None]:
print(np.sum(z))

55


In [None]:
sum1 = np.sum(z, axis = 0)   # tf.reduce_sum 
sum2 = np.sum(z, axis = 1)
sum3 = np.sum(z, axis = -1)

print(sum1, sum1.shape)
print(sum2, sum2.shape)
print(sum3, sum3.shape)

[ 7  9 11 13 15] (5,)
[15 40] (2,)
[15 40] (2,)


- 여기서 축 (axis) 은 각 배열의 차원에 해당하는 index 이다. 
- axis = 0에 대하여 sum 을 하라는 것은 0 번 축 혹은 차원이 없어지는 방향으로 원소들을 모두 더하라는 얘기 입니다. 
- 즉, 위 예에서 sum1 의 경우, z[0, :] + z[1, :] 의 연산을 하라는 의미 
- sum 2 의 경우 z[:, 0] + z[:, 1] + z[:, 2] + z[:, 3] + z[:, 4] 의 연산을 하라는 의미이다.

In [None]:
print(z[0, :] + z[1, :])
print(z[:, 0] + z[:, 1] + z[:, 2] + z[:, 3] + z[:, 4] )

[ 7  9 11 13 15]
[15 40]


## Broadcasting

- Broadcasting 은 numpy 가 산술 연사을 수행할 때 다른 모양의 배열로 작업할 수 있게 해주는 강력한 메커니즘입니다. 종종 더 작은 배열과 더 큰 배열이 있을 때 더 작은 배열을 여러번 사용하여 더 큰 배열에서 어떤 연산을 수행하기를 원할 때가 있습니다 
- 예를 들어, 행렬의 각 행에 상수 벡터를 추가하려 한다고 가정합니다. numpy 에서는 다음과 같이 할 수 있습니다. 

In [None]:
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10,11,12]])
y = np.array([1, 0, 2])

In [None]:
print(x, x.shape)
print(y, y.shape)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]] (4, 3)
[1 0 2] (3,)


In [None]:
z = x + y
print(z)

[[ 2  2  5]
 [ 5  5  8]
 [ 8  8 11]
 [11 11 14]]


- z = x + y 는 broadcasting 으로 인해 x 가 shape (4, 3) 이고 y 의 shape (3) 임에도 불구하고 작동한다. 이 행은 y 가 실제로 shape(4, 3) 인 것처럼 작동한다. 
각 행은 y 의 사본이고, 합계는 요소별로 수행되었다. 
- 두 개의 배열을 브로드캐스팅 하는 규칙은 다음과 같다. 
    - 1) 배열의 랭크가 같지 않으면 두 모양이 같은 길이가 될 때 까지 배열의 낮은 랭크쪽에 1을 붙인다.
    - 2) 두 배열은 차원에서 크기가 같거나 배열 중 하나의 차원에 크기가 1인 경우 차원에서 호환 가능하다고 한다.
    - 3) 배열은 모든 차원에서 호환되면 함께 Broadcast 될 수 있다. 
    - 4) Broadcast 후 각 배열은 두 개의 입력 배열의 요소 모양 최대 개수와 동일한 모양을 가진 것처럼 동작한다. 
    - 5) 한 배열의 크기가 1이고 다른 배열의 크기가 1보다 큰 차원에서 첫 번째 배열은 마치 해당 차원을 따라 복사 된 것처럼 작동한다.

In [None]:
x = np.array([1, 2, 3]).reshape(1, 3)
y = np.array([4, 5]).reshape(1,2)
print(x, x.shape)
print(y, y.shape)

[[1 2 3]] (1, 3)
[[4 5]] (1, 2)


In [None]:
# broad casting 이 수행되지 않는 경우
print(x+y)

ValueError: ignored

In [None]:
y = y.swapaxes(0, 1)
print(y, y.shape)

[[4]
 [5]] (2, 1)


In [None]:
broad= x + y
print(broad)
print(broad.shape)

[[5 6 7]
 [6 7 8]]
(2, 3)


## Shape 변경 

In [None]:
a = np.arange(24).reshape(-1, 2, 4)
print(a, a.shape)

[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]

 [[16 17 18 19]
  [20 21 22 23]]] (3, 2, 4)


In [None]:
a = a.reshape(4, -1)
print(a, a.shape)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]] (4, 6)


In [None]:
a = a[:, :, np.newaxis] # a = a[... , np.newaxis]
print(a, a.shape)

[[[ 0]
  [ 1]
  [ 2]
  [ 3]
  [ 4]
  [ 5]]

 [[ 6]
  [ 7]
  [ 8]
  [ 9]
  [10]
  [11]]

 [[12]
  [13]
  [14]
  [15]
  [16]
  [17]]

 [[18]
  [19]
  [20]
  [21]
  [22]
  [23]]] (4, 6, 1)


In [None]:
a = a.reshape(4, 6)
a = np.expand_dims(a, axis = 0) # 원하는 자리에 1 을 생성 가능 
print(a, a.shape)

[[[ 0  1  2  3  4  5]
  [ 6  7  8  9 10 11]
  [12 13 14 15 16 17]
  [18 19 20 21 22 23]]] (1, 4, 6)


In [None]:
a = a.squeeze() # 축에서 1 인 차원을 제거
b = a.copy() 
b = np.expand_dims(b, axis = 1)
print(b, b.shape)


[[[ 0  1  2  3  4  5]]

 [[ 6  7  8  9 10 11]]

 [[12 13 14 15 16 17]]

 [[18 19 20 21 22 23]]] (4, 1, 6)


In [None]:
a = b.copy()

print(a.shape)
print(b.shape)
c = np.concatenate((a, b), axis = 1)
print(c.shape)

(4, 1, 6)
(4, 1, 6)
(4, 2, 6)


###  stack 과 concatenate 의 차이 

In [None]:
# stack 은 새로운 차원을 만들어서 붙인다.
d = np.stack((a, b), axis = 1)
d.shape

(4, 2, 1, 6)