## 고급 파이썬 10주
---

## NumPy란?
---
### NumPy (NUMeric Python)
- 수학 및 과학 계산용 라이브러리   
- 배열을 포함한 벡터, 행렬 등의 연산에 최적화됨   
- 수치해석 및 통계 관련 기능을 구현할 때 기본이 되는 모듈   
   
   
### NumPy 제공 기능
- 강력한 N-차원 배열
- 정교한 브로드캐스팅 함수
- C/C++ 및 포트란 코드 통합 도구
- 유용한 선형 대수학, 푸리에 변환 및 난수 기능
- 다양한 데이터 처리에 대하여 원활하고 신속히 통합 가능한 다차원 컨테이너   
   
   
### NumPy 배열과 Standard Python sequences(예: string, list, tuple 등)의 차이
- NumPy배열은 고정된 크기를 가지지만 Python list는 동적으로 변한다.
    - 크기를 바꿀 때 새로운 배열을 만들고 원본은 지운다.
- NumPy 배열의 원소는 모두 같은 타입이어야 한다. 
- NumPy 배열은 더 많은 data를 처리하는 것에 더 나은 성능을 가지고 있다.

## Numpy의 빠른 연산 속도 (1)
---
### Vectorization : 명시적 루핑, 인덱싱 등이 없는 것
- Scalar register 대신 Vector register를 이용하여 수치 연산이 더 빠름
- Vectorized 코드는 더 간결하고 읽기에 좋음
- 더 적은 양의 코드를 사용하기 때문에 버그를 줄일 수 있음
- 수학적 notation과 유사하게 코딩함
- 더욱 “Pythonic”한 코드

In [1]:
import numpy as np
import time

a = np.random.rand(1000000)  # 길이가 1000000인 벡터 생성
b = np.random.rand(1000000)

tic = time.time()
c = np.dot(a, b)  # inner product 내적 : 벡터에서 같은 인덱스의 원소끼리 곱해 모두 더함
toc = time.time()
vec_time = toc - tic

print("Vectorized : " + str(vec_time) + " ms")
# print("c =", c)

d = 0

tic = time.time()
for i in range(1000000):
    d += a[i] * b[i]
toc = time.time()
v_loop_time = toc - tic

print("Loop : " + str(v_loop_time) + " ms")

if vec_time < v_loop_time:
    print("vectorizing is {:.3f} times faster than loop".format(v_loop_time / vec_time))
else:
    print("loop is {:.3f} times faster than vectorizing".format(vec_time / v_loop_time))

Vectorized : 0.0014569759368896484 ms
Loop : 0.8139889240264893 ms
vectorizing is 558.684 times faster than loop


## Numpy의 빠른 연산 속도 (2)
---
- 브로드캐스팅: 사이즈가 다른 두 행렬을 연산할 때, 작은 행렬을 큰 행렬의 모양에 맞게 늘려주는 것

In [2]:
import numpy as np
import time

a = np.ones((1000, 1000))

tic = time.time()
a = a * 5
toc = time.time()
brcast_time = toc - tic

print("Broadcasting : " + str(brcast_time) + " ms")

a = np.ones((1000,1000))

tic = time.time()
for i in range(a.shape[0]):
    for j in range(a.shape[1]):
        a[i,j] = a[i,j]*5
toc = time.time()
br_loop_time = toc - tic

print("Loop : " + str(br_loop_time) + " ms")

if brcast_time < br_loop_time:
    print("broadcasting is {:.3f} times faster than loop".format(br_loop_time / brcast_time))
else:
    print("loop is {:.3f} times faster than broadcasting".format(brcast_time / br_loop_time))

Broadcasting : 0.004251003265380859 ms
Loop : 1.0452706813812256 ms
broadcasting is 245.888 times faster than loop


## N-차원 배열
---
### N-차원 배열 생성 (`np.array`), 원소 호출
- `np.array(리스트)`  # 하나의 리스트만 들어감
   
#### 3차원 이상 배열의 원소 호출
- 3차원 이상 배열은 2차원 배열(평면)이 겹겹이 겹친 모양 -> 편의상 페이지라고 칭하겠음. 3차원 공간으로 치면 y축 방향임.
- 원소를 호출할 때 쓰는 인덱스의 순서는 y축 -> z축(위에서 아래로) -> x축
- 예시   
    `print(c[1, 3, 2])` -> 23 출력

In [3]:
import numpy as np  # numpy 라이브러리 import

# np.array(리스트)  # 하나의 리스트만 들어감
a = np.array([0, 1, 2, 3])
b = np.array([[0, 1, 2], [3, 4, 5]])
c = np.array([[[0, 1, 2], [3, 4, 5], [6, 7, 8], [9, 10, 11]],
            [[12, 13, 14], [15, 16, 17], [18, 19, 20], [21, 22, 23]],
            [[24, 25, 26], [27, 28, 29], [30, 31, 32], [33, 34, 35]]])

print(b[1, 2])  # 1번 행, 2번 열 -> 5 출력
print(c[1, 3, 2])  # 23 출력

5
23


### `np.arange`
---
- 일정한 간격만큼 떨어져 있는 숫자들을 배열 형태로 반환
- `np.arange(시작, 끝, 간격)`
    - 시작 기본값 : 0, 간격 기본값: 1
    - `np.arange(5)` -> `[0, 1, 2, 3, 4]`
    - `np.arange(2, 8)` -> `[2, 3, 4, 5, 6, 7]`
    - `np.arange(2, 10, 2)` -> `[2, 4, 6, 8]`
    - `np.arange(1, 3, 0.5)` -> `[1. , 1.5 , 2. , 2.5]`
- `range`함수와의 차이는 `arange`함수는 실수 단위도 지원하며 `array`를 리턴함   
    `range(1, 5, 0.5)` : `TypeError` 발생

In [4]:
import numpy as np

# np.arange(시작값, 끝값, 간격값)
d = np.arange(1, 3, 0.5); print(d)  # 시작값 이상, 끝값 미만에서 간격값 기준으로 등간격으로
c = np.arange(2, 10, 2); print(c)
b = np.arange(2, 8); print(b)  # 두 개의 argument가 들어가는 경우에는 간격값이 기본값인 1이 되어 실행되는 것
a = np.arange(5); print(a)  # 시작값의 기본값이 0

[1.  1.5 2.  2.5]
[2 4 6 8]
[2 3 4 5 6 7]
[0 1 2 3 4]


## 기타 N-차원 배열 생성 함수   
---   
### `np.zeros`, `np.ones`   
- 모든 원소가 0 혹은 1인 배열을 생성   
- `np.zeros((3,4))`, `np.ones((2,3,4))`   
   
### `np.full`   
- 지정값으로 채워진 배열 생성   
- 튜플 형태로 행렬의 모양을 지정하고, 단일 숫자로 행렬에 채워질 값을 지정한다.   
   
### `np.eye`   
- 대각선에만 1이 차고 나머지엔 0이 차는 행렬   
- 행렬의 모양만을 인수로 받기 때문에 튜플로 전달하지 않는다. 2개의 숫자 인수를 전달한다. 첫 번째는 행, 두 번째는 열.   
   
### `np.linspace`   
- 시작점부터 끝점까지 특정 개수만큼의 등간격의 수를 생성   
- `np.linspace(0,2,9) # 9 numbers from 0 to 2`   

In [5]:
import numpy as np

ex_zeros = np.zeros((3, 4))
print("np.zeros((3, 4))")
print(ex_zeros, end="\n\n")

ex_ones = np.ones((2, 3, 4))
print("np.ones((2, 3, 4))")
print(ex_ones, end="\n\n")

ex_full = np.full((3, 4), 5)
print("np.full((3, 4), 5)")
print(ex_full, end="\n\n")

ex_eye = np.eye(3, 4)
print("np.eye(3, 4)")
print(ex_eye, end="\n\n")

ex_linspace = np.linspace(0, 2, 9)
print("np.linspace(0, 2, 9)")
print(ex_linspace)

np.zeros((3, 4))
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]

np.ones((2, 3, 4))
[[[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]

 [[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]]

np.full((3, 4), 5)
[[5 5 5 5]
 [5 5 5 5]
 [5 5 5 5]]

np.eye(3, 4)
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]]

np.linspace(0, 2, 9)
[0.   0.25 0.5  0.75 1.   1.25 1.5  1.75 2.  ]


### 예제   
---   
다음과 같은 행렬을 만들어라
```python
[[1 2 2 2 2]
 [2 1 2 2 2]
 [2 2 1 2 2]
 [2 2 2 1 2]
 [2 2 2 2 1]]
```

In [6]:
import numpy as np

a = np.full((5, 5), 2)
b = np.eye(5, 5)
print(a - b)

[[1. 2. 2. 2. 2.]
 [2. 1. 2. 2. 2.]
 [2. 2. 1. 2. 2.]
 [2. 2. 2. 1. 2.]
 [2. 2. 2. 2. 1.]]


## N-차원 배열 기초 명령어
---
- `ndarray.ndim` : `ndarray`의 차원
- `ndarray.shape` : `ndarray`의 모양
- `ndarray.size` : `ndarray`의 크기
- `ndarray.dtype` : `ndarray`의 데이터 타입

In [7]:
import numpy as np

c = np.array([[[0,1,2],[3,4,5],[6,7,8],[9,10,11]],
            [[12,13,14], [15,16,17],[18,19,20],[21,22,23]],
            [[24,25,26],[27,28,29],[30,31,32],[33,34,35]]])

print(c.ndim)  # 3
print(c.shape)  # (3,4,3)
print(c.size)  # 36
print(c.dtype)  # int32

3
(3, 4, 3)
36
int64


## 배열 모양 변경(`np.reshape`)
---
- `np.reshape(배열,newshape)`
- `newshape`에는 배열을 바꾸고 싶은 모양의 정수 tuple이 들어간다.
- tuple에 -1을 넣는 경우 나머지 차원에 맞게 자동으로 차원을 설정한다.

In [8]:
import numpy as np

a = np.arange(15).reshape(3, 5); print(a, end="\n\n")
b = np.arange(15)
b_new = np.reshape(b, (3, 5)); print(b_new, end="\n\n")
# b_new1 = np.reshape(b, (2, 7)); print(b_new1, end="\n\n")  # 배열의 총 칸 수가 안 맞아서 오류남
b_new2 = np.reshape(b, (-1, 5)); print(b_new2, end="\n\n")  # -1의 의미는 나머지 size에 맞게 알아서 size를 조절해주는 의미
b_new3 = np.reshape(b, (15, -1)); print(b_new3, end="\n\n")
# b_new4 = np.reshape(b, (-1, 9)); print(b_new4, end="\n\n")  # 가로세로를 다 채울 수가 없어서 오류남

c = np.array([1, 2, 3, 4, 5, 6])
d = np.reshape(c, (2, 3)); print(d, end="\n\n")
e = np.reshape(d, (3, 2)); print(e, end="\n\n")
print(d, end="\n\n"); print(e, end="\n\n")

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]

[[ 0]
 [ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [ 7]
 [ 8]
 [ 9]
 [10]
 [11]
 [12]
 [13]
 [14]]

[[1 2 3]
 [4 5 6]]

[[1 2]
 [3 4]
 [5 6]]

[[1 2 3]
 [4 5 6]]

[[1 2]
 [3 4]
 [5 6]]



## 인덱싱과 슬라이싱   
---   
3차원 이상 배열부터는 2차원 배열 여러 페이지가 포개진 상태로 생각할 수 있는데, 이때 인덱스 호출 순서에 주의해야 한다.   
페이지 -> 가로줄(행) -> 세로줄(열) 순서로 호출한다.   
   
- 인덱싱: 배열 안에서 원소의 위치를 가리키는 것   
- 슬라이싱: 배열 일부를 자르는 것   

In [9]:
import numpy as np

c = np.array([[[0, 1, 2], [10, 12, 13]], [[100, 101, 102], [110, 112, 113]]])

print(c.shape, end="\n\n")
print(c[1, ...], end="\n\n")  # same as c[1,:,:] or c[1]
print(c[... ,2], end="\n\n")  # same as c[:,:,2]

# ------------------------------

a = np.arange(10) ** 3  # 0, 1, 8, 27, 64, 125, 216, 343, 512, 729

print(a[2], end="\n\n")  # 8
print(a[2:5], end="\n\n")  # [8, 27, 64]

a[:6:2] = 1000  # 시작지점부터 6번 인덱스 직전까지 2번째 원소마다 1000을 집어 넣음
# [1000, 1, 1000, 27, 1000, 125, 216, 343, 512, 729]

print(a[::-1], end="\n\n")  # 역순

array = np.arange(20).reshape(4, 5)

print(array[1], end="\n\n")  # [5 6 7 8 9]
print(array[1:3], end="\n\n")  #[[5 6 7 8 9] [10 11 12 13 14]]
print(array[0, 4], end="\n\n")  # 4
print(array[0:3, 1:3], end="\n\n")  #[[1 2] [6 7] [11 12]]
print(array[-1], end="\n\n")  #[15 16 17 18 19]

(2, 2, 3)

[[100 101 102]
 [110 112 113]]

[[  2  13]
 [102 113]]

8

[ 8 27 64]

[ 729  512  343  216  125 1000   27 1000    1 1000]

[5 6 7 8 9]

[[ 5  6  7  8  9]
 [10 11 12 13 14]]

4

[[ 1  2]
 [ 6  7]
 [11 12]]

[15 16 17 18 19]



## 모양 바꾸기   
---   
### `numpy.random.default_rng`   
- 랜덤한 실수를 생성해주는 객체 생성. 전달된 인자는 시드. 시드를 지정하면 재현성 있는 결과를 얻을 수 있다.   
- `객체명.random(n, m)`으로 n\*m 크기의 난수 행렬을 생성할 수 있다.   
   
### `배열명.ravel()`   
- 배열을 flat하게 1차원 벡터로 만들어줌   
   
### `배열명.T`   
- 대각선으로 대칭된 행렬로 바꿔줌   

In [10]:
import numpy as np

rg = np.random.default_rng(1)  # 랜덤한 실수를 생성해주는 객체. 전달된 인자는 시드. 시드를 지정하면 재현성 있는 결과를 얻을 수 있다.
a = np.floor(10 * rg.random((3, 4)))

print(a, end="\n\n")
print(a.ravel(), end="\n\n")  # Flat하게 size 1 x 12 vector로 만듦
print(a.reshape(6, 2), end="\n\n")
print(a.T, end="\n\n")  # matrix transpose : 대각선으로 대칭된 행렬로 바꿔줌
print(a.reshape(6, 2).T, end="\n\n")
print(a.reshape(3, -1), end="\n\n")  # -1을 넣은 부분은 size에 맞게 자동으로 설정

[[5. 9. 1. 9.]
 [3. 4. 8. 4.]
 [5. 0. 7. 5.]]

[5. 9. 1. 9. 3. 4. 8. 4. 5. 0. 7. 5.]

[[5. 9.]
 [1. 9.]
 [3. 4.]
 [8. 4.]
 [5. 0.]
 [7. 5.]]

[[5. 3. 5.]
 [9. 4. 0.]
 [1. 8. 7.]
 [9. 4. 5.]]

[[5. 1. 3. 8. 5. 7.]
 [9. 9. 4. 4. 0. 5.]]

[[5. 9. 1. 9.]
 [3. 4. 8. 4.]
 [5. 0. 7. 5.]]



## 배열 병합   
---   
- `hstack` : horizontally 병합   
- `vstack`: vertically 병합   
- `stack`: 지정 축으로 병합   
- `dstack`: 새로운 축으로 병합   

In [11]:
import numpy as np

a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])

# hstack, vstack
print(np.hstack([a, b]).shape)  # (2, 4)
print(np.hstack([a, b]), end="\n\n\n")
print(np.vstack([a, b]).shape)  # (4, 2)
print(np.vstack([a, b]), end="\n\n\n")

# stack
print(np.stack([a, b], axis=0).shape)  # axis 0 을 기준으로 붙임
print(np.stack([a, b], axis=0), end="\n\n\n")  # axis 0 을 기준으로 붙임
print(np.stack([a, b], axis=1).shape)  # axis 1 을 기준으로 붙임
print(np.stack([a, b], axis=1), end="\n\n\n")  # axis 1 을 기준으로 붙임

# dstack
print(np.dstack([a, b]).shape)  # 새로운 축 (본 예제에선 axis 2) 기준으로 붙임
print(np.dstack([a, b]), end="\n\n\n")  # 새로운 축 (본 예제에선 axis 2) 기준으로 붙임

(2, 4)
[[1 2 5 6]
 [3 4 7 8]]


(4, 2)
[[1 2]
 [3 4]
 [5 6]
 [7 8]]


(2, 2, 2)
[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]


(2, 2, 2)
[[[1 2]
  [5 6]]

 [[3 4]
  [7 8]]]


(2, 2, 2)
[[[1 5]
  [2 6]]

 [[3 7]
  [4 8]]]




## N-차원 연산   
---   
- 크기가 동일한 배열끼리 사칙연산 가능   
- 단일 배열에 대한 수식 연산 가능(거듭제곱, 상수 사칙연산, 부등호 비교 등)   
- 배열을 다른 함수의 인자로 전달 가능(예 : np.sin()에 인자로 넘파이 배열 전달)   
- 배열 간 행렬 곱셈(matrix product) 가능   
   
\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-   
   
- `객체명.sum()`으로 배열 내 모든 요소 합 가능, 축 지정 가능(축끼리 합해짐. 1은 가로축(행), 0은 세로축(열))   
- `객체명.max()/min()`으로 최대/최솟값 반환 가능, 축 지정 가능   
- `객체명.cumsum()`으로 누적합 가능, 축 지정 가능   

In [12]:
import numpy as np

a = np.array([20, 30, 40, 50])
b = np.arange(4)
c = a - b
print(c, end="\n\n")

print(b ** 2, end="\n\n")
print(10 * np.sin(a), end="\n\n")
print(a < 35, end="\n\n")

A = np.array([[1, 1], [0, 1]])
B = np.array([[2, 0], [3, 4]])

print(A * B, end="\n\n")  # elementwise product
print(A @ B, end="\n\n")  # matrix product (two methods - 1)
print(A.dot(B), end="\n\n")  # matrix product (two methods - 2)

C = np.ones((2, 3))
C *= 3
print(C, end="\n\n")

rg = np.random.default_rng(1)  # random generator
D = rg.random((2, 3))
print(D, end="\n\n")  # 랜덤 값 취하는 Size (2, 3)짜리 행렬 생성
D += C
print(D, end="\n\n")

[20 29 38 47]

[0 1 4 9]

[ 9.12945251 -9.88031624  7.4511316  -2.62374854]

[ True  True False False]

[[2 0]
 [0 4]]

[[5 4]
 [3 4]]

[[5 4]
 [3 4]]

[[3. 3. 3.]
 [3. 3. 3.]]

[[0.51182162 0.9504637  0.14415961]
 [0.94864945 0.31183145 0.42332645]]

[[3.51182162 3.9504637  3.14415961]
 [3.94864945 3.31183145 3.42332645]]



In [13]:
import numpy as np

a = np.array([[1, 2, 3], [4, 5, 6]])

print(a.sum(), end="\n\n")
print(a.sum(axis=0), end="\n\n")
print(a.sum(axis=1), end="\n\n")

print(a.min(), end="\n\n")
print(a.max(), end="\n\n")

print(a.min(axis=0), end="\n\n")
print(a.min(axis=1), end="\n\n")

print(a.cumsum(), end="\n\n")
print(a.cumsum(axis=0), end="\n\n")
print(a.cumsum(axis=1), end="\n\n")  # cumulative sum

21

[5 7 9]

[ 6 15]

1

6

[1 2 3]

[1 4]

[ 1  3  6 10 15 21]

[[1 2 3]
 [5 7 9]]

[[ 1  3  6]
 [ 4  9 15]]



In [14]:
import numpy as np

a = np.arange(3)

print(np.exp(a), end="\n\n")
print(np.sqrt(a), end="\n\n")
print(np.add(a, [2, -1, 4]), end="\n\n")

[1.         2.71828183 7.3890561 ]

[0.         1.         1.41421356]

[2 0 6]

