## 고급 파이썬 10주
---

## NumPy란?
---
### NumPy (NUMeric Python)
- 수학 및 과학 계산용 라이브러리   
- 배열을 포함한 벡터, 행렬 등의 연산에 최적화됨   
- 수치해석 및 통계 관련 기능을 구현할 때 기본이 되는 모듈   
   
   
### NumPy 제공 기능
- 강력한 N-차원 배열
- 정교한 브로드캐스팅 함수
- C/C++ 및 포트란 코드 통합 도구
- 유용한 선형 대수학, 푸리에 변환 및 난수 기능
- 다양한 데이터 처리에 대하여 원활하고 신속히 통합 가능한 다차원 컨테이너   
   
   
### NumPy 배열과 Standard Python sequences(예: string, list, tuple 등)의 차이
- NumPy배열은 고정된 크기를 가지지만 Python list는 동적으로 변한다.
    - 크기를 바꿀 때 새로운 배열을 만들고 원본은 지운다.
- NumPy 배열의 원소는 모두 같은 타입이어야 한다. 
- NumPy 배열은 더 많은 data를 처리하는 것에 더 나은 성능을 가지고 있다.

## Numpy의 빠른 연산 속도 (1)
---
### Vectorization : 명시적 루핑, 인덱싱 등이 없는 것
- Scalar register 대신 Vector register를 이용하여 수치 연산이 더 빠름
- Vectorized 코드는 더 간결하고 읽기에 좋음
- 더 적은 양의 코드를 사용하기 때문에 버그를 줄일 수 있음
- 수학적 notation과 유사하게 코딩함
- 더욱 “Pythonic”한 코드

In [1]:
import numpy as np
import time

a = np.random.rand(1000000)  # 길이가 1000000인 벡터 생성
b = np.random.rand(1000000)

tic = time.time()
c = np.dot(a, b)  # inner product 내적 : 벡터에서 같은 인덱스의 원소끼리 곱해 모두 더함
toc = time.time()
vec_time = toc - tic

print("Vectorized : " + str(vec_time) + " ms")
# print("c =", c)

d = 0

tic = time.time()
for i in range(1000000):
    d += a[i] * b[i]
toc = time.time()
v_loop_time = toc - tic

print("Loop : " + str(v_loop_time) + " ms")

if vec_time < v_loop_time:
    print("vectorizing is {:.3f} times faster than loop".format(v_loop_time / vec_time))
else:
    print("loop is {:.3f} times faster than vectorizing".format(vec_time / v_loop_time))

Vectorized : 0.00104522705078125 ms
Loop : 0.8708643913269043 ms
vectorizing is 833.182 times faster than loop


## Numpy의 빠른 연산 속도 (2)
---
- 브로드캐스팅: 사이즈가 다른 두 행렬을 연산할 때, 작은 행렬을 큰 행렬의 모양에 맞게 늘려주는 것

In [2]:
import numpy as np
import time

a = np.ones((1000, 1000))

tic = time.time()
a = a * 5
toc = time.time()
brcast_time = toc - tic

print("Broadcasting : " + str(brcast_time) + " ms")

a = np.ones((1000,1000))

tic = time.time()
for i in range(a.shape[0]):
    for j in range(a.shape[1]):
        a[i,j] = a[i,j]*5
toc = time.time()
br_loop_time = toc - tic

print("Loop : " + str(br_loop_time) + " ms")

if brcast_time < br_loop_time:
    print("broadcasting is {:.3f} times faster than loop".format(br_loop_time / brcast_time))
else:
    print("loop is {:.3f} times faster than broadcasting".format(brcast_time / br_loop_time))

Broadcasting : 0.005013227462768555 ms
Loop : 1.0418894290924072 ms
broadcasting is 207.828 times faster than loop


## N-차원 배열 (1)
---
### N-차원 배열 생성 (np.array), 원소 호출
- `np.array(리스트)`  # 하나의 리스트만 들어감
   
#### 3차원 이상 배열의 원소 호출
- 3차원 이상 배열은 2차원 배열(평면)이 겹겹이 겹친 모양 -> 편의상 페이지라고 칭하겠음. 3차원 공간으로 치면 y축 방향임.
- 원소를 호출할 때 쓰는 인덱스의 순서는 y축 -> z축(위에서 아래로) -> x축
- 예시   
    `print(c[1, 3, 2])` -> 23 출력

In [3]:
import numpy as np  # numpy 라이브러리 import

# np.array(리스트)  # 하나의 리스트만 들어감
a = np.array([0, 1, 2, 3])
b = np.array([[0, 1, 2], [3, 4, 5]])
c = np.array([[[0, 1, 2], [3, 4, 5], [6, 7, 8], [9, 10, 11]],
            [[12, 13, 14], [15, 16, 17], [18, 19, 20], [21, 22, 23]],
            [[24, 25, 26], [27, 28, 29], [30, 31, 32], [33, 34, 35]]])

print(b[1, 2])  # 1번 행, 2번 열 -> 5 출력
print(c[1, 3, 2])  # 23 출력

5
23


### np.arange
---
- 일정한 간격만큼 떨어져 있는 숫자들을 배열 형태로 반환
- `np.arange(시작, 끝, 간격)`
    - 시작 기본값 : 0, 간격 기본값: 1
    - `np.arange(5)` -> `[0, 1, 2, 3, 4]`
    - `np.arange(2, 8)` -> `[2, 3, 4, 5, 6, 7]`
    - `np.arange(2, 10, 2)` -> `[2, 4, 6, 8]`
    - `np.arange(1, 3, 0.5)` -> `[1. , 1.5 , 2. , 2.5]`
- `range`함수와의 차이는 `arange`함수는 실수 단위도 지원하며 `array`를 리턴함   
    `range(1, 5, 0.5)` : `TypeError` 발생

In [4]:
import numpy as np

# np.arange(시작값, 끝값, 간격값)
d = np.arange(1, 3, 0.5); print(d)  # 시작값 이상, 끝값 미만에서 간격값 기준으로 등간격으로
c = np.arange(2, 10, 2); print(c)
b = np.arange(2, 8); print(b)  # 두 개의 argument가 들어가는 경우에는 간격값이 기본값인 1이 되어 실행되는 것
a = np.arange(5); print(a)  # 시작값의 기본값이 0

[1.  1.5 2.  2.5]
[2 4 6 8]
[2 3 4 5 6 7]
[0 1 2 3 4]


## 여기부터 이어서 필기하면 됨

In [5]:
import numpy as np

a = np.full((5, 5), 2)
b = np.eye(5, 5)
print(a - b)

[[1. 2. 2. 2. 2.]
 [2. 1. 2. 2. 2.]
 [2. 2. 1. 2. 2.]
 [2. 2. 2. 1. 2.]
 [2. 2. 2. 2. 1.]]


In [6]:
import numpy as np

c = np.array([[[0,1,2],[3,4,5],[6,7,8],[9,10,11]],
            [[12,13,14], [15,16,17],[18,19,20],[21,22,23]],
            [[24,25,26],[27,28,29],[30,31,32],[33,34,35]]])

print(c.ndim)  # 3
print(c.shape)  # (3,4,3)
print(c.size)  # 36
print(c.dtype)  # int32

3
(3, 4, 3)
36
int64


In [7]:
import numpy as np

a = np.arange(15).reshape(3, 5); print(a)
b = np.arange(15)
b_new = np.reshape(b, (3, 5)); print(b_new)
# b_new1 = np.reshape(b, (2, 7)); print(b_new1)
b_new2 = np.reshape(b, (-1, 5)); print(b_new2) # -1의 의미는 나머지 size에 맞게 알아서 size를 조절해주는 의미
b_new3 = np.reshape(b, (15, -1)); print(b_new3)
# b_new4 = np.reshape(b, (-1, 9)); print(b_new4)

c = np.array([1, 2, 3, 4, 5, 6])
d = np.reshape(c, (2, 3)); print(d)
e = np.reshape(d, (3, 2)); print(e)
# print(d); print(e)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[ 0]
 [ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [ 7]
 [ 8]
 [ 9]
 [10]
 [11]
 [12]
 [13]
 [14]]
[[1 2 3]
 [4 5 6]]
[[1 2]
 [3 4]
 [5 6]]
