## Introducing Numpy

### numpy 배열

- numpy는 과학계산을 수행하는 파이썬 핵심 패키지
- 주요 제공 기능
    - N 차원 배열
    - 원소별 연산(브로드캐스팅)
    - 선형대수학 등 핵심 수학 연산
    - C/C++, 포트란 코드 인터페이스 제공
    
- numpy 공식 레퍼런스
    - https://docs.scipy.org/doc/numpy/reference/
    
### Python list vs numpy 배열

- Python의 리스트는 거의 모든 종류의 객체를 담을 수 있어 유연하지만, 속도와 메모리 효율이 좋지 않다는 것이 단점
- numpy의 배열은 한 행에 동일 형식의 원소를 저장
    - Python의 리스트에 비해 유연성은 떨어지지만
    - 빠른 연산과 메모리 효율에서 강점을 보인다
    
### numpy의 사용

- 일반적으로 numpy는 np라는 별칭으로 줄여 임포트한다

In [1]:
# numpy를 np 별칭으로 임포트 해 봅시다
import numpy as np

### numpy 배열 만들기

- Python의 리스트를 이용한 생성
    - 각 값들은 (양의 정수)튜플 형태로 인덱싱됨
    - shape는 각 차원의 크기를 튜플로 반환
    - np.ndim는 배열이 몇 차원인지 의미
    - 다차원 배열을 만들기 위해서는 리스트를 중첩하여 생성

In [4]:
# Python의 리스트를 이용한 생성 방법 연습
# 일차원 배열 : np.array
arr = np.array([1, 2, 3])
print("type of arr:", type(arr)) # ndarray
print("shape of arr:", arr.shape) # 튜플로 반환
print("rank of arr:", np.ndim(arr)) # 배열의 차원

type of arr: <class 'numpy.ndarray'>
shape of arr: (3,)
rank of arr: 1


In [6]:
# 2차원 배열 : 리스트를 중첩하여 데이터 전달
arr2d = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])
print(arr2d)
print("type of arr2d:", type(arr2d))
print("shape of arr2d:", arr2d.shape)
print("rank of arr2d:", np.ndim(arr2d)) 

[[1 2 3]
 [4 5 6]
 [7 8 9]]
type of arr2d: <class 'numpy.ndarray'>
shape of arr2d: (3, 3)
rank of arr2d: 2


- List 없이 array 만들기
    - zeros() : 0으로 채워진 배열
    - ones() : 1로 채워진 배열
    - full() : 지정한 상수로 채워진 배열
    - eye() : 단위 행렬 생성
    - empty_like() : 주어진 배열과 동일한 shape를 가지며 비어 있는 배열 생성

In [10]:
# array를 만드는 다양한 방법을 알아봅시다
# 2행 2열의 영배열
arr_zero = np.zeros((2, 2)) 
print("2*2 영배열:", arr_zero)
#  2행 2열의 1로 채워진 배열
arr_one = np.ones((2, 2))
print("2*2 1로 채워진 배열:", arr_one)
# 2행 2열의 7로 채워진 배열
arr_full = np.full((2, 2), 7)
print("2*2 7로 채워진 배열:", arr_full)
# 2행 2열의 단위 행렬 : eye
arr_eye = np.eye(2) 
print("2*2의 단위행렬:",arr_eye)

2*2 영배열: [[0. 0.]
 [0. 0.]]
2*2 1로 채워진 배열: [[1. 1.]
 [1. 1.]]
2*2 7로 채워진 배열: [[7 7]
 [7 7]]
2*2의 단위행렬: [[1. 0.]
 [0. 1.]]


- 범위 벡터의 생성
    - arange() : 범위 값으로 배열 만들기
    - linspace() : 선형 간격의 벡터 만들기
    - logspace() : 로그 간격의 벡터 만들기

In [17]:
# 범위 벡터를 만들기 연습
arr_range = np.arange(100) # 0부터 99까지의 범위 벡터
print(arr_range)
arr_linspace = np.linspace(0, 1, 100) # 0부터 1까지를 100개로 선형 분할(간격 동일) 
print(arr_linspace)
arr_logspace = np.logspace(0, 1, 100, base=10.0) # 0 ~ 1까지를 100개로 지수함수 이용 분할 밑수가 10
print(arr_logspace)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]
[0.         0.01010101 0.02020202 0.03030303 0.04040404 0.05050505
 0.06060606 0.07070707 0.08080808 0.09090909 0.1010101  0.11111111
 0.12121212 0.13131313 0.14141414 0.15151515 0.16161616 0.17171717
 0.18181818 0.19191919 0.2020202  0.21212121 0.22222222 0.23232323
 0.24242424 0.25252525 0.26262626 0.27272727 0.28282828 0.29292929
 0.3030303  0.31313131 0.32323232 0.33333333 0.34343434 0.35353535
 0.36363636 0.37373737 0.38383838 0.39393939 0.4040404  0.41414141
 0.42424242 0.43434343 0.44444444 0.45454545 0.46464646 0.47474747
 0.48484848 0.49494949 0.50505051 0.51515152 0.52525253 0.53535354
 0.54545455 0.55555556 0.56565657 0.57575758 0.58585859 0.5959596
 0.60606061 0.61616162 0.

### array의 타입

- numpy의 array는 한 가지 타입만 담을 수 있다
    - 데이터 타입을 지정하지 않으면 임의로 적절한 데이터 타입을 선택
    - dtype으로 array의 타입을 체크할 수 있다
    - array 생성시 dtype 옵션 파라미터로 데이터 타입을 강제할 수 있다
    - astype() 메서드를 이용하면 다른 데이터타입으로 변경할 수 있다
    
- numpy 자료형 참조 페이지 : https://docs.scipy.org/doc/numpy/reference/arrays.dtypes.html

In [21]:
# array의 타입 체크, 변경을 연습해 봅니다.
arr = np.ones(2) # 1로 채워진 1차원 배열
print(arr)
# 배열의 타입 확인
print("dtype of arr:", arr.dtype)

# 배열 생성시 타입을 강제할 수 있다
arr2 = np.ones(2, dtype=int) # 배열 데이터 타입을 int로 강제
print("dtype of arr2:", arr2.dtype)
# astype으로 타입 변경 가능
arr3 = arr2.astype(np.float64)
print("dtype of arr3:", arr3.dtype)

[1. 1.]
dtype of arr: float64
dtype of arr2: int32
dtype of arr3: float64


### array의 재구성

- 생성된 array는 다양한 형태로 변경될 수 있다
    - reshape() : 배열을 다른 형태로 변경
    - ravel() : 다차원 배열을 1차원 형태로 변경
    - transpose() : 행렬의 전치. 열 <-> 행
        - 간단히 T 속성을 사용해도 무방

In [23]:
# array 재구성 연습
arr1d = np.arange(25)
arr1d
# 배열의 형태 변경 reshape -> 5 * 5 배열로
arr2d = arr1d.reshape(5, 5)
arr2d

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

### array의 인덱싱과 슬라이싱

- numpy의 array 인덱싱과 슬라이싱은 기본적으로는 파이썬의 인덱싱/슬라이싱 방식과 거의 동일하다
- numpy의 array는 다차원인 경우가 많기 때문에 각 차원별 인덱스/슬라이스 범위를 잘 정해주어야 한다

In [None]:
# array의 인덱싱을 연습해 봅니다


### 조건적 인덱싱

- where() : 조건에 해당하는 인덱스를 추출
- delete() : 특정 인덱스 삭제

In [None]:
# 조건적 인덱싱 연습


### Boolean 배열 인덱싱

- 논리 연산을 수행하여 복수의 조건을 만족하는 인덱스를 추출해내는 방법
- numpy 배열 불린 연산에서는 &(and), |(or), ~(not) 연산자를 사용할 수 있다

- Boolean 배열 인덱싱 참조 : https://docs.scipy.org/doc/numpy/reference/arrays.indexing.html

In [None]:
# Boolean 배열 인덱싱을 연습해 봅시다.


### 배열 연산

- 기본적 수학 함수는 배열의 각 요소별로 동작
- 연산자를 이용 동작하거나 numpy 함수 모듈을 이용하여 동작함

In [None]:
# 배열 연산을 연습해 봅니다.


### numpy 행렬 곱

- *, multiply는 기본적으로 요소의 곱
- 벡터의 내적, 벡터와 행렬의 곱, 행렬곱을 위해서는 dot 함수 사용
- dot 메서드는 모듈 함수, 배열 객체의 인스턴스 양쪽 모두 사용 가능

In [None]:
# numpy 행렬 곱 연습


### array 연산 함수

- numpy는 배열 연산에 유용하게 사용되는 많은 함수를 제공
- 배열 연산 함수 참조 : https://docs.scipy.org/doc/numpy/reference/routines.math.html

In [None]:
# array 연산 함수 중, sum 함수를 활용해 봅니다


### 브로드캐스팅

- numpy에서 shape가 다른 배열 혹은 배열과 스칼라 사이의 산술 연산이 가능하도록 하는 매커니즘
- Universal Function이라고도 함

In [None]:
# 브로드캐스팅을 연습해 봅니다


### numpy 난수 발생

- 임의의 수가 필요할 때, 혹은 전체 데이터를 기반으로 샘플링을 하고자 할 때는 난수가 필요
- numpy의 난수 발생은 단순히 임의의 난수를 넘어 다양한 통계(분포:distribution) 기반의 샘플링을 위한 난수 기능을 다양하게 제공
- random 패키지 내에 위치

- 다양한 난수 메서드들

    - randint() : 정수 난수 발생
    - randn() : n차원 난수 발생
    - binomial() : 이항분포
    - hypergeometric() : 초기하분포
    - poisson() : 포아송 분포
    - normal() : 정규 분포
    - standart_t() : t-분포
    - uniform() : 균등분포
    - f() : f-분포
    
    - seed() : 재현 가능성(Reproductibility)을 위한 난수 초기값 설정

In [None]:
# 기본적인 난수 발생과 분포 기반 난수를 연습합니다.


### numpy 파일 저장/불러오기

- numpy는 바이너리 형태로 저장 가능하며 저장된 데이터는 나중에 불러와 다시 사용할 수 있다

- 저장 메서드
    - save() : npy(비압축) 형태로 저장
    - savez() : npz(압축) 형태로 저장. 압축 과정을 거치므로 save 메서드에 비해 속도는 느리지만, 대용량의 데이터 저장엔 용량의 측면에서 유리
    
- 불러오기 메서드
    - load()

In [None]:
# numpy 파일 저장 불러오기 연습
