# Numerical Python - Numpy

## Data handling section - Numerical Python - numpy

핵심 키워드
- numpy
- ndarray
- Handling shape
- Indexing
- Slicing
- Creation function
- Operation functions
- array operations
- Comparisons
- Boolean Index
- Fancy Index
- numpy data i/o

코드로 방정식 표현하기
- 다양한 Matrix 계산을 어떻게 만들 것 인가?
- 굉장히 큰 Matrix에 대한 표현
- 처리 속도 문제 – 파이썬은 Interpreter 언어

# Numpy
- Numerical Python
- 파이썬의 고성능 과학 계산용 패키지
- Matrix와 Vector와 같은 Array 연산의 사실상의 표준
- 한글로 넘파이로 주로 통칭, 넘피/늄파이라고 부르기도 함

Numpy 특징
- 일반 List에 비해 빠르고, 메모리 효율적
- 반복문 없이 데이터 배열에 대한 처리를 지원함
- 선형대수와 관련된 다양한 기능을 제공함
- C, C++, 포트란 등의 언어와 통합 가능

## ndarray

### Array creation
- numpy는 np.array 함수를 활용하여 배열을 생성함 è ndarray
- numpy는 하나의 데이터 type만 배열에 넣을 수 있음
- List와 가장 큰 차이점, Dynamic typing not supported
- C의 Array를 사용하여 배열을 생성함

In [2]:
import numpy as np

test_array = np.array([1, 4, 5, 8], float)
print(test_array)
type(test_array[3])

[1. 4. 5. 8.]


numpy.float64

- shape : numpy array의 object의 dimension 구성을 반환함
- dtype : numpy array의 데이터 type을 반환함

In [3]:
test_array = np.array([1, 4, 5, "8"], float) #	String	Type의 데이터를 입력해도
print(test_array)
print(type(test_array[3]))	 	 	 #	Float	Type으로 자동 형변환을 실시
print(test_array.dtype) #	Array(배열)	전체의 데이터 Type을 반환함
print(test_array.shape) #	Array(배열)	의 shape을 반환함 -> vector

[1. 4. 5. 8.]
<class 'numpy.float64'>
float64
(4,)


In [4]:
# matrix
matrix = [[1, 2, 5, 8], [1, 2, 5, 8], [1, 2, 5, 8]]
np.array(matrix, int).shape

(3, 4)

In [7]:
# tensor
tensor = [[[1, 2, 5, 8], [1, 2, 5, 8], [1, 2, 5, 8]],
        [[1, 2, 5, 8], [1, 2, 5, 8], [1, 2, 5, 8]],
        [[1, 2, 5, 8], [1, 2, 5, 8], [1, 2, 5, 8]],
        [[1, 2, 5, 8], [1, 2, 5, 8], [1, 2, 5, 8]]]

print(np.array(tensor, int).shape)
print(np.array(tensor, int).ndim)   # number of dimension
print(np.array(tensor, int).size)   # number of data

(4, 3, 4)
3
48


## Handling shape

### reshape
- Array의 shape 크기를 변경함
- Array의 size만 같다면 다차원으로 자유로이 변형가능

In [8]:
test_matrix = [[1, 2, 3, 4], [1, 2, 5, 8]]
np.array(test_matrix).shape

(2, 4)

In [9]:
np.array(test_matrix).reshape(8,)

array([1, 2, 3, 4, 1, 2, 5, 8])

In [10]:
np.array(test_matrix).reshape(8,).shape

(8,)

### flatten
- 다차원 array를 1차원 array로 변환

In [13]:
test_matrix = [[[1, 2, 3, 4], [1, 2, 5, 8]], [[1, 2, 3, 4], [1, 2, 5, 8]]]
print(np.array(test_matrix).shape)

print(np.array(test_matrix).flatten())
np.array(test_matrix).flatten().shape

(2, 2, 4)
[1 2 3 4 1 2 5 8 1 2 3 4 1 2 5 8]


(16,)

## Indexing & slicing

### indexing
- list와 달리 이차원 배열에서 [0,0]과 같은 표기법을 제공함
- Matrix일 경우 앞은 row 뒤는 column을 의미함

In [16]:
a = np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]], int)
print(a[:,2:])  # 전체 Row의 2열 이상
print(a[1,1:3]) # 1 Row의 1열 ~ 2열
print(a[1:3])   # 1 Row ~ 2Row의 전체

[[ 3  4  5]
 [ 8  9 10]]
[7 8]
[[ 6  7  8  9 10]]


## create function

### arange
- array의 범위를 지정하여, 값의 list를 생성하는 명령어

In [17]:
np.arange(30)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [18]:
np.arange(0, 5, 0.5)    # start, end, step

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

In [19]:
np.arange(30).reshape(5, 6)

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

### ones, zeros and empty
- ones – 1로 가득찬 ndarrary 생성
- zeros – 0으로 가득찬 ndarray 생성
- empty – shape만 주어지고 비어있는 ndarray 생성 (memory initialization 이 되지 않음)

### something_like
- 기존 ndarray의 shape 크기 만큼 1, 0 또는 empty array를 반환

In [20]:
test_matrix = np.arange(30).reshape(-1, 6)
np.ones_like(test_matrix)

array([[1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1]])

### identity
- 단위행렬을 생성함

In [21]:
np.identity(n = 3, dtype = np.int8)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]], dtype=int8)

In [22]:
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

### eye
- 대각선이 1인 행렬, k값의 시작 index의 변경이 가능

In [23]:
np.eye(N = 3, M = 5, dtype = np.int8)

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0]], dtype=int8)

In [24]:
np.eye(N = 3, M = 5, k = 2, dtype = np.int8)

array([[0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1]], dtype=int8)

### diag
- 대각행렬의 값을 추출

### random sampling
- 데이터 분포에 따른 sampling으로 array를 생성

In [25]:
np.random.uniform(0, 1, 10).reshape(2, 5)

array([[0.04647081, 0.66148068, 0.92823302, 0.55245924, 0.17899854],
       [0.33174178, 0.08923227, 0.16907415, 0.82304181, 0.28361946]])

In [26]:
np.random.normal(0, 1, 10).reshape(2, 5)

array([[ 0.54309652,  1.62362632,  0.60777905, -1.12939584, -1.97323133],
       [-0.50549719, -0.47691784, -0.67999377, -0.37687201,  0.07318716]])

## array operations
- Numpy는 array간의 기본적인 사칙연산을 지원함

### Dot product
- Matrix의 기본 연산

In [29]:
test_a = np.arange(1, 7).reshape(2, 3)
test_b = np.arange(7, 13).reshape(3, 2)

print(test_a)
print(test_b)
print()
print(test_a.dot(test_b))

[[1 2 3]
 [4 5 6]]
[[ 7  8]
 [ 9 10]
 [11 12]]

[[ 58  64]
 [139 154]]


### broadcasting
- Shape이 다른 배열 간 연산을 지원하는 기능
- Scalar – vector 외에도 vector – matrix 간의 연산도 지원

In [30]:
test_matrix = np.arange(1, 13).reshape(4, 3)
test_vector = np.arange(10, 40, 10)
test_matrix + test_vector

array([[11, 22, 33],
       [14, 25, 36],
       [17, 28, 39],
       [20, 31, 42]])

## Numpy perfromance #1
- timeit : jupyter 환경에서 코드의 퍼포먼스를 체크하는 함수

In [33]:
def sclar_vector_product(scalar, vector):
    result = []
    for value in vector:
        result.append(scalar * value)
    return result
    
iternation_max = 100000000
vector = list(range(iternation_max))
scalar = 2
%timeit sclar_vector_product(scalar, vector) # for loop을 이용한 성능
%timeit [scalar * value for value in range(iternation_max)] # list comprehension을 이용한 성능
%timeit np.arange(iternation_max) * scalar # numpy를 이용한 성능

10.1 s ± 226 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
9.35 s ± 38.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
212 ms ± 6.44 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


## Numpy performance #2
- 일반적으로 속도는 아래 순
    - for loop < list comprehension < numpy
- 100,000,000 번의 loop이 돌 때 약 약 4배 이상의 성능 차이를 보임
- Numpy는 C로 구현되어 있어, 성능을 확보하는 대신
- 파이썬의 가장 큰 특징인 dynamic typing을 포기함
- 대용량 계산에서는 가장 흔히 사용됨
- Concatenate 처럼 계산이 아닌, 할당에서는 연산 속도의 이점이 없음

## Comparisons

### All & Any
- Array의 데이터 전부(and) 또는 일부(or)가 조건에 만족 여부 반환

In [34]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [35]:
np.any(a > 5), np.any(a < 0)    # any -> 하나라도 조건에 만족한다면 true

(True, False)

In [38]:
np.all(a > 5), np.all(a < 10)   # all -> 모두가 조건에 만족한다면 true

(False, True)

### np.where

In [40]:
np.where(a > 0, 3, 2)   # where(condition, True, False)

array([2, 3, 3, 3, 3, 3, 3, 3, 3, 3])

In [41]:
np.where(a > 5)

(array([6, 7, 8, 9], dtype=int64),)

In [42]:
a = np.array([1, np.NaN, np.Inf], float)
np.isnan(a)

array([False,  True, False])

In [43]:
np.isfinite(a)

array([ True, False, False])

### argmax & argmin
- array 내 최대값 또는 최소값의 index를 반환함

In [44]:
a = np.array([1, 2, 4, 5, 8, 78, 23, 3])
np.argmax(a), np.argmin(a)

(5, 0)

In [45]:
# axis 기반의 반환
a = np.array([[1, 2, 4, 7], [9, 88, 6, 45], [9, 76, 3, 4]])
np.argmax(a, axis = 1), np.argmin(a, axis = 0)

(array([3, 1, 1], dtype=int64), array([0, 0, 2, 2], dtype=int64))

## boolean & fancy index

### boolean index
- numpy는 배열은 특정 조건에 따른 값을 배열 형태로 추출 할 수 있음
- Comparison operation 함수들도 모두 사용가능

In [46]:
test_array = np.array([1, 4, 0, 2, 3, 8, 9, 7], float)
test_array > 3

array([False,  True, False, False, False,  True,  True,  True])

In [47]:
test_array[test_array > 3]

array([4., 8., 9., 7.])

In [48]:
condition = test_array < 3
test_array[condition]

array([1., 0., 2.])

### fancy index
- numpy는 array를 index value로 사용해서 값을 추출하는 방법

In [49]:
a = np.array([2, 4, 6, 8], float)
b = np.array([0, 0, 1, 3, 2, 1], int)   # 반드시 integer로 선언
a[b]

array([2., 2., 4., 8., 6., 4.])

In [50]:
a.take(b)

array([2., 2., 4., 8., 6., 4.])