# 1. Overview

- Numerical Python
- 파이썬 고성능 과학 계산용 패키지
- Matrix, vector와 같은 array 연산의 사실상의 표준


- 일반 리스트에 비해 빠르고 메모리 효율적
- 반복문 없이 데이터 배열 처리 지원
- 선형대수 관련 다양한 기능 제공
- C, C++, Fortran 등 언어와 통합 가능
---

# 2. ndarray

## Array creation

In [7]:
# np as alias
import numpy as np

test_array = np.array([1,4,"5",8], float)
print(test_array)
print(type(test_array[2]))
print(test_array.dtype)  # array 전체의 datatype
print(test_array.shape) # array의 shape (dimension)

[1. 4. 5. 8.]
<class 'numpy.float64'>
float64
(4,)


- numpy는 np.array 함수 활용하여 배열 생성 -> ndarray
- 하나의 datatype만 배열에 넣을 수 있음
- 리스트와 가장 큰 차이점으로 dynamic typing not supported
- c의 array 사용하여 배열 생성

- numpy array는 data type이 하나이기 때문에 메모리 연속적으로 할당 가능하고 속도 빠름. 
- python list는 주소값을 저장하기 때문에 for loop을 수행하는 경우 속도 굉장히 느려짐.

## Array shape

- Array(vector, matrix, tensor)의 크기, 형태 등에 대한 정보

### Vector

In [10]:
test_array = np.array([1,4,5,8], float)
test_array

array([1., 4., 5., 8.])

In [12]:
print(test_array.shape) # 1차원에 4개의 element가 있는 벡터

(4,)


### Matrix

In [13]:
matrix = [[1,2,5,8],[1,2,5,8],[1,2,5,8]]
np.array(matrix, int).shape

(3, 4)

### 3rd order tensor

In [15]:
tensor = [[[1,2,5,8],[1,2,5,8],[1,2,5,8]],
          [[1,2,5,8],[1,2,5,8],[1,2,5,8]],
          [[1,2,5,8],[1,2,5,8],[1,2,5,8]],
         [[1,2,5,8],[1,2,5,8],[1,2,5,8]]]
np.array(tensor, int).shape #(matrix의 개수, row, column)

(4, 3, 4)

In [16]:
np.array(tensor, int).ndim

3

In [17]:
np.array(tensor, int).size

48

## Array dtype

- ndarray의 single element가 가지는 data type
- 각 element가 차지하는 memory의 크기가 결정됨
- 큰 데이터 다룰 때 고려
- compatible with C data type (e.g. bool, int8, uint8, float32 etc)

In [18]:
np.array([[1,2,3], [4.5, 5,6]], dtype=int)

array([[1, 2, 3],
       [4, 5, 6]])

In [20]:
np.array([[1,2,3], [4.5, 5,6]], dtype=np.float32)

array([[1. , 2. , 3. ],
       [4.5, 5. , 6. ]], dtype=float32)

In [22]:
# 32bits = 4bytes
np.array([[1,2,3], [4.5, 5,6]], dtype=np.float32).nbytes

24

In [24]:
# 8 bits = 1 byte
np.array([[1,2,3], [4.5, 5,6]], dtype=np.int8).nbytes

6

In [25]:
# 64 bits = 8 bytes
np.array([[1,2,3], [4.5, 5,6]], dtype=np.float64).nbytes

48

---
# 3. Handling shape

## reshape 

- array의 shape의 크기를 변경함 (element의 개수는 동일)
- array size만 같다면 다차원으로 자유로이 변형 가능


In [26]:
test_matrix = [[1,2,3,4], [1,2,5,8]]
np.array(test_matrix).shape

(2, 4)

In [28]:
np.array(test_matrix).reshape(8,).shape

(8,)

In [30]:
np.array(test_matrix).reshape(4,2).shape

(4, 2)

In [31]:
# -1: size 기반으로 개수 정해라
np.array(test_matrix).reshape(-1,2).shape

(4, 2)

In [34]:
a = np.array(test_matrix).reshape(2,2,2)
a.size

8

In [33]:
np.array(test_matrix).reshape(2,2,2).shape

(2, 2, 2)

In [36]:
np.array(test_matrix).reshape(1,1,-1,2).shape

(1, 1, 4, 2)

## flatten
- 다차원 array를 1차원 array로 변환

In [38]:
test_matrix = [[[1,2,3,4], [1,2,5,6], [1,2,3,4]]]
np.array(test_matrix).flatten()

array([1, 2, 3, 4, 1, 2, 5, 6, 1, 2, 3, 4])

---
# 4. Indexing and slicing

## Indexing

- list와 달리 이차원 배열에서 [0,0]과 같은 표기법 제공
- matrix일 경우 앞은 row, 뒤는 column

In [40]:
a = np.array([[1,2,3], [4, 5,6]], int)
print(a)
print(a[0,0]) # Two dimensional array representation #1
print(a[0][0])

[[1 2 3]
 [4 5 6]]
1
1


In [41]:
a[0][1] = 5
a

array([[1, 5, 3],
       [4, 5, 6]])

## Slicing

- list와 달리 행, 열 나눠서 slicing 가능
- matrix 부분 집합 추출할 때 유용

In [44]:
a = np.array([[1,2,3,4,5], [6,7,8,9,10]], int)
a

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [45]:
a[:,2:] # 전체 row의 2열 이상

array([[ 3,  4,  5],
       [ 8,  9, 10]])

In [46]:
a[1,1:3] # row 1 의 column 1~2

array([7, 8])

In [51]:
a[1:2] # row 1, row 2 전체

array([[ 6,  7,  8,  9, 10]])

In [52]:
a[:,::2] # step

array([[ 1,  3,  5],
       [ 6,  8, 10]])

In [53]:
a[::2, ::3]

array([[1, 4]])

---
# 5. Creation function

## arange (array range)

- array 범위 지정하여 값 list 생성

In [55]:
np.arange(30)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [59]:
np.arange(0,5, 0.5).tolist()

[0.0, 0.5, 1.0, 1.5, 2.0, 2.5, 3.0, 3.5, 4.0, 4.5]

In [57]:
np.arange(30).reshape(5,6)

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [58]:
np.arange(20).reshape(2,2,5)

array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9]],

       [[10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]]])

## One, zeros and empty

- zeros : ndarray filled with 0
- one: ndarray filled with 1
- empty : empty ndarray only with shape (no memory initialization)

In [60]:
np.zeros(shape=(10,), dtype = np.int8) # 10 - zero vector

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int8)

In [61]:
np.zeros((2,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [62]:
np.ones(shape=(10,), dtype=np.int8)

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int8)

In [63]:
np.ones((2,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [81]:
np.empty(shape=(10,), dtype=np.int8)

array([ -48,  -38, -124,  100,  117,    1,    0,    0,    0,    0],
      dtype=int8)

In [69]:
np.empty((3,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

## something_like

- 기존 ndarray의 shape 크기만큼 1, 0 또는 empty array 반환

In [82]:
test_matrix = np.arange(30).reshape(5,6)
np.ones_like(test_matrix)

array([[1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1]])

## identity

- 단위 행렬 (i 행렬) 생성

In [83]:
np.identity(n=3, dtype=np.int8)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]], dtype=int8)

In [84]:
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

## eye

- 대각선이 1인 행렬, k 값의 시작 index 변경 가능

In [85]:
# square matrix가 아닌 경우에
np.eye(N=3, M=5, dtype=np.int8)

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0]], dtype=int8)

In [86]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [88]:
np.eye(3,5,k=2) # k: start index

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

## diag

- 대각 행렬의 값 추출

In [90]:
matrix = np.arange(9).reshape(3,3)
matrix

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [91]:
np.diag(matrix)

array([0, 4, 8])

In [92]:
np.diag(matrix, k=1)

array([1, 5])

## Random sampling

- 데이터 분포에 따른 sampling으로 array 생성

In [93]:
#균등분포 (min, max, 개수)
np.random.uniform(0,1,10).reshape(2,5)

array([[0.71096311, 0.77600039, 0.04039493, 0.1808765 , 0.43997939],
       [0.84509713, 0.66395753, 0.34089337, 0.85091803, 0.20067228]])

In [99]:
# 정규분포 (평균, 정규분포, 개수)
np.random.normal(0,1,10).reshape(2,5)

array([[-1.0569413 ,  0.75953872, -1.04592033,  0.85054015, -0.78471697],
       [ 0.19998102, -1.7895177 ,  0.2045651 , -0.48247129, -0.99851224]])

---
# 6. Operation functions

## Sum

In [100]:
test_array = np.arange(1,11)
test_array

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [101]:
test_array.sum(dtype=np.float)

55.0

 ## Axis (중요)
 
 - 모든 operation function을 실행할 때, **기준이 되는 dimension 축**
 - vector((axis=0)) / matrix((axis=0), (axis=1))
 
 
 #### 2 dimension

In [103]:
test_array = np.arange(1,13).reshape(3,4)
test_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [107]:
# axis=1, row vector 기준으로(->)
test_array.sum(axis=1)

array([10, 26, 42])

In [109]:
# axis=0, column vector 기준으로
test_array.sum(axis=0)

array([15, 18, 21, 24])

#### 3 dimension

- tensor((axis=0), (axis=1), (axis=2))
- 0: layer 기준 / 1: column 기준 / 2: row 기준

In [110]:
tensor = np.array([test_array, test_array, test_array])
tensor

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]]])

In [112]:
# axis=0, layer 기준 (같은 row, column 인덱스인 값 각각 더함)
tensor.sum(axis=0)

array([[ 3,  6,  9, 12],
       [15, 18, 21, 24],
       [27, 30, 33, 36]])

In [114]:
# axis=1, row 기준 (column vector 각각 다 더함)
tensor.sum(axis=1)

array([[15, 18, 21, 24],
       [15, 18, 21, 24],
       [15, 18, 21, 24]])

In [117]:
# axis=2, column 기준 (row vector 각각 다 더함)
tensor.sum(axis=2)

array([[10, 26, 42],
       [10, 26, 42],
       [10, 26, 42]])

## Mean & std

In [119]:
test_array = np.arange(1,13). reshape(3,4)
test_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [120]:
test_array.mean()

6.5

In [122]:
# 각 column vector의 mean
test_array.mean(axis=0)

array([5., 6., 7., 8.])

In [123]:
test_array.std()

3.452052529534663

In [124]:
test_array.std(axis=1)

array([1.11803399, 1.11803399, 1.11803399])

이 외에도 다양한 수학 연산자 존재
(exp, sqrt, log etc)

In [125]:
test_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [127]:
np.sqrt(test_array)

array([[1.        , 1.41421356, 1.73205081, 2.        ],
       [2.23606798, 2.44948974, 2.64575131, 2.82842712],
       [3.        , 3.16227766, 3.31662479, 3.46410162]])

## Concatenate

- numpy array 합치는 함수
- **vstack: vertically**
- **hstack: horizontally**

In [128]:
a = np.array([1,2,3])
b = np.array([2,3,4])
np.vstack((a,b))

array([[1, 2, 3],
       [2, 3, 4]])

In [129]:
a = np.array([1,2,3])
b = np.array([2,3,4])
np.hstack((a,b))

array([1, 2, 3, 2, 3, 4])

In [131]:
a = np.array([[1],[2],[3]])
b = np.array([[2],[3],[4]])
np.hstack((a,b))

array([[1, 2],
       [2, 3],
       [3, 4]])

In [132]:
a = np.array([[1],[2],[3]])
b = np.array([[2],[3],[4]])
np.vstack((a,b))

array([[1],
       [2],
       [3],
       [2],
       [3],
       [4]])

**concatenate**

In [136]:
#axis=0, row 기준
a = np.array([1,2,3])
b = np.array([2,3,4])
np.concatenate((a,b), axis=0)

array([1, 2, 3, 2, 3, 4])

In [138]:
#axis=1, column 기준(2차원으로)
a = np.array([[1],[2],[3]])
b = np.array([[4],[5],[6]])
np.concatenate((a,b), axis=1)

array([[1, 4],
       [2, 5],
       [3, 6]])

In [141]:
#axis=1, column 기준(2차원으로)
a = np.array([[1,2],[3,4]])
b = np.array([[5,6]])
#column 기준으로 합치려는데 row 다르니까 transpose
np.concatenate((a,b.T), axis=1)

array([[1, 2, 5],
       [3, 4, 6]])

---
# 7. Array Operations

## Operations btw arrays

### Element-wise operations

- array 간 shape 같을 때 일어나는 연산
- numpy는 array 간 기본적인 사칙 연산 지원함

In [144]:
a = np.array([[1,2,3], [4,5,6]], float)
a

array([[1., 2., 3.],
       [4., 5., 6.]])

In [145]:
a + a

array([[ 2.,  4.,  6.],
       [ 8., 10., 12.]])

In [146]:
a-a

array([[0., 0., 0.],
       [0., 0., 0.]])

In [148]:
# matrix 내 element 간 같은 위치에 있는 값들끼리 연산
a*a

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

## Dot product

- matrix 기본 연산
- **dot** 함수 사용

In [155]:
a = np.arange(1,7).reshape(2,3)
b = np.arange(7,13).reshape(3,2)
print(a)
print(b)

[[1 2 3]
 [4 5 6]]
[[ 7  8]
 [ 9 10]
 [11 12]]


In [156]:
a.dot(b)

array([[ 58,  64],
       [139, 154]])

## Transpose

- transpose or T attribute

In [158]:
a = np.arange(1,7).reshape(2,3)
a

array([[1, 2, 3],
       [4, 5, 6]])

In [160]:
a.transpose()

array([[1, 4],
       [2, 5],
       [3, 6]])

In [161]:
a.T

array([[1, 4],
       [2, 5],
       [3, 6]])

In [162]:
a.T.dot(a)

array([[17, 22, 27],
       [22, 29, 36],
       [27, 36, 45]])

## Broadcasting (중요)

- shape 다른 배열 간 연산 자동으로 지원하는 기능
- 열 / 행 어느 정도 shape 맞아야 함

In [163]:
test_matrix = np.array([[1,2,3], [4,5,6]], float)
scalar = 3

In [164]:
test_matrix + scalar

array([[4., 5., 6.],
       [7., 8., 9.]])

In [165]:
test_matrix * scalar

array([[ 3.,  6.,  9.],
       [12., 15., 18.]])

In [166]:
test_matrix // 0.2

array([[ 4.,  9., 14.],
       [19., 24., 29.]])

In [167]:
test_matrix ** 2

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

### Scalar-vector, vector-matrix 간의 연산 모두 지원

In [168]:
test_matrix = np.arange(1,13).reshape(4,3)
test_vector = np.arange(10, 40, 10)

In [169]:
test_matrix

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [170]:
test_vector

array([10, 20, 30])

In [172]:
test_matrix + test_vector

array([[11, 22, 33],
       [14, 25, 36],
       [17, 28, 39],
       [20, 31, 42]])

In [174]:
test_vector = np.arange(10,50, 10).reshape(4,1)
test_vector

array([[10],
       [20],
       [30],
       [40]])

In [175]:
test_vector + test_matrix

array([[11, 12, 13],
       [24, 25, 26],
       [37, 38, 39],
       [50, 51, 52]])

## Numpy performance

- timeit: jupyter 환경에서 코드 퍼포먼스 체크하는 함수

In [182]:
def sclar_vector_product(scalar, vector):
    result = []
    for value in vector:
        result.append(scalar * value)
    return result

iternation_max = 10000

vector = list(range(iternation_max))
scalar = 2

In [183]:
%timeit sclar_vector_product(scalar, vector) # for loop

1.3 ms ± 60.4 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [184]:
#list comprehension
%timeit [scalar * value for value in range(iternation_max)]

1.09 ms ± 31.4 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [185]:
#numpy 이용한 성능
%timeit np.arange(iternation_max) * scalar

23.2 µs ± 1.69 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


# 8. Comparisons

## All(and) & Any(or)

In [187]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [188]:
np.any(a>5)

True

In [189]:
np.any(a<0)

False

In [190]:
np.all(a>6)

False

In [191]:
np.all(a>0)

False

In [192]:
# 각 element 모두 검사
a<4

array([ True,  True,  True,  True, False, False, False, False, False,
       False])

## Comparison Operation #1

- numpy는 배열의 크기가 동일할 때 element 간 비교의 결과를 boolean type으로 반환하여 돌려줌

In [195]:
a= np.array([1,3,0], float)
b = np.array([5,2,1], float)
a > b

array([False,  True, False])

In [196]:
a == b

array([False, False, False])

In [197]:
(a>b).any()

True

## Comparison Operation #2

- Logical and
- Logical not
- Logical or

In [198]:
a = np.array([1,3,0], float)
np.logical_and(a>0, a<3)

array([ True, False, False])

In [199]:
b = np.array([True, False, True], bool)
np.logical_not(b)

array([False,  True, False])

In [200]:
c = np.array([False, True, False], bool)
np.logical_or(b,c)

array([ True,  True,  True])

## np.where (중요)

- np.where(condition, true일 경우, false일 경우)

In [202]:
a = np.arange(10)
np.where(a>5) #index 값 반환

(array([6, 7, 8, 9], dtype=int64),)

In [205]:
a = np.array([1,np.NaN, np.Inf], float)
np.isnan(a) # is not a number?

array([False,  True, False])

In [206]:
np.isfinite(a) # is a finite number?

array([ True, False, False])

## argmax & argmin

- array 내 최댓값 또는 최솟값의 인덱스 반환

In [208]:
a = np.array([1,2,4,5,7,8,65])
np.argmax(a)

6

In [209]:
np.argmin(a)

0

#### axis 기반

In [212]:
a = np.array([[1,2,4,7], [9,88,3,2], [9,76,3,4]])
a

array([[ 1,  2,  4,  7],
       [ 9, 88,  3,  2],
       [ 9, 76,  3,  4]])

In [213]:
np.argmax(a, axis=1) # 각 row vector 중 max index

array([3, 1, 1], dtype=int64)

In [214]:
np.argmin(a, axis=0) # 각 column vector 중 min index

array([0, 0, 1, 1], dtype=int64)

---
# 9. Boolean and Fancy index

## Boolean index
- numpy는 배열은 특정 조건에 따른 값을 배열 형태로 추출 할 수 있음
- Comparison operation 함수들도 모두 사용가능

In [215]:
test_array = np.array([1,4,0,2,3,8,9,7], float)
test_array > 3

array([False,  True, False, False, False,  True,  True,  True])

In [217]:
test_array[test_array>3] # 조건이 True인 index element

array([4., 8., 9., 7.])

#### Boolean index -> integer
**True=1, False=0**

In [220]:
B = test_array < 3
B.astype(np.int)

array([1, 0, 1, 1, 0, 0, 0, 0])

## Fancy index

- array를 index value로 사용해서 값을 추출하는 방법

In [225]:
a = np.array([2,4,6,8], float)
b = np.array([0,0,1,3,2,1], int) # 반드시 integer로 선언
a[b]

array([2., 2., 4., 8., 6., 4.])

#### take:  bracket index와 같은 효과 **

In [226]:
a.take(b)

array([2., 2., 4., 8., 6., 4.])

#### matrix 형태의 데이터도 가능

In [229]:
a = np.array([[1,4], [9,16]], float)
b = np.array([0,0,1,1,0], int)
c = np.array([0,1,1,1,1], int)
a[b,c] # b: row index, c: column index

array([ 1.,  4., 16., 16.,  4.])

---
# 10. Data I/O

## loadtxt & savetxt

In [None]:
#파일호출
a = np.loadtxt('./populations.txt')
a[:10]

In [None]:
#int type
a_int = a.astype(int)
a_int[:3]

In [None]:
np.savetxt('int_data.csv', a_int, delimiter=",")

## numpy object - npy

- numpy object(pickle) 형태로 데이터 저장하고 불러옴
- Binary 파일 형태로 저장

In [None]:
np.save('npy_test', arr=a_int)

In [None]:
npy_array = np.load(file="npy_test.npy")
npy_array[:3]