# Numerical Python (Numpy)
- 학습목표
    - 파이썬의 과학 계산용 패키지 Numpy
    - Numpy 특징, 기능, 코드 작성법 학습
    
    
- 핵심키워드
    - numpy
    - ndarray
    - Handling shape
    - Indexing
    - Slicing
    - Creation function
    - Operation functions
    - array operations
    - Comparisons
    - Boolean Index
    - Fancy Index
    - numpy data i/o

## 설치 및 불러오기

In [1]:
#!pip install numpy
import numpy as np

# Numpy 특징
- 일반 List에 비해 더 빠르고, 메모리 효율적
- 반복문 없이 데이터 배열에 대한 처리를 지원함
- 선형대수와 관련된 다양한 기능 제공
- C, C++ 포트란 등의 언어와 통합 가능

## Array Creation
- numpy는 np.array 함수를 활용하여 배열을 생성한다. => `ndarray` 자료형 (N-dimension Array의 약자)
- numpy는 하나의 데이터 type만 배열에 넣을 수 있음 ( 배열안의 자료형이 다 같아야 한다. )
- List와 가장 큰 차이점, Dynamic typing not supported (동적 타이핑 불허)
- C의 Array를 사용하여 배열을 생성함



In [17]:
test_array = np.array([1, 4, 5, 8], np.float64)
print(test_array)
print(type(test_array[3]))
print(test_array.dtype)
print(test_array.shape)

[1. 4. 5. 8.]
<class 'numpy.float64'>
float64
(4,)


In [23]:
print(np.array([[1,2,3,4]], np.float64).shape)
np.array([[1,2,3,4]], np.float64)

(1, 4)


array([[1., 2., 3., 4.]])

## Array Shape (3rd order tensor)

In [26]:
tensor = [
    [ [1,2,5,8], [1,2,5,8], [1,2,5,8] ],
    [ [1,2,5,8], [1,2,5,8], [1,2,5,8] ],
    [ [1,2,5,8], [1,2,5,8], [1,2,5,8] ],
    [ [1,2,5,8], [1,2,5,8], [1,2,5,8] ],
]

np.array(tensor, int).shape

(4, 3, 4)

In [29]:
# ndim & size
# ndim - number of dimension
# size - data의 개수

print(np.array(tensor, int).ndim) # 3차원
print(np.array(tensor, int).size) # 전체 데이터의 개수 (4x3x4)

3
48


## dtpye
- nbytes - ndarray object의 <span style='color:yellow'>메모리 크기를 반환함</span>

In [31]:
np.array([[1,2,3], [4.5, '5', '6']], np.float32).nbytes # 32bits = 4bytes => 6 * 4 => 24

24

## Python에서 List가 동작하는 방식
- 메모리 관점
- 얇은복사, 깊은복사

In [3]:
# a, b 가 바라보는 메모리 주소가 같기 때문에 b를 수정해도 a도 같이 수정된다(?)

a = [1,2,3,4,5]
b = a
b[2] = 5
a

[1, 2, 5, 4, 5]

In [9]:
# b 에다가 a 를 copy() 즉, 복사를 시켜주면 메모리 공간을 하나 더 만드는셈이므로 b를 수정해도 a가 바라보는 메모리주소는 수정되지 않는다.

a = [1,2,3,4,5]
b = a.copy() # a[:] 로 써도 카피가된다.
b[2] = 5
print(b)
print(a)

[1, 2, 5, 4, 5]
[1, 2, 3, 4, 5]


In [14]:
from copy import deepcopy # 2차원이상의 리스트를 복사할때 사용!

a = [[1,2,3,4], [3,4,5,6]]
b = a
print(a)
print(b)
print()
a[0][0] = 5
print(b)
print()

b = deepcopy(a)
b[0][0] = 1000
print(a)
print(b)

[[1, 2, 3, 4], [3, 4, 5, 6]]
[[1, 2, 3, 4], [3, 4, 5, 6]]

[[5, 2, 3, 4], [3, 4, 5, 6]]

[[5, 2, 3, 4], [3, 4, 5, 6]]
[[1000, 2, 3, 4], [3, 4, 5, 6]]


# Handling shape

## reshape
- Array의 shape의 크기를 변경함 (element 의 개수는 동일)

In [49]:
# (2, 4) => (8, )
# 2차원을 1차원으로 줄여서 matrix => vector 로 변환

matrix = [
    [1,2,5,8],
    [1,2,5,8]
]

print( np.array(matrix) )
print( np.array(matrix, int).shape )
print()

# reshape(행, 열))
print( np.array(matrix, int).reshape(1, 8) )
np.array(matrix, int).reshape(1, 8).shape

[[1 2 5 8]
 [1 2 5 8]]
(2, 4)

[[1 2 5 8 1 2 5 8]]


(1, 8)

In [51]:
# row 개수는 정확하게 모르지만 column 수는 2개로 하고 싶을 때,
print( np.array(matrix).reshape(-1, 2) )
np.array(matrix).reshape(-1, 2).shape

[[1 2]
 [5 8]
 [1 2]
 [5 8]]


(4, 2)

## flatten
- N차원 array를 1차원으로 변환
- reshape() 으로 해도 상관은 없음
- 1차원으로 쫙 펴준다.

In [54]:
matrix = [[1,2,5,8], [1,2,5,8]]

# flatten() - 1차원 Array로 데이터를 쭉 펴준다.
np.array(matrix).flatten() 

array([1, 2, 5, 8, 1, 2, 5, 8])

# Indexing & Slicing

## Indexing
- 파이썬 기본 자료형인 List와 달리 Numpy의 ndarray 자료형에서는 `[0, 0]` 과 같은 표기법을 제공한다.
- Matrix 일 경우 앞은 row, 뒤는 column 을 의미한다.

In [58]:
a = np.array([[1,2,3], [4.5, 5, 6]], int)

print(a)

# 2차원 행렬에서 값에 접근하는 방법에는
# 2가지 표기 방법이 있다.
print(a[0, 0])
print(a[0][0])

a[0, 0] = 12
print(a)

a[0][0] = 5
print(a)

[[1 2 3]
 [4 5 6]]
1
1
[[12  2  3]
 [ 4  5  6]]
[[5 2 3]
 [4 5 6]]


## Slicing
- list와 달리 행과 열 부분을 나눠서 slicing이 가능함
- matrix의 부분 집합을 추출할 때 유용함

In [59]:
a = np.array([[1,2,3,4,5], [6,7,8,9,10]], int)
a

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [63]:
print( a[:, 2:] ) # 전체 Row의 2열 이상
print()

print( a[1, 1:3] ) # 1행의 1~2열 까지
print()

print( a[1:3] ) # 1~2행의 모든 열
print()

[[ 3  4  5]
 [ 8  9 10]]

[7 8]

[[ 6  7  8  9 10]]



In [67]:
# [start : end : step]

# 모든row, 2칸씩 띄어서 column
print( a[:, ::2] )

print()

# row 2칸씩 띄고, column 3칸씩 띄고
print( a[::2, ::3] )

[[ 1  3  5]
 [ 6  8 10]]

[[1 4]]


# Array Handling

## arange
- array의 범위를 지정하여, 값의 list를 생성하는 명령어

In [74]:
np.arange(30) # arange: List의 range와 같은 효과, integer로 0부터 29까지 배열 추출

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [75]:
np.arange(0, 5, 0.5) # floating point도 표시가능함, (시작, 끝, 스텝)

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

In [76]:
np.arange(30).reshape(5, 6)

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

## ones, zeros, and empty
- ones
    - 1로 가득한 ndarray 생성
- zeros
    - 0으로 가득한 ndarray 생성
- empty
    - shape만 주어지고 비어있는 ndarray 생성
    - memory initialization 이 되지 않음

In [90]:
np.ones(shape=(10, ), dtype=np.int8) # 10 - one vector 생성

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int8)

In [93]:
np.ones(shape=(2, 5)) # 2 by 5 - one matrix 생성

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [91]:
np.zeros(shape=(10, ), dtype=np.int8) # 10 - zero vector 생성

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int8)

In [92]:
np.zeros(shape=(2, 5)) # 2 by 5 - zero matrix 생성

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [96]:
np.empty(shape=(10, ), dtype=np.int8)

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int8)

In [98]:
np.empty(shape=(3, 5))

array([[0.0e+000, 4.9e-324, 9.9e-324, 1.5e-323, 2.0e-323],
       [2.5e-323, 3.0e-323, 3.5e-323, 4.0e-323, 4.4e-323],
       [4.9e-323, 5.4e-323, 5.9e-323, 6.4e-323, 6.9e-323]])

## something_like
- 기존 ndarray의 shape 크기 만큼 1, 0 또는 empty array를 반환

In [101]:
test_matrix = np.arange(30).reshape(5, 6)
np.ones_like(test_matrix)

array([[1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1]])

## identity ( 단위 행렬 )
- 단위행렬(I 행렬) 을 생성함
- identity()
- eye()

In [102]:
np.identity(n=3, dtype=np.int8) # n = number of rows

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]], dtype=int8)

In [105]:
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

## eye
- 대각선이 1인 행렬, k값의 시작, index의 변경이 가능
- k => start index

In [106]:
np.eye(3, M=5, dtype=np.int8)

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0]], dtype=int8)

In [107]:
np.eye(3, 5, k=2) # k: start index

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

## diag
- 대각 행렬의 값을 추출함

In [111]:
matrix = np.arange(9).reshape(3, 3)
print(matrix)
np.diag(matrix)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


array([0, 4, 8])

In [113]:
np.diag(matrix, k=1) # k => start index

array([1, 5])

## Random Sampling
- 데이터 분포에 따른 sampling으로 array를 생성

In [121]:
np.random.uniform(0, 1, 10).reshape(2, 5) # 균등분포

array([[0.92574768, 0.57530017, 0.43092093, 0.1198308 , 0.69918657],
       [0.79330665, 0.55558565, 0.10822063, 0.62897969, 0.78312658]])

In [122]:
np.random.normal(0, 1, 10).reshape(2, 5) # 정규분포

array([[-0.45215253,  1.47940386, -0.25891613,  1.2245835 , -1.17424033],
       [-1.88188923, -0.45408823, -0.39095129, -0.23662147, -0.31892915]])

## Sum
- ndarray의 element들 간의 합을 구함, list의 sum 기능과 동일

In [126]:
test_array = np.arange(1, 11)
print( test_array )
test_array.sum(dtype=np.float)

[ 1  2  3  4  5  6  7  8  9 10]


55.0

## axis
- 모든 operation function을 실행할 때, 기준이 되는 dimension 축


![axis 개념설명](https://i.stack.imgur.com/h1alT.jpg)

In [128]:
test_array = np.arange(1, 13).reshape(3, 4)
test_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [130]:
test_array.sum(axis=1), test_array.sum(axis=0)

(array([10, 26, 42]), array([15, 18, 21, 24]))

## mean & std
- ndarray의 element들 간의 평균 & 표준편차

In [132]:
test_array = np.arange(1, 13).reshape(3, 4)
test_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [134]:
test_array.mean(), test_array.mean(axis=0)

(6.5, array([5., 6., 7., 8.]))

In [135]:
test_array.std(), test_array.std(axis=0)

(3.452052529534663, array([3.26598632, 3.26598632, 3.26598632, 3.26598632]))

## Mathematical functions
- 그 외에도 다양한 수학 연산자를 제공함
- exponential
    - exp, expml, exp2, log, log10, log1p, log2, power, sqrt
- trigonometric
    - sin, cos, tan, acsin, arccos, atctan
- hyperbolic
    - sinh, cosh, tanh, acsinh, arccosh, atctanh

# Concatenate
- Numpy array를 합치는 함수

![](https://www.w3resource.com/w3r_images/numpy-manipulation-vstack-function-image-a.png) ![](https://www.w3resource.com/w3r_images/numpy-manipulation-hstack-function-image-a.png)

## vector 끼리 합치기

In [137]:
a = np.array([1, 2, 3])
b = np.array([2, 3, 4])
np.vstack((a, b)) # 수직으로 합쳐졌기 때문에 vector 끼리 합쳐서 matrix가 되었음

array([[1, 2, 3],
       [2, 3, 4]])

In [144]:
np.hstack((a, b)) # 수평으로 합쳐졌기 때문에 vector 그대로임

array([[1, 2],
       [2, 3],
       [3, 4]])

## matrix간 합치기

In [148]:
a = np.array([
    [1],
    [2],
    [3],
])

b = np.array([
    [2],
    [3],
    [4],
])

print(a, b, sep='\n----\n')

[[1]
 [2]
 [3]]
----
[[2]
 [3]
 [4]]


In [146]:
np.hstack((a, b))

array([[1, 2],
       [2, 3],
       [3, 4]])

In [147]:
np.vstack((a, b))

array([[1],
       [2],
       [3],
       [2],
       [3],
       [4]])

## concatenate

In [152]:
a = np.array([[1,2,3]])
b = np.array([[2,3,4]])
print(a, b, sep='\n----\n')

[[1 2 3]]
----
[[2 3 4]]


In [155]:
np.concatenate((a,b), axis=0)

array([[1, 2, 3],
       [2, 3, 4]])

In [157]:
a = np.array([[1,2], [3,4]])
b = np.array([[5, 6]])
print(a, b, sep='\n----\n')

[[1 2]
 [3 4]]
----
[[5 6]]


In [163]:
# concat 즉, 합칠때 shape가 중요한데, 세로축 axis=1 으로 합칠때 b.T 한것 주의

print( np.concatenate((a,b), axis=0) )
np.concatenate((a,b.T), axis=1)

[[1 2]
 [3 4]
 [5 6]]


array([[1, 2, 5],
       [3, 4, 6]])

# Array Operations
- Numpy는 array간의 기본적인 사칙 연산을 지원함

In [167]:
test_a = np.array([[1,2,3], [4,5,6]], float)
test_a

array([[1., 2., 3.],
       [4., 5., 6.]])

In [168]:
test_a + test_a # matrix + matrix 연산

array([[ 2.,  4.,  6.],
       [ 8., 10., 12.]])

In [169]:
test_a - test_a

array([[0., 0., 0.],
       [0., 0., 0.]])

## 행렬끼리의 곱셈
- `*` 는 그저 같은 index 위치에 있는 element 들끼리 연산
- 선형대수에서 말하는 행렬곱셈은 np.dot(matrix_a, matrix_b) 형태로 써야함

In [171]:
# 행렬곱셈과는 다르다, 그저 같은 index 위치값끼리 연산한다.
test_a * test_a

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

## Dot product
- Matrix의 기본 연산
- dot() 함수 사용

In [174]:
test_a = np.arange(1, 7).reshape(2, 3)
test_b = np.arange(7, 13).reshape(3, 2)
print(test_a, test_b, sep='\n----\n')

[[1 2 3]
 [4 5 6]]
----
[[ 7  8]
 [ 9 10]
 [11 12]]


In [175]:
test_a.dot(test_b)

array([[ 58,  64],
       [139, 154]])

## transpose (전치행렬)
- transpose 또는 T attribute 사용

In [176]:
test_a = np.arange(1, 7).reshape(2, 3)
test_a

array([[1, 2, 3],
       [4, 5, 6]])

In [179]:
test_a.transpose()
test_a.T

array([[1, 4],
       [2, 5],
       [3, 6]])

In [180]:
test_a.T.dot(test_a) # matrix간 곱셈

array([[17, 22, 27],
       [22, 29, 36],
       [27, 36, 45]])

## Broadcasting
- shape이 다른 배열 간 연산을 지원하는 기능
- 예) 
    - matrix와 scalar 간 계산
    - Scalar - Vector 간 연산
    - Vector - Matirx 간 연산
- Tensor 에서는 그림의 두번째 방식을 제일 많이 사용한다.

<center><img src="https://i.stack.imgur.com/JcKv1.png" width="80%" height="80%"></center>

In [181]:
test_matrix = np.array([[1,2,3],[4,5,6]], float)
scalar = 3

In [184]:
# broadcasting
# 행렬의 모든값에 3 을 더하게 된다.

test_matrix + scalar # matrix + scalar

array([[4., 5., 6.],
       [7., 8., 9.]])

# Numpy performance #1
- for loop
- list comprehension
- numpy
- 특징
    - 100,000,000번의 loop이 돌 때 약 4배 이상의 성능 차이를 보임
    - Numpy는 C로 구현되 있어, 성능을 확보하는 대신 (속도가 가장 빠르다.)
    - 파이썬의 가장 큰 특징인 `dunamic typing`을 포기한다.
    - 대용량 계산에서는 가장 흔히 사용됨
    - Concatenate 처럼 계산이 아닌, 할당에서는 연산 속도의 이점이 얇음 ( 그냥 python의 list 쓰셈 )

In [188]:
# Numpy 수행능력? 수행시간
def scalar_vector_product(scalar, vector):
    result = []
    for value in vector:
        result.append(scalar * value)
    return result

iternation_max = 10000000

vector = list(range(iternation_max))
scalar = 2

# %timeit - jupyter 에서 코드의 퍼포먼스를 체크하는 함수
%timeit scalar_vector_product(scalar, vector) # for loop을 이용한 성능
%timeit [scalar * value for value in range(iternation_max)] # list comprehension 을 이용한 성능
%timeit np.arange(iternation_max) * scalar # numpy를 이용한 성능

19.5 ms ± 242 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


# Comparisons

## All & Any
- Array의 데이터 전부(and) 또는 일부(or)가 조건에 만족 여부 반환

In [189]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [194]:
a > 5

array([False, False, False, False, False, False,  True,  True,  True,
        True])

In [192]:
np.any(a>5), np.any(a<0) # any -> 하나라도 조건에 만족한다면 True

(True, False)

In [193]:
np.all(a>5), np.all(a<10) # all -> 모두가 조건에 만족한다면 True

(False, True)

## Comparison opertation

In [195]:
a = np.array([1,2,3], float)
np.logical_and(a > 0, a < 3) # and 조건의 condition

array([ True,  True, False])

In [196]:
b = np.array([True, False, True], bool)
np.logical_not(b) # not 조건의 condition

array([False,  True, False])

In [197]:
c = np.array([False, True, False], bool)
np.logical_or(b, c) # or 조건의 condition

array([ True,  True,  True])

## np.where
- 이 조건에 만족하는 index 값을 리턴함
- where(조건, True일때 나올값, False일때 나올값)

In [204]:
np.where(a > 0, 3, 2) # where(condition, True, False)

array([3, 3, 3])

In [205]:
a = np.arange(10) # index 값 반환
np.where(a>5)

(array([6, 7, 8, 9]),)

In [207]:
a = np.array([1, np.NaN, np.Inf], float) # 1, 결측치(Not a Number), 무한
np.isnan(a)

array([False,  True, False])

In [209]:
np.isfinite(a) # is finite number(유한 수)

array([ True, False, False])

## argmax & argmin

In [211]:
# 최대값과 최소값의 index 값을 반환해준다.

a = np.array([1,2,4,5,8,78,23,3])
np.argmax(a), np.argmin(a)

(5, 0)

In [214]:
# 2차원 matrix에서 axis축 기준으로 최대, 최소값의 index 를 찾아준다.

a = np.array([[1,2,4,7], [9,88,6,45], [9,76,3,4]], int)
print(a)
np.argmax(a, axis=1), np.argmin(a, axis=0)

[[ 1  2  4  7]
 [ 9 88  6 45]
 [ 9 76  3  4]]


(array([3, 1, 1]), array([0, 0, 2, 2]))

## Boolean Index ( Filter 가능 )
- numpy는 배열은 특정 조건에 따른 값을 배열 형태로 추출 할 수 있음
- Comparison operation 함수들도 모두 사용가능

In [215]:
test_array = np.array([1, 4, 0, 2, 3, 8, 9, 7], float)
test_array > 3

array([False,  True, False, False, False,  True,  True,  True])

In [216]:
test_array[test_array > 3] # 조건이 True인 index의 element만 추출

array([4., 8., 9., 7.])

In [217]:
condition = test_array < 3
test_array[condition]

array([1., 0., 2.])

In [223]:
A = np.array([
    [1,2,3,4,5],
    [2,3,4,5,6],
    [3,2,1,5,8],
    [5,3,1,9,7],
    [5,3,6,7,7]
])
B = A < 6
B.astype(np.int)

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 0],
       [1, 1, 1, 1, 0],
       [1, 1, 1, 0, 0],
       [1, 1, 0, 0, 0]])

## fancy index
- array를 index value로 사용해서 값을 추출하는 방법
- 추천시스템

In [224]:
a = np.array([2, 4, 6, 8], float)
b = np.array([0, 0, 1, 3, 2, 1], int) # 반드시 integer로 선언

a[b] # bracket index, b 배열의 값을 index로 하여 a의 값을 추출함

array([2., 2., 4., 8., 6., 4.])

In [226]:
a.take(b) # take 함수: bracket index와 같은 효과

array([2., 2., 4., 8., 6., 4.])

In [233]:
# matrix 형태의 데이터도 가능

a = np.array([[1, 4], [9, 16]], float)
b = np.array([0, 0, 1, 1, 1], int)
c = np.array([0, 1, 1, 1, 0], int)
print(a)

# b를 row index, c를 column index로 변환하여 표시함
# b, c 를 zip으로 묶어줘서 (0, 0), (0, 1), (1, 1) 의 값 추출
a[b, c] # a[[0, 1], [1]]

[[ 1.  4.]
 [ 9. 16.]]


array([ 1.,  4., 16., 16.,  9.])

# numpy data i/o

## loadtxt & savetxt
- Text type의 데이터를 읽고, 저장하는 기능

In [None]:
data = np.loadtxt('./~~.txt')

In [None]:
np.savetxt('./test.csv', data, delimiter=',')

## numpy object - npy
- Numpy object (pickle) 형태로 데이터를 저장하고 불러옴
- Binary 파일 형태로 저장함

In [None]:
np.save('npy_test', arr=a_int)

In [None]:
npy_array = np.load(file='npy_test.npy')
npy_array[:3]

# Pandas 활용하여 데이터 내보내기

In [87]:
import pandas as pd
pd.DataFrame(np.arange(30)).to_csv('test.csv', index=False)