# Data Handling - Numpy

### 코드로 방정식 표현하기
- 2x + 2y + z = 9 > [ 2 2 1 9 ] , 리스트로 표현 가능
- 하지만 다양한 Matrix 계산을 어떻게 만들 것 인가?
- 굉장히 큰 Matrix의 표현은?
- 파이썬은 Interpreter 언어라 속도가 느림
- 적절한 패키지를 활용하는 것이 좋다.

### Numpy
- Numerical Python의 약자
- 파이썬의 고성능 과학 계산용 패키지
- Matrix와 Vector와 같은 Array연산의 사실상의 표준
- 넘파이, 넘피, 늄파이 등으로 부르기도함.

### Numpy 특징
- 일반 List에 비해 빠르고, 메모리를 효율적으로 사용한다.
- 반복문(for문 등) 없이 데이터 배열에 대한 처리를 지원한다.
- 선형대수와 관련된 다양한 기능을 제공함
- C, C++, 포트란 등의 언어와 통합 가능
- ndarray가 가장 기본 단위이다.
- aslias(별칭)을 np로 사용하는 것이 세계적인 약속이다.

### Array creation
- numpy는 np.array 함수를 활용하여 배열을 생성 > ndarray
- numpy는 하나의 데이터 type만 배열에 넣을 수 있음
- List와의 가장 큰 차이점 : Dynapic typing not supported 즉 실행시점에 데이터 타입을 결정하여 마지막에 데이터 타입을 결정해 여러가지 데이터 타입을 넣을 수 있던 List와 달리 하나의 데이터만 넣을 수 있다.
- C의 Array를 사용하여 배열을 생성한다.

In [6]:
import numpy as np
test_array = np.array([1, 4, 5, 8], float)
print(test_array)
type(test_array[3]) # 64는 64비트

[1. 4. 5. 8.]


numpy.float64

## Array shape
- numpy array의 object의 dimnsion 구성을 반환함
- matrix의 크기
- 중요한 개념!

In [17]:
test_array = np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]],float)
print(test_array.shape)

(4, 3)


### Array shape - ndim & size
- ndim : number of dimnsion
- size : data의 갯수

In [22]:
print(test_array.ndim) # 2차원
print(test_array.size) # 총 데이터 4 * 3 = 12개

2
12


### Array dtype
- numpy array 전체의 데이터 Type을 반환함
- 대부분 float 32 사용

In [30]:
test_array = np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]], float)
print(test_array.dtype)

float64


### Array dtype - nbytes
- nbytes : ndarray object의 메모리 크기를 반환

In [29]:
test_array = np.array([[1,2,3],[4,5,6]], dtype = np.float32)
# 32bits = 4bytes 
print(test_array.nbytes) # 6 * 4

test_array = np.array([[1,2,3],[4,5,6]], dtype = np.int8)
# 8bits = 1bytes
print(test_array.nbytes) # 6 * 1

test_array = np.array([[1,2,3],[4,5,6]], dtype = np.float64)
# 64bits = 8bytes
print(test_array.nbytes) # 6 * 8

24
6
48


## Handling shape
### reshape
- Array의 shaped의 크기를 변경함 element 갯수는 동일
- sklearn등에서 Vector형태를 Matrix로 바꿀 때 자주 사용
- ex) 2 x 4 행렬 > 1 x 8 행렬

In [31]:
test_matrix = [[1,2,3,4],[1,2,5,8]]
np.array(test_matrix).shape

(2, 4)

In [39]:
# 2 * 4 = 2 * 2 * 2 
print(np.array(test_matrix).reshape(2,2,2))

# 2 * 4 = 1 * 8
print(np.array(test_matrix).reshape(1,8))

[[[1 2]
  [3 4]]

 [[1 2]
  [5 8]]]
[[1 2 3 4 1 2 5 8]]


In [48]:
# row의 갯수를 정확하게 모르지만 column의 갯수를 2개로 만들고 싶을때
# -1 : size를 기반으로 row 개수 선정
print(np.array(test_matrix).reshape(-1,2))

# shape을 찍으면 4,2
np.array(test_matrix).reshape(-1,2).shape

[[1 2]
 [3 4]
 [1 2]
 [5 8]]


(4, 2)

In [53]:
# 8개 데이터를 row vector로
test = np.array(test_matrix).reshape(8,)
test

array([1, 2, 3, 4, 1, 2, 5, 8])

In [54]:
# 8개 데이터를 column vector로
test = np.array(test_matrix).reshape(-1,1)
test

array([[1],
       [2],
       [3],
       [4],
       [1],
       [2],
       [5],
       [8]])

### flatten
- 다차원 array를 1차원 array로 변환
- reshape을 써도 되지만 쉽게 펴준다.

In [56]:
test_matrix = [[[1,2,3,4],[1,2,5,8]],[[1,2,3,4],[1,2,5,8]]]
np.array(test_matrix).flatten()

array([1, 2, 3, 4, 1, 2, 5, 8, 1, 2, 3, 4, 1, 2, 5, 8])

## Indexing & slicing

### Indexing
- List와 달리 이차원 배열에서 [0, 0]과 같은 표기법을 제공함
- Matrix의 경우 앞은 row 뒤는 cloumn을 의미함

In [63]:
test_matrix = np.array([[1,2,3,4],[1,2,5,8]],int)
print(test_matrix[0,0])
print(test_matrix[0][0])

1
1


### slicing
- List와 달리 행과 열 부분을 나눠서 slicing이 가능함
- Matrix의 부분 집합을 추출할 때 유용함

In [69]:
test_matrix = np.array([[1,2,3,4,5],[6,7,8,9,10]],int)

In [70]:
test_matrix[:, 2:] # 전체 Row의 2열 이상

array([[ 3,  4,  5],
       [ 8,  9, 10]])

In [67]:
test_matrix[1, 1:3] # 1 Row의 1~2열

array([7, 8])

In [68]:
test_matrix[1:3] # 1 Row ~ 2 Row의 전체

array([[ 6,  7,  8,  9, 10]])

In [73]:
test_matrix[:,1:3] # 전체 Row의 1열~2열

array([[2, 3],
       [7, 8]])

#### 띄워서 slicing(거의 사용 X)

In [77]:
test_matrix[:,::2] # 전체 Row중 2칸 씩 띄워서

array([[ 1,  3,  5],
       [ 6,  8, 10]])

In [76]:
test_matrix[::2,::3] # ~ 1 까지 Row 중 3칸씩 띄워서 

array([[1, 4]])

## creation function
numpy array 생성 하는 방법

### arange
- array의 범위를 지정하여, 값의 list를 생성하는 명령어

In [79]:
np.arange(30) # arange : List의 range와 같은 효과, integer 0~29

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [86]:
np.arange(0, 30, 5) # (시작, 끝, step)을 의미

array([ 0,  5, 10, 15, 20, 25])

In [87]:
np.arange(0, 5, 0.5).tolist() # 리스트와 달리 floating point도 설정가능하므로 list에서 필요할 때 tolist()로 사용도 가능하다.

[0.0, 0.5, 1.0, 1.5, 2.0, 2.5, 3.0, 3.5, 4.0, 4.5]

In [83]:
np.arange(30).reshape(-1,5)# 만든 배열를 reshape해 matrix로 변환 가능

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]])

### ones, zeros and empty
- zeros : 0으로 가득찬 ndarray 생성  
- ones : 1로 가득찬 ndarray 생성  
- empty : shape만 주어지고 비어있는 ndarray 생성(memory initialization 이 되지 않음) 메모리 공간만 잡아준다. ( 거의 안씀)

In [100]:
# 기본구조 : np.zeros(shape,dtype,order)
np.zeros(shape=(10,), dtype = np.int8) # 10개의 데이터를 가지는 zero vector생성

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int8)

In [92]:
np.zeros((2, 5), dtype = np.int8) # 2*5 의 zero matrix 생성

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0]], dtype=int8)

In [99]:
np.ones((3,4), dtype = np.float64)# 2 *4 의 one matrix

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

### something_like
- 기존 ndarray의 shape 크기 만큼 1, 0 또는 empty array를 반환
- tensorflow는 numpy에 미분을 가능하게 해주는 모듈로 생각보다 사용 빈도가 있다.

In [102]:
test_matrix = np.arange(30).reshape(5, 6)
np.ones_like(test_matrix)

array([[1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1]])

In [106]:
np.zeros_like(test_matrix)

array([[0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0]])

### identity
- 단위 행렬 (i 행렬) 생성
- n은 number of rows 의미

In [108]:
np.identity(n=3, dtype = np.int8)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]], dtype=int8)

In [110]:
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

### eye
- 대각선이 1인 행렬, k값을 지정하여 시작 index 설정이 가능하다.

In [115]:
np.eye(N = 3, M = 5, dtype = np.int8)

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0]], dtype=int8)

In [116]:
np.eye(3,5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.]])

In [119]:
np.eye(5) # identity

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [124]:
np.eye(4, 7, k = 2) # k = start index

array([[0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0.]])

### diag
- 대각 행렬의 값 추출

In [125]:
matrix = np.arange(9).reshape(3, 3)
print(matrix)
np.diag(matrix)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


array([0, 4, 8])

In [126]:
np.diag(matrix, k = 1) # k start index

array([1, 5])

### random sampling
- 데이터 분포에 따른 sampling으로 array를 생성

#### 균등 분포

In [128]:
np.random.uniform(0,1,10).reshape(2,5)

array([[0.87171817, 0.88764393, 0.13594846, 0.8360082 , 0.39323105],
       [0.74101723, 0.79313384, 0.50058477, 0.88128704, 0.00442702]])

#### 정규 분포

In [130]:
np.random.normal(0,1,10).reshape(2,5)

array([[-1.44267898, -0.06098191, -0.37127715,  1.2943759 , -1.46437856],
       [ 0.82436016, -0.73363802,  0.16272333, -1.38591877, -0.72058574]])

### sum
- ndarray의 element들 간의 합을 구함(list의 sum과 동일)

In [135]:
test_array = np.arange(1,11)
test_array.sum(dtype = np.float64)

55.0

### axis
- axis 개념을 아는 것이 중요!
- 모든 operation function을 실행할 때, 기준이 되는 dimension 축
- 즉 계산을 할때 어떤 축을 기준으로 하는지를 알아야 함.

In [137]:
test_array = np.arange(1, 13).reshape(3, 4)
test_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [144]:
test_array.sum() # 모든 데이터 합

78

In [140]:
test_array.sum(axis = 1) # axis = 1  후에 생기는 shape (열을 기준)

array([10, 26, 42])

In [143]:
test_array.sum(axis = 0) # axis = 0 새로 생기는 shape (행을 기준)

array([15, 18, 21, 24])

In [145]:
# 3차원 array라서 축이 밀리더라도 기존의 axis값은 유지 하며 새로 생기는 축이 새로운 axis값 할당 받음

### 그 외에도 다양한 수학 연산자 제공
- mean : 평균
- std : 표준편차
- sin, cos, sinh, cosh, log 등등

### concatenate
- Numpy array를 합치는 함수.

In [148]:
# vstack
a = np.array([1, 2, 3])
b = np.array([2, 3, 4])
np.vstack((a, b))

array([[1, 2, 3],
       [2, 3, 4]])

In [149]:
# hstack
a = np.array([[1], [2], [3]])
b = np.array([[2], [3], [4]])
np.hstack((a, b))

array([[1, 2],
       [2, 3],
       [3, 4]])

In [151]:
# concatenate & axis , 축을 기준으로 붙여줌
a = np.array([[1, 2, 3]])
b = np.array([[2, 3, 4]])
np.concatenate((a,b), axis = 0) # a에 b를 row 기준으로 붙임

array([[1, 2, 3],
       [2, 3, 4]])

In [153]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6]])
np.concatenate((a, b.T), axis = 1) # a에 b의 전치행렬을 row 뒤에 붙임

array([[1, 2, 5],
       [3, 4, 6]])

## Array Operation

### Operation b/t arrays
- Numpy는 array간 기본적인 사칙 연산을 지원함

### Element-wise operations
- Array간 shape이 같을 때 일어나는 연산
- numpy가 operation이전에 shape이 같은지 먼저 확인한다.

In [155]:
test_a = np.array([[1,2,3],[4,5,6]], float)

test_a + test_a # Matrx + Matrix의 연산

array([[ 2.,  4.,  6.],
       [ 8., 10., 12.]])

In [156]:
test_a - test_a # Matrix - Matrix 연산

array([[0., 0., 0.],
       [0., 0., 0.]])

In [157]:
test_a * test_a # Matrix내 element들 간 같은 위치의 값들 끼리 연산

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

### Dot product
- Matrix의 기본 연산
- dot 함수 사용

In [162]:
test_a = np.arange(1, 7).reshape(2, 3)
test_b = np.arange(7, 13).reshape(3, 2)

test_a.dot(test_b)

array([[ 58,  64],
       [139, 154]])

### transpose
- transpose 또는 T attribute 사용
- 전치행렬로 변환

In [164]:
test_a = np.arange(1, 7).reshape(2, 3)

test_a.transpose()

array([[1, 4],
       [2, 5],
       [3, 6]])

In [165]:
test_a.T

array([[1, 4],
       [2, 5],
       [3, 6]])

### broadcasting
- operation에서 제일 중요한 개념
- Shape이 다른 배열 간 연산을 지원하는 기능(퍼뜨려서 계산)

In [167]:
test_matrix = np.array([[1,2,3],[4,5,6]], float)
scalar = 3
test_matrix + scalar # Matrix + Scalar 덧셈

array([[4., 5., 6.],
       [7., 8., 9.]])

In [169]:
test_matrix - scalar # Matrix - Scalar 뺄셈

array([[-2., -1.,  0.],
       [ 1.,  2.,  3.]])

In [170]:
test_matrix * scalar # Matrix * Scalar 곱셈

array([[ 3.,  6.,  9.],
       [12., 15., 18.]])

In [171]:
test_matrix / scalar # Matrix / Scalar 나눗셈

array([[0.33333333, 0.66666667, 1.        ],
       [1.33333333, 1.66666667, 2.        ]])

In [173]:
test_matrix // 0.2 # Matrix // Scalar 몫

array([[ 4.,  9., 14.],
       [19., 24., 29.]])

In [174]:
test_matrix ** 2 # Matrix ** Scalar 제곱

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

### broadcasting
- Scalar - vector 외에도 vector - matrix간의 연산도 지원

In [175]:
test_matrix = np.arange(1,13).reshape(4,3)
test_matrix

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [177]:
test_vector = np.arange(10,40,10)
test_vector

array([10, 20, 30])

In [178]:
test_matrix + test_vector

array([[11, 22, 33],
       [14, 25, 36],
       [17, 28, 39],
       [20, 31, 42]])

### Numpy performance 
- Matrix연산에 있어 속도는 Numpy(c언어) > list comprehension > for문 이다.
- 10**9번 연산 기준으로 약 4배 이상의 성능 차이를 보임
- 하지만 Numpy는 C로 구현되어 있어 dynamic typing을 포기하므 concatename처럼 계산이 아닌 할당 즉, Data를 붙일 때는 파이썬이 더 빠르다. 
- 그러므로 대용량 계산에서 가장 흔히 사용됨

## comparisions

### All&Any
- Array의 데이터 전부(and) 또는 일부(or)가 조건에 만족하는지에 대한 여부를 반환

In [180]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [182]:
a > 5 # a가 5보다 크다(일종의 broadcasting, 각 데이터를 5와 비교하므로)

array([False, False, False, False, False, False,  True,  True,  True,
        True])

In [184]:
np.any(a > 5)  , np.any(a<0)

(True, False)

In [185]:
np.all(a > 5)  , np.any(a<10)

(False, True)

### Comparison operation #2
- 여러 조건들에 대한 bool값
- logical_and / logical_not / logical_or
- 자주는 사용 x

In [186]:
a = np.array([1,3,0],float)
np.logical_and(a > 0, a < 3) # and 조건의 condition

array([ True, False, False])

In [188]:
b = np.array([1,0,1], bool)
np.logical_not(b) # NOT조건의 condition

array([False,  True, False])

In [189]:
c = np.array([0,1,0], bool)
np.logical_or(b, c) # or 조건의 condition

array([ True,  True,  True])

### np.where 
- 해당 조건에 만족하는 index값 반환
- 구조_1 : where(condition, True, False) > 만족하면 True 아니면 False
- 구조_2 : where(contdition) > 만족하는 Index반환
- 구조_2가 가장 많이 사용

In [192]:
a = np.array([1,3,0],float)

np.where(a > 0, 3, 2) # 각 index별로 True일경우 3을 False일경우 2를 반환

array([3, 3, 2])

In [193]:
np.where(a>0) # 만족하는 index반환

(array([0, 1], dtype=int64),)

### np.isnan
- Not a Number
- 숫자가 아니면 True 숫자이면 False반환

In [195]:
a = np.array([1, np.NaN, np.Inf], float)
np.isnan(a)

array([False,  True, False])

### mp.isfinite

In [196]:
np.isfinite(a)

array([ True, False, False])

## argmax & argmin
#### array내 최대값 또는 최소값의 index를 반환함

In [197]:
a = np.array([1,2,4,5,7,78,23,3])
np.argmax(a), np.argmin(a)

(5, 0)

#### axis 기반의 반환 

In [201]:
a = np.array([[1,2,4,7],[9,88,6,45],[9,76,3,4]])
a

array([[ 1,  2,  4,  7],
       [ 9, 88,  6, 45],
       [ 9, 76,  3,  4]])

In [203]:
np.argmax(a, axis = 1), np.argmin(a, axis = 0) # row별 max , column별 min

(array([3, 1, 1], dtype=int64), array([0, 0, 2, 2], dtype=int64))

### Numpy의 모든 기능들을 다 외울 순 없다. Numpy에서 for문을 쓰는 안좋은 버릇을 버리고 이런것이 있다는 것을 인지하고 필요 할 때 마다 찾아서 사용하자

## boolean index
- numpy는 배열의 특정 조건에 따른 값을 배열 형태로 추출 할 수 있다.
- Comparison operation 함수들도 모두 사용 가능

In [204]:
test_array = np.array([1, 4, 0, 2, 3, 8, 9, 7], float)
test_array > 3

array([False,  True, False, False, False,  True,  True,  True])

In [205]:
test_array[test_array > 3] # 조건이 True인 index를 활용히 element만 추출

array([4., 8., 9., 7.])

In [206]:
condition = test_array < 3 # 변수로 지정해서 사용가능
test_array[condition]

array([1., 0., 2.])

In [211]:
A = np.array([15,16,14,16,15,16,14,14,16,17,15])
B = A < 15
print(B)

# 조건의 만족 여부를 Binary 형태로 출력
B.astype(int)

[False False  True False False False  True  True False False False]


array([0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0])

### fancy index
- numpy의 array를 index value로 사용해서 값을 추출하는 방법

In [212]:
a = np.array([2, 4, 6, 8], float)
b = np.array([0, 0, 1, 3, 2, 1], int) # index를 담은 값 반드시 integer type!!

a[b] # bracket index, b 배열의 값을 index로 하여 a의 값을 추출함

array([2., 2., 4., 8., 6., 4.])

In [213]:
# take 함수 : bracket index와 같은 효과
# a[b]보다  코드의 가독성 면에서 권장

a.take(b) 

array([2., 2., 4., 8., 6., 4.])

#### Matrix 형태의 데이터도 fancy index 사용 가능

In [214]:
a = np.array([[1,4],[9,16]], float)
row_index = np.array([0,0,1,1,0],int)
column_index = np.array([0,1,1,1,1],int)
a[row_index, column_index] # 각 각 row, column의 각 인덱스로 변환 함

array([ 1.,  4., 16., 16.,  4.])

#### Numpy, 특히 fancy index등은 추천시스템에서 많이 사용된다. 추천 시스템은 머신러닝의 일종이긴 하나 좋은 모듈이 없어서 직접 구현을 해야하는 경우가 많기 때문이다.

### numpy object - npy
- Numpy object(pickle) 형태로 데이터를 저장하고 불러옴
- Binary 파일 형태로 저장

In [217]:
a_int = np.array([1,2,3],dtype=np.int8)
np.save("npy_test", arr = a_int)

In [218]:
npy_array = np.load(file = "npy_test.npy")
npy_array

array([1, 2, 3], dtype=int8)