# Chapter5 Data handling

## Data handling section - Numpy(Numerical Python)

### Numpy
- 파이썬의 고성능 과학 계산용 패키지
- Matrix와 Vector와 같은 Array 연산의 사실상의 표준
- 한글로 넘파이로 주로 통칭, 넘피/늄피이라고 부르기도 함

### Numpy의 특징
- 일반 List에 비해 빠르고, 메모리 효율적
- 반복문 없이 데이터 배열에 대한 처리를 지원함
- 선형대수와 관련된 다양한 기능을 제공함
- C, C++, 포트란 등의 언어와 통합 가능

### Numpy Install
- Window 환경에선 conda로 패키지 관리 필요(C 패키지 핸들링 등)
- jupyter 등을 설치한 상태에서는 추가 설치 필요 없음

><code>conda install numpy</code>

### Import

In [3]:
import numpy as np

- numpy의 호출 방법
- 일반적으로 numpy는 np라는 alias(별칭)을 이용해서 호출함
- 특별한 이유없이 세계적인 약속

### Array creation

In [4]:
test_array = np.array(["1", "4", 5, 8], float)
test_array

array([ 1.,  4.,  5.,  8.])

- numpy는 np.array 함수를 활용하여 배열을 생성한 -> ndarray
- numpy는 하나의 데이터 type만 배열에 넣을수 있음
- List와 가장 큰 차이점, Dynamic typing not supported
- C의 Array를 사용하여 배열을 생성함

In [7]:
type(test_array[3])

numpy.float64

In [5]:
test_array = np.array([1, 4, 5, "8"], np.float32) # String Type의 데이터를 입력해도
test_array

array([ 1.,  4.,  5.,  8.], dtype=float32)

In [6]:
type(test_array[3])   # Float Type으로 자동 형변환을 실시

numpy.float32

In [8]:
test_array.dtype   # Array(배열) 전체의 데이터 Type을 반환함

dtype('float32')

In [9]:
np.array([[1, 4, 5, "8"]], np.float32).shape

(1, 4)

In [10]:
test_array.shape   # Array(배열) 의 shape을 반환함

(4,)

- shape : numpy array의 object의 dimension 구성을 반환함
- dtype : numpy array의 데이터 type을 반환함

### Arrary shape(vector)
- Array(vector, matrix, tensor)의 크기, 형태 등에 대한 정보

In [12]:
test_array = np.array([1, 4, 5, "8"], float)
test_array

array([ 1.,  4.,  5.,  8.])

### Array shape(matrix)

In [15]:
matrix = [[1,2,5,8], [1,2,5,8,], [1,2,5,8]]
np.array(matrix, int).shape

(3, 4)

### Array shape(3rd order tensor)

In [17]:
tensor = [[[1,2,5,8], [1,2,5,8,], [1,2,5,8]],
          [[1,2,5,8], [1,2,5,8,], [1,2,5,8]],
          [[1,2,5,8], [1,2,5,8,], [1,2,5,8]],
          [[1,2,5,8], [1,2,5,8,], [1,2,5,8]]]
np.array(tensor, int).shape

(4, 3, 4)

### Array shape - ndim & size
- ndim : number of demension
- size : data의 개수

In [18]:
np.array(tensor, int).ndim

3

In [20]:
np.array(tensor, int).size

48

## Handling shape

### reshape
- Array의 shape의 크기를 변경함(element 개수는 동일)

In [21]:
test_matrix = [[1,2,3,4], [1,2,5,8]]
np.array(test_matrix).shape

(2, 4)

In [22]:
np.array(test_matrix).reshape(2,2,2)

array([[[1, 2],
        [3, 4]],

       [[1, 2],
        [5, 8]]])

- Array의 size만 같다면 다차원으로 자유로이 변형가능

In [28]:
test =np.array(test_matrix).reshape(8,)
test

array([1, 2, 3, 4, 1, 2, 5, 8])

In [29]:
test.reshape(-1, 1)

array([[1],
       [2],
       [3],
       [4],
       [1],
       [2],
       [5],
       [8]])

In [24]:
np.array(test_matrix).reshape(2,4).shape

(2, 4)

In [26]:
np.array(test_matrix).reshape(-1,2).shape

(4, 2)

### flatten
- 다차원 array를 1차원 array로 변환

In [30]:
test_matrix = [[[1,2,3,4], [1,2,5,8]], [[1,2,3,4], [1,2,5,8]]]
np.array(test_matrix).flatten()

array([1, 2, 3, 4, 1, 2, 5, 8, 1, 2, 3, 4, 1, 2, 5, 8])

## indexing & slincing

### indexing
- List와 달리 이차원 배열에서 [0, 0]과 같은 표기법을 제공함
- Matrix일 경우 앞은 row 뒤는 column을 의미함

In [32]:
a = np.array([[1,2,3], [4.5,5,6]], int)
print(a)
print(a[0,0]) #Two dimensional array representation #1
print(a[0][0]) #Two dimensional array representation #2

a[0,0] = 12 #Matrix 0,0에 12할당
print(a)
a[0][0] = 5 #Matirx 0,0에 12할당
print(a)

[[1 2 3]
 [4 5 6]]
1
1
[[12  2  3]
 [ 4  5  6]]
[[5 2 3]
 [4 5 6]]


### slicing
- List와 달리 행과 열 부분을 나눠서 slicing이 가능함
- Matrix의 부분 집합을 추출할 때 유용함

In [37]:
a = np.array([[1,2,3,4,5], [6,7,8,9,10]], int)
print(a[:, 2:], ': 전체 Row의 2열이상')
print(a[1, 1:3], ": 1Row의 1열~2열")
print(a[1:3], ": 1Row~2Row의 전체")

[[ 3  4  5]
 [ 8  9 10]] : 전체 Row의 2열이상
[7 8] : 1Row의 1열~2열
[[ 6  7  8  9 10]] : 1Row~2Row의 전체


In [38]:
test_exmaple = np.array([
    [1, 2, 5,8], [1, 2, 5,8],[1, 2, 5,8],[1, 2, 5,8]], int)
test_exmaple[:2,:] 

array([[1, 2, 5, 8],
       [1, 2, 5, 8]])

In [39]:
test_exmaple[:,1:3] 
test_exmaple[1,:2] 

array([1, 2])

## creation function

### arange
- array의 범위를 지정하여, 값의 list를 생성하는 명령어

In [42]:
np.arange(30) #range: List의 range와 같은 효과, integer로 0부터 29까지 배열추출

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [43]:
np.arange(0, 5, 0.5) #floating point도 표시가능함

array([ 0. ,  0.5,  1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5])

In [45]:
np.arange(30).reshape(5,6)

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

### ones, zeros and empty
- zeros : 0으로 가득찬 ndarray 생성
> <code>np.zeros(shape, dtype, order)</code>
- ones : 1로 가늑찬 ndarray 생성
> <code>np.ones(shape, dtype, order)</code>
- empty : shape만 주어지고 비어있는 ndarray 생성(memory initialization이 되지 않음)

In [46]:
np.zeros(shape=(10,), dtype=np.int8) #10 - zero vector 생성

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int8)

In [47]:
np.zeros((2,5)) #2 by 5 - zeros matrix 생성

array([[ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.]])

In [48]:
np.ones(shape=(10,), dtype=np.int8) 

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int8)

In [49]:
np.ones((2,5))

array([[ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.]])

In [50]:
np.empty(shape=(10,), dtype=np.int8) 

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int8)

In [51]:
np.empty((3,5))

array([[ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.]])

### something_like
- 기존의 ndarray의 shape 크기 만큼 1, 0 또는 empty array를 반환

In [52]:
test_matrix = np.arange(30).reshape(5,6)
np.ones_like(test_matrix)

array([[1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1]])

### identity
- 단위 행렬(i 행렬)을 생성함

In [54]:
np.identity(n=3, dtype=np.int8)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]], dtype=int8)

In [55]:
np.identity(5)

array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])

### eye
- 대각선이 1인 행렬, k값의 시작 index의 변경이 가능

In [56]:
np.eye(N=3, M=5, dtype=np.int8)

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0]], dtype=int8)

In [57]:
np.eye(3)

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

In [58]:
np.eye(3,5,k=2) #k : start index

array([[ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])

### diag
- 대각 행렬의 값을 추출함

In [61]:
matrix

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [59]:
matrix = np.arange(9).reshape(3,3)
np.diag(matrix)

array([0, 4, 8])

In [60]:
np.diag(matrix, k=1)

array([1, 5])

### random sampling
- 데이터 분포에 따른 sampling으로 array를 생성

In [62]:
np.random.uniform(0,1,10).reshape(2,5) #균등 분포

array([[ 0.83972904,  0.73442692,  0.56178665,  0.83604163,  0.33287501],
       [ 0.05194852,  0.87276517,  0.85390302,  0.01387212,  0.06408945]])

In [64]:
np.random.normal(0,1,10).reshape(2,5) #정규 분포

array([[-0.22881152, -1.73050067, -0.17674567, -0.24229798, -1.51776029],
       [ 1.24230131,  0.00477904,  0.13287851, -0.91353918, -0.63514719]])

## operation function

### sum
- ndarray의 element들 간의 합을 구함, list의 sum 기능과 동일

In [65]:
test_array = np.arange(1,11)
test_array

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [66]:
test_array.sum(dtype=np.float)

55.0

### axis
- 모든 operation function을 실행할 때, 기준이 되는 dimension 축

In [67]:
test_array = np.arange(1,13).reshape(3,4)
test_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [68]:
test_array.sum(axis=1), test_array.sum(axis=0)

(array([10, 26, 42]), array([15, 18, 21, 24]))

In [70]:
third_order_tensor = np.array([test_array, test_array, test_array])
third_order_tensor

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]]])

### mean & std
- ndarray의 element들 간의 평균 또는 표준 편차를 반환

In [71]:
test_array = np.arange(1,13).reshape(3,4)
test_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [72]:
test_array.mean(), test_array.mean(axis=0)

(6.5, array([ 5.,  6.,  7.,  8.]))

In [73]:
test_array.std(), test_array.std(axis=0)

(3.4520525295346629,
 array([ 3.26598632,  3.26598632,  3.26598632,  3.26598632]))

### Mathematical functions
- 그 외에도 다양한 수학 연산자를 제공함

### concatenate
- Numpy array를 합치는 변수

In [74]:
a = np.array([1,2,3])
b = np.array([2,3,4])
np.vstack((a,b)) #vertical: 수직

array([[1, 2, 3],
       [2, 3, 4]])

In [75]:
a = np.array([ [1], [2], [3] ])
b = np.array([ [2], [3], [4] ])
np.hstack((a,b)) #horizontal: 수평

array([[1, 2],
       [2, 3],
       [3, 4]])

In [78]:
a = np.array([[1,2,3]])
b = np.array([[2,3,4]])
np.concatenate( (a,b), axis=0 )

array([[1, 2, 3],
       [2, 3, 4]])

In [77]:
a = np.array([[1,2], [3,4]])
b = np.array([[5,6]])
np.concatenate( (a, b.T), axis=1)

array([[1, 2, 5],
       [3, 4, 6]])

## array operations

### Operations b/t ararys
- Numpy는 array간의 기본적인 사칙 연산을 지원함

In [80]:
test_a = np.array([[1,2,3], [4,5,6]], float)
test_a + test_a #Matrix + Matrix 연산

array([[  2.,   4.,   6.],
       [  8.,  10.,  12.]])

In [81]:
test_a - test_a #Matrix - Matrix 연산

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [82]:
test_a * test_a #Matrix내 element들 간 같은 위치에 있는 값끼리 연산

array([[  1.,   4.,   9.],
       [ 16.,  25.,  36.]])

### Element-wise operations
- Array간 shape이 같을 때 일어나는 연산

In [84]:
matrix_a = np.arange(1,13).reshape(3,4)
matrix_a * matrix_a

array([[  1,   4,   9,  16],
       [ 25,  36,  49,  64],
       [ 81, 100, 121, 144]])

### Dot product
- Matrix의 기본 연산
- dot 함수 사용

In [86]:
test_a = np.arange(1,7).reshape(2,3)
test_b = np.arange(7,13).reshape(3,2)
test_a.dot(test_b)

array([[ 58,  64],
       [139, 154]])

### transpose
- transpose 또는 T arrtibute 사용

In [87]:
test_a = np.arange(1,7).reshape(2,3)
test_a

array([[1, 2, 3],
       [4, 5, 6]])

In [88]:
test_a.transpose()

array([[1, 4],
       [2, 5],
       [3, 6]])

In [89]:
test_a.T.dot(test_a)

array([[17, 22, 27],
       [22, 29, 36],
       [27, 36, 45]])

In [90]:
test_a.T

array([[1, 4],
       [2, 5],
       [3, 6]])

### broadcastiong
- Shape이 다른 배열 간 연산을 지원하는 기능

In [91]:
test_matrix = np.array([[1,2,3], [4,5,6]], float)
scalar = 3

In [92]:
test_matrix + scalar #Matrix - Scalar 덧셈

array([[ 4.,  5.,  6.],
       [ 7.,  8.,  9.]])

In [93]:
test_matrix - scalar # Matrix - Scalar 뺄셈

array([[-2., -1.,  0.],
       [ 1.,  2.,  3.]])

In [94]:
test_matrix * 5 # Matrix - Scalar 곱셈

array([[  5.,  10.,  15.],
       [ 20.,  25.,  30.]])

In [95]:
test_matrix / 5 # Matrix - Scalar 나눗셈

array([[ 0.2,  0.4,  0.6],
       [ 0.8,  1. ,  1.2]])

In [96]:
test_matrix // 0.2 # Matrix - Scalar 몫

array([[  4.,   9.,  14.],
       [ 19.,  24.,  29.]])

In [97]:
test_matrix ** 2 # Matrix - Scalar 제곱

array([[  1.,   4.,   9.],
       [ 16.,  25.,  36.]])

- Scalar - vector 외에도 vector - matrix 간의 연산도 지원

## comparisons

### All & Any
- Array의 데이터 전부(and) 또는 일부(or)가 조건에 만족 여부 반환

In [98]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [101]:
a>5

array([False, False, False, False, False, False,  True,  True,  True,  True], dtype=bool)

In [99]:
np.any(a>5), np.any(a<0) #any -> 하나라도 조건에 만족한다면 true

(True, False)

In [100]:
np.all(a>5), np.all(a<10) #all -> 모두가 조건에 만족한다면 true

(False, True)

### np.where

In [102]:
np.where(a > 0, 3, 2) #where(condition, TRUE, FALSE)

array([2, 3, 3, 3, 3, 3, 3, 3, 3, 3])

In [103]:
a = np.arange(10)
np.where(a>5)

#index 값 반환

(array([6, 7, 8, 9], dtype=int64),)

In [104]:
a = np.array([1, np.NaN, np.Inf], float) #Not a number
np.isnan(a)

array([False,  True, False], dtype=bool)

In [105]:
np.isfinite(a) #is finite number

array([ True, False, False], dtype=bool)

### argmax & argmin
- array내 최대값 또는 최소값의 index를 반환함

In [107]:
a = np.array([1,2,4,5,8,78,23,3])
np.argmax(a), np.argmin(a)

(5, 0)

- axis 기반의 반환

In [108]:
a=np.array([[1,2,4,7], [9,88,6,45], [9,76,3,4]])
np.argmax(a, axis=1), np.argmin(a, axis=0)

(array([3, 1, 1], dtype=int64), array([0, 0, 2, 2], dtype=int64))

## boolean & fancy index

### boolean index
- numpy 배열은 특정 조건에 따른 값을 배열 형태로 추출할 수 있음
- Comparison operation 함수들도 모두 사용가능

In [111]:
test_array = np.array([1,4,0,2,3,8,9,7], float)
test_array > 3

array([False,  True, False, False, False,  True,  True,  True], dtype=bool)

In [112]:
test_array[test_array > 3] #조건이 True인 index의 element만 추출

array([ 4.,  8.,  9.,  7.])

In [113]:
condition = test_array < 3
test_array[condition]

array([ 1.,  0.,  2.])

In [114]:
A = np.array([
[12, 13, 14, 12, 16, 14, 11, 10,  9],
[11, 14, 12, 15, 15, 16, 10, 12, 11],
[10, 12, 12, 15, 14, 16, 10, 12, 12],
[ 9, 11, 16, 15, 14, 16, 15, 12, 10],
[12, 11, 16, 14, 10, 12, 16, 12, 13],
[10, 15, 16, 14, 14, 14, 16, 15, 12],
[13, 17, 14, 10, 14, 11, 14, 15, 10],
[10, 16, 12, 14, 11, 12, 14, 18, 11],
[10, 19, 12, 14, 11, 12, 14, 18, 10],
[14, 22, 17, 19, 16, 17, 18, 17, 13],
[10, 16, 12, 14, 11, 12, 14, 18, 11],
[10, 16, 12, 14, 11, 12, 14, 18, 11],
[10, 19, 12, 14, 11, 12, 14, 18, 10],
[14, 22, 12, 14, 11, 12, 14, 17, 13],
[10, 16, 12, 14, 11, 12, 14, 18, 11]])
B = A < 15
B.astype(np.int)

array([[1, 1, 1, 1, 0, 1, 1, 1, 1],
       [1, 1, 1, 0, 0, 0, 1, 1, 1],
       [1, 1, 1, 0, 1, 0, 1, 1, 1],
       [1, 1, 0, 0, 1, 0, 0, 1, 1],
       [1, 1, 0, 1, 1, 1, 0, 1, 1],
       [1, 0, 0, 1, 1, 1, 0, 0, 1],
       [1, 0, 1, 1, 1, 1, 1, 0, 1],
       [1, 0, 1, 1, 1, 1, 1, 0, 1],
       [1, 0, 1, 1, 1, 1, 1, 0, 1],
       [1, 0, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 1, 1, 1, 1, 1, 0, 1],
       [1, 0, 1, 1, 1, 1, 1, 0, 1],
       [1, 0, 1, 1, 1, 1, 1, 0, 1],
       [1, 0, 1, 1, 1, 1, 1, 0, 1],
       [1, 0, 1, 1, 1, 1, 1, 0, 1]])

### fancy index
- numpy는 array를 index value로 사용해서 값을 추출하는 방법

In [115]:
a = np.array([2,4,6,8], float)
b = np.array([0,0,1,3,2,1], int) #반드시 integer로 선언
a[b] #bracket index, b배열의 값을 index로 하여 a의 값을 추출함

array([ 2.,  2.,  4.,  8.,  6.,  4.])

In [116]:
a.take(b) #take 함수: bracket index와 같은 효과

array([ 2.,  2.,  4.,  8.,  6.,  4.])

- Matrix 형태의 데이터도 가능

In [117]:
a = np.array([[1,4], [9,16]], float)
b = np.array([0,0,1,1,0], int)
c = np.array([0,1,1,1,1], int)
a[b,c] #b를 row index, c를 column index로 변환하여 표시함.

array([  1.,   4.,  16.,  16.,   4.])

## numpy data i/o

### loadtxt & savetxt
- Text type의 데이터를 읽고, 저장하는 기능

In [118]:
a = np.loadtxt("./populations.txt")
a[:10]

FileNotFoundError: [Errno 2] No such file or directory: './populations.txt'

In [119]:
a_int = a.astype(int)
a_int[:3]

array([[ 1,  4],
       [ 9, 16]])

In [120]:
np.savetxt('int_data.csv',a_int, delimiter=",")

### numpy object - npy
- Numpy object(pickle) 형태로 데이터를 저장하고 불러옴
- Binary 파일 형태로 저장함

In [121]:
np.save("npy_test", arr=a_int)

In [122]:
npy_array = np.load(file="npy_test.npy")
npy_array[:3]

array([[ 1,  4],
       [ 9, 16]])