# 1. Numerial Python - Numpy

- 어떻게 수식을 코드로 표현할 것인가?

## 코드로 방정식 표현하기

<img src="../img/Screen Shot 2018-08-29 at 2.11.54 PM.png" width="500">

In [1]:
coefficient_matrix = [[2, 2, 1], [2, -1, 2], [1, -1, 2]]
constant_vector = [9, 6, 5]

하지만 위의 코드처럼 표현할 때 문제가 생김

- 다양한 Matrix 계산을 어떻게 만들 것인가?
- 굉장히 큰 Matrix에 대한 표현
- 처리 속도 문제(파이썬은 Interpreter 언어 - 여기서 인터프리터(interpreter)는 프로그래밍 언어의 소스 코드를 바로 실행하는 컴퓨터 프로그램 또는 환경을 말한다.

따라서 적절한 패키지를 활용하는 것이 좋은 방법

## Numpy이란?

- Numerical Python
- 파이썬의 고성능 과학 계산용 패키지
- Matrix와 Vector와 같은 Array 연산의 사실상 표준
- 한글로 넘파이로 주로 통칭, 넘피/늄파이라고 부르기도 함

## Numpy 특징

- 일반 List에 비해 빠르고(C언어로 짜여져 있음), 메모리 효율성이 높음
- 반복문(for문이나 list compression) 없이 데이터 배열에 대한 처리를 지원함
- 선형대수와 관련된 다양한 기능을 제공함
- C, C++, 포트란 등의 언어와 통합 가능

---

# 2. Ndarray

## Numpy import

- numpy의 호출 방법
- 일반적으로 numpy는 np라는 alias(별칭)를 이용해서 호출함
- 특별한 이유는 없음. 세계적인 약속 같은 것

설치는 아래와 같이 하면 됨

- pip install numpy

In [2]:
import numpy as np

## Array creation

- numpy는 np.array 함수를 활용하여 배열을 생성함 -> ndarray (n-dimension array)
- numpy는 하나의 데이터 type만 배열에 넣을 수 있음
- List와 가장 큰 차이점, Dynamic typing not supported
- C의 Array를 사용하여 배열을 생성함

추가적으로 Dynamic typing이란, 파이썬에서는 실행시점에서 데이터 타입을 결정하기 때문에 다양한 데이터 타입이 리스트에 들어갈 수 있다. 그러니까 메모리에 공간을 처음 시작할 때 잡아두는 것이 아니라 계속해서 추가할 수 있도록 되어있기 때문에 하나의 리스트에도 다양한 타입들이 들어갈 수가 있다.

하지만 numpy는 이것을 허락하지 않는다. 그래서 밑의 코드와 같이 str 자료형과 int 자료형이 들어가도 float로 선언을 했기 때문에 출력을 했을 때 float 자료형으로서 뒤에 .이 붙어서 나오는 것을 볼 수 있다. 이러한 점이 기존의 list와 numpy ndarray의 가장 큰 차이점이다.

In [3]:
test_array = np.array(["1", "4", 5, 8], float)
test_array

array([1., 4., 5., 8.])

In [4]:
print(test_array)

[1. 4. 5. 8.]


In [5]:
type(test_array)

numpy.ndarray

In [6]:
type(test_array[1])

numpy.float64

여기서 64는 비트의 수를 말한다. 다시 말해 하나의 element가 차지하는 메모리의 공간이 64 비트인 것이다.

이번에는 32비트로 지정하여 출력해보자.

In [7]:
test_array = np.array([1, 4, 5, "8"], np.float32)
test_array

array([1., 4., 5., 8.], dtype=float32)

In [8]:
print(test_array)

[1. 4. 5. 8.]


In [9]:
type(test_array)

numpy.ndarray

In [10]:
type(test_array[1])

numpy.float32

다음으로 아래의 그림을 보자.

<img src="../img/Screen Shot 2018-08-29 at 2.52.26 PM.png" width="600">

Python List의 경우 바로 그 list를 가리키는 것이 아니라 메모리의 주소를 가리키게 된다. 그래서 어떠한 리스트를 복사할 때 우리는 [:]를 이용하거나 import copy를 이용해야만 했다.

하지만 Numpy Array는 메모리의 주소를 가리키는 것이 아니라 데이터를 쌓게 되고, 직접적으로 그 데이터를 가리킨다. 그래서 연산이 더 빠르다.

다음으로 기본적인 내용들을 정리해보자.

In [11]:
test_array = np.array([[1, 4, 5, "8"], [3, 5, 6, 7]], float)

In [12]:
print(test_array)
print(type(test_array[0][3]))
print(test_array.shape)
print(test_array.dtype)

[[1. 4. 5. 8.]
 [3. 5. 6. 7.]]
<class 'numpy.float64'>
(2, 4)
float64


- shape : numpy array의 object의 dimension 구성을 반환함(튜플 타입으로 반환)
- dtype : numpy array의 데이터 type을 반환함

### Array shape

- Vector

In [13]:
vector  = [1,2,3,4]
print(np.array(vector, float).shape)

(4,)


<img src="../img/Screen Shot 2018-08-29 at 3.07.41 PM.png" width="500">

- Matrix

In [14]:
matrix  = [[1,2,5,8],[1,2,5,8],[1,2,5,8]]
print(np.array(matrix, float).shape)

(3, 4)


<img src="../img/Screen Shot 2018-08-29 at 3.07.44 PM.png" width="500">

- 3rd Order Tensor

In [15]:
tensor  = [[[1,2,5,8],[1,2,5,8],[1,2,5,8]], 
           [[1,2,5,8],[1,2,5,8],[1,2,5,8]], 
           [[1,2,5,8],[1,2,5,8],[1,2,5,8]], 
           [[1,2,5,8],[1,2,5,8],[1,2,5,8]]]
print(np.array(tensor, float).shape)

(4, 3, 4)


<img src="../img/Screen Shot 2018-08-29 at 3.08.10 PM.png" width="500">

보면 한칸 씩 밀리는 것을 볼 수 있다. 그러니까 vector일 때는 (4,), matrix일 때는 (3,4), tensor일 때는 (4,3,4)처럼 한칸 씩 밀린다. 

여기서 또 중요한 것이 두 가지가 있다.

- ndim : number of dimension
- size : data의 개수

In [16]:
print(np.array(tensor, float).ndim)
print(np.array(tensor, float).size)

3
48


### Array dtype

- ndarray의 single element가 가지는 data type
- 각 element가 차지하는 memory의 크기가 결정됨

보통은 float32, float64를 많이 사용한다.

In [17]:
np.array([[1, 2, 3], [4.5, 5, 6]], dtype=int)

array([[1, 2, 3],
       [4, 5, 6]])

그리고 기본적으로 dtype을 정해주지 않으면 float64로 설정된다.

In [18]:
np.array([[1, 2, 3], [4.5, 5, 6]])

array([[1. , 2. , 3. ],
       [4.5, 5. , 6. ]])

In [19]:
np.array([[1, 2, 3], [4.5, "5", "6"]], dtype=np.float32)

array([[1. , 2. , 3. ],
       [4.5, 5. , 6. ]], dtype=float32)

In [20]:
np.array([[1, 2, 3], [4.5, "5", "6"]], dtype=np.float32).nbytes

24

하나의 element당 32bits = 4bytes -> 4 * 6 bytes

In [21]:
np.array([[1, 2, 3], [4.5, "5", "6"]], dtype=np.int8).nbytes

6

하나의 element당 8bits = 1bytes -> 1 * 6 bytes

In [22]:
np.array([[1, 2, 3], [4.5, "5", "6"]], dtype=np.float64).nbytes

48

하나의 element당 64bits = 8bytes -> 8 * 6 bytes

---

# 3. Handling shape

## reshape

- Array의 shape의 크기를 변경함(element의 갯수는 동일)

In [23]:
test_matrix = [[1,2,3,4], [1,2,5,8]]
print(np.array(test_matrix, float).shape)

(2, 4)


In [24]:
print(np.array(test_matrix).reshape(8)) # 하나만 넣으면 column 지정

[1 2 3 4 1 2 5 8]


<img src="../img/Screen Shot 2018-08-29 at 3.36.41 PM.png" width="600">

In [25]:
print(np.array(test_matrix).reshape(2,2,2))

[[[1 2]
  [3 4]]

 [[1 2]
  [5 8]]]


In [26]:
print(np.array(test_matrix).reshape(-1,2))

[[1 2]
 [3 4]
 [1 2]
 [5 8]]


내가 column값만 지정하고 나머지는 별로 신경쓰고 싶지 않을 때 또는 row의 갯수를 정확하게 모를 때, -1로 하여 size를 기반으로 row 개수를 선정해준다. 쉽게 말해 "열만 2로 하고 싶고, 나머지는 너가 알아서 해줘"라는 것이다.

그래서 다음의 두 코드는 서로 같게 된다.

In [27]:
print(np.array(test_matrix).reshape(2,4))
print(np.array(test_matrix).reshape(2,4).shape)

[[1 2 3 4]
 [1 2 5 8]]
(2, 4)


In [28]:
print(np.array(test_matrix).reshape(2,-1))
print(np.array(test_matrix).reshape(2,-1).shape)

[[1 2 3 4]
 [1 2 5 8]]
(2, 4)


### flat or flatten()

- 다차원 array를 1차원 array로 변환

In [29]:
test_matrix = [[[1,2,3,4], [1,2,5,8]], [[1,2,3,4], [1,2,5,8]]]
print(np.array(test_matrix).shape)

(2, 2, 4)


In [30]:
print(np.array(test_matrix).flatten())

[1 2 3 4 1 2 5 8 1 2 3 4 1 2 5 8]


---

# 4. Indexing & Sclicing

## Indexing

- List와 달리 이차원 배열에서 [0,0] 과 같은 표기법을 제공함
- Matrix일 경우 앞은 row 뒤는 column을 의미함

In [31]:
test_example = np.array([[1, 2, 3], [4, 5, 6]], float)
print(test_example)

[[1. 2. 3.]
 [4. 5. 6.]]


In [32]:
print(test_example[0][0])

1.0


In [33]:
print(test_example[0,0])

1.0


In [34]:
test_example[0,0] = 10 # Matrix 0,0에 10 할당
print(test_example)

[[10.  2.  3.]
 [ 4.  5.  6.]]


In [35]:
test_example[0][0] = 5 # Matrix 0,0에 5 할당
print(test_example[0,0])

5.0


## Slicing

- List와 달리 행과 열 부분을 나눠서 slicing이 가능함
- Matrix의 부분 집합을 추출할 때 유용함

In [36]:
test_example = np.array([
    [1,2,5,8],[1,3,6,9],[1,4,7,10],[1,2,3,4]], float)
print(test_example[:2,:])

[[1. 2. 5. 8.]
 [1. 3. 6. 9.]]


In [37]:
print(test_example[:,1:3])
print(test_example[1,:2])

[[2. 5.]
 [3. 6.]
 [4. 7.]
 [2. 3.]]
[1. 3.]


In [38]:
test_example = np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]], float)
print(test_example[:,2:])

[[ 3.  4.  5.]
 [ 8.  9. 10.]]


In [39]:
a = np.arange(100).reshape(10,10)
print(a[:, -1])
print(a[:, -1].reshape(-1,1))

[ 9 19 29 39 49 59 69 79 89 99]
[[ 9]
 [19]
 [29]
 [39]
 [49]
 [59]
 [69]
 [79]
 [89]
 [99]]


---

# 5. Creation function

## arange

- array의 범위를 지정하여, 값의 list를 생성하는 명령어(기본적으로 int형으로 생성됨)

In [40]:
np.arange(30, dtype=float).reshape(-1,5)

array([[ 0.,  1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.,  9.],
       [10., 11., 12., 13., 14.],
       [15., 16., 17., 18., 19.],
       [20., 21., 22., 23., 24.],
       [25., 26., 27., 28., 29.]])

In [41]:
np.arange(0, 5, 0.5)

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

In [42]:
np.arange(30).reshape(5,6)

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

## ones, zeros & empty

- zeros – 0으로 가득찬 ndarray 생성

In [43]:
print(np.zeros(shape=(10,), dtype=np.int8)) # 10 - zero vector 생성

[0 0 0 0 0 0 0 0 0 0]


In [44]:
print(np.zeros((2,5), float)) # 2 by 5 - zero matrix 생성

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


- ones – 1로 가득찬 ndarrary 생성

In [45]:
print(np.ones(shape=(10,), dtype=np.int8) )

[1 1 1 1 1 1 1 1 1 1]


In [46]:
print(np.ones((5,2)))

[[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]


- empty – shape만 주어지고 비어있는 ndarray 생성 (memory initialization 이 되지 않음)

메모리 공간은 잡는 대신 숫자로 초기화를 시켜주지 않으면 이상한 값들이 들어가있게 된다.

In [47]:
print(np.empty(shape=(10,), dtype=np.int8))

[1 1 1 1 1 1 1 1 1 1]


In [48]:
print(np.empty((3,5)))

[[0.00000000e+000 0.00000000e+000 3.95252517e-323 0.00000000e+000
  0.00000000e+000]
 [0.00000000e+000 0.00000000e+000 0.00000000e+000 0.00000000e+000
  0.00000000e+000]
 [0.00000000e+000 0.00000000e+000 0.00000000e+000 0.00000000e+000
  1.49457494e-154]]


## something_like

- 기존 ndarray의 shape 크기 만큼 1, 0 또는 empty array를 반환

In [49]:
test_matrix = np.arange(30).reshape(5,6)
print(test_matrix)
print(np.zeros_like(test_matrix))

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]
 [24 25 26 27 28 29]]
[[0 0 0 0 0 0]
 [0 0 0 0 0 0]
 [0 0 0 0 0 0]
 [0 0 0 0 0 0]
 [0 0 0 0 0 0]]


## identity

- 단위 행렬(i 행렬)을 생성함

In [50]:
print(np.identity(n=3, dtype=np.int8))

[[1 0 0]
 [0 1 0]
 [0 0 1]]


In [51]:
print(np.identity(5))

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


## eye

- 대각선이 1인 행렬, k값의 시작 index의 변경이 가능

In [52]:
print(np.eye(N=3, M=5, dtype=np.int8))

[[1 0 0 0 0]
 [0 1 0 0 0]
 [0 0 1 0 0]]


In [53]:
print(np.eye(3))

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [54]:
print(np.eye(3,5,k=2))

[[0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


## diag

- 대각 행렬의 값을 추출함

In [55]:
matrix = np.arange(9).reshape(3,3)
print(matrix)
print(np.diag(matrix))

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[0 4 8]


In [56]:
print(np.diag(matrix, k=1))

[1 5]


## random sampling

- 데이터 분포에 따른 sampling으로 array를 생성

np.random.uniform(x,y,z)는 x 이상부터 y 미만사이의 z개를 Uniform distribution random 값으로 선언

In [57]:
print(np.random.uniform(0,1,10).reshape(2,5))

[[0.05304743 0.95291467 0.60984087 0.50002365 0.09317442]
 [0.35434932 0.49591917 0.33553849 0.26153455 0.90751697]]


np.random.normal(x,y,z)는 x 이상부터 y 미만 사이의 z개를 평균이 0이고 분산이 1인 Normal distribution random 값으로 선언

In [58]:
print(np.random.normal(0,1,10).reshape(2,5))

[[-0.67144465  0.19517173 -0.85120866 -1.09597542  1.71868698]
 [ 0.99824131  0.68558982 -0.82169918 -0.84966682  0.01234715]]


---

# 6. Operation functions

## sum

- ndarray의 element들 간의 합을 구함, list의 sum 기능과 동일

In [59]:
test_array = np.arange(1,11)
print(test_array)

[ 1  2  3  4  5  6  7  8  9 10]


In [60]:
print(test_array.sum(dtype=np.float))
print(test_array.sum(dtype=float))
print(test_array.sum())

55.0
55.0
55


In [61]:
test_array = np.arange(1,13).reshape(3,4)
print(test_array.sum())

78


## axis

- 모든 operation function을 실행할 때, 기준이 되는 dimension 축

<img src="../img/Screen Shot 2018-08-29 at 11.29.15 PM.png" width="350">

쉽게 말해 axis가 늘어날수록 더 낮은 dimension 축이 설정된다. 그래서 구분하는 법은 그 축에 해당되는 라인을 찾고(머리속으로 동그라미를 그리고), 그 라인 순서대로 구분하면 된다. 앞서 다뤘던 reshape과 햇갈리면 안된다.

In [62]:
print(test_array.sum(axis=1))

[10 26 42]


In [63]:
print(test_array.sum(axis=0))

[15 18 21 24]


In [64]:
print(test_array.sum(axis=-1)) # 가장 낮은 dimension 축

[10 26 42]


<img src="../img/Screen Shot 2018-08-29 at 11.33.56 PM.png" width="450">

In [65]:
third_order_tensor = np.array([test_array,test_array,test_array])
print(third_order_tensor)
print(third_order_tensor.shape)

[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]]
(3, 3, 4)


In [66]:
print(third_order_tensor.sum(axis=2))

[[10 26 42]
 [10 26 42]
 [10 26 42]]


In [67]:
print(third_order_tensor.sum(axis=1))

[[15 18 21 24]
 [15 18 21 24]
 [15 18 21 24]]


In [68]:
print(third_order_tensor.sum(axis=0))

[[ 3  6  9 12]
 [15 18 21 24]
 [27 30 33 36]]


In [69]:
print(third_order_tensor.sum(axis=-1))

[[10 26 42]
 [10 26 42]
 [10 26 42]]


## mean & std

- ndarray의 element들 간의 평균 또는 표준 편차를 반환

In [70]:
test_array = np.arange(1,13).reshape(3,4)
print(test_array)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [71]:
print(test_array.mean(), test_array.mean(axis=0))

6.5 [5. 6. 7. 8.]


In [72]:
print(test_array.std(), test_array.std(axis=0))

3.452052529534663 [3.26598632 3.26598632 3.26598632 3.26598632]


## Mathematical functions

- exponential : exp, expml, exp2, log, log10, loglp, log2, power, sqrt
- trigonometric : sin, cos, tan, acsin, arccos, atctan
- hyperbolic : sinh, cosh, tanh, acsinh, arccosh, atctanh
- 그 외에도 다양한 수학 연산자를 제공함 (np.something 호출)

In [73]:
print(np.exp(test_array))
print(np.sqrt(test_array))

[[2.71828183e+00 7.38905610e+00 2.00855369e+01 5.45981500e+01]
 [1.48413159e+02 4.03428793e+02 1.09663316e+03 2.98095799e+03]
 [8.10308393e+03 2.20264658e+04 5.98741417e+04 1.62754791e+05]]
[[1.         1.41421356 1.73205081 2.        ]
 [2.23606798 2.44948974 2.64575131 2.82842712]
 [3.         3.16227766 3.31662479 3.46410162]]


## concatenate

- Numpy array를 합치는 함수

<img src="../img/Screen Shot 2018-08-30 at 12.05.42 AM.png" width="400">

In [74]:
a = np.array([1, 2, 3])
b = np.array([2, 3, 4])
print(np.vstack((a,b)))

[[1 2 3]
 [2 3 4]]


In [75]:
a = np.array([ [1], [2], [3]])
b = np.array([ [2], [3], [4]])
print(np.hstack((a,b)))

[[1 2]
 [2 3]
 [3 4]]


<img src="../img/Screen Shot 2018-08-30 at 12.07.37 AM.png" width="430">

In [76]:
a = np.array([[1, 2, 3]])
b = np.array([[2, 3, 4]])
print(np.concatenate((a,b), axis=0))

[[1 2 3]
 [2 3 4]]


In [77]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6]])
print(np.concatenate((a,b.T), axis=1)) # 여기서 T는 transpose

[[1 2 5]
 [3 4 6]]


In [78]:
print(np.concatenate((a, b), axis=None)) # flatten과 동일

[1 2 3 4 5 6]


---

# 7. Array operations

## Operations b/t arrays

- Numpy는 array간의 기본적인 사칙 연산을 지원함

In [79]:
test_a = np.array([[1,2,3],[4,5,6]], float)

In [80]:
print(test_a + test_a) # Matrix + Matrix 연산
print(test_a - test_a) # Matrix - Matrix 연산
print(test_a * test_a) # Matrix내 element들 간 같은 위치에 있는 값들끼리 연산

[[ 2.  4.  6.]
 [ 8. 10. 12.]]
[[0. 0. 0.]
 [0. 0. 0.]]
[[ 1.  4.  9.]
 [16. 25. 36.]]


## Element-wise operations

- Array간 shape이 같을 때 일어나는 연산

In [81]:
matrix_a = np.arange(1,13).reshape(3,4)
print(matrix_a * matrix_a)

[[  1   4   9  16]
 [ 25  36  49  64]
 [ 81 100 121 144]]


## Dot product

- Matrix의 기본 연산
- dot 함수 사용

<img src="../img/Screen Shot 2018-08-30 at 12.24.12 AM.png" width="450">

In [82]:
test_a = np.arange(1,7).reshape(2,3)
test_b = np.arange(7,13).reshape(3,2)

In [83]:
print(test_a.dot(test_b))

[[ 58  64]
 [139 154]]


## transpose

- transpose 또는 T attribute 사용

In [84]:
test_a = np.arange(1,7).reshape(2,3)
print(test_a)

[[1 2 3]
 [4 5 6]]


In [85]:
print(test_a.transpose())

[[1 4]
 [2 5]
 [3 6]]


In [86]:
print(test_a.T)

[[1 4]
 [2 5]
 [3 6]]


In [87]:
print(test_a.T.dot(test_a))

[[17 22 27]
 [22 29 36]
 [27 36 45]]


## broadcasting

- Shape이 다른 배열 간 연산을 지원하는 기능

<img src="../img/Screen Shot 2018-08-30 at 12.27.14 AM.png" width="550">

In [88]:
test_matrix = np.array([[1,2,3],[4,5,6]], float)
scalar = 3

In [89]:
print(test_matrix + scalar) # Matrix - Scalar 덧셈

[[4. 5. 6.]
 [7. 8. 9.]]


In [90]:
print(test_matrix - scalar) # Matrix - Scalar 뺄셈

[[-2. -1.  0.]
 [ 1.  2.  3.]]


In [91]:
print(test_matrix * 5) # Matrix - Scalar 곱셈

[[ 5. 10. 15.]
 [20. 25. 30.]]


In [92]:
print(test_matrix / 5) # Matrix - Scalar 나눗셈

[[0.2 0.4 0.6]
 [0.8 1.  1.2]]


In [93]:
print(test_matrix // 2) # Matrix - Scalar 몫

[[0. 1. 1.]
 [2. 2. 3.]]


In [94]:
print(test_matrix % 2) # Matrix - Scalar 나머지

[[1. 0. 1.]
 [0. 1. 0.]]


In [95]:
print(test_matrix ** 2) # Matrix - Scalar 제곱

[[ 1.  4.  9.]
 [16. 25. 36.]]


## Numpy performance

- 일반적으로 속도는 "for loop < list comprehension < numpy"
- 100,000,000번의 loop이 돌 때 약 4배 이상의 성능 차이를 보임
- Numpy는 C로 구현되어 있어, 성능을 확보하는 대신
- 파이썬의 가장 큰 특징인 dynamic typing을 포기함
- 대용량 계산에서는 가장 흔히 사용됨
- Concatenate 처럼 계산이 아닌, 할당에서는 연산 속도의 이점이 없음

- timeit: jupyter 환경에서 코드의 퍼포먼스를 체크하는 함수

In [96]:
def sclar_vector_product(scalar, vector):
    result = []
    for value in vector:
        result.append(scalar * value)
    return result 

iternation_max = 10000

vector = list(range(iternation_max))
scalar = 2

%timeit sclar_vector_product(scalar, vector) # for loop을 이용한 성능

974 µs ± 17.2 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [97]:
%timeit [scalar * value for value in range(iternation_max)] # list comprehension을 이용한 성능
%timeit np.arange(iternation_max) * scalar # numpy를 이용한 성능

750 µs ± 5.17 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
8.87 µs ± 27.3 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


---

# 8. Comparisons

## All & Any

- Array의 데이터 전부(and) 또는 일부(or)가 조건에 만족 여부 반환 

In [98]:
a = np.arange(10)
print(a)

[0 1 2 3 4 5 6 7 8 9]


In [99]:
print(a>5)

[False False False False False False  True  True  True  True]


In [100]:
print(np.all(a>5), np.all(a<10))

False True


In [101]:
print(np.any(a>5), np.any(a<0))

True False


## Comparison operation

- Numpy는 배열의 크기가 동일 할 때 element간 비교의 결과를 Boolean type으로 반환하여 돌려줌

In [102]:
test_a = np.array([1, 3, 0], float)
test_b = np.array([5, 2, 1], float)
print(test_a > test_b)

[False  True False]


In [103]:
print(test_a == test_b)

[False False False]


In [104]:
print((test_a > test_b).any())

True


다음으로 거의 잘 쓰진 않는데 logical에 대해서도 알아보자.

In [105]:
a = np.array([1, 3, 0], float)
print(np.logical_and(a > 0, a < 3)) # and 조건의 condition

[ True False False]


In [106]:
b = np.array([True, False, True])
print(np.logical_not(b)) # NOT 조건의 condition

[False  True False]


In [107]:
c = np.array([False, True, False])
print(np.logical_or(b, c)) # OR 조건의 condition

[ True  True  True]


## np.where

- np.where(x) : x의 조건에 따른 index 값을 반환
- np.where(x, y, z) : x의 조건을 index에 따라서 True일 경우 y, False일 경우 z를 반환

In [108]:
a = np.array([1, 3, 0], float)
print(np.where(a>0, 3, 2))

[3 3 2]


In [109]:
print(np.where(a>0))

(array([0, 1]),)


In [110]:
a = np.arange(5, 15)
print(a)

[ 5  6  7  8  9 10 11 12 13 14]


In [111]:
print(np.where(a>10))

(array([6, 7, 8, 9]),)


In [112]:
a = np.array([1, np.NaN, np.Inf], float)
print(np.isnan(a))

[False  True False]


- Nan : null값
- Inf : infinity값

In [113]:
print(np.isfinite(a))

[ True False False]


## argmax & argmin

- array내 최댓값 또는 최솟값의 index를 반환함
- axis 기반의 반환

In [114]:
a = np.array([1,2,4,5,8,78,23,3])
print(np.argmax(a), np.argmin(a))

5 0


In [115]:
a=np.array([[1,2,4,7],[9,88,6,45],[9,76,3,4]])
print(np.argmax(a, axis=1), np.argmin(a, axis=0))

[3 1 1] [0 0 2 2]


---

# 9. Boolean & Fancy index

## boolean index

- numpy는 배열은 특정 조건에 따른 값을 배열 형태로 추출할 수 있음
- Comparison operation 함수들도 모두 사용가능
- 앞서 다뤘던 where은 index를 출력하는 것이었다면, boolean index는 boolean을 통해서 index를 알아내어 원래의 값을 추출할 때 사용

In [116]:
test_array = np.array([1, 4, 0, 2, 3, 8, 9, 7], float)
print(test_array > 3)

[False  True False False False  True  True  True]


In [117]:
print(test_array[test_array > 3])

[4. 8. 9. 7.]


In [118]:
condition = test_array < 3 
print(test_array[condition])

[1. 0. 2.]


In [119]:
A = np.array([
[12, 13, 14, 12, 16, 14, 11, 10,  9],
[11, 14, 12, 15, 15, 16, 10, 12, 11],
[10, 12, 12, 15, 14, 16, 10, 12, 12],
[ 9, 11, 16, 15, 14, 16, 15, 12, 10],
[12, 11, 16, 14, 10, 12, 16, 12, 13],
[10, 15, 16, 14, 14, 14, 16, 15, 12],
[13, 17, 14, 10, 14, 11, 14, 15, 10],
[10, 16, 12, 14, 11, 12, 14, 18, 11],
[10, 19, 12, 14, 11, 12, 14, 18, 10],
[14, 22, 17, 19, 16, 17, 18, 17, 13],
[10, 16, 12, 14, 11, 12, 14, 18, 11],
[10, 16, 12, 14, 11, 12, 14, 18, 11],
[10, 19, 12, 14, 11, 12, 14, 18, 10],
[14, 22, 12, 14, 11, 12, 14, 17, 13],
[10, 16, 12, 14, 11, 12, 14, 18, 11]])
B = A < 15
print(B.astype(np.int)) # B에 따라 True는 1, False는 0

[[1 1 1 1 0 1 1 1 1]
 [1 1 1 0 0 0 1 1 1]
 [1 1 1 0 1 0 1 1 1]
 [1 1 0 0 1 0 0 1 1]
 [1 1 0 1 1 1 0 1 1]
 [1 0 0 1 1 1 0 0 1]
 [1 0 1 1 1 1 1 0 1]
 [1 0 1 1 1 1 1 0 1]
 [1 0 1 1 1 1 1 0 1]
 [1 0 0 0 0 0 0 0 1]
 [1 0 1 1 1 1 1 0 1]
 [1 0 1 1 1 1 1 0 1]
 [1 0 1 1 1 1 1 0 1]
 [1 0 1 1 1 1 1 0 1]
 [1 0 1 1 1 1 1 0 1]]


위의 코드에서 astype은 기존의 array를 copy하여 새로운 array로 변환할 때 사용

## fancy index

- numpy는 array를 index value로 사용해서 값을 추출하는 방법
- Matrix 형태의 데이터도 가능
- 앞서 다뤘던 boolean index를 주로 더 많이 사용
- 하지만 추천시스템을 할 때는 fancy index도 많이 사용

In [120]:
a = np.array([2, 4, 6, 8], float)
b = np.array([0, 0, 1, 3, 2, 1], int) # 반드시 integer로 선언
print(a[b]) # bracket index : b 배열의 값을 index로 하여 a의 값들을 추출함

[2. 2. 4. 8. 6. 4.]


In [121]:
print(a.take(b)) # take 함수 : bracket index와 같은 효과

[2. 2. 4. 8. 6. 4.]


In [122]:
a = np.array([[1, 4], [9, 16]], float)
b = np.array([0, 0, 1, 1, 0], int)
c = np.array([0, 1, 1, 1, 1], int)
print(a[b,c]) # b를 row index, c를 column index로 변환하여 표시함

[ 1.  4. 16. 16.  4.]


---

# 10. Numpy data i/o

## loadtxt & savetxt

- Text type의 데이터를 읽고, 저장하는 기능

In [123]:
a = np.loadtxt("./populations.txt")
print(a[:10])

[[ 1900. 30000.  4000. 48300.]
 [ 1901. 47200.  6100. 48200.]
 [ 1902. 70200.  9800. 41500.]
 [ 1903. 77400. 35200. 38200.]
 [ 1904. 36300. 59400. 40600.]
 [ 1905. 20600. 41700. 39800.]
 [ 1906. 18100. 19000. 38600.]
 [ 1907. 21400. 13000. 42300.]
 [ 1908. 22000.  8300. 44500.]
 [ 1909. 25400.  9100. 42100.]]


In [124]:
a_int = a.astype(int)
print(a_int[:3])

[[ 1900 30000  4000 48300]
 [ 1901 47200  6100 48200]
 [ 1902 70200  9800 41500]]


In [125]:
np.savetxt('int_data.csv', a_int, delimiter=",")

## numpy object - npy

- Numpy object (pickle) 형태로 데이터를 저장하고 불러옴
- Binary 파일 형태로 저장함

In [126]:
np.save("npy_test", arr=a_int)

In [127]:
npy_array = np.load(file="npy_test.npy")
print(npy_array[:3])

[[ 1900 30000  4000 48300]
 [ 1901 47200  6100 48200]
 [ 1902 70200  9800 41500]]
