#### Numpy
* 파이썬 과학 패키지
* Numerical Python
* 파이썬의 고성능 과학 계산용 패키지
* Matrix와 Vector와 같은 Array 연산의 사실상의 표준

#### Numpy 특징
* 일반 List에 비해 빠르고, 메모리 효율적
* 반복문 없이 데이터 배열에 대한 처리를 지원
* 선형대수와 관련된 다양한 기능을 제공함
* C, C++, 포트란 등의 언어와 통합 가능

#### import
* numpy의 일반적인 호출방법

In [2]:
import numpy as np

#### Array Creation
* numpy는 np.array함수를 활용하여 배열을 생성함 → ndarray
* numpy는 **하나의 데이터 type**만 배열에 넣을 수 있음
* List와 가장 큰 차이점: **Dynamic typing not suppported**
    * 리스트에는 str, int가 동시에 들어갈 수 있음
* C의 Array를 사용하여 배열을 생성함

In [6]:
# float: 데이터 타입
test_array = np.array([1, 4, 5, 8], float)
print(test_array[3])

print(type(test_array[3]))

8.0
<class 'numpy.float64'>


* shape
    * numpy array의 object dimension 구성을 반환
* dtype
    * numpy array의 데이터 type을 반환함

In [8]:
test_array.shape

(4,)

In [9]:
test_array.dtype

dtype('float64')

#### Array shape(vector)
* Array(vector, matrix, tensor)의 크기, 형태 등에 대한 정보
* ndarray의 shape: tuple형태

#### Array shape - ndim & size
* ndim - number of dimension
* size - 전체 data의 개수

#### Array dtype
* nbytes - ndarray object의 메모리 크기를 반환함

In [11]:
np.array([[1, 2, 3], [4.5, "5", "6"]], dtype = np.float32).nbytes

24

#### reshape
* Array shape의 크기를 변경함(element의 개수는 동일)
* Array의 size는 같지만 dimension(차원)이 달라짐
* Array의 size만 같다면 다차원으로 자유롭게 변형할 수 있음

In [12]:
test_matrix = [[1, 2, 3, 4], [1, 2, 5, 8]]
np.array(test_matrix).shape

(2, 4)

In [13]:
np.array(test_matrix).reshape(2, 2, 2)

array([[[1, 2],
        [3, 4]],

       [[1, 2],
        [5, 8]]])

#### row 개수는 정확하게 모르지만, column의 개수는 정확하게 알 경우!
    * row의 값을 -1로 설정

In [15]:
test = np.array(test_matrix)
test

array([[1, 2, 3, 4],
       [1, 2, 5, 8]])

In [18]:
test = np.array(test_matrix).reshape(8, )
test

array([1, 2, 3, 4, 1, 2, 5, 8])

In [21]:
test.reshape(-1, 1)

array([[1],
       [2],
       [3],
       [4],
       [1],
       [2],
       [5],
       [8]])

#### flatten
* 다차원 array를 1차원 array로 변환

In [22]:
test_matrix

[[1, 2, 3, 4], [1, 2, 5, 8]]

In [23]:
np.array(test_matrix).flatten()

array([1, 2, 3, 4, 1, 2, 5, 8])

#### indexing

In [33]:
a = np.array([[1, 2, 3], [4.5, 6, 7]], int)

print(a)

# 아래 두 개는 같은 결과
print(a[0, 0])
print(a[0][0])

[[1 2 3]
 [4 6 7]]
1
1


#### slicing
* List와 달리 **행과 열 부분을 나눠서 slicing**이 가능함
* Matrix의 부분 집합을 추출할 때 사용(데이터의 일부분)
* `x:y:z`: x부터 y-1까지 z스텝씩 건너 뛰면서

In [35]:
a = np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]], int)

# 전체 Row의 2열 이상
a[:, 2:]

# 1행의 1열 ~ 2열
a[1, 1:3]

# 1행 ~ 2행의 전체
a[1:3]

array([[ 6,  7,  8,  9, 10]])

#### arange
* array의 범위를 지정하여, 값의 list를 생성하는 명령어

In [38]:
# range: List의 range와 같은 효과, Integer로 0부터 29까지 배열 추출
np.arange(30)

# 이때, column의 5개인 것으로 만들고 싶다!! 하면
np.arange(30).reshape(-1, 5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]])

In [37]:
# 시작, 끝, step
# List에서는 floating 단위로 step을 할 수 없음!
np.arange(0, 5, 0.5)

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

#### ones, zeros and empty
* zeros - 0으로 가득찬 ndarray 생성

In [45]:
# 10 - zero vector 생성
np.zeros(shape = (10, ), dtype = np.int8)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int8)

* ones - 1로 가득찬 ndarray 생성

In [46]:
np.ones(shape = (10, ), dtype = np.int8)

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int8)

* empty - shape만 주어지고 비어있는 ndarray 생성(memory initialization이 되지 않음

In [49]:
np.empty(shape = (10, ), dtype = np.int8)

array([ 32,  62,  62,  62,  32,  97,  91, 109,  97, 115], dtype=int8)

#### something_like
* 기존 ndarray의 shpae 크기 만큼 1, 0 또는 empty array를 반환

In [52]:
test_matrix = np.arange(30).reshape(5, 6)
np.ones_like(test_matrix)

array([[1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1]])

#### identify
* 단위 행렬(i 행렬)을 생성함

In [53]:
np.identity(n = 3, dtype = np.int8)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]], dtype=int8)

In [54]:
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

#### eye
* 대각선이 1인 행렬, k값의 시작 index의 변경이 가능

In [55]:
np.eye(N = 3, M = 5, dtype = np.int8)

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0]], dtype=int8)

In [57]:
# 시작 index를 정할 수 있음
np.eye(4, 5, 2, dtype = np.int8)

array([[0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1],
       [0, 0, 0, 0, 0]], dtype=int8)

#### diag
* 대각 행렬의 값을 추출함
* start index를 정할 수 있음

In [60]:
matrix = np.arange(9).reshape(3, 3)
np.diag(matrix)

array([0, 4, 8])

In [61]:
np.diag(matrix , 1)

array([1, 5])

#### random sampling
* 데이터 분포에 따른 sampling으로 array를 생성
* uniform
    * 균등분포
* normal
    * 정규분포

In [62]:
np.random.uniform(0, 1, 10).reshape(2, 5)

array([[0.64949494, 0.75265708, 0.25219669, 0.09976381, 0.75190248],
       [0.73778389, 0.14989823, 0.50182197, 0.86800107, 0.22475861]])

In [63]:
np.random.normal(0, 1, 10).reshape(2, 5)

array([[-0.37593623, -1.86299465, -0.86605917,  0.82209237, -0.48887045],
       [-0.97477378,  0.17942969, -0.99094642,  0.67237514, -1.38237792]])

#### sum
* ndarray의 element들의 합을 구함
* list의 sum 기능과 동일

#### axis
* 모든 operation function을 실행할 때, 기준이 되는 dimension 축
* (3, 4)인 np.array
    * axis = 0의 값: 3, aixs = 1의 값: 4
* 새롭게 생기는 shape가 0이 되고, 기존 shape의 axis는 한 개씩 커짐 
<br>
<img src = '../img/axis.PNG' width = "500px" height = "250px" alt = "axis image"></img>

In [66]:
test_array = np.arange(1, 13).reshape(3, 4)
test_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [68]:
test_array.sum(axis = 1)

array([10, 26, 42])

In [86]:
a = np.array([[[1,2], [3,4], [5,6]], [[7,8], [0,10], [11,12]]], dtype = np.int8)

print(a.shape)
print(a)

a.sum(axis = 0)

(2, 3, 2)
[[[ 1  2]
  [ 3  4]
  [ 5  6]]

 [[ 7  8]
  [ 0 10]
  [11 12]]]


array([[ 8, 10],
       [ 3, 14],
       [16, 18]])

#### mean & std
* ndarray의 element들 간의 평균 또는 표준편차를 반환

In [88]:
test_array = np.arange(1, 13).reshape(3, 4)
test_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [90]:
test_array.mean(), test_array.mean(axis=0)

(6.5, array([5., 6., 7., 8.]))

#### concatenate
* Numpy array를 합치는 함수
* vstack
* hstack
* 2dimension일 경우 
    * axis = 0: vstack과 동일
    * axis = 1: hstack과 동일
<br>
<img src = "../img/vstack_hstack.PNG" width = "500px" height = "250px" alt = "vstack hstack img"></img>

In [91]:
a = np.array([1, 2, 3])
b = np.array([2, 3, 4])
np.vstack((a, b))

array([[1, 2, 3],
       [2, 3, 4]])

In [93]:
a = np.array([[1], [2], [3]])
b = np.array([[2], [3], [4]])
np.hstack((a, b))

array([[1, 2],
       [2, 3],
       [3, 4]])

#### Operations b/t arrays
* Numpy는 array간의 기본적인 사칙 연산을 지원함

In [98]:
test_a = np.array([[1, 2, 3], [4, 5, 6]])

In [99]:
test_a + test_a

array([[ 2,  4,  6],
       [ 8, 10, 12]])

In [100]:
test_a - test_a

array([[0, 0, 0],
       [0, 0, 0]])

In [101]:
test_a * test_a

array([[ 1,  4,  9],
       [16, 25, 36]])

#### Element-wise operations
* Array간 shape이 같을 때 일어나는 연산

In [102]:
matrix_a = np.arange(1, 13).reshape(3, 4)
matrix_a * matrix_a

array([[  1,   4,   9,  16],
       [ 25,  36,  49,  64],
       [ 81, 100, 121, 144]])

#### Dot product
* Matrix의 기본 연산
* dot 함수 사용

In [103]:
test_a = np.arange(1, 7).reshape(2, 3)
test_b = np.arange(7, 13).reshape(3, 2)

test_a.dot(test_b)

array([[ 58,  64],
       [139, 154]])

#### transpose
* transpose 또는 T attribute 사용

In [105]:
test_a = np.arange(1, 7).reshape(2, 3)
test_a

array([[1, 2, 3],
       [4, 5, 6]])

In [107]:
test_a.transpose()

array([[1, 4],
       [2, 5],
       [3, 6]])

#### broadcasting
* Shape이 다른 배열 간 연산을 지원하는 기능

* Scalar-vector 외에도 vector-matrix간의 연산도 지원!
<img src = "../img/broadcasting.PNG" width = "500px" height = "250px" alt = "broadcasting"></img>

In [109]:
test_matrix = np.array([[1, 2, 3], [4, 5, 6]], float)
scalar = 3

In [110]:
test_matrix + scalar

array([[4., 5., 6.],
       [7., 8., 9.]])

In [111]:
test_matrix * scalar

array([[ 3.,  6.,  9.],
       [12., 15., 18.]])

In [112]:
test_matrix  / 3

array([[0.33333333, 0.66666667, 1.        ],
       [1.33333333, 1.66666667, 2.        ]])

In [113]:
test_matrix ** scalar

array([[  1.,   8.,  27.],
       [ 64., 125., 216.]])

#### Comparisoin
#### All & Any
* Array의 데이터 전부(and) 또는 일부(or)가 조건에 만족여부 반환
    * any: 하나라도 조건에 만족한다면 true
    * all: 모두가 조건에 만족한다면 true

In [115]:
a = np.arange(10)

In [116]:
np.any(a>5), np.any(a<0)

(True, False)

In [118]:
np.all(a>5), np.all(a<10)

(False, True)

#### np.where
* 조건에 만족하는 index값을 반환

In [123]:
a

array([1., 3., 0.])

In [125]:
# true일 경우 3, false일 경우 2반환
np.where(a > 0, 3, 2)

array([3, 3, 2])

In [127]:
np.where(a>0)

(array([0, 1], dtype=int64),)

#### argmax & argmin
* 최대값, 최소값을 구할 때 만이 사용
* argmax: 최대값의 index출력
* argmin: 최소값의 index 출력
* axis를 사용해서 축에서의 max, min값을 찾을 수 있음

In [129]:
a = np.array([[1,2, 4, 7], [9, 88, 6, 45], [9, 76, 3, 4]])
np.argmax(a, axis = 1), np.argmin(a, axis = 0)

(array([3, 1, 1], dtype=int64), array([0, 0, 2, 2], dtype=int64))

#### boolean index
* numpy는 배열에서 특정 조건에 따른 값을 배열 형태로 추출할 수 있음
* Comparison operation 함수들도 모두 사용 가능

In [130]:
test_array = np.array([1, 4, 0, 2, 3, 8, 9, 7], float)

In [131]:
test_array > 3

array([False,  True, False, False, False,  True,  True,  True])

In [132]:
test_array[test_array > 3]

array([4., 8., 9., 7.])

In [134]:
condition = test_array < 3
test_array[condition]

array([1., 0., 2.])

#### fancy index
* numpy에 array의 index value를 사용해서 값을 추출하는 방법

In [141]:
a = np.array([2, 4, 6, 8], float)

# 반드시 integer로 선언
b = np.array([0, 0, 1, 3, 2, 1], int)

# bracket index, b의 배열 값을 index로 하여 a의 값들을 추출함
a[b]

array([2., 2., 4., 8., 6., 4.])

In [145]:
# take함수: bracket index와 같은 효과
a.take(b)

array([2., 2., 4., 8., 6., 4.])

* Matrix 형태의 데이터도 가능

In [146]:
a = np.array([[1, 4], [9, 16]], float)
b = np.array([0, 0, 1, 1, 0], int)
c = np.array([0, 1, 1, 1, 1], int)

# zip으로 묶어서 원소를 가지고 올 수 있음!
a[b, c]

array([ 1.,  4., 16., 16.,  4.])