# Numpy

- 일반 List에 비해 빠르고, 메모리 효율적
- 반복문 없이 데이터 배열에 대한 처리를 지원
- 선형대수와 관련된 다양한 기능을 제공
- C, C++, 포트란 등의 언어와 통합 개발 가능

In [23]:
import numpy as np

### Array creation

파이썬은 Dynamic Typing으로 실행시점에 data type을 결정.
즉, 하나의 리스트에 다양한 데이터 타입이 들어갈 수 있다.
그러나 Numpy는 Dynamic Typing을 지원하지 않아서 속도가 빠르며,
data type 을 하나로 통일 해야한다.

In [24]:
arr = np.array(["1", "4", 5, 8], float)

# numpy.float64메모리 공간의 크기를 64 bit 로 설정
arr, type(arr[0])

(array([1., 4., 5., 8.]), numpy.float64)

In [25]:
# 모양, 데이터 타입
arr.shape, arr.dtype

((4,), dtype('float64'))

In [26]:
# 차원 개수, 원소의 총 개수
arr.ndim, arr.size

(1, 4)

### Reshape

In [32]:
arr = np.array([[1, 2, 3, 4], [1, 2, 5, 8]])
arr.shape

(2, 4)

In [33]:
arr.reshape(2, 2, 2)

array([[[1, 2],
        [3, 4]],

       [[1, 2],
        [5, 8]]])

In [34]:
arr.reshape(8,).shape

(8,)

In [38]:
# to 2차원
arr.reshape(-1, 1)

array([[1],
       [2],
       [3],
       [4],
       [1],
       [2],
       [5],
       [8]])

In [40]:
# to 1차원
arr.flatten()

array([1, 2, 3, 4, 1, 2, 5, 8])

In [43]:
arr = arr.reshape(2, 2, 2)
arr

array([[[1, 2],
        [3, 4]],

       [[1, 2],
        [5, 8]]])

In [44]:
arr[0, 0], arr[0][0]

(array([1, 2]), array([1, 2]))

### Numpy 배열 생성

- arange
- ones
- zeros
- empty
- ones_like (shape 복사)
- identity (단위행렬)
- eyes (대각선이 1인 행렬)
- random sampling

In [64]:
np.arange(10).reshape(-1, 5)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [65]:
np.arange(0, 5, 0.5)

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

In [66]:
np.zeros(shape=(10, ), dtype=np.int8)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int8)

In [67]:
np.ones(shape=(10, ), dtype=np.int8)

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int8)

In [68]:
np.empty(shape=(10, ), dtype=np.int8)

array([0, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int8)

In [69]:
arr= np.arange(30).reshape(-1, 6)
np.ones_like(arr)

array([[1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1]])

In [70]:
np.identity(n=3, dtype=np.int8)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]], dtype=int8)

In [72]:
np.eye(N=3, M=5, dtype=np.int8)     # k -> start index

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0]], dtype=int8)

In [74]:
# 대각 행렬의 값을 추출
arr = np.arange(9).reshape(3, 3)
np.diag(arr)    # k -> start index

array([0, 4, 8])

In [78]:
# 균등분포
np.random.uniform(0, 1, 10).reshape(2, 5)

array([[0.89420085, 0.15623141, 0.79639954, 0.15678867, 0.04138382],
       [0.82226602, 0.97049594, 0.63818646, 0.79597857, 0.28329939]])

In [79]:
# 정규분포
np.random.normal(0, 1, 10).reshape(2, 5)

array([[-1.14569091,  1.45835771, -0.3892437 , -2.2519947 ,  1.20626925],
       [ 0.25392655,  0.72156842,  0.41982118,  0.68076908, -0.44844239]])

In [82]:
# 합
arr, arr.sum()

(array([[0, 1, 2],
        [3, 4, 5],
        [6, 7, 8]]),
 36)

In [88]:
# 새롭게 생기는 축이 0 (가장 밖의 shape이 0)

# col 기준, row 기준
arr.sum(axis=0), arr.mean(axis=1)

(array([ 9, 12, 15]), array([1., 4., 7.]))

In [92]:
# concatenate

a = np.array([[1, 2, 3]])
b = np.array([[2, 3, 4]])

# vstack : 행을 붙이기
# hstack : 열로 붙이기
np.vstack((a, b)), np.hstack((a, b))

(array([[1, 2, 3],
        [2, 3, 4]]),
 array([[1, 2, 3, 2, 3, 4]]))

In [94]:
np.concatenate((a, b), axis=0), np.concatenate((a, b), axis=1)

(array([[1, 2, 3],
        [2, 3, 4]]),
 array([[1, 2, 3, 2, 3, 4]]))

In [95]:
arr = np.array([[1, 2, 3], [4, 5, 6]])

In [96]:
arr + arr

array([[ 2,  4,  6],
       [ 8, 10, 12]])

In [97]:
arr - arr

array([[0, 0, 0],
       [0, 0, 0]])

In [98]:
arr * arr

array([[ 1,  4,  9],
       [16, 25, 36]])

In [99]:
np.dot(arr, arr.T)

array([[14, 32],
       [32, 77]])

### broadcasting

- shape이 다른 배열 간 연산을 지원하는 기능

In [100]:
arr = np.array([[1, 2, 3], [4, 5, 6]])
scalar = 3

arr + scalar

array([[4, 5, 6],
       [7, 8, 9]])

### Numpy Performance

Numpy > Python List > for, while


In [104]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [111]:
arr > 5, arr[arr>5]

(array([False, False, False, False, False, False,  True,  True,  True,
         True]),
 array([6, 7, 8, 9]))

In [112]:
np.any(arr>5), np.any(arr<0)

(True, False)

In [117]:
arr = np.array([1, 3, 0])

# True일 때 3, False일 때 2 반환
np.where(a > 0, 3, 2)

array([3, 3, 2])

In [119]:
# Index 값 반환
np.where(arr>0)

(array([0, 1], dtype=int64),)

In [120]:
np.NaN, np.Inf

(nan, inf)

In [127]:
arr = np.array([1, 2, 4, 5, 8, 78, 23, 3])
# 최대/최소값의 인덱스
np.argmax(arr), np.argmin(arr)

(5, 0)

In [131]:
a = np.array([[1, 2, 4, 7], [9, 88, 6, 45], [9, 76, 3, 4]])
np.argmax(a, axis=1), np.argmin(a, axis=0)

(array([3, 1, 1], dtype=int64), array([0, 0, 2, 2], dtype=int64))

### Boolean index


In [132]:
arr = np.array([1, 4, 0, 2, 3, 8, 9, 7])
arr > 3

array([False,  True, False, False, False,  True,  True,  True])

In [133]:
arr[arr > 3]

array([4, 8, 9, 7])

In [136]:
condition = arr < 3
arr[condition], condition.astype(int)

(array([1, 0, 2]), array([1, 0, 1, 1, 0, 0, 0, 0]))

In [140]:
# fancy index
a = np.array([2, 4, 6, 8], float)
b = np.array([0, 0, 1, 3, 2, 1], int)

# b array를 인덱스로 활용하여 a를 출력
a[b], a.take(b)

(array([2., 2., 4., 8., 6., 4.]), array([2., 2., 4., 8., 6., 4.]))