# Numpy

- 이전
    - 행렬과 matrix를 list 형태로 표현
    - dot, norm 과 같은 표현을 어떻게 할 것인지?
    - 매우 큰 데이터에 대한 처리?
- 파이썬 과학 처리 패키지 Numpy
    - Numerical Python
    - Matrix, Vector 등 Array 연산의 사실상 표준

- 특징
    - 일반 List에 비해 빠르고 메모리 효율적
    - 반복문 없이 배열에 대한 처리 지원
    - 선형대수 관련 기능 제공
    - C, C++, 포트란 등과 통합 가능

In [1]:
import numpy as np

In [10]:
test_array = np.array(["1", "4", 5.1, 8], float)
test_array

array([1. , 4. , 5.1, 8. ])

In [4]:
type(test_array[3])

numpy.float64

- Numpy Array는 데이터가 실제 값으로 차곡차곡 쌓여있음
- Python List는 메모리 주소를 담은 배열이 반환됨 -> 이중 접근이 기본

In [11]:
a = [1, 2, 3, 4, 5]
b = [5, 4, 3, 2, 1]
a[0] is b[-1]

True

In [14]:
a = np.array(a)

In [15]:
a.shape

(5,)

- rank
    - 0: scalar
    - 1: vector
    - 2: matrix
    - 3: 3-tensor
    - n: n-tensor

In [16]:
type(a.shape)

tuple

- 사용 가능한 data type
    - int8 int16 int32 int64
    - uint8 .. uint128
    - float32 float64

In [20]:
np.array(["1", "4", 5.1, 8], np.float32).nbytes

16

In [19]:
np.array(["1", "4", 5.1, 8], np.float64).nbytes

32

In [22]:
np.array(["1", "4", 5.1, 8], np.int8).nbytes

4

In [23]:
np.array(["1", "4", 5.1, 8], np.int8).ndim

1

In [24]:
np.array(["1", "4", 5.1, 8], np.int8).size

4

# Reshape

- reshape: array shape의 크기를 변경, element 개수는 동일

In [25]:
test_matrix = [[1, 2, 3, 4], [1, 2, 5, 8]]

In [26]:
np.array(test_matrix).reshape(2, 4).shape

(2, 4)

In [28]:
np.array(test_matrix).reshape(-1, 2).shape

(4, 2)

In [29]:
np.array(test_matrix).reshape(-1).shape

(8,)

- flatten : 다차원 array를 1차원으로 변환


In [31]:
np.array(test_matrix).flatten()

array([1, 2, 3, 4, 1, 2, 5, 8])

- indexing & slicing
    - 이차원 배열에서 [0, 0] 표기법 제공
    - matrix일 경우 앞은 row, 뒤는 column 의미

In [34]:
test_example = [[1, 2, 3], [4, 5, 6]]
test_example = np.array(test_example)

In [35]:
test_example[0][1]

2

In [36]:
test_example[0, 1]

2

In [37]:
# slicing
test_example[:, 2:]

array([[3],
       [6]])

In [38]:
test_example[1, 1:3]

array([5, 6])

In [39]:
test_example[:, ::2]

array([[1, 3],
       [4, 6]])

## arange
- array의 범위를 지정하여 값의 list를 생성

In [40]:
np.arange(30)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [41]:
np.arange(0, 5, 0.5)

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

In [42]:
np.arange(30).reshape(5, 6)

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

## ones, zeros, empty
### zeros
0으로 가득한 ndarray 생성

In [43]:
np.zeros(shape=(3, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

### ones
1로 가득한 ndarray 생성

In [44]:
np.ones(shape=(3, 4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

### empty
shape만 주어지고 비어있는 ndarray 생성 (memory initialization 안됨)

In [46]:
np.empty(shape=(3, 5))

array([[0.        , 0.        , 0.4472136 , 0.0531494 , 0.18257419],
       [0.4472136 , 0.2125976 , 0.36514837, 0.4472136 , 0.4783446 ],
       [0.54772256, 0.4472136 , 0.85039041, 0.73029674, 0.4472136 ]])

### something_like
기존 ndarray의 shape 크기만큼 1, 0, 또는 empty 반환

In [55]:
np.empty_like(np.arange(10))

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

## identity
- 단위행렬 생성

In [56]:
np.identity(n=3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

## eye
- 대각선이 1인 행렬, 시작 index 지정 가능

In [57]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [58]:
np.eye(3, 5, k=3)

array([[0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 0.]])

In [59]:
np.eye(3, 5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.]])

## diag
- 대각 행렬의 값을 추출

In [65]:
test = np.arange(12).reshape(3, 4)
print(test)
np.diag(test)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


array([ 0,  5, 10])

In [66]:
np.diag(test, k=1)

array([ 1,  6, 11])

## random sampling

In [67]:
np.random.uniform(0, 1, 10).reshape(2, 5)

array([[0.70616391, 0.55244431, 0.17307694, 0.70111322, 0.64974886],
       [0.87509065, 0.32663441, 0.08303302, 0.61658043, 0.44396721]])

In [68]:
np.random.exponential(scale=2, size=100)

array([1.11738431e+00, 1.65342749e+00, 1.44495093e+00, 1.00738637e+00,
       2.98768450e+00, 2.86226248e+00, 1.28003873e+00, 5.10781208e+00,
       3.82594199e+00, 8.98083708e-01, 3.35255297e+00, 2.65704371e-01,
       1.04113056e+00, 1.54073899e-01, 9.48571159e-03, 1.25358527e+00,
       7.44153913e-01, 2.90377602e-01, 2.58659680e+00, 3.03311051e+00,
       3.48295378e+00, 2.78902101e+00, 8.85726793e-01, 2.42596259e-01,
       1.36418521e-01, 3.69513201e-02, 3.81217531e-01, 7.19301564e-01,
       2.03057851e+00, 1.31673660e+00, 8.05607063e-02, 6.31118602e-01,
       3.79189393e-01, 6.59921103e-02, 2.86836097e+00, 7.06497376e-01,
       1.80713883e-01, 2.44475067e+00, 1.10230787e+01, 7.72015572e-01,
       3.03363629e-01, 9.53351296e-01, 1.88193974e+00, 2.96514866e+00,
       2.36462333e+00, 2.26387561e+00, 5.93453156e+00, 7.71022557e-01,
       8.74236300e-01, 2.76539005e+00, 8.94724596e-02, 2.83804487e-01,
       1.29162119e+00, 3.23614655e-01, 1.04356374e+00, 3.00048300e-01,
      

# operation functions

In [69]:
test_array = np.arange(1, 11)

In [70]:
test_array.sum()

55

## axis
- 모든 operation function을 실행할 때 기준이 되는 dimension 축

In [72]:
test_array = np.arange(1, 13).reshape(3, 4)
test_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [74]:
test_array.sum(axis=1), test_array.sum(axis=0)

(array([10, 26, 42]), array([15, 18, 21, 24]))

## mathematical functions

In [75]:
test_array.std(axis=0)

array([3.26598632, 3.26598632, 3.26598632, 3.26598632])

In [76]:
np.sqrt(test_array)

array([[1.        , 1.41421356, 1.73205081, 2.        ],
       [2.23606798, 2.44948974, 2.64575131, 2.82842712],
       [3.        , 3.16227766, 3.31662479, 3.46410162]])

In [77]:
np.exp(test_array)

array([[2.71828183e+00, 7.38905610e+00, 2.00855369e+01, 5.45981500e+01],
       [1.48413159e+02, 4.03428793e+02, 1.09663316e+03, 2.98095799e+03],
       [8.10308393e+03, 2.20264658e+04, 5.98741417e+04, 1.62754791e+05]])

## concatenate

In [85]:
a = np.array([1, 2, 3])
b = np.array([2, 3, 4])

print(np.vstack((a, b)))

[[1 2 3]
 [2 3 4]]


In [83]:
a = np.array([[1], [2], [3]])
b = np.array([[2], [3], [4]])

print(np.hstack((a, b)))

[[1 2]
 [2 3]
 [3 4]]


In [87]:
a = np.array([[1, 2, 3]])
b = np.array([[2, 3, 4]])

np.concatenate((a, b), axis=1)

array([[1, 2, 3, 2, 3, 4]])

In [88]:
a = np.array([[1, 2], [3, 4]])
b = np.array([5, 6])

In [89]:
b = b[np.newaxis, :]

In [92]:
b.T

array([[5],
       [6]])

In [91]:
np.concatenate((a, b.T), axis=1)

array([[1, 2, 5],
       [3, 4, 6]])

# Array Operations

## 기본 사칙연산
- element-wise operations

In [93]:
test_a = np.array([[1, 2, 3], [4, 5, 6]])

In [94]:
test_a + test_a

array([[ 2,  4,  6],
       [ 8, 10, 12]])

In [95]:
test_a ** 2

array([[ 1,  4,  9],
       [16, 25, 36]])

- dot product

In [98]:
a = np.arange(1, 7).reshape(2, 3)
b = np.arange(1, 7).reshape(3, 2)

In [100]:
a.dot(b)

array([[22, 28],
       [49, 64]])

- transpose

In [96]:
test_a.T

array([[1, 4],
       [2, 5],
       [3, 6]])

In [97]:
test_a.transpose()

array([[1, 4],
       [2, 5],
       [3, 6]])

- broadcasting
    - Shape이 다른 배열 간 연산을 지원하는 기능

In [101]:
test_matrix = np.array([[1, 2, 3], [4, 5, 6]])
scalar = 3

test_matrix * scalar

array([[ 3,  6,  9],
       [12, 15, 18]])

In [102]:
test_matrix = np.arange(1, 13).reshape(4, 3)
test_vector = np.arange(10, 40, 10)
test_matrix + test_vector

array([[11, 22, 33],
       [14, 25, 36],
       [17, 28, 39],
       [20, 31, 42]])

## Performance
- 일반적인 속도는 for loop < list comprehension < numpy 순서
- 데이터가 크면 numpy 가 매우 유리 (dynamic typing 포기하고 속도 유리)

# Comparison

## All & Any

In [103]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [105]:
a < 4

array([ True,  True,  True,  True, False, False, False, False, False,
       False])

In [107]:
np.any(a>5), np.any(a<0)

(True, False)

In [111]:
np.all(a>5), np.all(a<10)

(False, True)

## logical
- 배열 크기가 동일할 때 element간 비교 결과를 boolean type 변환

In [112]:
test_a = np.array([1, 3, 0])
test_b = np.array([5, 2, 1])

test_a > test_b

array([False,  True, False])

In [113]:
a = np.array([1, 3, 0], float)
np.logical_and(a > 0, a < 3)

array([ True, False, False])

## where

In [115]:
a>0

array([ True,  True, False])

In [116]:
np.where(a>0, 3, 2)
# condition, if_true, if_false

array([3, 3, 2])

In [120]:
a = np.arange(10)
np.where(a>5)

(array([6, 7, 8, 9]),)

In [121]:
a = np.array([1, np.NaN, np.Inf], float)
np.isnan(a)

array([False,  True, False])

In [122]:
np.isfinite(a)

array([ True, False, False])

## argmax & argmin

In [123]:
a = np.array([1, 2, 4, 5, 8, 78, 23, 3])
np.argmax(a), np.argmin(a)

(5, 0)

In [125]:
a = np.array([[1, 2, 4, 7], [9, 88, 6, 45], [9, 76, 3, 4]])
np.argmax(a, axis=1), np.argmin(a, axis=0)

(array([3, 1, 1]), array([0, 0, 2, 2]))

## Boolean Index

In [127]:
test_array = np.array([1, 4, 0, 2, 3, 8, 9, 6])
test_array > 3

array([False,  True, False, False, False,  True,  True,  True])

## Fancy Index

In [128]:
a = np.array([2, 4, 6, 8])
b = np.array([0, 0, 1, 3, 2, 1])

a.take(b)

array([2, 2, 4, 8, 6, 4])

## numpy IO
- np.savetxt, np.loadtxt를 이용하면 csv 등 text 파일로 저장
- np.save, np.load를 이용하여 save, load 지원