# 2.2. Numpy 주요 기능

In [1]:
import numpy as np

### 객체의 내장 함수 사용

- 빠른 연산이 가능한 벡터화 함수(vectorize function)

- ufunction(universal function) 사용 권장

In [43]:
np.random.seed(0)

arr2 = np.random.randint(1, 10, (3, 4))
arr2

array([[6, 1, 4, 4],
       [8, 4, 6, 3],
       [5, 8, 7, 9]])

In [44]:
np.sum(arr2), arr2.sum()

(65, 65)

- sum()

- axis가 지정이 안되면 => axis=None
    - 모든 원소를 의미함

In [45]:
np.sum(arr2, axis=0), arr2.sum(axis=0)

(array([19, 13, 17, 16]), array([19, 13, 17, 16]))

- axis=0을 하면 세로(열) 방향으로 sum()

In [46]:
np.sum(arr2, axis=1), arr2.sum(axis=1)

(array([15, 21, 29]), array([15, 21, 29]))

- axis=1을 하면 가로(행) 방향으로 sum()

In [47]:
np.min(arr2, axis=0), np.max(arr2, axis=0)

(array([5, 1, 4, 3]), array([8, 8, 7, 9]))

- min(), max()

- ufunction을 이용해 빠르게 연산 가능
- 루프를 사용하는것 보다 내장함수를 사용하는 것이 더 좋음


In [48]:
arr2.min(axis=0), arr2.max(axis=0)

(array([5, 1, 4, 3]), array([8, 8, 7, 9]))

- axis를 이용해 방향 지정 가능

In [49]:
np.min(arr2, axis=1), np.max(arr2, axis=1)

(array([1, 3, 5]), array([6, 8, 9]))

In [50]:
arr2.min(axis=1), arr2.max(axis=1)

(array([1, 3, 5]), array([6, 8, 9]))

### Numpy 배열 객체와 브로드캐스팅


- 행렬끼리 연산을 하기 위해서는 각행렬의 행과 열의 정보가 일치되어야 함
- shape가 일치해야 함


- 브로드캐스팅: 행열 구조를 동일하게 맞춰주는 것

In [51]:
np.random.seed(0)

X = np.random.random((10, 3))
X

array([[0.5488135 , 0.71518937, 0.60276338],
       [0.54488318, 0.4236548 , 0.64589411],
       [0.43758721, 0.891773  , 0.96366276],
       [0.38344152, 0.79172504, 0.52889492],
       [0.56804456, 0.92559664, 0.07103606],
       [0.0871293 , 0.0202184 , 0.83261985],
       [0.77815675, 0.87001215, 0.97861834],
       [0.79915856, 0.46147936, 0.78052918],
       [0.11827443, 0.63992102, 0.14335329],
       [0.94466892, 0.52184832, 0.41466194]])

In [52]:
Xmean = X.mean(axis=0)
Xmean

array([0.52101579, 0.62614181, 0.59620338])

- mean()

- axis를 이용해 방향 지정 가능

In [53]:
Xcentered = X - Xmean
Xcentered

array([[ 0.02779771,  0.08904756,  0.00655999],
       [ 0.02386739, -0.20248701,  0.04969073],
       [-0.08342858,  0.26563119,  0.36745938],
       [-0.13757427,  0.16558323, -0.06730846],
       [ 0.04702877,  0.29945483, -0.52516732],
       [-0.43388649, -0.60592341,  0.23641646],
       [ 0.25714096,  0.24387034,  0.38241496],
       [ 0.27814277, -0.16466245,  0.18432579],
       [-0.40274137,  0.01377921, -0.45285009],
       [ 0.42365312, -0.10429349, -0.18154144]])

In [54]:
print(X.shape)
print(Xmean.shape)

(10, 3)
(3,)


- `-`

- 행렬의 빼기 연산

- 중심화


### Numpy 배열 객체의 부울 배열과 마스킹 연산

- 부울 배열을 이용한 마스킹 연산


In [55]:
np.random.seed(0)

X = np.random.randint(1, 10, size=(3, 4))
X

array([[6, 1, 4, 4],
       [8, 4, 6, 3],
       [5, 8, 7, 9]])

In [56]:
(X > 5) & (X < 8)

array([[ True, False, False, False],
       [False, False,  True, False],
       [False, False,  True, False]])

- 조건을 만족하는 배열 구성

- 조건을 만족하면 True 아니면 False

In [57]:
np.sum((X > 5) & (X < 8))

3

- True가 나오는 지점의 데이터를 sum()

In [58]:
(X > 5) | (X < 8)

array([[ True,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True]])

In [59]:
np.sum((X > 5) | (X < 8))

12

- 조건을 만족하는 지점의 데이터를 sum()

In [60]:
np.sum((X > 5) & (X < 8), axis=0)

array([1, 0, 2, 0])

- axis
    - 적용할 방향 지정

In [61]:
np.sum((X > 5) & (X < 8), axis=1)

array([1, 1, 1])

In [62]:
X[(X > 5) & (X < 8)]

array([6, 6, 7])

- 부울 배열과 마스킹 연산으로 결과 추출

- 조건을 만족하는 데이터를 출력

### Numpy 배열 객체와 팬시 인덱싱

- 팬시 인덱싱: 인덱스를 담고 있는 배열

In [63]:
X = np.arange(12).reshape((3, 4))
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [64]:
row = np.array([0, 1, 2])
col = np.array([1, 2, 3])

print(row)
print(col)

[0 1 2]
[1 2 3]


- row 인덱스와 col 인덱스

In [65]:
X[row]

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

- X에 row 전달
- 0, 1, 2 번째 행 출력


- 인덱스 배열을 만족하는 부분집합을 추출하는 팬시 인덱싱

In [66]:
X[:, col]

array([[ 1,  2,  3],
       [ 5,  6,  7],
       [ 9, 10, 11]])

- 1, 2, 3번째 열을 출력
- 행은 전부

In [67]:
X[row, col]

array([ 1,  6, 11])

- 행과 열 모두 만족하는 값들이 출력

In [68]:
X[row.reshape(-1, 1), col]

array([[ 1,  2,  3],
       [ 5,  6,  7],
       [ 9, 10, 11]])

In [69]:
row.reshape(-1, 1)

array([[0],
       [1],
       [2]])

- reshape를 이용해 구조를 변환해도 동일한 결과를 내는 팬시 인덱싱

### Numpy 배열 객체와 복합 인덱싱

In [70]:
X = np.zeros(12).reshape((3, 4))
X

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [71]:
X[1, 0] = 1
X

array([[0., 0., 0., 0.],
       [1., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [72]:
X[1, [1, 3]] = 1
X

array([[0., 0., 0., 0.],
       [1., 1., 0., 1.],
       [0., 0., 0., 0.]])

- 팬시 인덱싱

In [73]:
X[[0, 2], [1, 3]] = 2
X

array([[0., 2., 0., 0.],
       [1., 1., 0., 1.],
       [0., 0., 0., 2.]])

In [74]:
X[0:3, [0, 2]] = 3
X

array([[3., 2., 3., 0.],
       [3., 1., 3., 1.],
       [3., 0., 3., 2.]])

- 팬시 인덱싱 + 슬라이싱 = 범위 집합 추출

### Numpy 배열 객체의 정렬


In [75]:
np.random.seed(0)

X = np.array(np.random.randint(10, size=5))
X

array([5, 0, 3, 3, 7])

In [76]:
np.sort(X)

array([0, 3, 3, 5, 7])

In [77]:
X

array([5, 0, 3, 3, 7])

In [78]:
X.sort()

In [79]:
X

array([0, 3, 3, 5, 7])

- np.sort(X) 와 X.sort()의 결과는 다름

- np.sort를 이용해 정렬하면 X는 바꾸지 않고 array 반환

- X.sort()를 사용하면 실제 데이터가 정렬됨, 객체가 가지고 있는 sort

In [80]:
np.random.seed(0)

X = np.array(np.random.randint(10, size=5))
X

array([5, 0, 3, 3, 7])

In [81]:
idx = np.argsort(X)
idx

array([1, 2, 3, 0, 4], dtype=int64)

In [82]:
X[idx]

array([0, 3, 3, 5, 7])

- np.argsort()
    - sort된 인덱스를 전달 


- 이를 이용하면 팬시 인덱싱을 할 수 있음

<br/>

### Reference

https://www.youtube.com/watch?v=rfTin5JeAas
