<a href="https://colab.research.google.com/github/Chong5084/Colab_Note/blob/main/ch05_03_%EB%B0%B0%EC%97%B4%EC%9D%98_%EC%97%B0%EC%82%B0_%EA%B3%B5%EC%9C%A0%EC%9A%A9_ipynb%EC%9D%98_%EC%82%AC%EB%B3%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 배열의 연산

## 벡터화 연산 (vectorized operation)
* 명시적으로 반복문을 사용하지 않고도 배열의 모든 원소에 대해 반복 연산을 할 수 있음
* 선형 대수 공식과 동일한 아주 간단한 파이썬 코드를 작성할 수 있음

<br>
$$
x = \begin{bmatrix}1\\2\\3\\⋯\\10000\end{bmatrix},\quad
y = \begin{bmatrix}10001\\10002\\10003\\⋯\\20000\end{bmatrix}
$$

<br>
$$
z = x + y
$$

<br>
$$
\begin{bmatrix}1\\2\\3\\⋯\\10000\end{bmatrix}
+ \begin{bmatrix}10001\\10002\\10003\\⋯\\20000\end{bmatrix}
= \begin{bmatrix}1+10001\\2+10002\\3+10003\\⋯\\10000+20000\end{bmatrix}
= \begin{bmatrix}10002\\10004\\10006\\⋯\\30000\end{bmatrix}
$$



In [None]:
import numpy as np

In [None]:
x = np.arange(1, 10001)
y = np.arange(10001, 20001)
x, y
z = x + y
z

array([10002, 10004, 10006, ..., 29996, 29998, 30000])

In [None]:
%%time
z = np.zeros_like(x)  # 2개의 배열을 더했을 때의 결과를 담아줄 새로운 배열
for i in range(len(z)):
    # range(len(z)) -> 해당 z 배열의 길이만큼을 가진 range => 반복했을 때 z의 길이만큼 반복해줄 수 있는 인덱스 range
    z[i] = x[i] + y[i]  # x와 y와 z의 길이가 일치하기 때문에 -> 반복을 하면 x, y의 모든 원소(요소) 인덱스로 찾아서
    # x + y 연산을 해주는 기능.

CPU times: user 741 µs, sys: 0 ns, total: 741 µs
Wall time: 702 µs


In [None]:
%%timeit
z = np.zeros_like(x)  # 2개의 배열을 더했을 때의 결과를 담아줄 새로운 배열
for i in range(len(z)):
    # range(len(z)) -> 해당 z 배열의 길이만큼을 가진 range => 반복했을 때 z의 길이만큼 반복해줄 수 있는 인덱스 range
    z[i] = x[i] + y[i]  # x와 y와 z의 길이가 일치하기 때문에 -> 반복을 하면 x, y의 모든 원소(요소) 인덱스로 찾아서
    # x + y 연산을 해주는 기능.

2.25 ms ± 50 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [None]:
%%time
z = x + y


array([[  1,   2,   4,   6],
       [ 46, 100, 102,  74],
       [ 82,  61,  93, 103]])

In [None]:
%%timeit
z = x + y

468 ns ± 5.33 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [None]:
z

array([[  1,   2,   4,   6],
       [ 46, 100, 102,  74],
       [ 82,  61,  93, 103]])

In [None]:
# 사칙 연산뿐 아니라 비교 연산과 같은 논리 연산도 벡터화 연산이 가능

In [None]:
x == y

array([False,  True, False,  True])

In [None]:
(x == y) | (x > y)

array([False,  True,  True,  True])

In [None]:
# 배열의 각 원소를 일일히 비교하는 것이 아닌 배열의 모든 원소가 다 같은지 알고 싶다면 all 명령 사용
a = np.arange(1, 5)
b = np.array((4, 2, 2, 4))
c = np.arange(1, 5)
a, b, c

(array([1, 2, 3, 4]), array([4, 2, 2, 4]), array([1, 2, 3, 4]))

In [None]:
a == b

array([False, False, False, False])

In [None]:
np.all( a == b) # 모두 일치 하나?

False

In [None]:
np.all( a == c) # 모두 일치 하나?

True

In [None]:
np.any(a == c) # 하나라도 일치하나?

True

In [None]:
# 지수 함수, 로그 함수 등의 수학 함수도 벡터화 연산을 지원
a

array([1, 2, 3, 4])

In [None]:
np.exp(a)  # exponential (지수)

array([ 2.71828183,  7.3890561 , 20.08553692, 54.59815003])

In [None]:
10 ** a

array([   10,   100,  1000, 10000])

In [None]:
np.log(a)

array([0.        , 0.69314718, 1.09861229, 1.38629436])

## 스칼라와 벡터/행렬의 곱셈

In [None]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
x * 100

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

In [None]:
x = np.arange(12).reshape(3, -1) #3행 짜리 4열
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [None]:
x * 100

array([[   0,  100,  200,  300],
       [ 400,  500,  600,  700],
       [ 800,  900, 1000, 1100]])

## 브로드캐스팅
* 백터(또는 행렬)끼리 덧셈 혹은 뺄셈을 하려면 두 벡터(또는 행렬)의 크기가 같아야 함
* Numpy에선 서로 다른 크기를 가진 두 배열의 사칙 연산 지원 = 브로드캐스팅(broadcasting)
> 크기가 작은 배열을 자동으로 반복 확장하여 크기가 큰 배열에 맞추는 방법

<br>
$$
x = \begin{bmatrix}0\\1\\2\\3\\4\end{bmatrix},\quad
x + 1 = \begin{bmatrix}0\\1\\2\\3\\4\end{bmatrix} + 1 = ?
$$
<br>
$$
\begin{bmatrix}0\\1\\2\\3\\4\end{bmatrix} + 1
= \begin{bmatrix}0\\1\\2\\3\\4\end{bmatrix}
+ \begin{bmatrix}1\\1\\1\\1\\1\end{bmatrix}
= \begin{bmatrix}1\\2\\3\\4\\5\end{bmatrix}
$$

In [None]:
x = np.arange(5)
x

array([0, 1, 2, 3, 4])

In [None]:
y = np.ones_like(x)
y

array([1, 1, 1, 1, 1])

In [None]:
x + y

array([1, 2, 3, 4, 5])

In [None]:
x + 1

array([1, 2, 3, 4, 5])

In [None]:
np.full(5, 2) #채우는 함수 / 2로 된 5줄

array([2, 2, 2, 2, 2])

In [None]:
z = np.full_like(x, 2)
z

array([2, 2, 2, 2, 2])

In [None]:
x + z, x + 2

(array([2, 3, 4, 5, 6]), array([2, 3, 4, 5, 6]))

In [None]:
# 2차원 이상에서도 적용됨
# x = np.vstack([range(7)[i:i+3] for i in range(5)])
r = [range(7)[i:i+3] for i in range(5)]
print(r)
x = np.vstack(r)
x, x.shape, x.ndim #shape (5, 3) 5행 3열

[range(0, 3), range(1, 4), range(2, 5), range(3, 6), range(4, 7)]


(array([[0, 1, 2],
        [1, 2, 3],
        [2, 3, 4],
        [3, 4, 5],
        [4, 5, 6]]),
 (5, 3),
 2)

In [None]:
y = np.arange(5)
y, y.ndim

(array([0, 1, 2, 3, 4]), 1)

In [None]:
y2 = y[:, np.newaxis]
y2

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [None]:
y3 = np.tile(y2, 3)
y3, y3.shape

(array([[0, 0, 0],
        [1, 1, 1],
        [2, 2, 2],
        [3, 3, 3],
        [4, 4, 4]]),
 (5, 3))

In [None]:
x + y3

array([[ 0,  1,  2],
       [ 2,  3,  4],
       [ 4,  5,  6],
       [ 6,  7,  8],
       [ 8,  9, 10]])

In [None]:
x + y2

array([[ 0,  1,  2],
       [ 2,  3,  4],
       [ 4,  5,  6],
       [ 6,  7,  8],
       [ 8,  9, 10]])

In [None]:
z = np.arange(3)
z

array([0, 1, 2])

In [None]:
x + z

array([[0, 2, 4],
       [1, 3, 5],
       [2, 4, 6],
       [3, 5, 7],
       [4, 6, 8]])

## 차원 축소 연산 (dimension reduction)
> 행렬의 하나의 행에 있는 원소들을 하나의 데이터 집합으로 보고 각 행에 처리된 연산으로 한 차원 낮은 벡터를 구성하게 하는 연산
* 최대/최소 : `min`, `max`, `argmin`, `argmax`
* 통계 : `sum`, `mean`, `median`, `std`, `var`
* 불리언 : `all`, `any`

In [None]:
x = np.arange(1, 5)
x

array([1, 2, 3, 4])

In [None]:
# sum
np.sum(x), x.sum()

(10, 10)

In [None]:
x = np.array([1, 3, 2])
x

array([1, 3, 2])

In [None]:
x.max(), x.min(), np.max(x), np.min(x)

(3, 1, 3, 1)

In [None]:
# 주어진 '인수'들 묶음중에... 최대값의 인데쇼ㅡ
x.argmax(), np.argmax(x) # 최대값의 위치

(1, 1)

In [None]:
x.argmin(), np.argmin(x) # 최소값의 위치

(0, 0)

In [None]:
import random

arr = np.array(random.choices(range(1000_000), k=5))
arr

array([876550, 661020, 318395, 391655, 834970])

In [None]:
arr.max(), arr.min()

(876550, 318395)

In [None]:
arr2 = ["민수","민철", "철민", "수민", "철철"]
arr2[arr.argmax()], arr2[arr.argmin()]

('민수', '철민')

In [None]:
arr

array([876550, 661020, 318395, 391655, 834970])

In [None]:
arr.mean(), np.mean(arr), arr.sum() / len(arr)

(616518.0, 616518.0, 616518.0)

In [None]:
# 대표값 -> 평균값, 최빈값, 중앙값(중간값)
np.median(arr)

661020.0

In [None]:
arr2 = np.array(random.choices(range(1000_000), k=6))
arr2

array([968937, 537281, 559730, 528517, 397763, 126480])

In [None]:
np.median(arr2)  # 짝수 개의 경우 에는 중간에 있는 2값의 평균값

True

In [None]:
np.any(arr > 100)

True

In [None]:
np.all(arr > 0)

True

In [None]:
(arr >0).all() # 배열들 중에 모두가 Ture인가?

True

In [None]:
(arr > 5000 ).all() # 배열들 중에 하나라도 Ture가 있는가?

True

* 연산의 대상이 2차원 이상인 경우에는 어느 차원으로 계산을 할 지를 axis 인수를 사용하여 지시
* axis=0인 경우는 열 연산, axis=1인 경우는 행 연산. 디폴트 값은 axis=0.
* axis 인수는 대부분의 차원 축소 명령에 적용할 수 있음

In [None]:
x = np.array(np.array(random.choices(range(1000_000), k=6))).reshape(2, -1)
x

array([[785310, 597353, 871359],
       [840545, 473786, 520094]])

In [None]:
x.sum()  # 차원 고려 안하고 모두를 더해버림

1221388

In [None]:
x.sum(axis=0)  # 열 합계 (열들 간의 연산)
# 다른 행의 같은 열들 간의 연산 -> 열의 수가 보존. ()

2535839

In [None]:
x.sum(axis=1)  # 행 합계 (행들 간의 연산)
# 다른 열의 같은 행들 간의 연산 -> 행의 수가 보존.
# axis => 축소할 축을 지정.

array([2, 4])

## 💡 연습문제 5
실수로 이루어진 5 x 6 형태의 데이터 행렬을 만들고 이 데이터에 대해 다음과 같은 값 도출
1. 전체의 최댓값
2. 각 행의 합
3. 각 행의 최댓값
4. 각 열의 평균
5. 각 열의 최솟값

array([[ 0.,  1.,  2.,  3.,  4.,  5.],
       [ 6.,  7.,  8.,  9., 10., 11.],
       [12., 13., 14., 15., 16., 17.],
       [18., 19., 20., 21., 22., 23.],
       [24., 25., 26., 27., 28., 29.]], dtype=float32)

In [None]:
# 전체의 최댓값


29.0

In [None]:
# 각 행의 합


array([ 15.,  51.,  87., 123., 159.], dtype=float32)

In [None]:
# 각 행의 최댓값


array([ 5., 11., 17., 23., 29.], dtype=float32)

In [None]:
# 각 열의 평균


array([12., 13., 14., 15., 16., 17.], dtype=float32)

In [None]:
# 각 열의 최솟값


array([0., 1., 2., 3., 4., 5.], dtype=float32)

## 정렬
* `sort` : 배열 안의 원소를 크기에 따라 정렬하여 새로운 배열 생성
* 2차원 이상인 경우에는 행이나 열을 각각 따로따로 정렬
    * `axis=0` : 각각의 행을 따로따로 정렬
    * `axis=1` : 각각의 열을 따로따로 정렬
    * `axis=-1` : 가장 안쪽(나중)의 차원 (default)

In [None]:
a = np.array(
    (
    [4, 3, 5, 7],
    [1, 12, 11, 9],
    [2, 15, 1, 14]
    )
)
a

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [None]:
np.sort(a), np.sort(a, axis=-1), np.sort(a) # axis=-1 (가장 안쪽), axis=1 열들 간의 정렬

(array([[ 3,  4,  5,  7],
        [ 1,  9, 11, 12],
        [ 1,  2, 14, 15]]),
 array([[ 3,  4,  5,  7],
        [ 1,  9, 11, 12],
        [ 1,  2, 14, 15]]),
 array([[ 3,  4,  5,  7],
        [ 1,  9, 11, 12],
        [ 1,  2, 14, 15]]))

In [None]:
np.sort(a, axis=0) # 행들 기준으로 정렬

array([[ 1,  3,  1,  7],
       [ 2, 12,  5,  9],
       [ 4, 15, 11, 14]])

In [None]:
np.sort(a), np.sort(a)[:,::-1]

In [None]:
np.sort(a, axis=0), np.sort(a, axis=0)[::-1,:]

In [None]:
# sort 메서드는 해당 객체의 자료 자체가 변화하므로 주의
# 자체변화(in-place) 메서드 = 원본이 수정됨
print(a)
a.sort()
print(a)
a.sort(axis=0)
print(a)
a.sort(axis=1)
print(a)

[[ 4  3  5  7]
 [ 1 12 11  9]
 [ 2 15  1 14]]
[[ 3  4  5  7]
 [ 1  9 11 12]
 [ 1  2 14 15]]
[[ 1  2  5  7]
 [ 1  4 11 12]
 [ 3  9 14 15]]
[[ 1  2  5  7]
 [ 1  4 11 12]
 [ 3  9 14 15]]


* `argsort` : 자료 정렬이 아니라 순서만 알고 싶다면 사용

In [None]:
a = np.array([42, 38, 12, 25])
j = np.argsort(a)
j

array([2, 3, 1, 0])

In [None]:
a[j]

array([12, 25, 38, 42])

In [None]:
np.sort(a)

array([12, 25, 38, 42])

In [None]:
a[j[::-1]]

array([42, 38, 25, 12])

## 💡 연습문제 6
> 두 번째 행을 기준으로 각 열(column)을 재정렬
```
array([[  1,    2,    3,    4],
       [ 46,   99,  100,   71],
       [ 81,   59,   90,  100]])
```

In [None]:
x = np.array([
    [1, 2, 3, 4],
    [46, 99, 100, 71],
    [81, 59, 90, 100]
])
x

array([[  1,   2,   3,   4],
       [ 46,  99, 100,  71],
       [ 81,  59,  90, 100]])

In [None]:
x[:]

array([[  1,   2,   3,   4],
       [ 46,  99, 100,  71],
       [ 81,  59,  90, 100]])

In [None]:
# np.sort(x[1])
np.argsort(x[1])

SyntaxError: ignored

In [None]:
x[:, np.argsort(x[1])]

array([[0, 0, 1, 2],
       [0, 1, 2, 3],
       [1, 2, 3, 3]])