# 브로드캐스팅
## 브로드캐스팅

벡터(또는 행렬)끼리 덧셈 혹은 뺄셈을 하려면 두 벡터(또는 행렬)의 크기가 같아야 한다. 넘파이에서는 서로 다른 크기를 가진 두 배열의 사칙 연산도 지원한다. 이 기능을 브로드캐스팅(broadcasting)이라고 하는데 크기가 작은 배열을 자동으로 반복 확장하여 크기가 큰 배열에 맞추는 방법.

만약 배열의 각 원소들을 일일히 비교하는 것이 아니라 배열의 모든 원소가 다 같은지 알고 싶다면 all 명령을 사용하면 된다.

In [2]:
import numpy as np

In [3]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])
c = np.array([1, 2, 3, 4])

In [4]:
np.all( a == b)

False

In [5]:
np.all(a==c)

True

In [6]:
a

array([1, 2, 3, 4])

In [7]:
np.exp(a)

array([ 2.71828183,  7.3890561 , 20.08553692, 54.59815003])

In [8]:
np.log(a+1)

array([0.69314718, 1.09861229, 1.38629436, 1.60943791])

In [10]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [11]:
100*x

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

브로드캐스팅은 더 차원 높은 경우에도 적용된다. 

$$\begin{bmatrix} 0 \ 1 \ 2 \\ 1 \ 2 \ 3 \\ 2 \ 3 \ 4 \\ 3 \ 4 \ 5 \\ 4 \ 5 \ 6\end{bmatrix} + \begin{bmatrix} 0 \\ 1 \\ 2 \\ 3 \\ 4\end{bmatrix}=\begin{bmatrix} 0 \ 1 \ 2 \\ 1 \ 2 \ 3 \\ 2 \ 3 \ 4 \\ 3 \ 4 \ 5 \\ 4 \ 5 \ 6\end{bmatrix}+\begin{bmatrix} 1 \ 1 \ 1 \\ 2 \ 2 \ 2 \\ 3 \ 3 \ 3 \\ 4 \ 4 \ 4 \\ 5 \ 5 \ 5\end{bmatrix}$$ 

$$\begin{bmatrix} 0 \ 1 \ 2 \\ 1 \ 2 \ 3 \\ 2 \ 3 \ 4 \\ 3 \ 4 \ 5 \\ 4 \ 5 \ 6\end{bmatrix} + \begin{bmatrix} 0 \ 1 \ 2\end{bmatrix}=\begin{bmatrix} 0 \ 1 \ 2 \\ 1 \ 2 \ 3 \\ 2 \ 3 \ 4 \\ 3 \ 4 \ 5 \\ 4 \ 5 \ 6\end{bmatrix}+\begin{bmatrix} 0 \ 1 \ 2 \\ 0 \ 1 \ 2 \\ 0 \ 1 \ 2 \\ 0 \ 1 \ 2 \\ 0 \ 1 \ 2\end{bmatrix}$$ 

In [12]:
x = np.vstack([range(7)[i:i + 3] for i in range(5)])
x

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4],
       [3, 4, 5],
       [4, 5, 6]])

In [13]:
y = np.arange(5)[:, np.newaxis]
y

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [14]:
x + y

array([[ 0,  1,  2],
       [ 2,  3,  4],
       [ 4,  5,  6],
       [ 6,  7,  8],
       [ 8,  9, 10]])

## 차원 축소 연산
차원 축소 연산

행렬의 하나의 행에 있는 원소들을 하나의 데이터 집합으로 보고 그 집합의 평균을 구하면 각 행에 대해 하나의 숫자가 나오게 된다. 예를 들어 10x5 크기의 2차원 배열에 대해 행-평균을 구하면 10개의 숫자를 가진 1차원 벡터가 나오게 된다. 이러한 연산을 차원 축소(dimension reduction) 연산이라고 한다.

넘파이는 다음과 같은 차원 축소 연산 명령 혹은 메서드를 지원한다.
최대/최소: min, max, argmin, argmax
통계: sum, mean, median, std, var
불리언: all, any

In [16]:
x = np.array([1,2,3,4])
x

array([1, 2, 3, 4])

In [17]:
np.sum(x)

10

In [18]:
x.sum()

10

In [19]:
x.argmax()

3

In [20]:
x.argmin()

0

In [21]:
x = np.array([1,2,3,1])

In [22]:
x.mean() # sum() / count , Returns the average of the array elements.

1.75

In [25]:
np.median(x) # returns the median of the array elements.

1.5

In [26]:
np.all([True, True, False]) # and 

False

In [27]:
np.any([True,True,False]) # or

True

In [30]:
a = np.zeros((100,100), dtype = int)
a

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

In [31]:
np.any(a != 0)

False

In [33]:
np.any(a == 0)

True

In [34]:
a = np.array([1, 2, 3, 2])
b = np.array([2, 2, 3, 2])
c = np.array([6, 4, 4, 5])

In [35]:
((a <= b) & (b <= c)).all()

True

In [36]:
((a <= b) & (b <= c)).any()

True

연산의 대상이 2차원 이상인 경우에는 어느 차원으로 계산을 할 지를 axis 인수를 사용하여 지시한다. axis=0인 경우는 열 연산, axis=1인 경우는 행 연산이다. 디폴트 값은 axis=0이다. axis 인수는 대부분의 차원 축소 명령에 적용할 수 있다.

In [37]:
x = np.array([[1, 1], [2, 2]])
x

array([[1, 1],
       [2, 2]])

In [38]:
x.sum(axis=0)   # 열 합계

array([3, 3])

In [39]:
x.sum(axis=1)   # 행 합계

array([2, 4])

실수로 이루어진 5 x 6 형태의 데이터 행렬을 만들고 이 데이터에 대해 다음과 같은 값을 구한다.

- 전체의 최댓값
- 각 행의 합
- 각 행의 최댓값
- 각 열의 평균
- 각 열의 최솟값

In [46]:
a = np.arange(30).reshape(5,6)

In [47]:
a

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [48]:
a.max()

29

In [51]:
a.sum(axis=1)

array([ 15,  51,  87, 123, 159])

In [52]:
a.max(axis=1)

array([ 5, 11, 17, 23, 29])

In [55]:
a.mean(axis=0)

array([12., 13., 14., 15., 16., 17.])

In [56]:
a.min(axis=0)

array([0, 1, 2, 3, 4, 5])

## 정렬
### 설명
sort 함수나 메서드를 사용하여 배열 안의 원소를 크기에 따라 정렬하여 새로운 배열을 만들 수도 있다. 2차원 이상인 경우에는 행이나 열을 각각 따로따로 정렬하는데 axis 인수를 사용하여 행을 정렬할 것인지 열을 정렬한 것인지 결정한다. axis=0이면 각각의 행을 따로따로 정렬하고 axis=1이면 각각의 열을 따로따로 정렬한다. 디폴트 값은 -1 즉 가장 안쪽(나중)의 차원이다.

In [59]:
a = np.array([[4,  3,  5,  7],
              [1, 12, 11,  9],
              [2, 15,  1, 14]])
a

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [60]:
np.sort(a)

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [62]:
np.sort(a, axis=0)
a

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [64]:
a.sort(axis=1)
a

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

만약 자료를 정렬하는 것이 아니라 순서만 알고 싶다면 argsort 명령을 사용한다.

In [65]:
a = np.array([42, 38, 12, 25])
j = np.argsort(a)
j

array([2, 3, 1, 0], dtype=int64)

In [66]:
a[j]

array([12, 25, 38, 42])

In [67]:
np.sort(a)

array([12, 25, 38, 42])

다음 배열은 첫번째 행(row)에 학번, 두번째 행에 영어 성적, 세번째 행에 수학 성적을 적은 배열이다. 영어 성적을 기준으로 각 열(column)을 재정렬하라.

In [81]:
a = np.array([[  1,    2,    3,    4],
       [ 46,   99,  100,   71],
       [ 81,   59,   90,  100]])

In [82]:
a


array([[  1,   2,   3,   4],
       [ 46,  99, 100,  71],
       [ 81,  59,  90, 100]])

In [72]:
j = np.sort(a[1])
j

array([ 46,  71,  99, 100])

In [83]:
q = np.argsort(a[1])
q

array([0, 3, 1, 2], dtype=int64)

In [90]:
a[:,q]

array([[  1,   4,   2,   3],
       [ 46,  71,  99, 100],
       [ 81, 100,  59,  90]])