### 연산의 브로드캐스팅

In [1]:
import numpy as np
import matplotlib.pyplot as plt

In [2]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

#### 브로드캐스팅
  - Shape이 같은 두 ndarray에 대한 연산은 각 원소별로 진행
  - 연산되는 두 ndarray가 다른 Shape을 갖는 경우 브로드 캐스팅(Shape을 맞춤) 후 진행

#### 브로드캐스팅 Rule
 - [공식문서](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html#general-broadcasting-rules)
 - 뒷 차원에서 부터 비교하여 Shape이 같거나, 차원 중 값이 1인 것이 존재하면 가능

![브로드캐스팅 예](pic/브로드캐스팅.jpg)
    - 출처: https://www.tutorialspoint.com/numpy/images/array.jpg 


In [3]:
x = np.arange(15).reshape(3, 5)
y = np.random.rand(15).reshape(3, 5)
print(x)
print(y)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[0.19799918 0.36223613 0.36395882 0.51299309 0.59810869]
 [0.76778458 0.05536802 0.72553425 0.52256716 0.88721862]
 [0.73193982 0.0468907  0.79863126 0.44166945 0.32915333]]


- shape이 같은 경우의 연산(벡터화연산)



In [4]:
x * y


array([[0.        , 0.36223613, 0.72791765, 1.53897928, 2.39243476],
       [3.83892289, 0.33220815, 5.07873975, 4.18053725, 7.9849676 ],
       [7.31939816, 0.51579774, 9.58357508, 5.7417028 , 4.60814656]])

- Scalar(상수)와의 연산

In [6]:
x % 2 == 0


array([[ True, False,  True, False,  True],
       [False,  True, False,  True, False],
       [ True, False,  True, False,  True]])

- shape이 다른 경우 연산

In [7]:
a = np.arange(12).reshape(4, 3)
b = np.arange(100, 103)
c = np.arange(1000, 1004)
d = b.reshape(1, 3)

print(a.shape)
print(b.shape)
print(c.shape)
print(d.shape)
a
b
c
d
# d.ndim

(4, 3)
(3,)
(4,)
(1, 3)


array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

array([100, 101, 102])

array([1000, 1001, 1002, 1003])

array([[100, 101, 102]])

In [8]:
a + b

array([[100, 102, 104],
       [103, 105, 107],
       [106, 108, 110],
       [109, 111, 113]])

In [9]:
a + c #operands could not be broadcast together with shapes (4,3) (4,) 


ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

In [10]:
a+d

array([[100, 102, 104],
       [103, 105, 107],
       [106, 108, 110],
       [109, 111, 113]])

In [11]:
b_1 = np.arange(100,104)
d = b_1.reshape(4, 1)
a
d

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

array([[100],
       [101],
       [102],
       [103]])

In [12]:
a+d

array([[100, 101, 102],
       [104, 105, 106],
       [108, 109, 110],
       [112, 113, 114]])

## boolean indexing의 이해

#### Boolean indexing
  - ndarry 인덱싱 시, bool 리스트를 전달하여 True인 경우만 필터링


In [13]:
x = np.random.randint(1, 100, size=10)
print(x)

[64 18 90 24 92 91 82 49 13 17]


In [14]:
even_mask = x % 2 ==0
even_mask


array([ True,  True,  True,  True,  True, False,  True, False, False,
       False])

In [15]:
# bool 리스트를 인덱스로 전달
x[even_mask]


array([64, 18, 90, 24, 92, 82])

In [16]:
x[x % 2 == 0]

array([64, 18, 90, 24, 92, 82])

In [17]:
x[x>30]

array([64, 90, 92, 91, 82, 49])

####  다중조건 사용하기
 - 파이썬 논리 연산지인 and, or, not 키워드 사용 불가
 - & - AND 
 - | - OR 

In [18]:
# 짝수 이면서 30보다 작은 원소
x[(x%2 == 0) & (x < 30)]


array([18, 24])

In [19]:
x[(x < 30) | (x > 50)]

array([64, 18, 90, 24, 92, 91, 82, 13, 17])

#### 예제) 2020년 7월 서울 평균기온 데이터
 - 평균기온이 25도를 넘는 날수는?
 - 평균기온이 25를 넘는 날의 평균 기온은?

In [20]:
temp = np.array(
        [23.9, 24.4, 24.1, 25.4, 27.6, 29.7,
         26.7, 25.1, 25.0, 22.7, 21.9, 23.6, 
         24.9, 25.9, 23.8, 24.7, 25.6, 26.9, 
         28.6, 28.0, 25.1, 26.7, 28.1, 26.5, 
         26.3, 25.9, 28.4, 26.1, 27.5, 28.1, 25.8])



In [21]:

# 전체 수집 일수
len(temp)

31

In [22]:
temp>25.0


array([False, False, False,  True,  True,  True,  True,  True, False,
       False, False, False, False,  True, False, False,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True])

In [23]:

len(temp[temp>25.0])


21

In [24]:
np.sum(temp>25.0) # True : 1, False : 0

21

In [25]:

# 평균기온이 25를 넘는 날의 평균 기온은?
np.mean(temp[temp>25.0])


26.857142857142858