### 연산의 브로드캐스팅


In [2]:
import numpy as np
import matplotlib.pyplot as plt

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

 #### 브로드캐스팅
   - Shape이 같은 두 ndarray에 대한 연산은 각 원소별로 진행
   - 연산되는 두 ndarray가 다른 Shape을 갖는 경우 브로드 캐스팅(Shape을 맞춤) 후 진행
 #### 브로드캐스팅 Rule
  - [공식문서](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html#general-broadcasting-rules)
  - 뒷 차원에서 부터 비교하여 Shape이 같거나, 차원 중 값이 1인 것이 존재하면 가능

 ![브로드캐스팅 예](https://www.tutorialspoint.com/numpy/images/array.jpg)
     - 출처: https://www.tutorialspoint.com/numpy/images/array.jpg 


In [3]:
x = np.arange(15).reshape(3, 5)
y = np.random.rand(15).reshape(3, 5)
print(x)
print(y)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[0.74090435 0.54648232 0.67013978 0.78907095 0.82200783]
 [0.36665936 0.18139239 0.03364483 0.14599707 0.81476397]
 [0.47875428 0.33301945 0.39557053 0.26510608 0.47239502]]


- shape이 같은 경우의 연산(벡터화연산)

In [4]:
x * y

array([[0.        , 0.54648232, 1.34027957, 2.36721286, 3.28803133],
       [1.83329681, 1.08835437, 0.23551378, 1.16797654, 7.33287574],
       [4.78754282, 3.66321393, 4.74684631, 3.446379  , 6.61353023]])

- Scalar(상수)와의 연산


In [7]:
x % 2 == 0

array([[ True, False,  True, False,  True],
       [False,  True, False,  True, False],
       [ True, False,  True, False,  True]])

In [8]:
a = np.arange(12).reshape(4, 3)
b = np.arange(100, 103)
c = np.arange(1000, 1004)
d = b.reshape(1, 3)

In [12]:
print(a.shape)
print(b.shape)
print(c.shape)
print(d.shape)
a
b
c
d

(4, 3)
(3,)
(4,)
(1, 3)


array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

array([100, 101, 102])

array([1000, 1001, 1002, 1003])

array([[100, 101, 102]])

In [13]:
a + b

array([[100, 102, 104],
       [103, 105, 107],
       [106, 108, 110],
       [109, 111, 113]])

In [14]:
a + c 
#operands could not be broadcast together with shapes (4,3) (4,)

ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

In [15]:
a+d

array([[100, 102, 104],
       [103, 105, 107],
       [106, 108, 110],
       [109, 111, 113]])

In [16]:
b_1 = np.arange(100,104)
d = b_1.reshape(4, 1)
a
d


array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

array([[100],
       [101],
       [102],
       [103]])

In [17]:
a+d

array([[100, 101, 102],
       [104, 105, 106],
       [108, 109, 110],
       [112, 113, 114]])

 ## boolean indexing의 이해

 #### Boolean indexing
   - ndarry 인덱싱 시, bool 리스트를 전달하여 True인 경우만 필터링

In [18]:
x = np.random.randint(1, 100, size=10)
print(x)

[96 39 10 84 55 80 30 52 43 28]


In [19]:
even_mask = x % 2 ==0
even_mask

array([ True, False,  True,  True, False,  True,  True,  True, False,
        True])

In [20]:
x[even_mask]

array([96, 10, 84, 80, 30, 52, 28])

In [21]:
x[x % 2 == 0]

array([96, 10, 84, 80, 30, 52, 28])

In [22]:
x[x>30]

array([96, 39, 84, 55, 80, 52, 43])

 ####  다중조건 사용하기
  - 파이썬 논리 연산지인 and, or, not 키워드 사용 불가
  - & - AND 
  - | - OR 

In [24]:
# 짝수 이면서 30보다 작은 원소
x[(x%2 == 0) & (x < 30)]


array([10, 28])

In [25]:
x[(x < 30) | (x > 50)]

array([96, 10, 84, 55, 80, 52, 28])

 #### 예제) 2020년 7월 서울 평균기온 데이터
  - 평균기온이 25도를 넘는 날수는?
  - 평균기온이 25를 넘는 날의 평균 기온은?

In [26]:
temp = np.array(
        [23.9, 24.4, 24.1, 25.4, 27.6, 29.7,
         26.7, 25.1, 25.0, 22.7, 21.9, 23.6, 
         24.9, 25.9, 23.8, 24.7, 25.6, 26.9, 
         28.6, 28.0, 25.1, 26.7, 28.1, 26.5, 
         26.3, 25.9, 28.4, 26.1, 27.5, 28.1, 25.8])


In [27]:
len(temp)

31

In [28]:
temp>25.0

array([False, False, False,  True,  True,  True,  True,  True, False,
       False, False, False, False,  True, False, False,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True])

In [29]:
len(temp[temp>25.0])

21

In [30]:
np.sum(temp>25.0) # True : 1, False : 0

21

In [31]:
np.mean(temp[temp>25.0])


26.857142857142858