In [1]:
import numpy as np
import matplotlib.pyplot as plt

In [2]:
# 콘솔에서 모든 출력 허용하기
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

## 브로드캐스팅
  - Shape이 같은 두 ndarray에 대한 연산은 각 원소별로 진행
  - 연산되는 두 ndarray가 다른 Shape을 갖는 경우 브로드 캐스팅(Shape을 맞춤) 후 진행


## 브로드캐스팅 Rule
 - [공식문서](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html#general-broadcasting-rules)
 - 뒷 차원에서 부터 비교하여 Shape이 같거나, 차원 중 값이 1인 것이 존재하면 가능


![브로드캐스팅 예](https://www.tutorialspoint.com/numpy/images/array.jpg)
    - 출처: https://www.tutorialspoint.com/numpy/images/array.jpg


## shape 같은 경우 (벡터화 연산)

In [3]:
x = np.arange(15).reshape(3, 5)
y = np.random.rand(15).reshape(3, 5)
print(x)
print(y)


[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[0.45969372 0.47146216 0.73233734 0.83250212 0.71097083]
 [0.51939434 0.79627785 0.52411837 0.99611027 0.52143278]
 [0.32955141 0.0256396  0.90967288 0.22295407 0.43819656]]


In [4]:
x * y

array([[ 0.        ,  0.47146216,  1.46467468,  2.49750636,  2.84388332],
       [ 2.59697168,  4.7776671 ,  3.66882856,  7.96888218,  4.69289505],
       [ 3.29551405,  0.28203555, 10.91607462,  2.89840288,  6.13475188]])

In [5]:
## scalar(상수) 와 연산
x % 2 == 0

array([[ True, False,  True, False,  True],
       [False,  True, False,  True, False],
       [ True, False,  True, False,  True]])

## shape 다른 경우

In [7]:
a = np.arange(12).reshape(4, 3)
b = np.arange(100, 103)
c = np.arange(1000, 1004)
d = b.reshape(1, 3)

print(a.shape)
print(b.shape)
print(c.shape)
print(d.shape)
print(d)
a
b
c
d
d.ndim

(4, 3)
(3,)
(4,)
(1, 3)
[[100 101 102]]


array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

array([100, 101, 102])

array([1000, 1001, 1002, 1003])

array([[100, 101, 102]])

2

In [8]:
a+b # (행단위로 계산) b를 가지고 가서 각행 마다 더해서 연산 수행

array([[100, 102, 104],
       [103, 105, 107],
       [106, 108, 110],
       [109, 111, 113]])

In [9]:
a+c

ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

In [14]:
a+d

array([[100, 102, 104],
       [103, 105, 107],
       [106, 108, 110],
       [109, 111, 113]])

In [10]:
b_1 = np.arange(100,104)
d = b_1.reshape(4, 1)
# 행의 갯수가 동일
a
d

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

array([[100],
       [101],
       [102],
       [103]])

In [11]:
a+d

array([[100, 101, 102],
       [104, 105, 106],
       [108, 109, 110],
       [112, 113, 114]])

## Boolean indexing
  - ndarry 인덱싱 시, bool 리스트를 전달하여 True인 경우만 필터링


In [13]:
x = np.random.randint(1, 100, size=10)
print(x)


[20 29 93 85 35 69 48 34 32 38]


In [16]:
even_mask = x%2 ==0
even_mask

array([ True, False, False, False, False, False,  True,  True,  True,
        True])

In [17]:
# bool 리스트 인덱스로 전달
x[even_mask]

x[x%2==0]

array([20, 48, 34, 32, 38])

array([20, 48, 34, 32, 38])

In [18]:
x>30

array([False, False,  True,  True,  True,  True,  True,  True,  True,
        True])

In [19]:
x[x>30]

array([93, 85, 35, 69, 48, 34, 32, 38])

##  다중조건 사용하기
 - 파이썬 논리 연산지인 and, or, not 키워드 사용 불가
 - & - AND 
 - | - OR


In [20]:
# 짝수 이면서 30보다 작은 원소
(x%2 == 0) & (x<30)
x[(x%2 == 0) & (x<30)]

array([ True, False, False, False, False, False, False, False, False,
       False])

array([20])

In [21]:
x[(x<30) | (x>50)]

array([20, 29, 93, 85, 69])

## 예제) 2020년 7월 서울 평균 기온
- 25도를 넘는 날수

In [22]:
temp = np.array(
        [23.9, 24.4, 24.1, 25.4, 27.6, 29.7,
         26.7, 25.1, 25.0, 22.7, 21.9, 23.6, 
         24.9, 25.9, 23.8, 24.7, 25.6, 26.9, 
         28.6, 28.0, 25.1, 26.7, 28.1, 26.5, 
         26.3, 25.9, 28.4, 26.1, 27.5, 28.1, 25.8])


In [23]:
len(temp)

31

In [24]:
temp>25

array([False, False, False,  True,  True,  True,  True,  True, False,
       False, False, False, False,  True, False, False,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True])

In [25]:
len(temp[temp>25])

21

In [26]:
np.sum(temp>25) #True : 1, False : 0 모든 True 값을 더해서 len과 동일한 결과가 나옴

21

In [27]:
#평균 기곤은 25도를 넘는 날의 평균 기온

temp[temp>25]
np.mean(temp[temp>25])

array([25.4, 27.6, 29.7, 26.7, 25.1, 25.9, 25.6, 26.9, 28.6, 28. , 25.1,
       26.7, 28.1, 26.5, 26.3, 25.9, 28.4, 26.1, 27.5, 28.1, 25.8])

26.857142857142858