# Boolean indexing

In [1]:
# numpy 에서 많이 사용하는 기술. 바로! 'Boolean indexing ' !
# ndarray 인덱싱 시, bool 리스트를 전달하여 True인 경우만 필터링

# for 사용하지 않고도 ndarray 에서 '조건'에 맞는 데이터만 추출 하는 기능

# 머신러닝 등에 있어서도 많이 사용 

# 브로드캐스팅을 활용하여 ndarray로 부터 bool list 얻기
#  - 예) 짝수인 경우만 찾아보기

In [2]:
import numpy as np

In [3]:
x = np.random.randint(1, 100, size=10)
x

array([41, 34, 40, 65, 29,  9, 70, 60, 58, 66])

In [4]:
x % 2

array([1, 0, 0, 1, 1, 1, 0, 0, 0, 0], dtype=int32)

In [6]:
x % 2 == 0  # boolean indexing <-- 모든 원소에 대해 비교연산한 결과. 결과는 동일 shape

array([False,  True,  True, False, False, False,  True,  True,  True,
        True])

In [7]:
# 위와 같이 Boolean indexing 된 array 를 Mask 라고도 한다
# 위 결과, mask 를 변수에 답아 보겠습니다

In [9]:
even_mask = x % 2 == 0
even_mask

array([False,  True,  True, False, False, False,  True,  True,  True,
        True])

## bool 리스트를 인덱스로 전달!

In [10]:
x

array([41, 34, 40, 65, 29,  9, 70, 60, 58, 66])

In [11]:
x[3]

65

In [13]:
even_mask

array([False,  True,  True, False, False, False,  True,  True,  True,
        True])

In [12]:
# 인덱스에 boolean mask  를 넣으니
x[even_mask]  # 짝수만 걸러져(필터링) 나온 array 

array([34, 40, 70, 60, 58, 66])

In [None]:
# boolean mask 는 list나 tuple 등을 넣어주어도 동작함.

In [14]:
x[[False,  True,  True, False, False, False,  True,  True,  True,
        True]]

array([34, 40, 70, 60, 58, 66])

In [15]:
# 보통 이를 한번에 한다
x[x % 2 == 0]

# 파이썬 for, while, if 을 사용하여 여러줄 나오는 동작이었다!
# numpy 는 간편하고 + 속도도 빠.르.다!

array([34, 40, 70, 60, 58, 66])

In [17]:
# x 에서 30보다 큰 숫자들만 뽑아내기
x[x > 30]

array([41, 34, 40, 65, 70, 60, 58, 66])

##  다중조건 사용하기
 - 파이썬 논리 연산자인 and, or, not 키워드는 사용 불가
 - & ← AND 
 - | ← OR 

In [18]:
x % 2 == 0

array([False,  True,  True, False, False, False,  True,  True,  True,
        True])

In [19]:
x < 30 

array([False, False, False, False,  True,  True, False, False, False,
       False])

In [22]:
x[(x % 2 == 0) & (x < 60)]  # and 사용하면 안됨

array([34, 40, 58])

In [23]:
x[(x % 2 == 0) | (x < 60)]

array([41, 34, 40, 29,  9, 70, 60, 58, 66])

In [24]:
x[10 < x < 50]  # 불가

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

### astype(int) 으로 변환하면
bool -> 1, 0 으로 구성된 array 변환

In [31]:
int(3.14), int('100'), int(True), int(False)

(3, 100, 1, 0)

In [29]:
x

array([41, 34, 40, 65, 29,  9, 70, 60, 58, 66])

In [30]:
x.astype(np.float64)

array([41., 34., 40., 65., 29.,  9., 70., 60., 58., 66.])

In [32]:
x > 50

array([False, False, False,  True, False, False,  True,  True,  True,
        True])

In [33]:
(x > 50).astype(int)

array([0, 0, 0, 1, 0, 0, 1, 1, 1, 1])

In [None]:
# ※ 머신러닝 등에서 onehot encoding 으로 변환할때 많이 사용.

---
### 예제) 2019년 7월 서울 평균기온 데이터
 - 평균기온이 25도를 넘는 날수는?
 - 평균기온이 25를 넘는 날의 평균 기온은?

In [34]:
temp = np.array(
        [23.9, 24.4, 24.1, 25.4, 27.6, 29.7,
         26.7, 25.1, 25.0, 22.7, 21.9, 23.6, 
         24.9, 25.9, 23.8, 24.7, 25.6, 26.9, 
         28.6, 28.0, 25.1, 26.7, 28.1, 26.5, 
         26.3, 25.9, 28.4, 26.1, 27.5, 28.1, 25.8])

"""
평균기온이 25도를 넘는 날수는 총 21일
평균기온이 25를 넘는 날의 평균 기온은 약 26.8도
"""
None

In [35]:
temp > 25.0

array([False, False, False,  True,  True,  True,  True,  True, False,
       False, False, False, False,  True, False, False,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True])

In [36]:
temp[temp > 25.0]

array([25.4, 27.6, 29.7, 26.7, 25.1, 25.9, 25.6, 26.9, 28.6, 28. , 25.1,
       26.7, 28.1, 26.5, 26.3, 25.9, 28.4, 26.1, 27.5, 28.1, 25.8])

In [37]:
len(temp[temp > 25.0])

21

In [39]:
np.sum(temp > 25.0)

21

In [40]:
temp[temp > 25.0].size

21

In [42]:
# 평균기온 25를 넘는 날의 평균 기온
np.mean(temp[temp > 25.0])

26.857142857142858

In [43]:
temp[temp > 25.0].mean()

26.857142857142858

In [44]:
# for, while, if 등의 명시적인 제어문을 사용하지 않고도 동작 구현!