# Boolean indexing

- 중요! 'Boolean indexing ' !
- ndarray 인덱싱 시, bool 리스트를 전달하여 True인 경우만 필터링

- for 사용하지 않고도 ndarray 에서 '조건'에 맞는 데이터만 추출 하는 기능

- 머신러닝 등에 있어서도 많이 사용

- 브로드캐스팅을 활용하여 ndarray로 부터 bool list 얻기
- 예) 짝수인 경우만 찾아보기

In [7]:
import numpy as np 

x = np.random.randint(1, 100, size=10)
x

array([45, 88, 38,  5, 63, 86, 77, 43, 75, 86], dtype=int32)

In [8]:
x % 2

array([1, 0, 0, 1, 1, 0, 1, 1, 1, 0], dtype=int32)

In [9]:
x % 2 == 0

array([False,  True,  True, False, False,  True, False, False, False,
        True])

- 위와 같이 Boolean indexing 된 array를 Mask라고도 한다.

In [10]:
even_mask = x % 2 == 0
even_mask

array([False,  True,  True, False, False,  True, False, False, False,
        True])

## Boolean mask 를 인덱스로 전달

In [11]:
print(x)
print(even_mask)

[45 88 38  5 63 86 77 43 75 86]
[False  True  True False False  True False False False  True]


In [12]:
for n, b in zip(x, even_mask):
    print(f'{n} - {b}')

45 - False
88 - True
38 - True
5 - False
63 - False
86 - True
77 - False
43 - False
75 - False
86 - True


- 인덱스에 boolean mask를 넣어보면 짝수만 필터링 되어 나온다.

In [13]:
x[even_mask]

array([88, 38, 86, 86], dtype=int32)

- boolean mask 로서 list, tuple을 넣어줘도 필터 동작은 가능하다.

In [14]:
x[[False,True,True,False,False,True,False,False,False,True]]

array([88, 38, 86, 86], dtype=int32)

- 보통은 한번에 작성하여 사용한다.

In [15]:
x[x % 2 == 0]

array([88, 38, 86, 86], dtype=int32)

## 문제.   
x 에서 30보다 큰 수만 출력해보세요.

In [16]:
x[x > 30]

array([45, 88, 38, 63, 86, 77, 43, 75, 86], dtype=int32)

## 다중 조건 사용하기
- 파이썬 논리 연산자인 and, or, not 키워드는 사용 불가
- & ← AND
- | ← OR

In [17]:
x % 2 == 0

array([False,  True,  True, False, False,  True, False, False, False,
        True])

In [18]:
x < 30 

array([False, False, False,  True, False, False, False, False, False,
       False])

In [19]:
x[(x % 2 == 0) and (x < 30)]

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [21]:
x[(x % 2 == 0) & (x > 30)]

array([88, 38, 86, 86], dtype=int32)

In [22]:
x[(x % 2 == 0) or (x > 30)]

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [23]:
x[(x % 2 == 0) | (x > 30)]

array([45, 88, 38, 63, 86, 77, 43, 75, 86], dtype=int32)

## astype(int)로 변환

In [24]:
bool(10), int(True)

(True, 1)

In [25]:
x > 50

array([False,  True, False, False,  True,  True,  True, False,  True,
        True])

In [26]:
(x > 50).astype(int)

array([0, 1, 0, 0, 1, 1, 1, 0, 1, 1])

In [27]:
(x > 50).sum()

np.int64(6)

- 머신러닝 등 데이터 분석시 onehot encoding으로 변환할 때 많이 사용된다.
- onehot encoding 은 문자열을 정수 데이터로 변경하는 것을 말한다.