# Boolean indexing

- 중요! 'Boolean indexing ' !
- ndarray 인덱싱 시, bool 리스트를 전달하여 True인 경우만 필터링

- for 사용하지 않고도 ndarray 에서 '조건'에 맞는 데이터만 추출 하는 기능

- 머신러닝 등에 있어서도 많이 사용

- 브로드캐스팅을 활용하여 ndarray로 부터 bool list 얻기
- 예) 짝수인 경우만 찾아보기

In [2]:
import numpy as np 

np.random.seed(10)
x = np.random.randint(1, 100, size= 10)
x

array([10, 16, 65, 29, 90, 94, 30,  9, 74,  1])

In [3]:
x % 2

array([0, 0, 1, 1, 0, 0, 0, 1, 0, 1], dtype=int32)

In [4]:
x % 2 == 0

array([ True,  True, False, False,  True,  True,  True, False,  True,
       False])

- 위와 같이 Boolean indexing 된 array를 Mask라고도 한다.

In [5]:
even_mask = x % 2 == 0
even_mask

array([ True,  True, False, False,  True,  True,  True, False,  True,
       False])

## Boolean mask 를 인덱스로 전달

In [6]:
print(x)
print(even_mask)

[10 16 65 29 90 94 30  9 74  1]
[ True  True False False  True  True  True False  True False]


In [7]:
for n,b in zip(x, even_mask):
    print(f'{n:2d} - {b}')

10 - True
16 - True
65 - False
29 - False
90 - True
94 - True
30 - True
 9 - False
74 - True
 1 - False


- 인덱스에 boolean mask를 넣어보면 짝수만 필터링 되어 나온다.

In [8]:
x[even_mask]

array([10, 16, 90, 94, 30, 74])

- 보통은 한번에 작성하여 사용한다.

In [9]:
x[x % 2 == 0]

array([10, 16, 90, 94, 30, 74])

In [10]:
x[x % 2 == 1]

array([65, 29,  9,  1])

- boolean mask 로서 list, tuple을 넣어줘도 필터 동작은 가능하다.

In [11]:
x[[True,True,False,False,True,True,True,False,True,False]]

array([10, 16, 90, 94, 30, 74])

## 문제.   
x 에서 30보다 큰 수만 출력해보세요.

In [12]:
x[x > 30]

array([65, 90, 94, 74])

## 다중 조건 사용하기
- 파이썬 논리 연산자인 and, or, not 키워드는 사용 불가
- & ← AND
- | ← OR

In [13]:
x % 2 == 0

array([ True,  True, False, False,  True,  True,  True, False,  True,
       False])

In [14]:
x > 30

array([False, False,  True, False,  True,  True, False, False,  True,
       False])

In [15]:
# and 키워드는 불가능 : 에러 
x[(x%2 == 0) and (x > 30)]

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [16]:
x[(x%2 == 0) & (x > 30)]

array([90, 94, 74])

In [18]:
x[(x > 50) & (x < 80)]

array([65, 74])

In [20]:
# 파이썬 키워드 or 사용 불가 : 에러
x[(x < 30) or (x > 70)]

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [21]:
x[(x < 30) | (x > 70)]

array([10, 16, 29, 90, 94,  9, 74,  1])

## astype(int)로 변환

In [22]:
bool(10), int(True)

(True, 1)

In [23]:
x > 50

array([False, False,  True, False,  True,  True, False, False,  True,
       False])

In [24]:
(x > 50).astype(int)

array([0, 0, 1, 0, 1, 1, 0, 0, 1, 0])

In [25]:
(x > 50).sum()

4

- 머신러닝 등 데이터 분석시 onehot encoding으로 변환할 때 많이 사용된다.
- onehot encoding 은 문자열을 정수 데이터로 변경하는 것을 말한다.