# Python Boolean Indexing

## Python boolean Indexing

* Reference: https://nittaku.tistory.com/107
* 본 Tutorial은 조재성님의 블로그를 참조하였습니다.
* Boolean Indexing에 대한 공부의 필요성을 느껴 참고자료를 통해 직접 학습하려 합니다.

* array 인덱싱 이외에 불리언 indexing도 중요하다.

In [10]:
# example

import numpy as np

names = np.array(["Charles", "Kilho", "Hayoung", "Charles", "Hayoung", "Kilho", "Kilho"])
data = np.random.randn(7, 4)

In [11]:
names

array(['Charles', 'Kilho', 'Hayoung', 'Charles', 'Hayoung', 'Kilho',
       'Kilho'], dtype='<U7')

In [12]:
len(names)

7

In [13]:
data

array([[ 0.63886691,  0.97377624,  0.69806807, -2.20506913],
       [ 1.26421069, -0.81441218, -2.02544156, -0.02337837],
       [ 1.81049547, -0.72909482,  0.62097151, -0.4162807 ],
       [-0.15335216, -1.6096065 ,  0.61708601,  0.30841767],
       [ 0.17138512, -1.34571827,  0.8919128 ,  0.70881683],
       [ 0.28532761, -0.48293868,  0.66472176,  1.3284613 ],
       [-0.09997227,  0.92427001,  1.03147574,  1.52069416]])

* 각 names의 성분(7개의 열)이 data의 각 행에 대응된다고 생각해보자

In [19]:
names == "Charles"  # numpy array names에서 이름이 Charles와 동일한 원소는 True
                    # 이름이 Charles와 다른 원소는 False인 array를 반환한다.

array([ True, False, False,  True, False, False, False])

names == "Charles" 결과 생성된 array는 원래 성분이 7개인 names와 성분의 개수가 동일하다<br/>
주목할 점은 True나 False로만 이루어진 array라는 점이다.

* array에 조건문에 사용되는 [==]를  names의 성분에 대응하여 값이 "Charles"인 것과 동일한 것만 True, 다른 것은 False로 성분이 구성된 array를 반환한다.
* 이것이 바로 boolean array 또는 boolean mask라고 한다.

* 이러한 boolean mask는 다른 array의 행 또는 열의 인덱스에 집어넣어 인덱싱하는데 사용할 수 있다.

In [20]:
data[names == "Charles"]

array([[ 0.63886691,  0.97377624,  0.69806807, -2.20506913],
       [-0.15335216, -1.6096065 ,  0.61708601,  0.30841767]])

In [18]:
data[np.array([True, False, False, True, False, False, False])]

array([[ 0.63886691,  0.97377624,  0.69806807, -2.20506913],
       [-0.15335216, -1.6096065 ,  0.61708601,  0.30841767]])

In [16]:
data[names == "Kilho", :]

array([[ 1.26421069, -0.81441218, -2.02544156, -0.02337837],
       [ 0.28532761, -0.48293868,  0.66472176,  1.3284613 ],
       [-0.09997227,  0.92427001,  1.03147574,  1.52069416]])

Q. 하영(Hayoung)의 데이터가 궁금하다면?

In [27]:
data[names == "Hayoung"]

array([[ 1.81049547, -0.72909482,  0.62097151, -0.4162807 ],
       [ 0.17138512, -1.34571827,  0.8919128 ,  0.70881683]])

#### 행 index에서 뽑아낼 마스크를 2개로 줄 수도 있다.

In [32]:
data[ (names == "Charles") | (names == "Hayoung"), : ]

array([[ 0.63886691,  0.97377624,  0.69806807, -2.20506913],
       [ 1.81049547, -0.72909482,  0.62097151, -0.4162807 ],
       [-0.15335216, -1.6096065 ,  0.61708601,  0.30841767],
       [ 0.17138512, -1.34571827,  0.8919128 ,  0.70881683]])

#### 기존의 데이터 array 성분에 조건문을 달아 boolean indexing 즉, 마스크를 만들 수 있다.

In [33]:
data[:, 3]

array([-2.20506913, -0.02337837, -0.4162807 ,  0.30841767,  0.70881683,
        1.3284613 ,  1.52069416])

In [36]:
data[:, 3] < 0 

array([ True,  True,  True, False, False, False, False])

In [37]:
data[data[:, 3] < 0]

array([[ 0.63886691,  0.97377624,  0.69806807, -2.20506913],
       [ 1.26421069, -0.81441218, -2.02544156, -0.02337837],
       [ 1.81049547, -0.72909482,  0.62097151, -0.4162807 ]])

* 추출과 동시에 행에 0을 대입해 줄 수도 있다.

In [38]:
data[data[:, 3] < 0] = 0

In [39]:
data

array([[ 0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  0.        ,  0.        ],
       [-0.15335216, -1.6096065 ,  0.61708601,  0.30841767],
       [ 0.17138512, -1.34571827,  0.8919128 ,  0.70881683],
       [ 0.28532761, -0.48293868,  0.66472176,  1.3284613 ],
       [-0.09997227,  0.92427001,  1.03147574,  1.52069416]])