# 11. 어레이 인덱싱 (2부)

### 주요 내용

- 어레이의 축

- 인덱싱과 슬라이싱

- **부울 인덱싱**

- **팬시 인덱싱**

## 11.3. 부울 인덱싱

부울 인덱싱<font size='2'>boolean indexing</font>은
지금까지 소개한 인덱싱/슬라이싱 기법이 처리하지 못하는 기능을 제공한다.

### 1차원 부울 어레이 활용

1차원 부울 어레이를 이용한 인덱싱을 설명하기 위해 아래 두 개의 어레이를 이용한다.

* 길이가 7인 1차원 어레이: 중복된 사람 이름을 항목으로 담고 있는 벡터

In [70]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

* (7, 4) 모양의 2차원 어레이. `randn()` 함수는 표준 정규 분포를 이용하여 임의의 부동소수점으로 이루어진 어레이를 생성한다.

In [71]:
np.random.seed(3)

data = np.random.randn(7, 4)
data

array([[ 1.7886,  0.4365,  0.0965, -1.8635],
       [-0.2774, -0.3548, -0.0827, -0.627 ],
       [-0.0438, -0.4772, -1.3139,  0.8846],
       [ 0.8813,  1.7096,  0.05  , -0.4047],
       [-0.5454, -1.5465,  0.9824, -1.1011],
       [-1.185 , -0.2056,  1.4861,  0.2367],
       [-1.0238, -0.713 ,  0.6252, -0.1605]])

부울 인덱싱을 설명하기 위해 `data` 가 가리키는 2차원 어레이의 각 행과 `names` 어레이가 가리키는 각 항목이
서로 연관된다고 가정한다. 
예를 들어, `'Bob'`은 0번 인덱스와 3번 인덱스의 행과 연관되고,
`'Joe'`는 1번, 5번, 6번 인덱스의 행과 연관된다.

이제 `data` 어레이에서 `'Bob'`과 연관된 행만 추출하여 2차원 어레이를 생성하려 해보자.
먼저 `names`에 포함된 이름이 `'Bob'`인지 여부를 확인한다.
그러면 진리값으로 이루어진 길이가 7인 어레이가 생성된다.

In [72]:
name_Bob = (names == 'Bob')
name_Bob

array([ True, False, False,  True, False, False, False])

이제 `name_Bob`을 `data` 2차원 어레이에 인덱싱으로 적용하면
`True`가 위치한 인덱스에 해당하는 행인 0번과 3번 행만 추출해서
새로운 2차원 어레이를 생성한다.

In [73]:
data[name_Bob]

array([[ 1.7886,  0.4365,  0.0965, -1.8635],
       [ 0.8813,  1.7096,  0.05  , -0.4047]])

인덱싱에 사용되는 부울 어레이의 길이가 사용되는 인덱싱에 적용되는 축의 길이와 동일해야 함에 주의한다.

**부울 인덱싱과 일반 인덱싱/슬라이싱 혼합**

부울 인덱싱과 일반 인덱싱, 슬라이싱을 혼합할 수 있다.

* 행 기준: Bob이 포함된 행의 인덱스를 갖는 행
* 열 기준: 3번 열

In [74]:
data[name_Bob, 3]

array([-1.8635, -0.4047])

* 행 기준: Bob이 포함된 행의 인덱스를 갖는 행
* 열 기준: 2번 열 이후 전체

In [75]:
data[name_Bob, 2:]

array([[ 0.0965, -1.8635],
       [ 0.05  , -0.4047]])

### 마스크 활용

**부울 마스크**<font size='2'>boolean mask</font>는
논리 연산자(`~`, `&`, `|`)를 사용하여 얻어진 부울 어레이 표현식이다.
마스크를 활용하면 보다 다양한 부울 인덱싱을 간단하게 적용할 수 있다.

예를 들어, 이름이 `'Bob'`이 아닌 이름과 연관된 행만 가져오려면
`==` 대신에 `!=`를 이용하거나 `==`와 `~` 연산자를 함께 이용한다.

In [76]:
mask = names != 'Bob'
data[mask]

array([[-0.2774, -0.3548, -0.0827, -0.627 ],
       [-0.0438, -0.4772, -1.3139,  0.8846],
       [-0.5454, -1.5465,  0.9824, -1.1011],
       [-1.185 , -0.2056,  1.4861,  0.2367],
       [-1.0238, -0.713 ,  0.6252, -0.1605]])

In [77]:
mask = ~name_Bob
data[mask]

array([[-0.2774, -0.3548, -0.0827, -0.627 ],
       [-0.0438, -0.4772, -1.3139,  0.8846],
       [-0.5454, -1.5465,  0.9824, -1.1011],
       [-1.185 , -0.2056,  1.4861,  0.2367],
       [-1.0238, -0.713 ,  0.6252, -0.1605]])

다음은 `'Bob'` 또는 `'Will'` 이 위치한 인덱스에 해당하는 행만 가져온다.

In [78]:
mask = (names == 'Bob') | (names == 'Will')
data[mask]

array([[ 1.7886,  0.4365,  0.0965, -1.8635],
       [-0.0438, -0.4772, -1.3139,  0.8846],
       [ 0.8813,  1.7096,  0.05  , -0.4047],
       [-0.5454, -1.5465,  0.9824, -1.1011]])

**항목 업데이트**

마스크를 이용하여 전체 행 또는 전체 열을 특정 값으로 변경할 수 있다.
아래 코드는 `data`에서 `'Joe'`와 관련 없는 행의 항목을 모두 7로 변경한다.

In [79]:
mask = names != 'Joe'
data[mask] = 7
data

array([[ 7.    ,  7.    ,  7.    ,  7.    ],
       [-0.2774, -0.3548, -0.0827, -0.627 ],
       [ 7.    ,  7.    ,  7.    ,  7.    ],
       [ 7.    ,  7.    ,  7.    ,  7.    ],
       [ 7.    ,  7.    ,  7.    ,  7.    ],
       [-1.185 , -0.2056,  1.4861,  0.2367],
       [-1.0238, -0.713 ,  0.6252, -0.1605]])

**다차원 마스크**

`data`가 가리키는 2차원 어레이에서 음수 항목만 추출해서 1차원 어레이를 생성해보자.
이를 위해 먼저 어레이의 각 항목이 음수인지 여부를 확인하는 부울 마스크를 다음과 같이 생성한다.

In [80]:
mask = data < 0
mask

array([[False, False, False, False],
       [ True,  True,  True,  True],
       [False, False, False, False],
       [False, False, False, False],
       [False, False, False, False],
       [ True,  True, False, False],
       [ True,  True, False,  True]])

위 마스크를 `data`에 인덱싱으로 적용하면 음수 항목만 끄집어 낸 1차원 어레이가 생성된다.

In [81]:
data[mask]

array([-0.2774, -0.3548, -0.0827, -0.627 , -1.185 , -0.2056, -1.0238,
       -0.713 , -0.1605])

또한 마스크를 이용하여 모든 음수 항목을 0으로 변경할 수도 있다.

In [82]:
data[mask] = 0

data

array([[7.    , 7.    , 7.    , 7.    ],
       [0.    , 0.    , 0.    , 0.    ],
       [7.    , 7.    , 7.    , 7.    ],
       [7.    , 7.    , 7.    , 7.    ],
       [7.    , 7.    , 7.    , 7.    ],
       [0.    , 0.    , 1.4861, 0.2367],
       [0.    , 0.    , 0.6252, 0.    ]])

### 부울 인덱싱과 뷰

부울 인덱싱은 뷰를 이용하지 않고 항상 새로운 어레이를 생성한다.

In [83]:
data2 = data[names == 'Bob']
data2

array([[7., 7., 7., 7.],
       [7., 7., 7., 7.]])

`data2`의 0번 행을 모두 -1로 변경해도 `data`는 변하지 않는다.

In [84]:
data2[0] = -1
data2

array([[-1., -1., -1., -1.],
       [ 7.,  7.,  7.,  7.]])

하지만 `data`는 변경되지 않았다.

In [85]:
data

array([[7.    , 7.    , 7.    , 7.    ],
       [0.    , 0.    , 0.    , 0.    ],
       [7.    , 7.    , 7.    , 7.    ],
       [7.    , 7.    , 7.    , 7.    ],
       [7.    , 7.    , 7.    , 7.    ],
       [0.    , 0.    , 1.4861, 0.2367],
       [0.    , 0.    , 0.6252, 0.    ]])

## 11.4. 팬시 인덱싱

**팬시 인덱싱**<font size='2'>fancy indexing</font>은 인덱스로 구성된 1차원 어레이를 이용한다.
팬시 인덱싱 또한 부울 인덱싱처럼 객체를 항상 새로 생성한다.
즉, 뷰 기능을 이용하지 않는다. 

### 1개의 인덱스 어레이 활용

아래 코드는 0으로 채워진 (8, 4) 모양의 2차원 어레이를 생성한다.

In [86]:
arr = np.zeros((8, 4))
arr

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

아래 코드는 행별로 항목을 행의 인덱스로 채운다.

In [87]:
for i in range(8):
    arr[i] = i
    
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

아래 두 예제는 1차원 정수 어레이를 이용한 전형적인 팬시 인덱싱의 활용을 보여준다. 

- 예제 1: `arr` 의 4번, 3번, 0번, 6번 인덱스에 해당하는 항목을 모아서 새로운 어레이를 생성한다.

In [88]:
arr[[4, 3, 0, 6]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

- 예제 2: 음수를 인덱스로 사용하면 맨 아래에 위치한 행부터 순서를 매긴다. 
밑에서 셋째, 다섯째, 일곱째 항목으로 이루어진 어레이는 다음과 같이 구한다.

In [89]:
arr[[-3, -5, -7]]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [1., 1., 1., 1.]])

### 여러 개의 인덱스 어레이 활용

여러 개의 인덱스 어레이를 사용할 수도 있다.
그러면 사용되는 어레이 인덱스의 순서에 해당하는 축에 대해 각각의 인덱싱이 적용된다.

**예제 1**

예를 들어 설명하기 위해 아래 2차원 어레이를 이용한다.

In [90]:
arr = np.arange(32).reshape((8, 4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

이제 `(1, 0)`, `(5, 3)`, `(7, 2)`, `(2, 2)` 좌표에 위치한 항목으로 이루어진 어레이는 다음과 같이 
축별로 항목을 모아놓은 두 개의 인덱스 어레이를 사용해서 팬시 인덱싱을 진행한다.

In [91]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

2차원 어레이를 생성할 수도 있다.
예를 들어 아래 코드는 1번, 5번, 7번, 2번 행에서 각각 0번, 3번, 1번 항목을 
추출하여 2차원 어레이를 생성한다.

In [92]:
arr[[1, 5, 7, 2]][:, [0, 3, 1]]

array([[ 4,  7,  5],
       [20, 23, 21],
       [28, 31, 29],
       [ 8, 11,  9]])

**예제 2**

아래 이미지 모양의 2차원 어레이에서 색깔로 구분된 1차원 또는 2차원 어레이를 추출해보자.

<div align="center" border="1px"><img src="https://raw.githubusercontent.com/codingalzi/datapy/master/jupyter-book/images/fancy_indexing.png" style="width:250px;"></div>

<p><div style="text-align: center">&lt;그림 출처: <a href="https://scipy-lectures.org/intro/numpy/array_object.html#indexing-and-slicing">Scipy Lecture Notes</a>&gt;</div></p>

먼저 이미지 모양의 2차원 어레이를 다음처럼 생성한다.

In [93]:
arr = np.arange(36).reshape(6, 6) + np.arange(0, 21, 4).reshape(6, 1)
arr

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])

* 초록색 1차원 어레이 

In [94]:
arr[(0,1,2,3,4), (1,2,3,4,5)]

array([ 1, 12, 23, 34, 45])

* 빨강색 1차원 어레이

In [95]:
mask = np.array([1,0,1,0,0,1], dtype=bool)
arr[mask, 2]

array([ 2, 22, 52])

* 파랑색 2차원 어레이

In [96]:
arr[3:, [0,2,5]]

array([[30, 32, 35],
       [40, 42, 45],
       [50, 52, 55]])

**예제 3**

3차원 어레이에 대해서도 동일한 방식으로 팬시 인덱싱을 적용할 수 있다.

In [97]:
arr = np.arange(32).reshape((4, 2, 4))
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]],

       [[16, 17, 18, 19],
        [20, 21, 22, 23]],

       [[24, 25, 26, 27],
        [28, 29, 30, 31]]])

아래 코드는 `(1, 0, 2)`와 `(2, 1, 3)` 좌표에 위치한 3개의 항목으로 구성된 1차원 어레이를 생성한다.

In [98]:
arr[[1, 2], [0, 1], [2, 3]]

array([10, 23])

반면에 아래 코드는 `(1, 0)`과 `(2, 1)` 좌표에 위치한 두 개의 항목으로 구성된 2차원 어레이를 생성한다.
이유는 해당 좌표의 항목이 모두 길이가 4인 1차원 어레이이기 때문이다.

In [99]:
arr[[1, 2], [0, 1]]

array([[ 8,  9, 10, 11],
       [20, 21, 22, 23]])