# D. Numpy Indexing

지난 Section 2에서는 2차원 행렬에서 `A[0,0]`과 같은 식으로 원하는 행렬에서 원하는 값을 가져왔었습니다.  
이번 Section 3에서는 Numpy Array에서 **원하는 값을 가져오는** 인덱싱 기능의 **구체적인 작동방식과 다양한 인덱싱 방식**을 배워보겠습니다.

### _Objective_
1. **위치값을 활용한 넘파이 배열 인덱싱** : Numpy Array에서 원하는 위치의 값을 가져오는 방법을 배웁니다.
2.  **조건문을 활용한 넘파이 배열 인덱싱** : Numpy Array에서 특정 조건을 만족하는 값을 가져오는 방법을 배웁니다.

In [1]:
import numpy as np

# \[ 1. Array Indexing \]
 
인덱싱(indexing) 방법과 유사한 방법으로 `np.array`에서 원하는 값을 가져올 수 있습니다.  
Numpy Array도 `list`, `tuple` 등과 마찬가지로 **구성하는 원소에 순서**가 있기 때문입니다.  

#### **예제) 학생들의 성적표**

| 학생 번호 | 역사 | 영어 | 수학 | 사회 | 과학 |
|  ----   | --- |---| --- | --- | --- |
|0 |80 |92 |70 | 65 | 92 |
|1 |91 |75 |90 | 68 | 85 | 
|2 |86 |76 |42 | 72 | 88 |
|3 |77 |92 |52 | 60 | 80 |
|4 |75 |85 |85 | 92 | 95 |
|5 |96 |90 |95 | 81 | 72 |



In [2]:
scores = np.array([
    [80, 92, 70, 65, 92], 
    [91, 75, 90, 68, 85], 
    [86, 76, 42, 72, 88], 
    [77, 92, 52, 60, 80], 
    [75, 85, 85, 92, 95], 
    [96, 90, 95, 81, 72]])

scores

array([[80, 92, 70, 65, 92],
       [91, 75, 90, 68, 85],
       [86, 76, 42, 72, 88],
       [77, 92, 52, 60, 80],
       [75, 85, 85, 92, 95],
       [96, 90, 95, 81, 72]])

## 1. 원소 인덱싱
+ Numpy Array를 인덱싱 할 때에도 대괄호 형식 `[인덱스 값]`을 사용합니다.
+ 각각의 축에 대해 **위치를 특정**하면, 원하는 위치의 **단일 원소**를 가져올 수 있습니다.
+ 2차원 행렬에는 축이 2개 있으므로 단일 원소를 가져오려면 각 축에 대한 인덱스 값이 필요하며, 이는 `[a, b]`로 표현할 수 있습니다. 예로, 2차원 행렬에서는 `axis = 0이 행`, `axis = 1이 열`을 뜻하므로, `[행(a), 열(b)]`라고 생각하면 됩니다.  

### (1) 단일 원소 인덱싱
본 내용에 들어가기에 앞서, 넘파이에서 n차원 배열은 n개의 축을 가진다는 사실을 알아야 합니다.
![Picture1.png](attachment:Picture1.png)


배열 내 원소는 **각 축에서의 위치값(인덱스)**을 지정하여 특정값에 액세스 할 수 있습니다 .

#### 2번 학생의 역사 성적

학생 2의 성적은 row=2 또는 세번째 행에 위치하고, 학생들의 역사점수는 데이터에서 column=0 또는 첫번째 열에 위치합니다.

In [3]:
# row=2 , col=0
scores[2,0]

86

#### 3번 학생의 수학 성적

In [4]:
# row=4, col=3
scores[3,2]

52

## 2. 범위 인덱싱

- 위치값을 사용하여 단일 요소에 액세스하는 것 외에도 인덱스 범위(Range Indexing)를 지정하여 배열 의 하위 집합을 가져올 수도 있습니다. 이를 numpy array slicing이라고 합니다. numpy array slicing의 구문은  [start:stop:step]입니다.

- 배열슬라이싱은 배열인덱싱과 마찬가지로 0축부터 n축까지 순차적으로 진행되며, 특정축의 모든 항목에 액세스하려면 해당 축에 콜론 (**:**)을 사용합니다.

- 예를 들어 2차원 배열의 특정 행에있는 모든 열에 액세스하려면 `[row_index, :]`로 설정하십시오. 여기서 콜론 (**:**)은 "all"을 의미 하며 column_index에 :를 표시하거나 공백으로두면 기존의 모든 열에 자동으로 액세스합니다. 콜론의 사용은 특정 열의 모든 값에 액세스 할 때도 적용됩니다. 예를 들어 열 1의 모든 값을 선택하려면 `[:,1]`로 설정할 수 있습니다. 

- 인덱스 값이 더 이상 지정되지 않으면 뒤에 추가되는 축의 모든 값에 액세스하는 것으로 이해됩니다. 예를 들어, 3차원 배열에 `[3,]`로 인덱싱을 한다면 3행의 모든 열(column)과 깊이(depth)에 액세스하는 것을 의미합니다.

- start(결과값에 포함)은 슬라이스가 시작되는 위치를 알려주고 stop(결과값에 미포함)은 슬라이스의 끝점입니다. start, step, stop값이 명시되지 않은 경우, 기본값은 각각 0, 1, 배열의 길이(`len()`)입니다.



### (1) 행 인덱싱 (axis=0)

특정 행 하나를 얻으려면 `[row_index, ]`로 행의 단일 위치 값을 엑세스하거나, 연속된 행 집합을 원하는 경우 `[start:stop:step,  ]`표기법을 사용해야 합니다.

#### 1번 학생의 전체성적

In [5]:
# row=1, col=all
scores[1,:]

array([91, 75, 90, 68, 85])

#### 3번 학생의 전체성적

In [6]:
# row=3, col=all
scores[3,:]

array([77, 92, 52, 60, 80])

#### 1번부터 4번 학생의 전체성적

In [7]:
# row=1~4 / col=all
scores[1:5]

array([[91, 75, 90, 68, 85],
       [86, 76, 42, 72, 88],
       [77, 92, 52, 60, 80],
       [75, 85, 85, 92, 95]])

#### 2번~5번 학생의 성적

In [8]:
# row=2~5 / col=all
scores[2:6]

array([[86, 76, 42, 72, 88],
       [77, 92, 52, 60, 80],
       [75, 85, 85, 92, 95],
       [96, 90, 95, 81, 72]])

####  짝수 번호의 학생 성적

In [9]:
# row=0,2,4 / col=all
scores[0:6:2]

array([[80, 92, 70, 65, 92],
       [86, 76, 42, 72, 88],
       [75, 85, 85, 92, 95]])

####  홀수 번호의 학생 성적

In [10]:
# row=1,3,5 / col=all
scores[1:6:2]

array([[91, 75, 90, 68, 85],
       [77, 92, 52, 60, 80],
       [96, 90, 95, 81, 72]])

### (2) 열 인덱싱 (axis=1)

열만 특정해서 가져올 때는 행 인덱싱과 순서만 바꿔주면 됩니다. 모든 행을 선택하는 동안 특정열만 지정하려면 `[:, column_index]` 또는 `[:, start:stop:step]`을 사용하십시오.

#### 전체 학생의 역사 성적

In [11]:
# row=all / col=0
scores[:,0]

array([80, 91, 86, 77, 75, 96])

#### 전체 학생의 수학 성적

In [12]:
# row=all / col=2
scores[:,2]

array([70, 90, 42, 52, 85, 95])

#### 전체 학생의 역사, 영어, 수학 성적

In [13]:
# row=all / col=0,1,2
scores[:,0:3]

array([[80, 92, 70],
       [91, 75, 90],
       [86, 76, 42],
       [77, 92, 52],
       [75, 85, 85],
       [96, 90, 95]])

#### 전체 학생의 영어, 수학, 사회 성적

In [14]:
# row=all / col=1,2,3
scores[:,1:4]

array([[92, 70, 65],
       [75, 90, 68],
       [76, 42, 72],
       [92, 52, 60],
       [85, 85, 92],
       [90, 95, 81]])

### (3) list 방식 인덱싱 (Fancy Indexing)
**연속적 범위가 아닌 특정 비연속 범위**를 지정하여 인덱싱할 때에는 list방식을 사용하면 됩니다.

#### 1,3,4번 학생의 성적

In [15]:
# row=1,3,4 / col = all
scores[[1, 3, 4]] # 특정 범위를 list에 담아서 인덱싱

array([[91, 75, 90, 68, 85],
       [77, 92, 52, 60, 80],
       [75, 85, 85, 92, 95]])

#### 전체 학생의 수학, 과학 성적

In [16]:
# row= all / col = 2,4
scores[:,[2, 4]] 

array([[70, 92],
       [90, 85],
       [42, 88],
       [52, 80],
       [85, 95],
       [95, 72]])

## 3. Boolean Indexing 

지금까지 본 인덱싱 방법 외에도 Boolean Masks를 사용하여 배열을 인덱싱 할 수 있으며 이러한 배열 인덱싱 방법을 Boolean (Array) Indexing 이라고 합니다 .

Boolean Mask는 배열에 논리 연산자를 적용한 후 이 조건에서 얻은 True / False 값으로 구성된 배열입니다. Boolean Indexing은 Boolean mask을 인덱싱 할 배열에 적용하여 True가 매칭되는 원소값만 액세스 할 때 사용됩니다.

### (1) 1차원 Boolean Indexing
Boolean Indexing은 **인덱싱 하려는 Array와 Boolean Mask 축의 원소 수가 같아야 한다**는 조건만 충족하면 됩니다.  
아래와 같이 `(2,3)`의 shape을 가지는 Numpy Array를 인덱싱 해봅시다.

In [17]:
# (2,3) Array
array_1= np.arange(0,6).reshape(2,3)
array_1

array([[0, 1, 2],
       [3, 4, 5]])

#### 행(axis=0) 인덱싱

축의 원소 수가 같아야 하므로 행 Indexing에 사용될 Boolean Mask는 (2,)형태로 만들어 줍니다.  

In [18]:
# (2,) Boolean Mask
mask = np.array([True,False])
mask.shape
array_1[mask,:]

array([[0, 1, 2]])

그리고 Array의 인덱싱 자리에 마스크를 집어넣으면, **True에 해당하는 부분만** 인덱싱 할 수 있습니다.

x array의 0번 축의 1행에 해당하는 열들을 가져오는 것을 확인할 수 있습니다.

#### 열(axis=1) 인덱싱

열 Indexing에 사용될 Boolean Mask는 (3,)형태로 만들어 주고 array_1의 열 인덱싱 부분에 넣어줍니다.

In [19]:
# (3,) Boolean Mask
mask = np.array([False,False,True])
mask.shape

(3,)

In [20]:
array_1[:,mask]

array([[2],
       [5]])

x array의 1번 축의 3열에 해당하는 행들을 가져오는 것을 확인할 수 있습니다.

#### 2차원 Boolean Mask

0번 축과 함께 1번 축에 대해서도 `True`와 `False` 값으로 인덱싱을 하고 싶다면 어떻게 해야 할까요?  
그러기 위해서는 Boolean Mask도 2차원으로 만들어야 합니다.  

In [21]:
# (3,3)Array
array_2 = np.arange(0,9).reshape(3,3)
array_2

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [22]:
# (3,3)Boolean Mask
mask = np.array([
    [True,False, True],
    [False,False, False],
    [True,False, True]])
mask.shape

(3, 3)

In [23]:
array_2[mask]

array([0, 2, 6, 8])

2차원의 array_2와 mask의 원소가 매칭되는 부분만 인덱싱 되는 것을 확인할 수 있습니다.