Source : 파이썬 머신러닝 완벽 가이드(권철민, 위키북스)

## 5. ndarray의 데이터 세트 선택하기 : Indexing  

- **Indexing**  
1. 단일 값 추출 : 원하는 위치의 인덱스 값을 지정하면 해당 위치의 데이터가 반환된다.  

2. Slicing : Slicing은 연속된 인덱스상의 ndarray를 추출하는 방식이다. `:` 기호 사이에 시작 인덱스와 종료 인덱스를 표시하면 시작 인덱스에서 종료 인덱스의 -1 위치에 있는 데이터의 ndarray를 반환한다.  
(예시) `1:5`라고 하면 시작 인덱스 1과 종료 인덱스 -1인 4까지에 해당하는 ndarray를 반환  

3. Fancy Indexing : 일정한 인덱싱 집합을 리스트 또는 ndarray 형태로 지정해 해당 위치에 있는 데이터의 ndarray를 반환한다.  

4. Boolean Indexing : 특정 조건에 해당하는지 여부인 True/False 값 인뎅싱 집합을 기반으로 True에 해당하는 인덱스 위치에 있는 데이터의 ndarray를 반환한다.

### 5-1. 단일 값 추출  

#### 1차원 ndarray에서 단일 값 추출하기  
- **ndarray객체[위치 인덱스 값]**  

*index에 - 기호를 이용하면 맨 뒤에서부터 데이터를 추출할 수 있다.*  
인덱스 -1은 맨 뒤의 데이터 값을 의미하며, -2는 맨 뒤에서 두 번째에 있는 데이터 값이다.  
  
#### 다차원 ndarray에서 단일 값 추출하기  
- **2차원 ndarray 객체[로우 위치 인덱스, 칼럼 위치 인덱스]**  

- 다차원 ndarray의 axis(축) 개념  
: 원래 넘파이 ndarray에서는 로우, 칼럼 개념을 사용하지 않고 axis 개념을 사용함  
만약 축 기반의 연산에서 axis가 생략되면 axis 0을 의미함  
  - axis 0 : row(행) 방향의 축
  - axis 1 : column(열) 방향의 축
  - axis 2 : depth(높이) 방향의 축


In [1]:
import numpy as np

# 1~9까지의 1차원 ndarray 생성
array1 = np.arange(start=1, stop=10)
print('array1: ', array1)

# index는 0부터 시작하므로 array1[2]는 3번째 index 위치의 데이터 값을 의미
print('array1[2]: ', array1[2])
print('arary1[2]의 type: ', type(array1[2]))

# index에 - 기호를 이용하여 맨 뒤에서부터 데이터 추출
print('맨 뒤의 값: ', array1[-1])
print('맨 뒤에서 두 번째 값: ', array1[-2])

array1:  [1 2 3 4 5 6 7 8 9]
array1[2]:  3
arary1[2]의 type:  <class 'numpy.int64'>
맨 뒤의 값:  9
맨 뒤에서 두 번째 값:  8


In [2]:
# 단일 인덱스를 이용해서 ndarray 내의 데이터값 수정하기
print('원래 array1: ', array1)

array1[0] = 9
array1[-1] = 0
print('수정된 array1: ', array1)

원래 array1:  [1 2 3 4 5 6 7 8 9]
수정된 array1:  [9 2 3 4 5 6 7 8 0]


In [3]:
# 1차원 ndarray를 2차원으로 변환
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape((3, 3))
print('array2d:\n', array2d)

# 2차원 ndarray에서의 단일 인덱싱
print('(row=0, col=0) index가 가리키는 값: ', array2d[0, 0])
print('(row=0, col=1) index가 가리키는 값: ', array2d[0, 1])
print('(row=1, col=0) index가 가리키는 값: ', array2d[1, 0])
print('(row=2, col=2) index가 가리키는 값: ', array2d[2, 2])

array2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0, col=0) index가 가리키는 값:  1
(row=0, col=1) index가 가리키는 값:  2
(row=1, col=0) index가 가리키는 값:  4
(row=2, col=2) index가 가리키는 값:  9


### 5-2. Slicing  
`:` 기호를 이용해 연속한 데이터를 슬라이싱해서 추출  
이때, 슬라이싱으로 추출된 데이터 세트는 ndarray 타입  

#### 1차원 ndarray에서 슬라이싱  
- **ndarray[시작 인덱스:종료 인덱스]**  
시작 인덱스에서 (종료 인덱스 -1)의 위치에 있는 데이터의 ndarray를 반환함  

*슬라이싱 기호 `:` 앞/뒤에 있는 시작 인덱스와 종료 인덱스는 생략이 가능하다.*  
  1. `:` 기호 앞에 시작 인덱스를 생략 : 자동으로 맨 처음 인덱스인 0으로 간주  
  2. `:` 기호 뒤에 종료 인덱스를 생략 : 자동으로 맨 마지막 데이터까지 반환함
  3. `:` 기호 앞/뒤에 시작/종료 인덱스를 모두 생략하면 자동으로 맨 처음부터 마지막 데이터를 모두 반환함  

#### 다차원 ndarray에서 슬라이싱  
1차원에서의 슬라이싱과 유사함  
다만, `콤마(,)`로 구분된 로우와 칼럼 인덱스에 각각 슬라이싱을 적용
- **2차원 ndarray[로우 시작 인덱스:종료 인덱스, 칼럼 시작 인덱스:종료 인덱스]**  

2차원 ndarray에서 뒤에 오는 인덱스를 없애면 1차원 ndarray를 반환  
3차원 ndarray에서 뒤에 오는 인덱스를 없애면 2차원 ndarray를 반환

In [4]:
# 1차원 ndarray에서 슬라이싱
array1 = np.arange(start=1, stop=10)
print('array1: ', array1)
array2 = array1[0:3]
print('array1에서 인덱스 값 0~2에 해당하는 데이터 추출: ', array2)
print('슬라이싱으로 추출된 데이터 세트의 type: ', type(array2))

array1:  [1 2 3 4 5 6 7 8 9]
array1에서 인덱스 값 0~2에 해당하는 데이터 추출:  [1 2 3]
슬라이싱으로 추출된 데이터 세트의 type:  <class 'numpy.ndarray'>


In [5]:
array1 = np.arange(start=1, stop=10)
print('array1: ', array1)

# 시작 인덱스 생략
array3 = array1[:3]
print(array3)

# 종료 인덱스 생략
array4 = array1[3:]
print(array4)

# 시작, 종료 인덱스 모두 생략
array5 = array1[:]
print(array5)

array1:  [1 2 3 4 5 6 7 8 9]
[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


In [6]:
# 2차원 ndarray 생성
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape((3, 3))
print('array2d:\n', array2d)

# 2차원 ndarray에서 슬라이싱
print('array2d[0:2, 0:2]: \n', array2d[0:2, 0:2])
print('array2d[1:3, 0:3]: \n', array2d[1:3, 0:3])
print('array2d[1:3, :]: \n', array2d[1:3, :])
print('array2d[:, :]: \n', array2d[:, :])
print('array2d[:2, 1:]: \n', array2d[:2, 1:])
print('array2d[:2, 0]: \n', array2d[:2, 0])

array2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2]: 
 [[1 2]
 [4 5]]
array2d[1:3, 0:3]: 
 [[4 5 6]
 [7 8 9]]
array2d[1:3, :]: 
 [[4 5 6]
 [7 8 9]]
array2d[:, :]: 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2, 1:]: 
 [[2 3]
 [5 6]]
array2d[:2, 0]: 
 [1 4]


In [7]:
# 2차원 ndarray에서 axis 1에 해당하는 인덱스를 생략하면 axis 0 인덱스 값에 맞는 1차원 ndarray를 반환
print('원래 array2d:\n', array2d)
print(array2d[0])
print(array2d[1])
print('array2d[0]의 shape: ', array2d[0].shape)
print('array2d[1]의 shape: ', array2d[1].shape)

원래 array2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
[1 2 3]
[4 5 6]
array2d[0]의 shape:  (3,)
array2d[1]의 shape:  (3,)


### 5-3. Fancy Indexing  
리스트나 ndarray로 인덱스 집합을 지정하면 해당 위치의 인덱스에 해당하는 ndarray를 반환  

In [8]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape((3, 3))
print('array2d:\n', array2d)

array6 = array2d[[0, 1], 2]
print('array2d[[0, 1], 2] : ', array6)

array7 = array2d[[0, 1], 0:2]
print('array2d[[0, 1], 0:2] : \n', array7)

array8 = array2d[[0, 1]]
print('array2d[[0, 1]] : \n', array8)

array2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[[0, 1], 2] :  [3 6]
array2d[[0, 1], 0:2] : 
 [[1 2]
 [4 5]]
array2d[[0, 1]] : 
 [[1 2 3]
 [4 5 6]]


**위 코드에 대한 설명**  
array2d[[0, 1], 2]는 로우 축에 팬시 인덱싱을 적용, 칼럼 축에는 단일 인덱싱을 적용함  
(row, col) 인덱스가 각각 (0, 2), (1, 2)로 적용돼 [3 6]을 반환

array2d[[0, 1], 0:2]는 ((0, 0), (0, 1)), ((1, 0), (1, 1)) 인덱스가 적용돼 [[1 2], [4 5]]를 반환

array2d[[0, 1]]는 ((0, :), (1, :)) 인덱싱이 적용돼 [[1 2 3 ], [4 5 6]]을 반환

### 5-4. Boolean Indexing 
조건 필터링과 검색을 동시에 할 수 있어서 자주 쓰이는 인덱싱 방식  

- **ndarray[조건문]**  
: 해당 조건을 만족하는 ndarray 데이터 세트를 반환

In [9]:
array1d = np.arange(start=1, stop=10)
print('array1d:\n', array1d)

# []안에 array1d > 5의 조건문을 적음
array9 = array1d[array1d > 5]
print('array1d > 5 불린 인덱싱 결과 값: ', array9)

array1d:
 [1 2 3 4 5 6 7 8 9]
array1d > 5 불린 인덱싱 결과 값:  [6 7 8 9]


In [10]:
# ndarray 객체에 조건식 할당
array1d > 5

array([False, False, False, False, False,  True,  True,  True,  True])

In [11]:
# 위와 동일한 boolean ndarray를 직접 만들어서 이를 array1d[] 내의 인덱스로 입력
boolean_indexes = np.array([False, False, False, False, False, True, True, True, True])
array10 = array1d[boolean_indexes]
print('불린 인덱스로 필터링 결과: ', array10)

불린 인덱스로 필터링 결과:  [6 7 8 9]


In [12]:
# 직접 인덱스 집합을 만들어서 이를 array1d[] 내의 인덱스로 입력
indexes = np.array([5, 6, 7, 8])
array11 = array1d[indexes]
print('일반 인덱스로 필터링 결과: ', array11)

일반 인덱스로 필터링 결과:  [6 7 8 9]
