# **03. 데이터프레임 고급 인덱싱**

데이터프레임에서 특정한 데이터만 골라내는 것을 인덱싱(indexing)이라고 한다. 앞 절에서는 라벨, 라벨 리스트, 인덱스데이터(정수) 슬라이스의 3가지 인덱싱 값을 사용하여 인덱싱을 하는 방법을 공부하였다. 그런데 **Pandas는 numpy행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원**하기 위해 다음과 같은 특별한 인덱서(indexer) 속성도 제공한다.

- loc : 라벨값 기반의 2차원 인덱싱
- iloc : **순서를 나타내는** 정수 기반의 2차원 인덱싱
- at: 라벨값 기반의 2차원 인덱싱 (한개의 스칼라 값만 찾는다)
- iat : **순서를 나타내는** 정수 기반의 2차원 인덱싱 (한개의 스칼라 값만 찾는다)

## **목차**

1. loc 인덱서  
    1.1 인덱싱값을 하나만 받는 경우  
    1.2 인뎅싱값을 행과 열 모두 받는 경우  


2. iloc 인덱서  
        연습문제 3-1  


3. at, iat 인덱서

### **1. `loc` 인덱서**

loc 인덱서는 다음처럼 사용한다.

- df.loc[행 인덱싱 값] 또는 
- df.loc[행 인덱싱 값, 열 인덱싱 값]

이 때 인덱싱 값은 다음 중 하나이다.   
**행 인덱싱값**은 정수 또는 행 인덱스데이터 이고 **열 인덱싱값**은 라벨 문자열이다. 

- 인덱스데이터
- 인덱스데이터 슬라이스
- 인덱스데이터 리스트
- 같은 행 인덱스를 가지는 불리언 시리즈 (행 인덱싱의 경우)
- 또는 위의 값들을 반환하는 함수

다음과 같은 데이터프레임을 예로 들자.

In [72]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.arange(10, 22).reshape(3,4),
                 index = ['a', 'b', 'c'],      # row name 
                 columns=['A', 'B', 'C', 'D']) # col name 
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


#### **1.1 인덱싱값을 하나만 받는 경우**

만약 `loc 인덱서`를 사용하면서 **인덱스를 하나만 넣으면 행(row)**을 선택한다.

인덱스데이터가 **'a'인 행**을 고르면 해당하는 행이 시리즈로 출력된다. 시리즈라서 상하로 길게 출력되기는 했지만 행을 가져오고 있다.

In [9]:
df.loc['a']  # 'a' 행

A    10
B    11
C    12
D    13
Name: a, dtype: int32

인덱스데이터의 슬라이스도 가능하다.

In [67]:
df.loc['b':'c']  # 행 슬라이싱

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,72,76,80,84


이 때는 사실 loc를 쓰지 않는 경우과 같다.

In [14]:
df['b':'c']

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


인덱스데이터의 리스트도 된다.

In [1]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.arange(10, 22).reshape(3,4),
                 index = ['a', 'b', 'c'],      # row name 
                 columns=['A', 'B', 'C', 'D']) # col name 
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [66]:
df.loc[['b', 'c']]  # 리스트 형태로 슬라이싱 

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,72,76,80,84


이 때는 `loc`를 쓰지 않으면 KeyError 오류가 발생한다..   

즉, `loc`를 쓰지 않으면, 행 슬라이스는 불가능하다

In [17]:
# df[['b', 'c']]  # KeyError

데이터베이스와 같은 인덱스를 가지는 불리언 시리즈도 행을 선택하는 인덱싱값으로 쓸 수 있다.

In [74]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.arange(10, 22).reshape(3,4),
                 index = ['a', 'b', 'c'],      # row name 
                 columns=['A', 'B', 'C', 'D']) # col name 
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [19]:
df.A > 15  # A 열에서 각 행의 값이 15보다 큰가?

a    False
b    False
c     True
Name: A, dtype: bool

In [68]:
df.loc[df.A > 15]  # A열에서 값이 15보다 큰 행을 출력 

Unnamed: 0,A,B,C,D
c,72,76,80,84


인덱스 대신 인덱스 값을 반환하는 함수를 사용할 수도 있다. 다음 함수는 A열의 값이 12보다 큰 행만 선택한다.

In [22]:
def select_rows(df):
    return df.A > 15

select_rows(df)

a    False
b    False
c     True
Name: A, dtype: bool

In [23]:
df.loc[select_rows(df)]

Unnamed: 0,A,B,C,D
c,18,19,20,21


`loc` 인덱서가 없는 경우에 사용했던 라벨 인덱싱이나 라벨 리스트 인덱싱은 불가능하다.

In [25]:
# df.loc['A']  # KeyError
# df.loc[['A', 'B']] # KeyError


<u>**원래 (행) 인덱스값**이 정수인 경우</u>에는 슬라이싱도 라벨 슬라이싱 방식을 따르게 된다.   
**즉, 슬라이스의 마지막 값이 포함된다.**

In [30]:
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns=["A", "B", "C", "D"])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [75]:
df2.loc[1:2]  # 1 ~ 2 행, 2행 까지 포함한다. 

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


**정리하면 다음과 같다.**

| 인덱싱 값 | 가능 | 결과 | 자료형 | 추가사항 |
|-|-|-|-|-|
| 행 인덱스값(정수) | O | 행 | 시리즈 | |
| 행 인덱스값(정수) 슬라이스 | O | 행 | 데이터프레임 | `loc`가 없는 경우와 같음 |
| 행 인덱스값(정수) 리스트 | O | 행 | 데이터프레임 | |
| 불리언 시리즈 | O | 행 | 데이터프레임 | 시리즈의 인덱스가 데이터프레임의 행 인덱스와 같아야 한다. |
| 불리언 시리즈를 반환하는 함수 | O | 행 | 데이터프레임 |  |
| 열 라벨 | X | |  | `loc`가 없는 경우에만 쓸 수 있다. |
| 열 라벨 리스트 | X | |  | `loc`가 없는 경우에만 쓸 수 있다. |

<hr>

#### **1.2 인덱싱값을 행과 열 모두 받는 경우**


인덱싱값을 행과 열 모두 받으려면 `df.loc[행 인덱스, 열 인덱스]`와 같은 형태로 사용한다.  
행 인덱스 라벨값이 a, 열 인덱스 라벨값이 A인 위치의 값을 구하는 것은 다음과 같다.


In [2]:
df = pd.DataFrame(np.arange(10, 22).reshape(3,4),
                 index = ['a', 'b', 'c'],      # row name 
                 columns=['A', 'B', 'C', 'D']) # col name 
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [36]:
df.loc['a','A']  # a행, A열

10

In [37]:
df.loc['b':,'A']  # B행 부터~, A열

b    14
c    18
Name: A, dtype: int32

In [39]:
df.loc['a', :]  # a행, 모든 열 

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [41]:
df.loc[['a', 'b'], ['B', 'D']]  # a~b행, B~D열

Unnamed: 0,B,D
a,11,13
b,15,17


In [4]:
df.loc['b':, 'B':]

Unnamed: 0,B,C,D
b,15,16,17
c,19,20,21


In [21]:
df.loc[:,:'C']

Unnamed: 0,A,B,C
a,10,11,12
b,14,15,16
c,18,19,20


행 인덱스가 같은 불리언 시리즈나 이러한 불리언 시리즈를 반환하는 함수도 행의 인덱싱값이 될 수 있다.

In [46]:
df.loc[df.A > 10, ['B', 'D']]  # A열에서 10보다 큰 행, B, D열 

Unnamed: 0,B,D
b,15,17
c,19,21


### **2. `iloc` 인덱서**


iloc 인덱서는 loc 인덱서와 반대로 라벨이 아니라 **순서를 나타내는 정수(integer) 인덱스만** 받는다. 다른 사항은 loc 인덱서와 같다.

In [62]:
df = pd.DataFrame(np.arange(10, 22).reshape(3,4),
                 index = ['a', 'b', 'c'],      # row name 
                 columns=['A', 'B', 'C', 'D']) # col name 
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [49]:
df.iloc[0, 1] # 0행, 1열

11

In [50]:
df.iloc[:2, 2]  # 0 ~ 1행, 2열

a    12
b    16
Name: C, dtype: int32

In [54]:
df.iloc[0, -2:]  # 0행, 끝에서 2번쨰 부터 마지막 열 까지 

C    12
D    13
Name: a, dtype: int32

In [56]:
df.iloc[2:3, 1:3]  # 3번쨰 행, 1~2번째 열 

Unnamed: 0,B,C
c,19,20


loc 인덱서와 마찬가지로 인덱스가 **하나만 들어가면 행을 선택**한다.

In [58]:
df.iloc[-1]  # 마지막 행 

A    18
B    19
C    20
D    21
Name: c, dtype: int32

In [64]:
df.iloc[-1] = df.iloc[-1] * 2  # 마지막 행을 기존 값의 2배를 한 후 할당 
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,72,76,80,84


#### **연습문제 1**

1. 모든 행과 열에 라벨을 가지는 5 x 5 이상의 크기를 가지는 데이터프레임을 만든다.
2. 10가지 이상의 방법으로 특정한 행과 열을 선택한다.

In [99]:
np.random.seed(10)
ad_df = pd.DataFrame(np.random.randint(25, size=(5,5)), columns=['A', 'B', 'C', 'D', 'E'], 
                     index=['가', '나', '다', '라', '마'])
ad_df

Unnamed: 0,A,B,C,D,E
가,9,4,15,0,17
나,16,17,8,9,0
다,10,8,22,4,19
라,16,4,15,11,22
마,24,11,1,8,4


In [95]:
# 1. '가'행의 값 출력 
ad_df.loc['가']

A     8
B     8
C     0
D    17
E    18
Name: 1, dtype: int32

In [105]:
# 2. '가'행 ~ '다'행 출력 
ad_df.loc['가':'다']

Unnamed: 0,A,B,C,D,E
가,9,4,15,0,17
나,16,17,8,9,0
다,10,8,22,4,19


In [117]:
# 3. '나'행 이후의 모든 행 이면서 'C'열에 해당하는 값 출력 
ad_df.loc['나':, 'C']  

나     8
다    22
라    15
마     1
Name: C, dtype: int32

In [115]:
# 4. '가','다' 행에 해당하는 값 출력 
ad_df.loc[['가', '다'], :]

Unnamed: 0,A,B,C,D,E
가,9,4,15,0,17
다,10,8,22,4,19


In [116]:
# 5. '다', '마' 행이면서, 'C'열 이후의 값 출력 
ad_df.loc[['다', '마'], 'C':]

Unnamed: 0,C,D,E
다,22,4,19
마,1,8,4


In [120]:
# 6. '나' ~ '다' 행이면서, 'B','C'열에 해당하는 값 출력 
ad_df.loc['나':'라','B':'C']

Unnamed: 0,B,C
나,17,8
다,8,22
라,4,15


In [122]:
# 7. 'B' 열에서 값이 10이상인 행과, 'B','D'열에 해당하는 값 출력 
ad_df.loc[ad_df.B > 10, ['B','D']]

Unnamed: 0,B,D
나,17,9
마,11,8


In [125]:
ad_df

Unnamed: 0,A,B,C,D,E
가,9,4,15,0,17
나,16,17,8,9,0
다,10,8,22,4,19
라,16,4,15,11,22
마,24,11,1,8,4


In [123]:
# 8. '가' 행의 값을 출력 (iloc)
ad_df.iloc[1]

A    16
B    17
C     8
D     9
E     0
Name: 나, dtype: int32

In [128]:
# 9. '다' ~ '마'행과 'C' ~ 'E'열에 해당하는 값 출력 (iloc)
ad_df.iloc[2:,2:]  # 슬라이싱 주의

Unnamed: 0,C,D,E
다,22,4,19
라,15,11,22
마,1,8,4


In [132]:
# 10. '가', '다','마' 행이면서, 'B','D'열에 해당하는 값 출력 (iloc)
ad_df.iloc[0:5:2, 1::2]

Unnamed: 0,B,D
가,4,0
다,8,4
마,11,8


### `at`, `iat` 인덱서

`at`, `iat` 인덱서는 loc, iloc 인덱서와 비슷하지만 하나의 스칼라 값을 뽑을 때만 사용한다. 빠른 인덱싱 속도가 요구되는 경우에 사용한다.