# 데이터프레임 고급 인덱싱 
데이터프레임에서 특정한 데이터만 골라내는 것을 인덱싱(indexing)이라고 한다.    
앞 절에서는 라벨, 라벨 리스트, 인덱스데이터(정수) 슬라이스의 3가지 인덱싱 값을 사용하여 인덱싱을 하는 방법을 공부하였다.   
그런데 Pandas는 numpy행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서(indexer) 속성도 제공한다.   

- loc : 라벨값 기반의 2차원 인덱싱 # 사람관점의 라벨인덱스 기준
- iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱 # 컴퓨터관점의 인덱스 기준

## loc 인덱서
- df.loc[행 인덱싱 값]
- df.loc[행 인덱싱 값, 열 인덱싱 값]

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


### 인덱싱 값을 하나만 받는 경우
- 인덱스를 하나만 넣으면 행을 선택.
- 인덱스 데이터가 "a"인 행을 고르면 해당 하는 행이 시리즈로 출력된다
- 시리즈라서 상하로 길게 출력되기는 했지만, 행을 가져오고 있음

In [3]:
df['A'] # 그냥 인덱싱할 때는 열을 출력

a    10
b    14
c    18
Name: A, dtype: int64

In [8]:
df.loc["a"] # loc 인덱싱은 행을 출력

A    10
B    11
C    12
D    13
Name: a, dtype: int64

In [5]:
df.loc["b":"c"] # 범위로 2개 뽑음 = df["b":"c"]와 같음. 슬라이싱 -> 행 인덱싱이기 때문에

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [6]:
df.loc[ ["b", "c"] ] # 특정해서 2개 뽑음. loc을 사용하지 않으면 KeyError 발생

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


Boolean indexing도 가능

In [9]:
df.A > 15

a    False
b    False
c     True
Name: A, dtype: bool

In [10]:
df.loc[df.A > 15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


인덱스 대신 인덱스 값을 반환하는 함수를 사용할 수도 있다.   
다음 함수는 A열의 값이 12보다 큰 행만 선택한다.

In [11]:
def select_rows(df):
    return df.A > 15

In [12]:
select_rows(df)

a    False
b    False
c     True
Name: A, dtype: bool

In [13]:
df.loc[select_rows(df)]

Unnamed: 0,A,B,C,D
c,18,19,20,21


원래 (행) 인덱스값이 정수인 경우에는 슬라이싱도 라벨 슬라이싱 방식을 따르게 된다.   
즉, 슬라이스의 마지막 값이 포함된다.

In [14]:
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns=["A", "B", "C", "D"])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [15]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


### 인덱싱 값을 행과 열 모두 받는 경우

In [16]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [17]:
df.loc["a", "A"]

10

In [18]:
df.loc["b":, "A"]

b    14
c    18
Name: A, dtype: int64

In [19]:
df.loc["a", :]

A    10
B    11
C    12
D    13
Name: a, dtype: int64

In [20]:
df.loc[["a", "b"], ["B", "D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


행 인덱스가 같은 불리언 시리즈나 이러한 불리언 시리즈를 반환하는 함수도 행의 인덱싱값이 될 수 있다.


In [21]:
df.loc[df.A > 10, ["C", "D"]]

Unnamed: 0,C,D
b,16,17
c,20,21


## iloc 인덱서
iloc 인덱서는 loc 인덱서와 반대로 라벨이 아니라 순서를 나타내는 정수(integer) 인덱스만 받는다. 다른 사항은 loc 인덱서와 같다.


In [22]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [23]:
df.iloc[0, 1]

11

In [24]:
df.iloc[:2, 2]

a    12
b    16
Name: C, dtype: int64

In [25]:
df.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int64

In [26]:
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


In [27]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [28]:
df.iloc[-1]

A    18
B    19
C    20
D    21
Name: c, dtype: int64

In [29]:
df.iloc[-1] = df.iloc[-1] * 2
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,36,38,40,42
