# 데이터프레임 인덱서

Pandas는 numpy행렬과 같이 쉼표를 사용한 `(행 인덱스, 열 인덱스)` 형식의 2차원 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서(indexer)를 제공한다.

* `loc` : 라벨값 기반의 2차원 인덱싱
* `iloc` : 순서를 나타내는 정수 기반의 2차원 인덱싱
* `at`: 라벨값 기반의 2차원 인덱싱 (한개의 스칼라 값만 찾는다)
* `iat` : 순서를 나타내는 정수 기반의 2차원 인덱싱 (한개의 스칼라 값만 찾는다)

## `loc` 인덱서

`loc` 인덱서를 사용할 때는 행/열 인덱스들이 모두 다음 중 하나이어야 한다.

* 정수 인덱스가 아닌 라벨 값(원래 인덱스 자체가 정수 인덱스인 경우는 예외적으로 허용)
* 라벨 값의 리스트나 슬라이싱
* 부울리언 리스트, 1차원 배열, 시리즈 (데이터프레임은 안된다.)
* 또는 데이터프레임을 입력으로 받고 위의 값들(1차원 배열, 시리즈, 부울리언 리스트)을 반환하는 함수


다음과 같은 데이터프레임이 있을 때,

In [1]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


`loc` 인덱서를 사용하려면 `df.loc[행 인덱스, 열 인덱스]`와 같은 형태로 사용한다. 행 인덱스 라벨값이 `a`, 열 인덱스 라벨값이 `A`인 위치의 값을 구하는 것은 다음과 같다.

In [2]:
df.loc["a", "A"]

10

라벨값의 슬라이싱 또는 리스트를 사용할 수도 있다.

In [3]:
df.loc["b":, "A"]

b    14
c    18
Name: A, dtype: int64

In [4]:
df.loc["a", :]

A    10
B    11
C    12
D    13
Name: a, dtype: int64

In [5]:
df.loc[["a", "b"], ["B", "D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


In [6]:
df.loc[df.A > 10, :]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


`loc` 인덱서를 사용하면 하나의 행을 시리즈 자료형으로 뽑아낼 수도 있다.

In [7]:
df.loc["a", :]

A    10
B    11
C    12
D    13
Name: a, dtype: int64

만약  `loc` 인덱서를 사용하지 않고 하나의 행을 뽑으려면 다음처럼 슬라이싱을 해야 하는데 이때는 데이터프레임 자료형을 반환한다.

In [8]:
df[:1]  # loc 인덱서를 사용하지 않는 경우

Unnamed: 0,A,B,C,D
a,10,11,12,13


인덱스 대신 인덱스 값을 반환하는 함수를 사용할 수도 있다. 다음 함수는 A열의 값이 12보다 큰 행만 선택한다.

In [9]:
def select_rows(df):
    return df.A > 12

In [10]:
select_rows(df)

a    False
b     True
c     True
Name: A, dtype: bool

In [11]:
df.loc[select_rows(df), ["B"]]

Unnamed: 0,B
b,15
c,19


인덱서 내의 인덱스 하나로는 1차원 리스트 혹은 시리즈만을 받는다. 데이터프레임과 같은 2차원 데이터는 받을 수 없다.

In [12]:
# df.loc[:, df[:1] <= 11]  # 데이터프레임은 loc 인덱서에 넣을 수 없으므로 에러!
df.loc[:, df.loc["a", :] <= 11]  # 이렇게 해야 한다.

Unnamed: 0,A,B
a,10,11
b,14,15
c,18,19


만약 `loc` 인덱서를 사용하면서 인덱스를 하나만 넣으면 행(row)을 선택한다.

In [13]:
df.loc["a"]

A    10
B    11
C    12
D    13
Name: a, dtype: int64

In [14]:
df.loc["e"] = [90, 91, 92, 93]
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21
e,90,91,92,93


원래 인덱스 자체가 정수값을 가지는 경우에는 loc 인덱서의 인덱스로 정수를 쓸 수 있다. 이때는 정수가 순서를 나타내는 값이 아닐 수 있다.

In [15]:
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns=np.arange(1, 8, 2))
df2

Unnamed: 0,1,3,5,7
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [16]:
df2.loc[1, 1]

14

이 때는 슬라이싱도 라벨 슬라이싱 방법을 따르게 된다. 즉, 슬라이스의 마지막 값이 포함된다.

In [17]:
df2.loc[1:2, :]

Unnamed: 0,1,3,5,7
1,14,15,16,17
2,18,19,20,21


## `iloc` 인덱서

`iloc` 인덱서는 `loc` 인덱서와 반대로 라벨이 아니라 순서를 나타내는 정수(integer) 인덱스만 받는다.

In [18]:
df.iloc[0, 1]

11

In [19]:
df.iloc[:2, 2]

a    12
b    16
Name: C, dtype: int64

In [20]:
df.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int64

In [21]:
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


`loc` 인덱서와 마찬가지로 인덱스가 하나만 들어가면 행을 선택한다.

In [22]:
df.iloc[-1]

A    90
B    91
C    92
D    93
Name: e, dtype: int64

In [23]:
df.iloc[-1] = df.iloc[-1] * 2
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21
e,180,182,184,186


#### 연습 문제 4.2.4

1. 모든 행과 열에 라벨을 가지는 5 x 5 이상의 크기를 가지는 데이터프레임을 만든다. 
2. 10가지 이상의 방법으로 특정한 행과 열을 선택한다.


## `at`, `iat` 인덱서

`at`, `iat` 인덱서는 `loc`, `iloc` 인덱서와 비슷하지만 하나의 스칼라 값을 뽑을 때만 사용한다. 빠른 인덱싱 속도가 요구되는 경우에 사용한다.

In [24]:
%timeit df.loc["a", "A"]

6.96 µs ± 154 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [25]:
%timeit df.at["a", "A"]

4.51 µs ± 129 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [26]:
%timeit df.iloc[0, 0]

7.83 µs ± 147 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [27]:
%timeit df.iat[0, 0]

4.71 µs ± 69.2 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
