# [데이터프레임 고급 인덱싱]

- https://datascienceschool.net/view-notebook/704731b41f794b8ea00768f5b0904512/


데이터프레임에서 특정한 데이터만 골라내는 것을 인덱싱(indexing)이라고 한다. 앞 절에서는 라벨, 라벨 리스트, 인덱스데이터(정수) 슬라이스의 3가지 인덱싱 값을 사용하여 인덱싱을 하는 방법을 공부하였다. 그런데 Pandas는 numpy행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서(indexer) 속성도 제공한다.

- `loc` : 라벨값 기반의 2차원 인덱싱
- `iloc` : 순서를 나타내는 정수 기반의 2차원 인덱싱
- `at`: 라벨값 기반의 2차원 인덱싱 (`한개의 스칼라 값만 찾는다`)
- `iat` : 순서를 나타내는 정수 기반의 2차원 인덱싱 (한개의 스칼라 값만 찾는다)

#  #`loc` 인덱서

In [2]:
import numpy as np
import pandas as pd

In [None]:
df.loc[행 인덱싱값] 또는

In [None]:
df.loc[행 인덱싱값, 열 인덱싱값]

이 때 인덱싱 값은 다음 중 하나이다. 행 인덱싱값은 정수 또는 행 인덱스데이터이고 열 인덱싱값은 라벨 문자열이다.

- 인덱스데이터
- 인덱스데이터 슬라이스
- 인덱스데이터 리스트
- 같은 행 인덱스를 가지는 불리언 시리즈 (행 인덱싱의 경우)
- 또는 위의 값들을 반환하는 함수

다음과 같은 데이터프레임을 예로 들자.

In [3]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


# 1. 인덱싱값을 하나만 받는 경우


만약 loc 인덱서를 사용하면서 인덱스를 하나만 넣으면 행(row)을 선택한다.

인덱스데이터가 "a"인 행을 고르면 해당하는 행이 시리즈로 출력된다. 시리즈라서 상하로 길게 출력되기는 했지만 행을 가져오고 있다.

In [5]:
df.loc["a"]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [6]:
df.loc["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [7]:
df["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [8]:
df.loc[["b", "c"]]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [11]:
# df[["b", "c"]]  # KeyError가 난다. 그냥하면 슬라이싱만 가능하기때문쓰

데이터베이스와 같은 인덱스를 가지는 불리언 시리즈도 행을 선택하는 인덱싱값으로 쓸 수 있다.

In [12]:
df.A > 15

a    False
b    False
c     True
Name: A, dtype: bool

In [15]:
df.loc[df.A > 15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


인덱스 대신 인덱스 값을 반환하는 함수를 사용할 수도 있다. 다음 함수는 A열의 값이 12보다 큰 행만 선택한다.



In [16]:
def select_rows(df):
    return df.A > 15
select_rows(df)

a    False
b    False
c     True
Name: A, dtype: bool

In [17]:
df.loc[select_rows(df)]

Unnamed: 0,A,B,C,D
c,18,19,20,21


loc 인덱서가 없는 경우에 사용했던 라벨 인덱싱이나 라벨 리스트 인덱싱은 불가능하다.

In [18]:
# df.loc["A"]  # KeyError

In [19]:
# df.loc[["A", "B"]]  # KeyError


원래 (행) 인덱스값이 정수인 경우에는 슬라이싱도 라벨 슬라이싱 방식을 따르게 된다. 즉, 슬라이스의 마지막 값이 포함된다.

In [20]:
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns=["A", "B", "C", "D"])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [21]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [22]:
df2[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17


# 2. 인덱싱값을 행과 열 모두 받는 경우

- 인덱싱값을 행과 열 모두 받으려면 df.loc[행 인덱스, 열 인덱스]와 같은 형태로 사용한다. 행 인덱스 라벨값이 a, 열 인덱스 라벨값이 A인 위치의 값을 구하는 것은 다음과 같다.

# #`iloc` 인덱서
- iloc 인덱서는 loc 인덱서와 반대로 라벨이 아니라 순서를 나타내는 정수(integer) 인덱스만 받는다. 다른 사항은 loc 인덱서와 같다.

In [23]:
df.iloc[0, 1]

11

In [24]:
df.iloc[:2, 2]

a    12
b    16
Name: C, dtype: int32

In [25]:
df.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int32

# # `at`, `iat` 인덱서
- at, iat 인덱서는 loc, iloc 인덱서와 비슷하지만 하나의 스칼라 값을 뽑을 때만 사용한다. <br>빠른 인덱싱 속도가 요구되는 경우에 사용한다.

In [26]:
%timeit df.loc["a", "A"]

6.17 µs ± 157 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [27]:
%timeit df.at["a", "A"]

3.94 µs ± 69.1 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [28]:
%timeit df.iloc[0, 0]

7.28 µs ± 160 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [29]:
%timeit df.iat[0, 0]

4.76 µs ± 57.6 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [None]:
µs(마이크로세컨드) ns(나노세컨드)