데이터프레임에서 특정한 데이터만 골라내는 것을 인덱싱(indexing)이라고 한다. Pandas는 numpy행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서(indexer) 속성을 제공한다.

1)loc 
2)iloc
3)at
4)iat

In [3]:
import numpy as np

In [4]:
import pandas as pd

In [5]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [6]:
df.loc["a", "A"]

10

In [7]:
df.loc["b":, "A"]

b    14
c    18
Name: A, dtype: int32

In [8]:
df.loc["a", :]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [9]:
df.loc[["a", "b"], ["B", "D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


In [10]:
#df.loc[df.A > 10, :]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [12]:
#loc 인덱서를 사용하지 않고 하나의 행을 뽑으려면 다음처럼 슬라이싱을 해야 하는데 
#이때는 데이터프레임 자료형을 반환한다. 

df[:1] 

Unnamed: 0,A,B,C,D
a,10,11,12,13


In [13]:
def select_rows(df):
    return df.A > 12

In [14]:
select_rows(df)

a    False
b     True
c     True
Name: A, dtype: bool

In [15]:
# df.loc[:, df[:1] <= 11]  # 데이터프레임은 loc 인덱서에 넣을 수 없으므로 에러!

In [16]:
df.loc[:, df.loc["a", :] <= 11]  # 이렇게 해야 한다.

Unnamed: 0,A,B
a,10,11
b,14,15
c,18,19


In [17]:
df.loc["a"]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [18]:
df.loc["e"] = [90, 91, 92, 93]
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21
e,90,91,92,93


In [29]:
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns=np.arange(1, 8, 2))
df2

Unnamed: 0,1,3,5,7
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [30]:
df2.loc[1, 1]

14

In [31]:
df2.loc[1:2, :]

Unnamed: 0,1,3,5,7
1,14,15,16,17
2,18,19,20,21


In [32]:
df2.iloc[0, 1]

11

In [33]:
df2.iloc[2:3, 1:3]

Unnamed: 0,3,5
2,19,20


In [34]:
df2.iloc[-1]

1    22
3    23
5    24
7    25
Name: 3, dtype: int32

In [35]:
df2.iloc[-1] = df2.iloc[-1] * 2
df2

Unnamed: 0,1,3,5,7
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,44,46,48,50


In [36]:
#at, iat는 하나의 스칼라 값을 뽑을 때만 사용한다.
#빠른 인덱싱 속도가 요구되는 경우에 사용한다.

%timeit df.loc["a", "A"]

33.1 µs ± 4 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [37]:
%timeit df.at["a", "A"]

21.9 µs ± 1.4 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [38]:
%timeit df.iloc[0,0]

40.8 µs ± 5.08 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [39]:
%timeit df.iat[0,0]

24.1 µs ± 1.48 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
