# 4.3 데이터프레임 고급 인덱싱

In [None]:
# 데이터프레임에서 특정한 데이터만 골라내는 것을 인덱싱(indexing)이라고 한다.
# 앞 절에서는 라벨, 라벨 리스트, 인덱스데이터(정수) 슬라이스의 3가지 인덱싱 값을 사용하여 인덱싱을 하는 방법을 공부하였다.
# 그런데 Pandas는 numpy행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원하기 위해
# 다음과 같은 특별한 인덱서(indexer) 속성도 제공한다.

# loc : 라벨값 기반의 2차원 인덱싱

# iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱

# loc 인덱서

In [2]:
# loc인덱서는 다음과 같이 사용한다.
# df.loc[행 인덱싱값] or df.loc[행 인덱싱 값, 열 인덱싱 값]

In [None]:
#이 때 인덱싱 값은 다음 중 하나이다. 행 인덱싱값은 정수 또는 행 인덱스데이터이고 열 인덱싱값은 라벨 문자열이다.

# 인덱스데이터

# 인덱스데이터 슬라이스

# 인덱스데이터 리스트

# 같은 행 인덱스를 가지는 불리언 시리즈 (행 인덱싱의 경우)

# 또는 위의 값들을 반환하는 함수

# 다음과 같은 데이터프레임을 예로 들자.

In [6]:
import pandas as pd
import numpy as np

In [7]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


# 인덱싱값을 하나만 받는 경우

In [None]:
# 만약 loc 인덱서를 사용하면서 인덱스를 하나만 넣으면 행(row)을 선택한다.

# 인덱스데이터가 “a”인 행을 고르면 해당하는 행이 시리즈로 출력된다. 시리즈라서 상하로 길게 출력되기는 했지만 행을 가져오고 있다.

In [8]:
df.loc["a"]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [9]:
# 인덱스데이터의 슬라이스도 가능하다.
df.loc["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [10]:
# 이 때는 사실 loc를 쓰지 않는 경우과 같다.
df["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [11]:
# 인덱스데이터의 리스트도 된다.
df.loc[["b", "c"]]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [12]:
# 이 때는 loc를 쓰지 않으면 KeyError 오류가 발생한다..
df[["b", "c"]]  # KeyError

KeyError: "None of [Index(['b', 'c'], dtype='object')] are in the [columns]"

In [16]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [13]:
#데이터베이스와 같은 인덱스를 가지는 불리언 시리즈도 행을 선택하는 인덱싱값으로 쓸 수 있다.
df.A > 15

a    False
b    False
c     True
Name: A, dtype: bool

In [14]:
df.loc[df.A > 15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [17]:
# 인덱스 대신 인덱스 값을 반환하는 함수를 사용할 수도 있다. 다음 함수는 A열의 값이 12보다 큰 행만 선택한다.
def select_rows(df):
    return df.A > 15

In [18]:
select_rows(df)

a    False
b    False
c     True
Name: A, dtype: bool

In [19]:
df.loc[select_rows(df)]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [21]:
# loc 인덱서가 없는 경우에 사용했던 라벨 인덱싱이나 라벨 리스트 인덱싱은 불가능하다.
df.loc["A"]  # KeyError

KeyError: 'A'

In [22]:
df.loc["A"]  # KeyError

KeyError: 'A'