# 데이터 프레임 고급 인덱싱

데이터프레임에서 특정한 데이터만 골라내는 것을 인덱싱(indexing)이라고 한다.

- loc : 라벨값 기반의 2차원 인덱싱
- iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱
- at : 라벨값 기방의 2차원 인덱싱 (한개의 스칼라 값만 찾는다)
- iat : 순서를 나타내는 정수 기반의 2차원 인덱싱 (한개의 스칼라 값만 찾는다)


## loc 인덱서는 다음처럼 사용된다

df.loc[행 인덱싱 값]
df.loc[행 인덱싱값, 열 인덱싱값]

이 때 인덱싱 값은 다음 중 하나이다. 행 인덱싱값은 정수 또는 행 인덱스데이터이고 열 인덱싱값은 라벨 문자열이다.

- 인덱스데이터
- 인덱스데이터 슬라이스
- 인덱스데이터 리스트
- 같은 행 인덱스를 가지는 불리언 시리즈 (행 인덱싱의 경우)
- 또는 위의 값들을 반환하는 함수

In [3]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.arange(10, 22).reshape(3,4),
                 index = ["a","b","c"],
                 columns=["A",'B','C','D'])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


## 인덱싱값을 하나만 받는 경우

만약 loc 인덱서를 사용하면서 인덱스를 하나만 넣으면 행(row)를 선택한다.

인덱스데이터가 "a"인 행을 고르면 해당하는 행이 시리즈로 출력된다. 시리즈라서 상하로 길게 출력되기는 했지만 행을 가져오고 있다.

In [5]:
a = df.loc["a"]
a

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [6]:
type(a)

pandas.core.series.Series

In [7]:
# 인덱스데이터의 슬라이스도 가능하다
df.loc["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [8]:
# 사실 loc를 쓰지 않고도 결과는 같다

df["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [9]:
# 인덱스데이터의 리스트도 된다

df.loc[["b","c"]]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [10]:
# 이때는 loc를 쓰지 않으면 keyError 오류가 발생한다.
df[["b":"c"]]

SyntaxError: invalid syntax (<ipython-input-10-507708f30c6b>, line 2)

In [11]:
#데이터베이스와 같은 인덱스를 가지는 불리언 시리즈도 행을 선택하는 인덱싱값으로 쓸 수 있다.
df.A > 15

a    False
b    False
c     True
Name: A, dtype: bool

In [12]:
df.loc[df.A > 15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [13]:
def select_row(df) :
    return df.A> 15

In [14]:
select_row(df)

a    False
b    False
c     True
Name: A, dtype: bool

In [16]:
df.loc[select_row(df)]

Unnamed: 0,A,B,C,D
c,18,19,20,21


## 인덱싱 값을 행과 열 모두 받는 경우

인덱싱값을 행과 열 모두 받으려면 df.loc[행 인덱스, 열 인덱스] 와 같은 형태로 사용한다. 행 인덱스 라벨값이 a ,열 인덱스 라벨값이 A인 위치의 값을 구하는 것은 다음과 같다

In [17]:
df.loc["a", "A"]

10

In [18]:
#인덱싱값으로 라벨 데이터의 슬라이싱 또는 리스트를 사용할 수도 있다.
df.loc["b":, "A"]

b    14
c    18
Name: A, dtype: int32

In [19]:
df.loc["a",:]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [21]:
df.loc[:,"A"]

a    10
b    14
c    18
Name: A, dtype: int32

In [22]:
df.loc[["a", "b"], ["B", "D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


In [23]:
df.loc[df.A > 10, ["C", "D"]]

Unnamed: 0,C,D
b,16,17
c,20,21
