# 데이터프레임 인덱서

Pandas는 numpy 행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서를 제공한다.

* `loc` : 라벨 기반의 복수 인덱싱
* `iloc` : 숫자 기반의 복수 인덱싱


## `loc` 인덱서

`loc` 인덱서는  (행 인덱스, 열 인덱스) 형식의 인덱싱을 할 수 있지만 행/열 인덱서들이 모두 다음 중 하나이어야 한다.

* 정수 인덱스가 아닌 **라벨 값(원래가 정수 인덱스인 경우는 예외)**
* 라벨 값의 리스트
* 라벨 값의 슬라이싱
* 불리언 리스트, 1차원 배열, 시리즈 (**데이터프레임은 안된다.**)
* 또는 데이터프레임을 입력으로 받고 위의 값을 반환하는 함수


In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [3]:
df.loc["a", "A"]

10

In [4]:
df.loc["b":, "A"]

b    14
c    18
Name: A, dtype: int32

In [5]:
df.loc["a", :]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [6]:
df.loc[["a", "b"], ["B", "D"]] #행, 열 => dataframe으로

Unnamed: 0,B,D
a,11,13
b,15,17


In [7]:
df.loc[df.A > 10, :]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


`loc` 인덱서를 사용하면 하나의 행을 시리즈 자료형으로 뽑아낼 수 있다. 만약  `loc` 인덱서를 사용하지 않으면 슬라이싱을 해야 하는데 이 경우에는 데이터프레임 자료형을 반환한다.

In [8]:
df.loc["a", :] #df.loc['a']

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [10]:
df[:1]  # df[0:1] loc 인덱서를 사용하지 않는 경우 데이터 프레임으로 출력

Unnamed: 0,A,B,C,D
a,10,11,12,13


In [None]:
# df.loc[:, df[:1] <= 11]  # 데이터프레임은 loc 인덱서에 넣을 수 없으므로 에러!
df.loc[:, df.loc["a", :] <= 11] # 이렇게 해야 한다.

In [None]:
def find_rows(df):
    return df.A > 12

In [None]:
find_rows(df)

In [None]:
df.loc[find_rows(df), ["C"]]

만약 `loc` 인덱서를 사용하면서 인덱스를 하나만 넣을 경우에는 행(row)을 선택한다.

In [None]:
df.loc["a"]

In [None]:
df.loc["e"] = [90, 91, 92, 93]
df

## `iloc` 인덱서

`iloc` 인덱서는 `loc` 인덱서와 반대로 라벨이 아닌 정수 인덱스만 받는다.

In [None]:
df.iloc[0, 1]

In [None]:
df.iloc[:2, 2]

In [None]:
df.iloc[0, -2:]

In [None]:
df.iloc[2:3, 1:3]

`loc` 인덱서와 마찬가지로 인덱스가 하나만 들어가면 행을 선택한다.

In [None]:
df.iloc[-1]

In [None]:
df.iloc[-1] = df.iloc[-1] * 2
df

#### 연습 문제 1

1. 모든 행과 열에 라벨을 가지는 5 x 5 이상의 크기를 가지는 데이터프레임을 만든다. 
2. 10가지 이상의 방법으로 특정한 행과 열을 선택한다.
