# Pandas 고급 인덱싱

pandas는 numpy 행렬과 같이 comma를 사용한 복수 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서 속성을 제공한다.

* `ix` : 라벨과 숫자를 동시에 지원하는 복수 인덱싱
* `loc` : 라벨 기반의 복수 인덱싱
* `iloc` : 숫자 기반의 복수 인덱싱


## ix 인덱서


* 행(Row)/열(Column) 양쪽에서 라벨 인덱싱, 숫자 인덱싱, 불리언 인덱싱(행만) 동시 가능
 * 단일 숫자 인덱싱 가능
 * 열(column)도 라벨이 아닌 숫자 인덱싱 가능
 * 열(column)도 라벨 슬라이싱(label slicing) 가능


In [1]:
data = {
    'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
    'year': [2000, 2001, 2002, 2001, 2002],
    'pop': [1.5, 1.7, 3.6, 2.4, 2.9]
}

In [2]:
df = pd.DataFrame(data)
df

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [14]:
# 순차적 indexing 과 동일
df.ix[1:3, ["state", "pop"]]

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [3]:
df2 = pd.DataFrame(data,
                  columns=['year', 'state', 'pop'],
                  index=['one', 'two', 'three', 'four', 'five'])
df2

Unnamed: 0,year,state,pop
one,2000,Ohio,1.5
two,2001,Ohio,1.7
three,2002,Ohio,3.6
four,2001,Nevada,2.4
five,2002,Nevada,2.9


In [5]:
# , 이용
df2.ix[["two", "three"], ["state", "pop"]]

Unnamed: 0,state,pop
two,Ohio,1.7
three,Ohio,3.6


In [6]:
# column에도 integer 기반 indexing 가능
df2.ix[["two", "three"], :2]

Unnamed: 0,year,state
two,2001,Ohio
three,2002,Ohio


In [7]:
# column에도 Label Slicing 가능
df2.ix[["two", "three"], "state":"pop"]

Unnamed: 0,state,pop
two,Ohio,1.7
three,Ohio,3.6


In [8]:
# `:` 사용
df2.ix[:, ["state", "pop"]]

Unnamed: 0,state,pop
one,Ohio,1.5
two,Ohio,1.7
three,Ohio,3.6
four,Nevada,2.4
five,Nevada,2.9


In [9]:
# `:` 사용
df2.ix[["two", "five"], :]

Unnamed: 0,year,state,pop
two,2001,Ohio,1.7
five,2002,Nevada,2.9


### Index Label이 없는 경우의 주의점

* Label이 지정되지 않는 경우에는 integer slicing을 label slicing으로 간주하여 마지막 값을 포함한다

In [10]:
df = pd.DataFrame(np.random.randn(5, 3))
df

Unnamed: 0,0,1,2
0,-0.108509,-0.733949,-0.111357
1,-0.025895,-0.62149,0.193022
2,0.857554,-0.186033,0.268976
3,1.942993,-0.371014,0.022745
4,1.220884,-0.178527,-0.743444


In [11]:
df.columns = ["c1", "c2", "c3"]
df.ix[0:2, 1:2]

Unnamed: 0,c2
0,-0.733949
1,-0.62149
2,-0.186033


## loc 인덱서

* 라벨 기준 인덱싱

   * 숫자가 오더라도 라벨로 인식한다.
   * 라벨 리스트 가능
   * 라벨 슬라이싱 가능
   * 불리언 배열 가능

## iloc 인덱서

* 숫자 기준 인덱싱

   * 문자열 라벨은 불가
   * 숫자 리스트 가능
   * 숫자 슬라이싱 가능
   * 불리언 배열 가능

In [12]:
np.random.seed(1)
df = pd.DataFrame(np.random.randint(1, 11, size=(4,3)), 
                  columns=["A", "B", "C"], index=["a", "b", "c", "d"])
df

Unnamed: 0,A,B,C
a,6,9,10
b,6,1,1
c,2,8,7
d,10,3,5


In [13]:
df.ix[["a", "c"], "B":"C"]

Unnamed: 0,B,C
a,9,10
c,8,7


In [14]:
df.ix[[0, 2], 1:3]

Unnamed: 0,B,C
a,9,10
c,8,7


In [15]:
df.loc[["a", "c"], "B":"C"]

Unnamed: 0,B,C
a,9,10
c,8,7


In [17]:
df.ix[2:4, 1:3]

Unnamed: 0,B,C
c,8,7
d,3,5


In [16]:
df.loc[2:4, 1:3]

TypeError: cannot do slice indexing on <class 'pandas.indexes.base.Index'> with these indexers [2] of <class 'int'>

In [18]:
df.iloc[2:4, 1:3]

Unnamed: 0,B,C
c,8,7
d,3,5


In [19]:
df.iloc[["a", "c"], "B":"C"]

TypeError: cannot perform reduce with flexible type