# Pandas 고급 인덱싱

### Pandas는 numpy 행렬과 같이 comma를 사용한 복수 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서 속성을 제공한다.
 * ix : 라벨과 숫자를 동시에 지원하는 복수 인덱싱
 * loc : 라벨 기반의 복수 인덱싱
 * iloc : 숫자 기반의 복수 인덱싱

# ix 인덱서

 * 행(Row)/열(Column) 양쪽에서 라벨 인덱싱, 숫자 인덱싱, 불리언 인덱싱(행만) 동시 가능 
    - 단일 숫자 인덱싱 가능
    - 열(column)도 라벨이 아닌 숫자 인덱싱 가능
    - 열(column)도 라벨 슬라이싱(label slicing)가능

In [3]:
import pandas as pd
import numpy as np

In [4]:
data = {'state' : ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 'year': [2000, 2001, 2002, 2001, 2002], 'pop' : [1.5, 1.7, 3.6, 2.4, 2.9]}

In [6]:
df = pd.DataFrame(data)
df

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [7]:
# 순차적 indexing 과 동일
df.ix[1:3, ["state", "pop"]]

Unnamed: 0,state,pop
1,Ohio,1.7
2,Ohio,3.6
3,Nevada,2.4


In [8]:
df2 = pd.DataFrame(data, columns = ['year', 'state', 'pop'], index = ['one', 'two', 'three', 'four', 'five'])
df2

Unnamed: 0,year,state,pop
one,2000,Ohio,1.5
two,2001,Ohio,1.7
three,2002,Ohio,3.6
four,2001,Nevada,2.4
five,2002,Nevada,2.9


In [9]:
# , 이용
df2.ix[["two", "three"], ["state", "pop"]]

Unnamed: 0,state,pop
two,Ohio,1.7
three,Ohio,3.6


In [10]:
# column에도 integer 기반 indexing 가능 
df2.ix[["two", "three"], :2]

Unnamed: 0,year,state
two,2001,Ohio
three,2002,Ohio


In [11]:
# column에도 Label Slicing 가능 
df2.ix[["two", "three"], "state":"pop"]

Unnamed: 0,state,pop
two,Ohio,1.7
three,Ohio,3.6


In [12]:
# ':'사용
df2.ix[:, ["state", "pop"]]

Unnamed: 0,state,pop
one,Ohio,1.5
two,Ohio,1.7
three,Ohio,3.6
four,Nevada,2.4
five,Nevada,2.9


In [13]:
df2.ix[["two", "three"], :]

Unnamed: 0,year,state,pop
two,2001,Ohio,1.7
three,2002,Ohio,3.6


#Index Label이 없는 경우의 주의점
 * Label이 지정되지 않는 경우에는 integer slicing을 label slicing으로 간주하여 마지막 값을 포함한다. 

In [14]:
df = pd.DataFrame(np.random.randn(5, 3))
df

Unnamed: 0,0,1,2
0,-1.241509,2.526639,0.194589
1,1.353041,-0.104416,0.289383
2,0.587139,1.397688,0.73947
3,0.04741,0.630949,0.506715
4,-0.216471,0.53649,-0.077185


In [16]:
df.columns = ["c1", "c2", "c3"]
df.ix[0:2, 1:2]

Unnamed: 0,c2
0,2.526639
1,-0.104416
2,1.397688


# Pandas 인덱스 조작

## 인덱스 설정 및 제거
 * set_index : 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 인덱스로 설정
 * reset_index : 기존의 행 인덱스를 제거하고 인덱스를 마지막 데이터 열로 추가 

In [17]:
np.random.seed(0)
df = pd.DataFrame(np. random. randint(1, 10, (10, 4)), columns = ["C1", "C2", "C3", "C4"])
df

Unnamed: 0,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,5,8,7,9
3,9,2,7,8
4,8,9,2,6
5,9,5,4,1
6,4,6,1,3
7,4,9,2,4
8,4,4,8,1
9,2,1,5,8


In [18]:
df1 = df.set_index("C1")
df1

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
6,1,4,4
8,4,6,3
5,8,7,9
9,2,7,8
8,9,2,6
9,5,4,1
4,6,1,3
4,9,2,4
4,4,8,1
2,1,5,8


In [19]:
df1.set_index("C2")

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
1,4,4
4,6,3
8,7,9
2,7,8
9,2,6
5,4,1
6,1,3
9,2,4
4,8,1
1,5,8


In [20]:
df1.reset_index()

Unnamed: 0,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,5,8,7,9
3,9,2,7,8
4,8,9,2,6
5,9,5,4,1
6,4,6,1,3
7,4,9,2,4
8,4,4,8,1
9,2,1,5,8


In [21]:
df1.reset_index(drop=True)

Unnamed: 0,C2,C3,C4
0,1,4,4
1,4,6,3
2,8,7,9
3,2,7,8
4,9,2,6
5,5,4,1
6,6,1,3
7,9,2,4
8,4,8,1
9,1,5,8


# 계층적 인덱스

In [22]:
np.random.seed(0)
df = pd.DataFrame(np.random.randint(1, 10, (10, 4)), columns = [["A", "A", "B", "B"], ["C1", "C2", "C3", "C4"]])
df

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,5,8,7,9
3,9,2,7,8
4,8,9,2,6
5,9,5,4,1
6,4,6,1,3
7,4,9,2,4
8,4,4,8,1
9,2,1,5,8


In [23]:
df.columns.names = ["Cdx1", "Cdx2"]
df

Cdx1,A,A,B,B
Cdx2,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,5,8,7,9
3,9,2,7,8
4,8,9,2,6
5,9,5,4,1
6,4,6,1,3
7,4,9,2,4
8,4,4,8,1
9,2,1,5,8


In [24]:
np.random.seed(0)
df = pd.DataFrame(np.random.randint(1, 10, (8, 4)), 
                  columns = [["A", "A", "B", "B"], ["C", "D", "C", "D"]], 
                  index = [["M", "M", "M", "M", "F", "F", "F", "F"], ["ID" + str(i) for i in range(4)] * 2])
df.columns.names = ["Cdx1", "Cdx2"]
df.index.names = ["Rdx1", "Rdx2"]
df

Unnamed: 0_level_0,Cdx1,A,A,B,B
Unnamed: 0_level_1,Cdx2,C,D,C,D
Rdx1,Rdx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,ID0,6,1,4,4
M,ID1,8,4,6,3
M,ID2,5,8,7,9
M,ID3,9,2,7,8
F,ID0,8,9,2,6
F,ID1,9,5,4,1
F,ID2,4,6,1,3
F,ID3,4,9,2,4


# 행 인덱스와 열 인덱스 교환
 * stack()
    - 열 인덱스 -> (최하위) 행 인덱스로 변환
 * unstack()
    - 행 인덱스 -> (최하위) 열 인덱스로 변환

In [25]:
df.stack("Cdx1")

Unnamed: 0_level_0,Unnamed: 1_level_0,Cdx2,C,D
Rdx1,Rdx2,Cdx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,ID0,A,6,1
M,ID0,B,4,4
M,ID1,A,8,4
M,ID1,B,6,3
M,ID2,A,5,8
M,ID2,B,7,9
M,ID3,A,9,2
M,ID3,B,7,8
F,ID0,A,8,9
F,ID0,B,2,6


In [26]:
df.stack(0)

Unnamed: 0_level_0,Unnamed: 1_level_0,Cdx2,C,D
Rdx1,Rdx2,Cdx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,ID0,A,6,1
M,ID0,B,4,4
M,ID1,A,8,4
M,ID1,B,6,3
M,ID2,A,5,8
M,ID2,B,7,9
M,ID3,A,9,2
M,ID3,B,7,8
F,ID0,A,8,9
F,ID0,B,2,6


In [27]:
df.unstack("Rdx2")

Cdx1,A,A,A,A,A,A,A,A,B,B,B,B,B,B,B,B
Cdx2,C,C,C,C,D,D,D,D,C,C,C,C,D,D,D,D
Rdx2,ID0,ID1,ID2,ID3,ID0,ID1,ID2,ID3,ID0,ID1,ID2,ID3,ID0,ID1,ID2,ID3
Rdx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3
F,8,9,4,4,9,5,6,9,2,4,1,2,6,1,3,4
M,6,8,5,9,1,4,8,2,4,6,7,7,4,3,9,8


In [29]:
df.unstack(1)

Cdx1,A,A,A,A,A,A,A,A,B,B,B,B,B,B,B,B
Cdx2,C,C,C,C,D,D,D,D,C,C,C,C,D,D,D,D
Rdx2,ID0,ID1,ID2,ID3,ID0,ID1,ID2,ID3,ID0,ID1,ID2,ID3,ID0,ID1,ID2,ID3
Rdx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3
F,8,9,4,4,9,5,6,9,2,4,1,2,6,1,3,4
M,6,8,5,9,1,4,8,2,4,6,7,7,4,3,9,8
