In [2]:
import numpy as np
import pandas as pd

# 데이터프레임 인덱스 설정 및 제거
# 때로는 데이터프레임에 인덱스로 들어가야 할 데이터가 일반 데이터 열에 있거나 반대로
# 일반 데이터 열이어야 할 것이 인덱스로 되어 있을 수 있다. 이때는 set_index 명령이나 reset_index 명령으로
# 인덱스와 일반 데이터 열을 교환할 수 있다.
# ·set_index: 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 인덱스로 설정
# ·reset_index: 기존의 행 인덱스를 제거하고 인덱스를 마지막 데이터 열로 추가

In [3]:
np.random.seed(0)
df1 = pd.DataFrame(np.vstack([list('ABCDE'),
                             np.round(np.random.rand(3,5),2)]).T,
                  columns=["C1", "C2", "C3", "C4"])
df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [7]:
# set_index 명령으로 C1열을 인덱스로 설정할 수 있다. 이때 기존 인덱스는 없어진다.
df2 = df1.set_index("C1")
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [8]:
# 마찬가지로 C2열을 인덱스로 지정하면 기존의 인덱스는 사라진다.
df2.set_index("C2")

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.55,0.65,0.79
0.72,0.44,0.53
0.6,0.89,0.57
0.54,0.96,0.93
0.42,0.38,0.07


In [9]:
# reset_index 명령으로 인덱스를 보통의 자료열로 바꿀수도 있다. 이때 인덱스 열은 자료열의 가장 선두로 삽입된다.
# 데이터프레임의 인덱스는 정수로 된 디폴트 인덱스 바뀐다.
df2.reset_index()

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [11]:
# rest_index 명령 사용 시에 drop=True로 설정하면 인덱스 열을 보통의 자료열로 올리는 것이 아니라 그냥 버리게
# 된다.
df2.reset_index(drop=True)

Unnamed: 0,C2,C3,C4
0,0.55,0.65,0.79
1,0.72,0.44,0.53
2,0.6,0.89,0.57
3,0.54,0.96,0.93
4,0.42,0.38,0.07


In [12]:
# 다중인덱스

# 행이나 열에 여러 계층을 가지는 인덱스 즉, 다중 인덱스(multi-index)를 설정할 수도 있다. 데이터프레임을 생성할
# 때 columns 인수에 다음 예제처럼 리스트의 리스트(행렬)형태로 인덱스를 넣으면 다중 열 인덱스를 가지게 된다.
np.random.seed(0)
df3 = pd.DataFrame(np.round(np.random.rand(5, 4),2),
                  columns=[["A","A", "B", "B"],
                          ["C1", "C2", "C1", "C2"]])
df3

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,C1,C2,C1,C2
0,0.55,0.72,0.6,0.54
1,0.42,0.65,0.44,0.89
2,0.96,0.38,0.79,0.53
3,0.57,0.93,0.07,0.09
4,0.02,0.83,0.78,0.87


In [14]:
# 다중 인덱스는 이름을 지정하면 더 편리하게 사용할 수 이따. 열 인덱스들의 이름 지저어은 columns 객제의
# names 속성에 리스트를 넣어서 지정한다.
df3.columns.names = ["Cidx1", "Cidx2"]
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,0.55,0.72,0.6,0.54
1,0.42,0.65,0.44,0.89
2,0.96,0.38,0.79,0.53
3,0.57,0.93,0.07,0.09
4,0.02,0.83,0.78,0.87


In [17]:
# 마찬가지로 데이터프레임을 생성할 때 index 인수에 리스트의 리스트(행렬)형태로 인덱스를 넣으면
# 다중 (행) 인덱스를 가진다. 행 인덱스들의 이름 지정은 index 객체의 names 속성에 리스트를 넣어서 지정한다.
np.random.seed(0)
df4 = pd.DataFrame(np.round(np.random.rand(6,4),2),
                  columns=[["A","A","B", "B"],
                          ["C", "D", "C","D"]],
                  index=[["M","M","M","F","F","F"],
                        ["id_"+str(i+1) for i in range(3)]*2])
df4.columns.names = ["Cidx1", "Cidx2"]
df4.index.names = ["Ridx1", "Ridx2"]
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.55,0.72,0.6,0.54
M,id_2,0.42,0.65,0.44,0.89
M,id_3,0.96,0.38,0.79,0.53
F,id_1,0.57,0.93,0.07,0.09
F,id_2,0.02,0.83,0.78,0.87
F,id_3,0.98,0.8,0.46,0.78


In [None]:
# 행 인덱스와 열 인덱스 교환

# stack명령이나 unstack 명령을 쓰면 열 인덱스를 행 인덱스로 바꾸거나 반대로 행 인덱스를 열 인덱스로 바꿀 수 있다.