# 데이터프레임 인덱스 조작

In [2]:
import numpy as np
import pandas as pd

### 데이터프레임 인덱스 설정 및 제거 <br>
#### 데이터프레임에 인덱스로 들어가 있어야 할 데이터가 일반 데이터 열에 잘못 들어가 있거나 반대로 일반 데이터 열이어야 할 것이 인덱스로 되어 있을 때 
- set_index : 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 인덱스로 설정
- reset_index : 기존의 행 인덱스를 제거하고 인덱스를 데이터 열로 추가(반대작용)


In [7]:
np.random.seed(0)
df1 = pd.DataFrame(np.vstack([list('ABCDE'),
                              np.round(np.random.rand(3, 5), 2)]).T,
                   columns=["C1", "C2", "C3", "C4"])
""" 행을 쌓은 다음 Transpose 하고 열 인덱스를 줘서 만듦  """
df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [8]:
df2 = df1.set_index("C1")
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [9]:
df2.set_index("C2")

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.55,0.65,0.79
0.72,0.44,0.53
0.6,0.89,0.57
0.54,0.96,0.93
0.42,0.38,0.07


In [13]:
df2
# 결론: set_index()메소드는 원래 DF를 바꾸지 않는다

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [17]:
df2.reset_index()
# 따로 parameter를 받을 필요 없이 제일 첫번째 열로 들어온다

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [19]:
df3 = df2.reset_index(drop=True)
# drop=True 라는 걸 주면 원래 있었던 인덱스를 없애고 0,1,2 ... 기본 인덱스로 돌아감
df3

Unnamed: 0,C2,C3,C4
0,0.55,0.65,0.79
1,0.72,0.44,0.53
2,0.6,0.89,0.57
3,0.54,0.96,0.93
4,0.42,0.38,0.07


In [28]:
#1 5명의 학생의 국어, 영어, 수학 점수를 나타내는 데이터프레임을 다음과 같이 만든다.

# 학생 이름을 나타내는 열을 포함시키지 않고 데이터프레임 df_score1 을 생성한 후, df_score1.index 속성에 학생 이름을 나타내는 열을 지정하여 인덱스를 지정한다. reset_index 명령으로 이 인덱스 열을 명령으로 일반 데이터열로 바꾸여 데이터프레임 df_score2을 만든다.

# 학생 이름을 나타내는 열이 일반 데이터 열을 포함하는 데이터프레임 df_score2에 set_index 명령을 적용하여 다시 학생 이름을 나타내는 열을 인덱스로 변경한다.
df_score1 = pd.DataFrame({
    "국어": [80, 89, 91, 79, 85],
    "영어": [96, 86, 85, 89, 90],
    "수학": [78, 94, 88, 96, 85]
})
df_score1

Unnamed: 0,국어,영어,수학
0,80,96,78
1,89,86,94
2,91,85,88
3,79,89,96
4,85,90,85


In [33]:
index = ['민수','정연','철수','민희','원태']
df_score1.index = index
df_score1.index.name = "학생"
df_score1

Unnamed: 0_level_0,국어,영어,수학
학생,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
민수,80,96,78
정연,89,86,94
철수,91,85,88
민희,79,89,96
원태,85,90,85


In [34]:
df_score2 = df_score1.reset_index()
df_score2

Unnamed: 0,학생,국어,영어,수학
0,민수,80,96,78
1,정연,89,86,94
2,철수,91,85,88
3,민희,79,89,96
4,원태,85,90,85


In [37]:
df_score2.set_index("학생")

Unnamed: 0_level_0,국어,영어,수학
학생,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
민수,80,96,78
정연,89,86,94
철수,91,85,88
민희,79,89,96
원태,85,90,85


### 다중 인덱스

In [43]:
np.random.seed(0)
df4 = pd.DataFrame(np.round(np.random.randn(6,4), 2),
                    columns=[["A", "A", "B", "B"],
                             ["C", "D", "C", "D"]],
                    index= [["M", "M", "M", "F", "F", "F"],
                            ["id_" + str(i + 1) for i in range(3)] * 2]
                     )
df4.columns.names = ["Cidx1", "Cidx2"]
df4.index.names = ["Ridx1", "Ridx2"]
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [52]:
# 다중 인덱싱은 튜플로
df4[('A','D')][('M','id_1')]

0.4

### 행 인덱스와 열 인덱스 교환
- stack : 열 인덱스가 반시계방향으로 회전되서 행 인덱스로
- unstack : 행 인덱스가 시계방향으로 회전되서 열 인덱스로

In [51]:
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [47]:
df2.stack()

C1    
A   C2    0.55
    C3    0.65
    C4    0.79
B   C2    0.72
    C3    0.44
    C4    0.53
C   C2     0.6
    C3    0.89
    C4    0.57
D   C2    0.54
    C3    0.96
    C4    0.93
E   C2    0.42
    C3    0.38
    C4    0.07
dtype: object

In [50]:
df2.unstack()

    C1
C2  A     0.55
    B     0.72
    C      0.6
    D     0.54
    E     0.42
C3  A     0.65
    B     0.44
    C     0.89
    D     0.96
    E     0.38
C4  A     0.79
    B     0.53
    C     0.57
    D     0.93
    E     0.07
dtype: object