# 데이터프레임 인덱스 조작

## 데이터프레임 인덱스 설정 및 제거

- set_index : 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 인덱스로 설정
- reset_index : 기존의 행 인덱스를 제거하고 인덱스를 데이터 열로 추가

In [1]:
import numpy as np
import pandas as pd

In [2]:
np.round(np.random.rand(3, 5), 2)

array([[0.21, 0.47, 0.97, 0.41, 0.68],
       [0.98, 0.05, 0.4 , 0.2 , 0.02],
       [0.41, 0.86, 0.55, 0.52, 0.67]])

In [3]:
a = np.vstack([list('ABCDE'), np.round(np.random.rand(3, 5), 2)])
a

array([['A', 'B', 'C', 'D', 'E'],
       ['0.55', '0.45', '0.84', '0.03', '0.74'],
       ['0.05', '0.45', '0.47', '0.73', '0.24'],
       ['0.6', '0.39', '0.11', '0.0', '0.01']], dtype='<U32')

In [4]:
df1 = pd.DataFrame(a.T, columns=["C1", "C2", "C3", "C4"])
df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.05,0.6
1,B,0.45,0.45,0.39
2,C,0.84,0.47,0.11
3,D,0.03,0.73,0.0
4,E,0.74,0.24,0.01


In [5]:
df1.set_index("C1")

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.05,0.6
B,0.45,0.45,0.39
C,0.84,0.47,0.11
D,0.03,0.73,0.0
E,0.74,0.24,0.01


In [7]:
df1.set_index("C2") # 원본 반영 안됨

Unnamed: 0_level_0,C1,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0.55,A,0.05,0.6
0.45,B,0.45,0.39
0.84,C,0.47,0.11
0.03,D,0.73,0.0
0.74,E,0.24,0.01


반대로 reset_index 메서드를 쓰면 인덱스를 보통의 자료열로 바꿀 수도 있다.   
이 때 인덱스 열은 자료열의 가장 선두로 삽입된다.   
데이터프레임의 인덱스는 정수로 된 디폴트 인덱스로 바뀐다.
* reset_index 메서드를 호출할 때 인수 drop=True 로 설정하면 인덱스 열을 보통의 자료열로 올리는 것이 아니라 그냥 버리게 된다.


In [8]:
df1.reset_index()
df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.05,0.6
1,B,0.45,0.45,0.39
2,C,0.84,0.47,0.11
3,D,0.03,0.73,0.0
4,E,0.74,0.24,0.01


### Quiz. 5명의 학생의 국어, 영어, 수학 점수를 나타내는 데이터프레임을 다음과 같이 만든다.
```
1. 학생 이름을 나타내는 열을 포함시키지 않고 데이터프레임 df_score1 을 생성한 후, df_score1.index 속성에 학생 이름을 나타내는 열을 지정하여 인덱스를 지정한다.reset_index 명령으로 이 인덱스 열을 일반 데이터열로 바꾸여 데이터프레임 df_score2을 만든다.
2. 학생 이름을 나타내는 열이 일반 데이터 열을 포함하는 데이터프레임 df_score2에 set_index 명령을 적용하여 다시 학생 이름을 나타내는 열을 인덱스로 변경한다.
```

In [9]:
# 데이터 프레임 생성
df_score1 = pd.DataFrame(np.random.randint(0, 101, size=(5, 3)), columns=['국어', '영어', '수학'])
df_score1

Unnamed: 0,국어,영어,수학
0,56,61,12
1,34,2,89
2,34,79,100
3,11,24,79
4,9,40,14


In [11]:
df_score1.index = ['짱구', '짱아', '흰둥이', '봉미선', '신형만']
df_score1.index.name = '이름'
df_score1

Unnamed: 0_level_0,국어,영어,수학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
짱구,56,61,12
짱아,34,2,89
흰둥이,34,79,100
봉미선,11,24,79
신형만,9,40,14


In [12]:
df_score2 = df_score1.reset_index()
df_score2

Unnamed: 0,이름,국어,영어,수학
0,짱구,56,61,12
1,짱아,34,2,89
2,흰둥이,34,79,100
3,봉미선,11,24,79
4,신형만,9,40,14


In [15]:
df_score2 = df_score2.set_index('이름')