# 데이터프레임 인덱스 조작

## 데이터프레임 인덱스 설정 및 제거 

떄로는 데이터프레임에 인덱스로 들어가 있어야할 데이터가 일반 데이터 열에 들어가 있거나 반대로 일반 데이터 열이어야할 것이 인덱스로 되어 있을수 있어요. 이 때는 *set_index*나 *reset_index* 명령으로 인덱스와 일반 데이터 열을 교환 할 수 있어요.

- set_index: 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 인덱스로 설정
- reset_index: 기존의 행 인덱스를 제거하고 인덱스를 데이터 열로 추가 

In [13]:
import numpy as np 
import pandas as pd

np.random.seed(0)
df1 = pd.DataFrame(np.vstack([list('ABCDE'), 
                                 np.round(np.random.rand(3,5), 2)]).T, 
                   columns=['C1','C2','C3','C4'])
df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


*set_index*로 C1열을 인덱스로 설정할 수 있음. 이 때 기준 인덱스는 없어짐

In [17]:
df2 = df1.set_index('C1')
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


마찬가지로 c2열을 인덱스로 지정하면 기존의 인덱스는 사라진다.

In [19]:
df2.set_index('C2')

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.55,0.65,0.79
0.72,0.44,0.53
0.6,0.89,0.57
0.54,0.96,0.93
0.42,0.38,0.07


*reset_index* 명령으로 인덱스를 보통의 자료열로 바꿀 수도 있어요. 이 때 인덱스 열은 자료열의 가장 선두(0번째 열)로 삽입된다. 데이터프레임의 인덱스는 정수로 된 디폴트 인덱스로 바뀐다.

In [20]:
df2.reset_index()

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


*reset

속성 및 메서드 정리 
- np.vstack() : 두 배열을 위 아래로 붙이기
- np.round() : 첫번째 인자는 해당 data, 2번째는 소수 몇째자리에서 반올림함.
- np.random.rand() : 0~1 사이의 랜덤한 난수 생성 3rows 5 cols
- df.T : 2행 3열 데이터를 3행 2열로 변환시킴.

In [6]:
# np.vstack() 사용법
import numpy as np

a = np.array([1,2,3])
b = np.array([4,5,6])
np.vstack([a,b])

array([[1, 2, 3],
       [4, 5, 6]])

In [7]:
# np.round() 사용법
import numpy as np 

np.round(np.random.rand(3, 5), 2)

array([[0.47, 0.04, 0.33, 0.55, 0.06],
       [0.16, 0.6 , 0.38, 0.41, 0.11],
       [0.02, 0.26, 0.01, 0.87, 0.66]])