# 데이터프레임 인덱스 설정 및 제거
때로는 데이터프레임에 인덱스로 들어가 있어야 할 데이터가 일반 데이터 열에 들어가 있거나
반대로 일반 데이터 열이어야 할 것이 인덱스로 되어 있을 수 있다.
이 때는 set_index 명령이나 reset_index 명령으로 인덱스와 일반 데이터 열을 교환할 수 있다.

- set_index : 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 인덱스로 설정
- reset_index : 기존의 행 인덱스를 제거하고 인덱스를 데이터 열로 추가

In [4]:
import pandas as pd

In [6]:
import numpy as np

In [7]:
np.round(np.random.rand(3, 5), 2)

array([[0.25, 0.73, 0.96, 0.64, 0.06],
       [0.35, 0.03, 0.91, 0.68, 0.86],
       [0.57, 0.21, 0.04, 0.55, 0.44]])

In [8]:
np.vstack([list('ABCDE'), np.round(np.random.rand(3, 5), 2)])

array([['A', 'B', 'C', 'D', 'E'],
       ['0.2', '0.14', '0.89', '0.11', '0.82'],
       ['0.46', '0.43', '0.09', '0.76', '0.08'],
       ['0.75', '0.63', '0.52', '0.91', '0.46']], dtype='<U32')

In [9]:
np.random.seed(0)
df1 = pd.DataFrame(np.vstack([list('ABCDE'), np.round(np.random.rand(3, 5), 2)]).T, # transpose
                   columns=["C1", "C2", "C3", "C4"])
df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


## `set_index`
- set_index 메서드로 특정한 열을 인덱스로 설정할 수 있다. 이 때 기존의 인덱스는 없어진다.

In [10]:
df2 = df1.set_index("C1")
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


- 마찬가지로 C2열을 인덱스로 지정하면 기존의 인덱스는 사라진다.

In [12]:
df2.set_index("C2") # 원본 반영 안됨

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.55,0.65,0.79
0.72,0.44,0.53
0.6,0.89,0.57
0.54,0.96,0.93
0.42,0.38,0.07


In [13]:
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


## `reset_index`
- 반대로 reset_index 메서드를 쓰면 인덱스를 보통의 자료열로 바꿀 수도 있다.
이 때 인덱스 열은 자료열의 가장 선두로 삽입된다.
데이터프레임의 인덱스는 정수로 된 디폴트 인덱스로 바뀐다.

In [14]:
df2.reset_index()

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [15]:
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


- reset_index 메서드를 호출할 때 인수 drop=True 로 설정하면 인덱스 열을 보통의 자료열로 올리는 것이 아니라 그냥 버리게 된다.

In [16]:
df2.reset_index(drop=True)

Unnamed: 0,C2,C3,C4
0,0.55,0.65,0.79
1,0.72,0.44,0.53
2,0.6,0.89,0.57
3,0.54,0.96,0.93
4,0.42,0.38,0.07


## 연습 문제 4.5.1
5명의 학생의 국어, 영어, 수학 점수를 나타내는 데이터프레임을 다음과 같이 만든다.

1. 학생 이름을 나타내는 열을 포함시키지 않고 데이터프레임 df_score1 을 생성한 후,
df_score1.index 속성에 학생 이름을 나타내는 열을 지정하여 인덱스를 지정한다.
reset_index 명령으로 이 인덱스 열을 명령으로 일반 데이터열로 바꾸여 데이터프레임 df_score2을 만든다.
2. 학생 이름을 나타내는 열이 일반 데이터 열을 포함하는 데이터프레임 df_score2에 set_index 명령을 적용하여 다시 학생 이름을 나타내는 열을 인덱스로 변경한다. ````

In [17]:
# 데이터 프레임 생성
df_score1 = pd.DataFrame(np.random.randint(0, 101, size=(5, 3)), columns=['국어', '영어', '수학'])
df_score1

Unnamed: 0,국어,영어,수학
0,9,20,80
1,69,79,47
2,64,82,99
3,88,49,29
4,19,19,14


In [18]:
# 인덱스에 학생 이름 지정
df_score1.index = ['학생1', '학생2', '학생3', '학생4', '학생5']
df_score1

Unnamed: 0,국어,영어,수학
학생1,9,20,80
학생2,69,79,47
학생3,64,82,99
학생4,88,49,29
학생5,19,19,14


In [19]:
# 인덱스 열을 일반 데이터열로 바꾸어 데이터프레임 생성
df_score2 = df_score1.reset_index()
df_score2

Unnamed: 0,index,국어,영어,수학
0,학생1,9,20,80
1,학생2,69,79,47
2,학생3,64,82,99
3,학생4,88,49,29
4,학생5,19,19,14


In [20]:
# 학생 이름을 다시 인덱스로 변경
df_score2 = df_score2.set_index('index')
df_score2

Unnamed: 0_level_0,국어,영어,수학
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
학생1,9,20,80
학생2,69,79,47
학생3,64,82,99
학생4,88,49,29
학생5,19,19,14


# 다중 인덱스(multi-index)
## 다중 인덱스(multi-index)
- 행이나 열에 여러 계층을 가지는 인덱스 즉, 다중 인덱스(multi-index)를 설정할 수도 있다.
데이터프레임을 생성할 때 columns 인수에 다음 예제처럼 리스트의 리스트(행렬) 형태로 인덱스를 넣으면 다중 열 인덱스를 가지게 된다.

In [21]:
np.random.seed(0)
df3 = pd.DataFrame(np.round(np.random.randn(5, 4), 2),
                   columns=[["A", "A", "B", "B"],
                            ["C1", "C2", "C1", "C2"]])
df3

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


## `columns.names`
- 다중 인덱스는 이름을 지정하면 더 편리하게 사용할 수 있다. 열 인덱스들의 이름 지정은 columns 객체의 names 속성에 리스트를 넣어서 지정한다.

In [22]:
df3.columns.names = ["Cidx1", "Cidx2"]
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


## `index.names`
- 마찬가지로 데이터프레임을 생성할 때 index 인수에 리스트의 리스트(행렬) 형태로 인덱스를 넣으면 다중 (행) 인덱스를 가진다.
행 인덱스들의 이름 지정은 index 객체의 names 속성에 리스트를 넣어서 지정한다.

# 행 인덱스와 열 인덱스 교환
- stack 메서드나 unstack 메서드를 쓰면 열 인덱스를 행 인덱스로 바꾸거나 반대로 행 인덱스를 열 인덱스로 바꿀 수 있다.

- stack
    - 열 인덱스 -> 행 인덱스로 변환
- unstack
    - 행 인덱스 -> 열 인덱스로 변환
- stack 메서드를 실행하면 열 인덱스가 반시계 방향으로 90도 회전한 것과 비슷한 모양이 된다.
마찬가지로 unstack 메서드를 실행하면 행 인덱스가 시계 방향으로 90도 회전한 것과 비슷하다.
인덱스를 지정할 때는 문자열 이름과 순서를 표시하는 숫자 인덱스를 모두 사용할 수 있다.

# 다중 인덱스가 있는 경우의 인덱싱
- 데이터프레임이 다중 인덱스를 가지는 경우에는 인덱스 값이 하나의 라벨이나 숫자가 아니라 ()로 둘러싸인 튜플이 되어야 한다.
예를 들어 앞에서 만든 df3 데이터프레임의 경우 다음과 같이 인덱싱할 수 있다.

- loc 인덱스를 사용하는 경우에도 마찬가지로 튜플을 써야 한다.

- 단, iloc 인덱서를 사용하는 경우에는 튜플 형태의 다중인덱스를 사용할 수 없다.

- 만약 하나의 레벨 값만 넣으면 다중 인덱스 중에서 가장 상위의 값을 지정한 것으로 본다.

- df4 데이터프레임은 다음과 같이 인덱싱할 수 있다.

- loc를 사용하는 경우에도 튜플이 아닌 하나의 값만 쓰면 가장 상위의 인덱스를 지정한 것과 같다.

## `slice(None)`
- 특정 레벨의 모든 인덱스 값을 인덱싱할 때는 슬라이스를 사용한다.
- 다만 다중 인덱스의 튜플 내에서는 : 슬라이스 기호를 사용할 수 없고 대신 slice(None) 값을 사용해야 한다.

In [None]:
df4.loc[("M", slice(None)), :] # ("M" : ) -> 불가 

In [None]:
df4.loc[(slice(None), "id_1"), :]

# 다중 인덱스의 인덱스 순서 교환
- 다중 인덱스의 인덱스 순서를 바꾸고 싶으면 swaplevel 명령을 사용한다.

- swaplevel(i, j, axis)
    - i와 j는 교환하고자 하는 인덱스 라벨(혹은 인덱스 번호)이고 axis는 0일 때 행 인덱스, 1일 때 열 인덱스를 뜻한다. 디폴트는 행 인덱스이다.

# 다중 인덱스가 있는 경우의 정렬
- 다중 인덱스가 있는 데이터프레임을 sort_index로 정렬할 때는 level 인수를 사용하여 어떤 인덱스를 기준으로 정렬하는지 알려주어야 한다.

# 연습 문제 4.5.2

A 반 학생 5명과 B반 학생 5명의 국어, 영어, 수학 점수를 나타내는 데이터프레임을 다음과 같이 만든다.

1. "반", "번호", "국어", "영어", "수학" 을 열로 가지는 데이터프레임 df_score3을 만든다.

2. df_score3을 변형하여 1차 행 인덱스로 "반"을 2차 행 인덱스로 "번호"을 가지는 데이터프레임 df_score4을 만든다.

3. 데이터 프레임 df_score4에 각 학생의 평균을 나타내는 행을 오른쪽에 추가한다.

4. df_score3을 변형하여 행 인덱스로 "번호"를, 1차 열 인덱스로 "국어", "영어", "수학"을, 2차 열 인덱스로 "반"을 가지는 데이터프레임 df_score5을 만든다.

5. 데이터 프레임 df_score5에 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가한다.
