# 데이터프레임 인덱스 조작
## 데이터프레임 인덱스 설정 및 제거
- set_index 명령이나 reset_index 명령으로 인덱스와 일반 데이터 열을 교환할 수 있다.

- set_index : 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 인덱스로 설정
- reset_index : 기존의 행 인덱스를 제거하고 인덱스를 데이터 열로 추가

In [1]:
import pandas as pd
import numpy as np 

In [3]:
np.round(np.random.rand(3, 5), 2)  
# 소수 둘째자리까지 반올림해서 3~5 사이 랜덤으로 추출

array([[0.89, 0.32, 0.34, 0.58, 0.99],
       [0.87, 0.65, 0.27, 0.59, 0.7 ],
       [0.66, 0.79, 0.95, 0.55, 0.01]])

In [4]:
np.vstack([list('ABCDE'), np.round(np.random.rand(3, 5), 2)])

array([['A', 'B', 'C', 'D', 'E'],
       ['0.24', '0.62', '0.72', '0.37', '0.75'],
       ['0.59', '0.33', '0.03', '0.9', '0.49'],
       ['0.88', '0.13', '0.62', '0.79', '0.74']], dtype='<U32')

In [5]:
np.random.seed(0)                                                  # transpose
df1 = pd.DataFrame(np.vstack([list('ABCDE'), np.round(np.random.rand(3, 5), 2)]).T, 
                   columns=["C1", "C2", "C3", "C4"])  # 칼럼인덱스 추가
df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


- set_index 메서드로 특정한 열을 인덱스로 설정할 수 있다. 이 때 기존의 인덱스는 없어진다.

In [6]:
# A B C D 를 행 인덱스로 쓰고 싶어!

df2 = df1.set_index("C1")
# 다만 기존의 인덱스가 소진(데이터에서 사라짐)되어 행 인덱스로 ,,,

df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [7]:
df2.set_index("C2") # 원본 반영 안됨

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.55,0.65,0.79
0.72,0.44,0.53
0.6,0.89,0.57
0.54,0.96,0.93
0.42,0.38,0.07


In [8]:
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


- 반대로 reset_index 메서드를 쓰면 인덱스를 보통의 자료열로 바꿀 수도 있다.
- 이 때 인덱스 열은 자료열의 가장 선두로 삽입된다.
- 데이터프레임의 인덱스는 정수로 된 디폴트 인덱스로 바뀐다.

In [10]:
df2.reset_index()
# C1이 인덱스에서 열로 복원

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [11]:
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


- reset_index 메서드를 호출할 때 인수 drop=True 로 설정하면 인덱스 열을 보통의 자료열로 올리는 것이 아니라 그냥 버리게 된다.

In [12]:
df2.reset_index(drop=True)

Unnamed: 0,C2,C3,C4
0,0.55,0.65,0.79
1,0.72,0.44,0.53
2,0.6,0.89,0.57
3,0.54,0.96,0.93
4,0.42,0.38,0.07


- 연습 문제

- 5명의 학생의 국어, 영어, 수학 점수를 나타내는 데이터프레임을 다음과 같이 만든다.

- 1. 학생 이름을 나타내는 열을 포함시키지 않고 데이터프레임 df_score1 을 생성한 후,
df_score1.index 속성에 학생 이름을 나타내는 열을 지정하여 인덱스를 지정한다.
reset_index 명령으로 이 인덱스 열을 명령으로 일반 데이터열로 바꾸여 데이터프레임 df_score2을 만든다.
- 2. 학생 이름을 나타내는 열이 일반 데이터 열을 포함하는 데이터프레임 df_score2에 set_index 명령을 적용하여 다시 학생 이름을 나타내는 열을 인덱스로 변경한다

----
- (요구사항 분석 1) 5행 3열로 만들자! (학생의 이름을 나타내는 열은 포함X, 과목은 국영수, 학생은 5명)
- 5명의 학생의 국어, 영어, 수학 점수를 나타내는 데이터프레임을 다음과 같이 만든다.
- 학생 이름을 나타내는 열을 포함시키지 않고 데이터프레임 df_score1 을 생성한 후

- (요구사항 분석 2) ... 나머지 순차적으로 반영 

In [11]:
# 데이터 프레임 생성
df_score1 = pd.DataFrame(np.random.randint(0, 101, size=(5, 3)), columns=['국어', '영어', '수학'])
df_score1

Unnamed: 0,국어,영어,수학
0,73,94,65
1,98,23,65
2,40,71,95
3,8,78,92
4,32,79,44


In [12]:
# 인덱스에 학생 이름 지정
df_score1.index = ['학생1', '학생2', '학생3', '학생4', '학생5']
df_score1

Unnamed: 0,국어,영어,수학
학생1,73,94,65
학생2,98,23,65
학생3,40,71,95
학생4,8,78,92
학생5,32,79,44


In [13]:
# 인덱스 열을 일반 데이터열로 바꾸어 데이터프레임 생성
df_score2 = df_score1.reset_index()
df_score2

Unnamed: 0,index,국어,영어,수학
0,학생1,73,94,65
1,학생2,98,23,65
2,학생3,40,71,95
3,학생4,8,78,92
4,학생5,32,79,44


In [14]:
# 학생 이름을 다시 인덱스로 변경
df_score2 = df_score2.set_index('index')
df_score2

Unnamed: 0_level_0,국어,영어,수학
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
학생1,73,94,65
학생2,98,23,65
학생3,40,71,95
학생4,8,78,92
학생5,32,79,44


## 다중 인덱스
- 행이나 열에 여러 계층을 가지는 인덱스 즉, 다중 인덱스(multi-index)를 설정할 수도 있다.
- 데이터프레임을 생성할 때 columns 인수에 다음 예제처럼 리스트의 리스트(행렬) 형태로 인덱스를 넣으면 다중 열 인덱스를 가지게 된다.

In [17]:
np.random.seed(0)    # randn() = 정규분포를 이루는 소수 추출
df3 = pd.DataFrame(np.round(np.random.randn(5, 4), 2),
                   columns=[["A", "A", "B", "B"],
                            ["C1", "C2", "C1", "C2"]])
df3

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


- 다중 인덱스는 이름을 지정하면 더 편리하게 사용할 수 있다. 열 인덱스들의 이름 지정은 columns 객체의 names 속성에 리스트를 넣어서 지정한다.

In [18]:
df3.columns.names = ["Cidx1", "Cidx2"]
df3

# 불필요해 보일 수 있으나 ---> 시각화할 때 유용하다!!

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


- 데이터프레임을 생성할 때 index 인수에 리스트의 리스트(행렬) 형태로 인덱스를 넣으면 다중 (행) 인덱스를 가진다.
- 행 인덱스들의 이름 지정은 index 객체의 names 속성에 리스트를 넣어서 지정한다.

In [19]:
np.random.seed(0)
df4 = pd.DataFrame(np.round(np.random.randn(6, 4), 2),
                   columns=[["A", "A", "B", "B"],
                            ["C", "D", "C", "D"]],
                   index=[["M", "M", "M", "F", "F", "F"],
                          ["id_" + str(i + 1) for i in range(3)] * 2])
df4.columns.names = ["Cidx1", "Cidx2"]
df4.index.names = ["Ridx1", "Ridx2"]
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


## 행 인덱스와 열 인덱스 교환
- stack 메서드나 unstack 메서드를 쓰면 열 인덱스를 행 인덱스로 바꾸거나 반대로 행 인덱스를 열 인덱스로 바꿀 수 있다.

- stack

    - 열 인덱스 -> 행 인덱스로 변환
- unstack

    - 행 인덱스 -> 열 인덱스로 변환
-------
- stack 메서드를 실행하면 열 인덱스가 반시계 방향으로 90도 회전한 것과 비슷한 모양이 된다.
- 마찬가지로 unstack 메서드를 실행하면 행 인덱스가 시계 방향으로 90도 회전한 것과 비슷하다.
- 인덱스를 지정할 때는 문자열 이름과 순서를 표시하는 숫자 인덱스를 모두 사용할 수 있다.    

In [20]:
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [23]:
df4.stack("Cidx1") # 열인덱스->행인덱스
# 열 인덱스가 반시계 방향으로 90도 회전한 것과 비슷한 모양

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx2,C,D
Ridx1,Ridx2,Cidx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,A,1.76,0.4
M,id_1,B,0.98,2.24
M,id_2,A,1.87,-0.98
M,id_2,B,0.95,-0.15
M,id_3,A,-0.1,0.41
M,id_3,B,0.14,1.45
F,id_1,A,0.76,0.12
F,id_1,B,0.44,0.33
F,id_2,A,1.49,-0.21
F,id_2,B,0.31,-0.85


In [25]:
df4.stack(1) # cidx2 == 1

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx1,A,B
Ridx1,Ridx2,Cidx2,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,C,1.76,0.98
M,id_1,D,0.4,2.24
M,id_2,C,1.87,0.95
M,id_2,D,-0.98,-0.15
M,id_3,C,-0.1,0.14
M,id_3,D,0.41,1.45
F,id_1,C,0.76,0.44
F,id_1,D,0.12,0.33
F,id_2,C,1.49,0.31
F,id_2,D,-0.21,-0.85


In [27]:
df4.stack(-1)  # 인덱스 최상위가 -1, 그 다음이 1 
# (그냥 직접적으로 가장 많이 쓰는 열이 1 이라고 외우자)

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx1,A,B
Ridx1,Ridx2,Cidx2,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,C,1.76,0.98
M,id_1,D,0.4,2.24
M,id_2,C,1.87,0.95
M,id_2,D,-0.98,-0.15
M,id_3,C,-0.1,0.14
M,id_3,D,0.41,1.45
F,id_1,C,0.76,0.44
F,id_1,D,0.12,0.33
F,id_2,C,1.49,0.31
F,id_2,D,-0.21,-0.85


In [28]:
df4.stack(2) # 이건 에러메시지 발생 (이유 모름;;)

IndexError: Too many levels: Index has only 2 levels, not 3

In [30]:
df4.unstack("Ridx2")

Cidx1,A,A,A,A,A,A,B,B,B,B,B,B
Cidx2,C,C,C,D,D,D,C,C,C,D,D,D
Ridx2,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3
Ridx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3
F,0.76,1.49,-2.55,0.12,-0.21,0.65,0.44,0.31,0.86,0.33,-0.85,-0.74
M,1.76,1.87,-0.1,0.4,-0.98,0.41,0.98,0.95,0.14,2.24,-0.15,1.45


In [31]:
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [32]:
 df4.unstack(0) # ridx1 == 0

Cidx1,A,A,A,A,B,B,B,B
Cidx2,C,C,D,D,C,C,D,D
Ridx1,F,M,F,M,F,M,F,M
Ridx2,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
id_1,0.76,1.76,0.12,0.4,0.44,0.98,0.33,2.24
id_2,1.49,1.87,-0.21,-0.98,0.31,0.95,-0.85,-0.15
id_3,-2.55,-0.1,0.65,0.41,0.86,0.14,-0.74,1.45


## 다중 인덱스가 있는 경우의 인덱싱
- 데이터프레임이 다중 인덱스를 가지는 경우에는 인덱스 값이 하나의 라벨이나 숫자가 아니라 ()로 둘러싸인 튜플이 되어야 한다.
- 예를 들어 앞에서 만든 df3 데이터프레임의 경우 다음과 같이 인덱싱할 수 있다.

In [34]:
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [35]:
df3[ ("B", "C1") ] #첫번째 계측 B , 두번째 계층 C1

0    0.98
1    0.95
2    0.14
3    0.44
4    0.31
Name: (B, C1), dtype: float64

- loc 인덱스를 사용하는 경우에도 마찬가지로 튜플을 써야 한다.

In [36]:
df3.loc[0, ("B", "C1")]

0.98

In [37]:
df3.loc[0, ("B", "C1")] = 100
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,100.0,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


- 단, iloc 인덱서를 사용하는 경우에는 튜플 형태의 다중인덱스를 사용할 수 없다.

In [40]:
df3.iloc[0, 2]

100.0

In [41]:
# 만약 하나의 레벨 값만 넣으면 다중 인덱스 중에서 가장 상위의 값을 지정한 것으로 본다.
df3['A']

Cidx2,C1,C2
0,1.76,0.4
1,1.87,-0.98
2,-0.1,0.41
3,0.76,0.12
4,1.49,-0.21


In [43]:
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,100.0,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [42]:
# 당연히 하위 인덱스는 단일 라벨값만 넣으면 인식이 안된다.
df3['C1'] # 어디 C1 인데?????????

KeyError: 'C1'

In [44]:
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [45]:
df4.loc[("M", "id_1"), ("A", "C")]

1.76

In [46]:
df4.loc[:, ("A", "C")]

Ridx1  Ridx2
M      id_1     1.76
       id_2     1.87
       id_3    -0.10
F      id_1     0.76
       id_2     1.49
       id_3    -2.55
Name: (A, C), dtype: float64

In [47]:
df4.loc[("M", "id_1"), :]

Cidx1  Cidx2
A      C        1.76
       D        0.40
B      C        0.98
       D        2.24
Name: (M, id_1), dtype: float64

In [48]:
df4.loc[("All", "All"), :] = df4.sum()
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


In [49]:
# loc를 사용하는 경우에도 튜플이 아닌 하나의 값만 쓰면 가장 상위의 인덱스를 지정한 것과 같다.
df4.loc["M"]

Cidx1,A,A,B,B
Cidx2,C,D,C,D
Ridx2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
id_1,1.76,0.4,0.98,2.24
id_2,1.87,-0.98,0.95,-0.15
id_3,-0.1,0.41,0.14,1.45


- 특정 레벨의 " 모든 인덱스 값 "을 인덱싱할 때는 슬라이스를 사용한다.(인덱스에 계층이 생겨버렸기 때문)
- 다만 다중 인덱스의 튜플 내에서는 : 슬라이스 기호를 사용할 수 없고 대신 " slice(None) " 값을 사용해야 한다.

In [50]:
df4.loc[("M", slice(None)), :] # ("M" : ) -> 불가 

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45


In [53]:
df4.loc[(slice(None), "id_1"), :] 
# 첫번째 계층 지정안하겠다 = 첫번째 계층 다 선택한다

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
F,id_1,0.76,0.12,0.44,0.33


## 다중 인덱스의 인덱스 순서 교환
- 다중 인덱스의 인덱스 순서를 바꾸고 싶으면 swaplevel 명령을 사용한다.

- swaplevel(i, j, axis)
- i와 j는 교환하고자 하는 인덱스 라벨(혹은 인덱스 번호)이고 axis는 0일 때 행 인덱스, 1일 때 열 인덱스를 뜻한다. !! 디폴트는 행 인덱스이다. !!

In [54]:
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


In [55]:
df5 = df4.swaplevel("Ridx1", "Ridx2") # 디폴트 0
df5

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
id_1,M,1.76,0.4,0.98,2.24
id_2,M,1.87,-0.98,0.95,-0.15
id_3,M,-0.1,0.41,0.14,1.45
id_1,F,0.76,0.12,0.44,0.33
id_2,F,1.49,-0.21,0.31,-0.85
id_3,F,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


In [56]:
df6 = df4.swaplevel("Cidx1", "Cidx2", 1) # axis=1
df6

Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


In [57]:
# 당연히 cidx1과 2는 행인덱스가 아니기 때문에 에러
df6 = df4.swaplevel("Cidx1", "Cidx2", 0) 
# Cidx는 컬럼 인덱스고, 뒤에 숫자는 행 인덱스니까 

df6

KeyError: 'Level Cidx1 not found'

## 다중 인덱스가 있는 경우의 정렬
- 다중 인덱스가 있는 데이터프레임을 sort_index로 정렬할 때는 level 인수를 사용하여 어떤 인덱스를 기준으로 정렬하는지 알려주어야 한다.

In [58]:
df5

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
id_1,M,1.76,0.4,0.98,2.24
id_2,M,1.87,-0.98,0.95,-0.15
id_3,M,-0.1,0.41,0.14,1.45
id_1,F,0.76,0.12,0.44,0.33
id_2,F,1.49,-0.21,0.31,-0.85
id_3,F,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


In [62]:
# 디폴트 axis=0 행인덱스, level = 인덱스 수준값 또는 라벨
df5.sort_index(level=0) # ridx2 기준

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
All,All,3.23,0.39,3.68,2.28
id_1,F,0.76,0.12,0.44,0.33
id_1,M,1.76,0.4,0.98,2.24
id_2,F,1.49,-0.21,0.31,-0.85
id_2,M,1.87,-0.98,0.95,-0.15
id_3,F,-2.55,0.65,0.86,-0.74
id_3,M,-0.1,0.41,0.14,1.45


In [63]:
df5.sort_index(level=1) # ridx1 기준

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
All,All,3.23,0.39,3.68,2.28
id_1,F,0.76,0.12,0.44,0.33
id_2,F,1.49,-0.21,0.31,-0.85
id_3,F,-2.55,0.65,0.86,-0.74
id_1,M,1.76,0.4,0.98,2.24
id_2,M,1.87,-0.98,0.95,-0.15
id_3,M,-0.1,0.41,0.14,1.45


---
- 연습 문제
- A 반 학생 5명과 B반 학생 5명의 국어, 영어, 수학 점수를 나타내는 데이터프레임을 다음과 같이 만든다.

    - 1. "반", "번호", "국어", "영어", "수학" 을 열로 가지는 데이터프레임 df_score3을 만든다.

    - 2. df_score3을 변형하여 1차 행 인덱스로 "반"을 2차 행 인덱스로 "번호"을 가지는 데이터프레임 df_score4을 만든다.

    - 3. 데이터 프레임 df_score4에 각 학생의 평균을 나타내는 행을 오른쪽에 추가한다.

    - 4. df_score3을 변형하여 행 인덱스로 "번호"를, 1차 열 인덱스로 "국어", "영어", "수학"을, 2차 열 인덱스로 "반"을 가지는 데이터프레임 df_score5을 만든다.

    - 5. 데이터 프레임 df_score5에 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가한다.

---

In [3]:
# 1번 문제 
import numpy as np
import pandas as pd

np.random.seed(0)                
# '반' 컬럼 생성
class1 = np.array(list('AAAAABBBBB')).reshape(10, 1) #문자열 AABB를 리스트로->reshape
# '번호' 컬럼 생성 # 1~5까지 5개를 비복원추출(random.choice)
number = np.hstack([np.random.choice(range(1,6), 5, replace=False), np.random.choice(range(1,6), 5, replace=False)]).reshape(10,1)
# '점수' 컬럼 생성 (0~100점까지 3개씩 10번 랜덤으로 추출)
score = np.random.randint(0,101,(10,3))

df_score3 = pd.DataFrame(np.hstack([class1,number, score]), columns=["반","번호","국어","영어","수학"])
# 생성한 컬럼들을 '행' 기준(=hstack)으로 모아서 데이터프레임 생성
df_score3     

Unnamed: 0,반,번호,국어,영어,수학
0,A,3,21,36,87
1,A,1,70,88,88
2,A,2,12,58,65
3,A,4,39,87,46
4,A,5,88,81,37
5,B,1,25,77,72
6,B,3,9,20,80
7,B,2,69,79,47
8,B,5,64,82,99
9,B,4,88,49,29


In [4]:
# 데이터 프레임 생성

df_score3 = pd.DataFrame(columns=['반', '번호', '국어', '영어', '수학'])
df_score3                     

Unnamed: 0,반,번호,국어,영어,수학


In [5]:
# 데이터 입력

for i in range(5):
    df_score3.loc[i] = ['A', i+1] + list(np.random.randint(0, 101, size=3))
    df_score3.loc[i+5] = ['B', i+1] + list(np.random.randint(0, 101, size=3))
df_score3

Unnamed: 0,반,번호,국어,영어,수학
0,A,1,19,19,14
5,B,1,39,32,65
1,A,2,9,57,32
6,B,2,31,74,23
2,A,3,35,75,55
7,B,3,28,34,0
3,A,4,0,36,53
8,B,4,5,38,17
4,A,5,79,4,42
9,B,5,58,31,1


In [7]:
# 1번 for문으로 풀어보기

df_score3 = pd.DataFrame(columns=['반','번호', '국어', '영어', '수학'])
df_score3

for i in range(5):
    df_score3.loc[i] = ['A', i+1] + list(np.random.randint(0, 101, size=3))
    df_score3.loc[i+5] = ['B', i+1] + list(np.random.randint(0, 101, size=3))

df_score3    

Unnamed: 0,반,번호,국어,영어,수학
0,A,1,35,11,46
5,B,1,82,91,0
1,A,2,14,99,53
6,B,2,12,42,84
2,A,3,75,68,6
7,B,3,68,47,3
3,A,4,76,100,52
8,B,4,78,15,20
4,A,5,99,58,23
9,B,5,79,13,85


In [87]:
# 2번 인덱스 설정

df_score4 = df_score3.set_index(['반', '번호'])
df_score4

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,1,19,19,14
B,1,39,32,65
A,2,9,57,32
B,2,31,74,23
A,3,35,75,55
B,3,28,34,0
A,4,0,36,53
B,4,5,38,17
A,5,79,4,42
B,5,58,31,1


In [88]:
# 3번 각 학생의 평균 계산
df_score4['평균'] = round(df_score4.mean(axis=1),1)
df_score4

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학,평균
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,1,19,19,14,17.3
B,1,39,32,65,45.3
A,2,9,57,32,32.7
B,2,31,74,23,42.7
A,3,35,75,55,55.0
B,3,28,34,0,20.7
A,4,0,36,53,29.7
B,4,5,38,17,20.0
A,5,79,4,42,41.7
B,5,58,31,1,30.0


In [89]:
df_score3

Unnamed: 0,반,번호,국어,영어,수학
0,A,1,19,19,14
5,B,1,39,32,65
1,A,2,9,57,32
6,B,2,31,74,23
2,A,3,35,75,55
7,B,3,28,34,0
3,A,4,0,36,53
8,B,4,5,38,17
4,A,5,79,4,42
9,B,5,58,31,1


In [90]:
# 4. `df_score3`을 변형하여 행 인덱스로 "번호"를, 1차 열 인덱스로 "국어", "영어", "수학"을, 2차 열 인덱스로 "반"을 가지는 데이터프레임 `df_score5`을 만든다
# 행과 열 인덱스 변경
#  df_score3.set_index('번호').pivot(columns='반')


# set_index는 '행 인덱스'로만 바꿀 수 있다 --> 그 다음에 unstack()
df_score5 = df_score3.set_index(['번호','반']).unstack()
df_score5

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학
반,A,B,A,B,A,B
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,19,39,19,32,14,65
2,9,31,57,74,32,23
3,35,28,75,34,55,0
4,0,5,36,38,53,17
5,79,58,4,31,42,1


In [91]:
# 각 반별 과목 평균 계산
df_score5.loc['평균'] = df_score5.mean()  # loc은 행방향
df_score5

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학
반,A,B,A,B,A,B
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,19.0,39.0,19.0,32.0,14.0,65.0
2,9.0,31.0,57.0,74.0,32.0,23.0
3,35.0,28.0,75.0,34.0,55.0,0.0
4,0.0,5.0,36.0,38.0,53.0,17.0
5,79.0,58.0,4.0,31.0,42.0,1.0
평균,28.4,32.2,38.2,41.8,39.2,21.2
