# 데이터프레임 인덱스 조작

## 데이터프레임 인덱스 설정 및 제거

때로는 데이터프레임에 인덱스로 들어가 있어야 할 데이터가 일반 데이터 열에 들어가 있거나 반대로 일반 데이터 열이어야 할 것이 인덱스로 되어 있을 수 있다. 이 때는 `set_index` 명령이나 `reset_index` 명령으로 인덱스와 일반 데이터 열을 교환할 수 있다.

* `set_index` : 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 인덱스로 설정
* `reset_index` : 기존의 행 인덱스를 제거하고 인덱스를 데이터 열로 추가

In [1]:
import pandas as pd
import numpy as np
np.random.seed(0)
df1 = pd.DataFrame(np.vstack([list('ABCDE'),
                              np.round(np.random.rand(3, 5), 2)]).T,
                   columns=["C1", "C2", "C3", "C4"])
df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


`set_index` 명령으로 C1열을 인덱스로 설정할 수 있다. 이 때 기존 인덱스는 없어진다.

In [2]:
df2 = df1.set_index("C1")
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


마찬가지로 C2열을 인덱스로 지정하면 기존의 인덱스는 사라진다.

In [3]:
df2.set_index("C2")

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.55,0.65,0.79
0.72,0.44,0.53
0.6,0.89,0.57
0.54,0.96,0.93
0.42,0.38,0.07


`reset_index` 명령으로 인덱스를 보통의 자료열로 바꿀 수도 있다. 이 때 인덱스 열은 자료열의 가장 선두로 삽입된다. 데이터프레임의 인덱스는 정수로 된 디폴트 인덱스로 바뀐다.

In [4]:
df2.reset_index()

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


`reset_index` 명령 사용시에 `drop=True` 로 설정하면 인덱스 열을 보통의 자료열로 올리는 것이 아니라 그냥 버리게 된다.

In [5]:
df2.reset_index(drop=True)

Unnamed: 0,C2,C3,C4
0,0.55,0.65,0.79
1,0.72,0.44,0.53
2,0.6,0.89,0.57
3,0.54,0.96,0.93
4,0.42,0.38,0.07


#### 연습 문제 1

5명의 학생의 국어, 영어, 수학 점수를 나타내는 데이터프레임을 다음과 같이 만든다.

1. 학생 이름을 나타내는 열을 포함시키지 않고 데이터프레임 `df_score1` 을 생성한 후, `df_score1.index` 속성에 학생 이름을 나타내는 열을 지정하여 인덱스를 지정한다. `reset_index` 명령으로 이 인덱스 열을 명령으로 일반 데이터열로 바꾸여 데이터프레임 `df_score2`을 만든다.


In [6]:
data = {
    "국어": [80, 90, 70, 30, 86],
    "영어": [90, 70, 60, 40, 97],
    "수학": [90, 60, 80, 70, 85],
}
#columns = ["국어", "영어", "수학"]
df_score1 = pd.DataFrame(data) # , columns=columns)
df_score1

Unnamed: 0,국어,영어,수학
0,80,90,90
1,90,70,60
2,70,60,80
3,30,40,70
4,86,97,85


In [7]:
df_score1.index = ["지민", "호석", "석진", "태형", "남준"]
df_score1

Unnamed: 0,국어,영어,수학
지민,80,90,90
호석,90,70,60
석진,70,60,80
태형,30,40,70
남준,86,97,85


In [8]:
df_score2 = df_score1.reset_index()
df_score2

Unnamed: 0,index,국어,영어,수학
0,지민,80,90,90
1,호석,90,70,60
2,석진,70,60,80
3,태형,30,40,70
4,남준,86,97,85


In [9]:
df_score2.columns

Index(['index', '국어', '영어', '수학'], dtype='object')

In [10]:
df_score2.columns = ['이름', '국어', '영어', '수학']
df_score2

Unnamed: 0,이름,국어,영어,수학
0,지민,80,90,90
1,호석,90,70,60
2,석진,70,60,80
3,태형,30,40,70
4,남준,86,97,85


2. 학생 이름을 나타내는 열이 일반 데이터 열을 포함하는 데이터프레임 `df_score2`에 `set_index` 명령을 적용하여 다시 학생 이름을 나타내는 열을 인덱스로 변경한다.

In [11]:
df_score2.set_index("이름")

Unnamed: 0_level_0,국어,영어,수학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
지민,80,90,90
호석,90,70,60
석진,70,60,80
태형,30,40,70
남준,86,97,85


In [12]:
import numpy as np
np.round(np.random.randn(5, 4), 2)

array([[ 0.48,  0.58, -0.18,  1.41],
       [-0.37,  0.28, -0.96,  0.38],
       [ 0.03,  0.68, -1.56, -0.57],
       [-0.24,  1.51, -0.33,  0.05],
       [ 1.46,  1.54,  0.57,  0.15]])

In [13]:
np.random.randn(5, 4).round(2)

array([[-1.08,  1.4 ,  1.79, -0.57],
       [ 0.18, -0.46, -1.09,  0.64],
       [-0.39, -0.78,  1.  , -1.93],
       [ 0.25, -0.03, -0.14, -0.19],
       [ 0.45, -0.99, -0.23, -1.65]])

## 다중 인덱스

행이나 열에 여러 계층을 가지는 인덱스 즉, **다중 인덱스(multi-index)**를 설정할 수도 있다. 데이터프레임을 생성할 때 `columns` 인수에 다음 예제처럼 리스트의 리스트(행렬) 형태로 인덱스를 넣으면 다중 열 인덱스를 가지게 된다.

In [14]:
np.random.seed(0)
df3 = pd.DataFrame(np.round(np.random.randn(5, 4), 2),
                   columns=[["A", "A", "B", "B"],
                            ["C1", "C2", "C1", "C2"]])
df3

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


다중 인덱스는 이름을 지정하면 더 편리하게 사용할 수 있다. 열 인덱스들의 이름 지정은 `columns` 객체의 `names` 속성에 리스트를 넣어서 지정한다.

In [15]:
df3.columns.names = ["Cidx1", "Cidx2"]
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


마찬가지로 데이터프레임을 생성할 때 `index` 인수에 리스트의 리스트(행렬) 형태로 인덱스를 넣으면 다중 (행) 인덱스를 가진다. 행 인덱스들의 이름 지정은 `index` 객체의 `names` 속성에 리스트를 넣어서 지정한다.

In [16]:
np.random.seed(0)
df4 = pd.DataFrame(np.round(np.random.randn(6, 4), 2),
                   columns=[["A", "A", "B", "B"],
                            ["C", "D", "C", "D"]],
                   index=[["M", "M", "M", "F", "F", "F"],
                          ["id_" + str(i + 1) for i in range(3)] * 2])
df4.columns.names = ["Cidx1", "Cidx2"]
df4.index.names = ["Ridx1", "Ridx2"]
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


## 행 인덱스와 열 인덱스 교환

`stack` 명령이나 `unstack` 명령을 쓰면 **열 인덱스를 행 인덱스로** 바꾸거나 반대로 **행 인덱스를 열 인덱스로** 바꿀 수 있다.

* `stack()`
 * 열 인덱스 -> 행 인덱스로 변환  


* `unstack()`
 * 행 인덱스 -> 열 인덱스로 변환


`stack` 명령을 실행하면 **열 인덱스가 반시계 방향으로 90도 회전**한 것과 비슷한 모양이 된다. 마찬가지로 `unstack` 명령을 실행하면 **행 인덱스가 시계 방향으로 90도 회전한 것과 비슷**하다. 인덱스를 지정할 때는 문자열 이름과 순서를 표시하는 숫자 인덱스를 모두 사용할 수 있다.

In [17]:
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [18]:
df4.stack("Cidx1")
# df4.stack(0)

  df4.stack("Cidx1")


Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx2,C,D
Ridx1,Ridx2,Cidx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,A,1.76,0.4
M,id_1,B,0.98,2.24
M,id_2,A,1.87,-0.98
M,id_2,B,0.95,-0.15
M,id_3,A,-0.1,0.41
M,id_3,B,0.14,1.45
F,id_1,A,0.76,0.12
F,id_1,B,0.44,0.33
F,id_2,A,1.49,-0.21
F,id_2,B,0.31,-0.85


In [19]:
df4.stack(1)
# df4.stack('Cidx2')

  df4.stack(1)


Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx1,A,B
Ridx1,Ridx2,Cidx2,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,C,1.76,0.98
M,id_1,D,0.4,2.24
M,id_2,C,1.87,0.95
M,id_2,D,-0.98,-0.15
M,id_3,C,-0.1,0.14
M,id_3,D,0.41,1.45
F,id_1,C,0.76,0.44
F,id_1,D,0.12,0.33
F,id_2,C,1.49,0.31
F,id_2,D,-0.21,-0.85


In [20]:
df4.unstack("Ridx2")

Cidx1,A,A,A,A,A,A,B,B,B,B,B,B
Cidx2,C,C,C,D,D,D,C,C,C,D,D,D
Ridx2,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3
Ridx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3
F,0.76,1.49,-2.55,0.12,-0.21,0.65,0.44,0.31,0.86,0.33,-0.85,-0.74
M,1.76,1.87,-0.1,0.4,-0.98,0.41,0.98,0.95,0.14,2.24,-0.15,1.45


In [21]:
df4.unstack(0)

Cidx1,A,A,A,A,B,B,B,B
Cidx2,C,C,D,D,C,C,D,D
Ridx1,F,M,F,M,F,M,F,M
Ridx2,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
id_1,0.76,1.76,0.12,0.4,0.44,0.98,0.33,2.24
id_2,1.49,1.87,-0.21,-0.98,0.31,0.95,-0.85,-0.15
id_3,-2.55,-0.1,0.65,0.41,0.86,0.14,-0.74,1.45


## 다중 인덱스가 있는 경우의 인덱싱

데이터프레임이 다중 인덱스를 가지는 경우에는 인덱스가 하나의 라벨이나 숫자가 아니라 `()`로 둘러싸인 **튜플이 되어야 한다.** 예를 들어 앞에서 만든 `df3` 데이터프레임의 경우 다음과 같이 인덱싱할 수 있다.

In [22]:
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [23]:
df3[("B", "C1")]

0    0.98
1    0.95
2    0.14
3    0.44
4    0.31
Name: (B, C1), dtype: float64

In [24]:
df3.loc[0, ("B", "C1")]

np.float64(0.98)

In [25]:
df3.loc[0, ("B", "C1")] = 100
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,100.0,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


단, `iloc` 인덱서를 사용하는 경우에는 튜플 형태의 다중인덱스를 사용할 수 없다.

In [26]:
df3.iloc[0, 2]

np.float64(100.0)

만약 하나의 레벨 값만 넣으면 다중 인덱스 중에서 가장 상위의 값을 지정한 것으로 본다.

In [27]:
df3['A']

Cidx2,C1,C2
0,1.76,0.4
1,1.87,-0.98
2,-0.1,0.41
3,0.76,0.12
4,1.49,-0.21


`df4` 데이터프레임은 다음과 같이 인덱싱할 수 있다.

In [28]:
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [29]:
df4.loc[("M", "id_1"), ("A", "C")]

np.float64(1.76)

In [30]:
df4.loc[:, ("A", "C")]

Ridx1  Ridx2
M      id_1     1.76
       id_2     1.87
       id_3    -0.10
F      id_1     0.76
       id_2     1.49
       id_3    -2.55
Name: (A, C), dtype: float64

In [31]:
df4.loc[("M", "id_1"), :]

Cidx1  Cidx2
A      C        1.76
       D        0.40
B      C        0.98
       D        2.24
Name: (M, id_1), dtype: float64

In [32]:
df4.sum()   # axis=0

Cidx1  Cidx2
A      C        3.23
       D        0.39
B      C        3.68
       D        2.28
dtype: float64

In [33]:
# df4.loc[("All", "All")] = df4.sum()
df4.loc[("All", "All"), :] = df4.sum()  # 행인덱스 ("All", "All")을 주어서...
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


## 다중 인덱스의 인덱스 순서 교환

다중 인덱스의 인덱스 순서를 바꾸고 싶으면 `swaplevel` 명령을 사용한다.

* `swaplevel(i, j, axis)`

`i`와 `j`는 교환하고자 하는 인덱스 라벨(혹은 인덱스 번호)이고 `axis`는 0일 때 행 인덱스, 1일 때 열 인덱스를 뜻한다. 디폴트는 행 인덱스이다.

In [34]:
df5 = df4.swaplevel("Ridx1", "Ridx2")   # axis=0 생략
df5

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
id_1,M,1.76,0.4,0.98,2.24
id_2,M,1.87,-0.98,0.95,-0.15
id_3,M,-0.1,0.41,0.14,1.45
id_1,F,0.76,0.12,0.44,0.33
id_2,F,1.49,-0.21,0.31,-0.85
id_3,F,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


In [35]:
df6 = df4.swaplevel("Cidx1", "Cidx2", 1)   # axis=1
df6

Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


## 다중 인덱스가 있는 경우의 정렬

다중 인덱스가 있는 데이터프레임을 `sort_index`로 정렬할 때는 `level` 인수를 사용하여 어떤 인덱스를 기준으로 정렬하는지 알려주어야 한다.

In [36]:
df5

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
id_1,M,1.76,0.4,0.98,2.24
id_2,M,1.87,-0.98,0.95,-0.15
id_3,M,-0.1,0.41,0.14,1.45
id_1,F,0.76,0.12,0.44,0.33
id_2,F,1.49,-0.21,0.31,-0.85
id_3,F,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


In [37]:
df5.sort_index(level=0)

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
All,All,3.23,0.39,3.68,2.28
id_1,F,0.76,0.12,0.44,0.33
id_1,M,1.76,0.4,0.98,2.24
id_2,F,1.49,-0.21,0.31,-0.85
id_2,M,1.87,-0.98,0.95,-0.15
id_3,F,-2.55,0.65,0.86,-0.74
id_3,M,-0.1,0.41,0.14,1.45


In [38]:
df5.sort_index(level=1)

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
All,All,3.23,0.39,3.68,2.28
id_1,F,0.76,0.12,0.44,0.33
id_2,F,1.49,-0.21,0.31,-0.85
id_3,F,-2.55,0.65,0.86,-0.74
id_1,M,1.76,0.4,0.98,2.24
id_2,M,1.87,-0.98,0.95,-0.15
id_3,M,-0.1,0.41,0.14,1.45


In [39]:
df6

Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


In [40]:
df6.sort_index(axis=1, level=0)

Unnamed: 0_level_0,Cidx2,C,C,D,D
Unnamed: 0_level_1,Cidx1,A,B,A,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.98,0.4,2.24
M,id_2,1.87,0.95,-0.98,-0.15
M,id_3,-0.1,0.14,0.41,1.45
F,id_1,0.76,0.44,0.12,0.33
F,id_2,1.49,0.31,-0.21,-0.85
F,id_3,-2.55,0.86,0.65,-0.74
All,All,3.23,3.68,0.39,2.28


In [41]:
df6.sort_index(axis=1, level=1)

Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


In [42]:
df6.swaplevel("Cidx2", "Cidx1", 1)   # axis=1

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


#### 연습 문제 2

A 반 학생 5명과 B반 학생 5명의 국어, 영어, 수학 점수를 나타내는 데이터프레임을 다음과 같이 만든다.

1. "반", "번호", "국어", "영어", "수학" 을 열로 가지는 데이터프레임 `df_score3`을 만든다.



In [43]:
data = {
        "반" : ['A', 'A', 'A', 'A', 'B', 'B', 'B'],
        "번호": [1, 2, 3, 4, 1, 2, 3],
        "국어": [80, 90, 70, 30, 85, 94, 92],
        "영어": [90, 70, 60, 40, 82, 88, 98],
        "수학": [90, 60, 80, 70, 77, 64, 76],
}
columns = ["국어", "영어", "수학"]
index = ["지민", "호석", "석진", "태형", "윤기", "정국", "남준"]

df_score3 = pd.DataFrame(data) # , index=index, columns=columns)
df_score3

Unnamed: 0,반,번호,국어,영어,수학
0,A,1,80,90,90
1,A,2,90,70,60
2,A,3,70,60,80
3,A,4,30,40,70
4,B,1,85,82,77
5,B,2,94,88,64
6,B,3,92,98,76


2. `df_score3`을 변형하여 **1차 행 인덱스로 "반"을 2차 행 인덱스로 "번호"** 을 가지는 데이터프레임 `df_score4`을 만든다.

In [44]:
df_score4 = df_score3.set_index(['반', '번호'])
df_score4

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,1,80,90,90
A,2,90,70,60
A,3,70,60,80
A,4,30,40,70
B,1,85,82,77
B,2,94,88,64
B,3,92,98,76


3. 데이터 프레임 `df_score4`에 각 학생의 평균을 나타내는 행을 오른쪽에 추가한다.

In [45]:
# df_score4["평균"] = 
df_score4["평균"] = df_score4.mean(axis=1)
df_score4

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학,평균
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,1,80,90,90,86.666667
A,2,90,70,60,73.333333
A,3,70,60,80,70.0
A,4,30,40,70,46.666667
B,1,85,82,77,81.333333
B,2,94,88,64,82.0
B,3,92,98,76,88.666667


4. `df_score3`을 변형하여 행 인덱스로 "번호"를, 1차 열 인덱스로 "국어", "영어", "수학"을, 2차 열 인덱스로 "반"을 가지는 데이터프레임 `df_score5`을 만든다.

In [46]:
df_score3 = df_score3.set_index(['반', '번호']).unstack('반')
df_score3

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학
반,A,B,A,B,A,B
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,80.0,85.0,90.0,82.0,90.0,77.0
2,90.0,94.0,70.0,88.0,60.0,64.0
3,70.0,92.0,60.0,98.0,80.0,76.0
4,30.0,,40.0,,70.0,


5. 데이터 프레임 `df_score5`에 **각 반별 각 과목의 평균**을 나타내는 행을 아래에 추가한다.

In [47]:
df_score3.columns

MultiIndex([('국어', 'A'),
            ('국어', 'B'),
            ('영어', 'A'),
            ('영어', 'B'),
            ('수학', 'A'),
            ('수학', 'B')],
           names=[None, '반'])

In [48]:
## 컬럼명의 이름을 설정한다.
df_score3.columns.names = ['과목', '반']
df_score3

과목,국어,국어,영어,영어,수학,수학
반,A,B,A,B,A,B
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,80.0,85.0,90.0,82.0,90.0,77.0
2,90.0,94.0,70.0,88.0,60.0,64.0
3,70.0,92.0,60.0,98.0,80.0,76.0
4,30.0,,40.0,,70.0,


In [49]:
# 과목과 반의 위치를 바꾼다 (swaplevel)
df_score5 = df_score3.swaplevel("과목", "반", axis=1)   # axis=1
df_score5

반,A,B,A,B,A,B
과목,국어,국어,영어,영어,수학,수학
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,80.0,85.0,90.0,82.0,90.0,77.0
2,90.0,94.0,70.0,88.0,60.0,64.0
3,70.0,92.0,60.0,98.0,80.0,76.0
4,30.0,,40.0,,70.0,


In [50]:
# 반 이름(인덱스 0)으로 sort_index하여 정리한다.
df_score5 = df_score5.sort_index(level=0, axis=1)
df_score5

반,A,A,A,B,B,B
과목,국어,수학,영어,국어,수학,영어
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,80.0,90.0,90.0,85.0,77.0,82.0
2,90.0,60.0,70.0,94.0,64.0,88.0
3,70.0,80.0,60.0,92.0,76.0,98.0
4,30.0,70.0,40.0,,,


5. 데이터 프레임 `df_score5`에 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가한다.

In [51]:
df_score5.loc["평균"] = df_score5.mean(axis=0).round(2)
df_score5

반,A,A,A,B,B,B
과목,국어,수학,영어,국어,수학,영어
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,80.0,90.0,90.0,85.0,77.0,82.0
2,90.0,60.0,70.0,94.0,64.0,88.0
3,70.0,80.0,60.0,92.0,76.0,98.0
4,30.0,70.0,40.0,,,
평균,67.5,75.0,65.0,90.33,72.33,89.33
