# 데이터프레임 인덱스 설정 및 제거
### 인덱스 -> 일반 데이터 열 or 일반 데이터 열이어야 할 것 -> 인덱스로 되어있는 경우 존재
### -> set_index or reset_index => 인덱스와 일반 데이터 열 교환 가능
### set_index : 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 인덱스로 설정
### reset_index : 기존의 행 인덱스를 제거하고 인덱스를 마지막 데이터 열로 추고

In [1]:
import numpy as np
import pandas as pd

In [6]:
np.random.seed(0)
df = pd.DataFrame(np.random.randint(1, 10, (10, 4)),
                   columns=["C1","C2","C3","C4"])
df

Unnamed: 0,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,5,8,7,9
3,9,2,7,8
4,8,9,2,6
5,9,5,4,1
6,4,6,1,3
7,4,9,2,4
8,4,4,8,1
9,2,1,5,8


In [7]:
df1 = df.set_index("C1")
df1

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
6,1,4,4
8,4,6,3
5,8,7,9
9,2,7,8
8,9,2,6
9,5,4,1
4,6,1,3
4,9,2,4
4,4,8,1
2,1,5,8


In [1]:
df2 = df1.set_index("C2")
df2

NameError: name 'df1' is not defined

## - reset_index : 인덱스 열을 보통의 자료열로 넣을 수 있따. 인덱스 열은 자료열의 가장 선두로 삽입
## - 인덱스는 숫자로 된 디폴트 인덱스가 된다.

In [9]:
df1.reset_index()

Unnamed: 0,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,5,8,7,9
3,9,2,7,8
4,8,9,2,6
5,9,5,4,1
6,4,6,1,3
7,4,9,2,4
8,4,4,8,1
9,2,1,5,8


In [10]:
df1.reset_index(drop=True) # drop=True : 인덱스 열을 보통의 자료열로 올리는 것이 아닌 버리는 것

Unnamed: 0,C2,C3,C4
0,1,4,4
1,4,6,3
2,8,7,9
3,2,7,8
4,9,2,6
5,5,4,1
6,6,1,3
7,9,2,4
8,4,8,1
9,1,5,8


In [11]:
# 연습문제1
df_score = pd.DataFrame(np.random.randint(1, 10, (10, 4)),
                        columns=["국어","수학","영어","과학"])
df

Unnamed: 0,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,5,8,7,9
3,9,2,7,8
4,8,9,2,6
5,9,5,4,1
6,4,6,1,3
7,4,9,2,4
8,4,4,8,1
9,2,1,5,8


In [11]:
# 다중 인덱스
# 데이터 프레임 생성 시 columns 인수에 리스트의 리스트(행렬) 형태로 인덱스를 넣으면 다중 열 인덱스를 가진다.
np.random.seed(0)
df3 = pd.DataFrame(np.random.randint(1, 10, (10, 4)),
                   columns=[["A","A","B","B"], ["C1", "C2", "C3", "C4"]])
df3

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,5,8,7,9
3,9,2,7,8
4,8,9,2,6
5,9,5,4,1
6,4,6,1,3
7,4,9,2,4
8,4,4,8,1
9,2,1,5,8


In [12]:
df3.columns.names = ["Cdx1", "Cdx2"]
df3

Cdx1,A,A,B,B
Cdx2,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,5,8,7,9
3,9,2,7,8
4,8,9,2,6
5,9,5,4,1
6,4,6,1,3
7,4,9,2,4
8,4,4,8,1
9,2,1,5,8


In [3]:
np.random.seed(0)
df4 = pd.DataFrame(np.random.randint(1, 10, (8, 4)),
                   columns=[["A","A","B","B"],["C","D","C","D"]],
                   index=[["M","M","M","M","F","F","F","F"],["ID" + str(i) for  i in range(4)] * 2])
df4.columns.names = ["Cdx1", "Cdx2"]
df4.index.names=["Rdx1","Rdx2"]
df4

Unnamed: 0_level_0,Cdx1,A,A,B,B
Unnamed: 0_level_1,Cdx2,C,D,C,D
Rdx1,Rdx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,ID0,6,1,4,4
M,ID1,8,4,6,3
M,ID2,5,8,7,9
M,ID3,9,2,7,8
F,ID0,8,9,2,6
F,ID1,9,5,4,1
F,ID2,4,6,1,3
F,ID3,4,9,2,4


## * 행 인덱스와 열 인덱스 교환 -> stack이나 unstack 명령으로 교환 가능
### - stack() : 열인덱스 -> 행인덱스로 변환, 열 인덱스가 시계 방향으로 90도 회전한 것과 비슷한 모양이 된다.
### - unstack() : 행인덱스 -> 열인덱스로 변환, 행 인덱스가 반 시계방향으로 90도 회전한 것과 비슷하다.

In [5]:
df4.stack("Cdx1")

Unnamed: 0_level_0,Unnamed: 1_level_0,Cdx2,C,D
Rdx1,Rdx2,Cdx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,ID0,A,6,1
M,ID0,B,4,4
M,ID1,A,8,4
M,ID1,B,6,3
M,ID2,A,5,8
M,ID2,B,7,9
M,ID3,A,9,2
M,ID3,B,7,8
F,ID0,A,8,9
F,ID0,B,2,6


In [6]:
df4.stack(0)

Unnamed: 0_level_0,Unnamed: 1_level_0,Cdx2,C,D
Rdx1,Rdx2,Cdx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,ID0,A,6,1
M,ID0,B,4,4
M,ID1,A,8,4
M,ID1,B,6,3
M,ID2,A,5,8
M,ID2,B,7,9
M,ID3,A,9,2
M,ID3,B,7,8
F,ID0,A,8,9
F,ID0,B,2,6


In [7]:
df4.unstack("Rdx2")

Cdx1,A,A,A,A,A,A,A,A,B,B,B,B,B,B,B,B
Cdx2,C,C,C,C,D,D,D,D,C,C,C,C,D,D,D,D
Rdx2,ID0,ID1,ID2,ID3,ID0,ID1,ID2,ID3,ID0,ID1,ID2,ID3,ID0,ID1,ID2,ID3
Rdx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3
F,8,9,4,4,9,5,6,9,2,4,1,2,6,1,3,4
M,6,8,5,9,1,4,8,2,4,6,7,7,4,3,9,8


In [8]:
df4.unstack(1)

Cdx1,A,A,A,A,A,A,A,A,B,B,B,B,B,B,B,B
Cdx2,C,C,C,C,D,D,D,D,C,C,C,C,D,D,D,D
Rdx2,ID0,ID1,ID2,ID3,ID0,ID1,ID2,ID3,ID0,ID1,ID2,ID3,ID0,ID1,ID2,ID3
Rdx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3
F,8,9,4,4,9,5,6,9,2,4,1,2,6,1,3,4
M,6,8,5,9,1,4,8,2,4,6,7,7,4,3,9,8


In [9]:
#다중 인덱스가 있는 경우의 인덱싱
#데이터프레임이 다중 인덱스를 가지는 경우, 인덱스가 ()로 둘러싸인 튜플이 되어야 한다. 만약 하나의 레벨 값만 넣으면 다중 인덱스 중에서 가장 상위인 값을 지정한 것으로 본다.

In [13]:
df3

Cdx1,A,A,B,B
Cdx2,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,5,8,7,9
3,9,2,7,8
4,8,9,2,6
5,9,5,4,1
6,4,6,1,3
7,4,9,2,4
8,4,4,8,1
9,2,1,5,8


In [14]:
df3["A"]

Cdx2,C1,C2
0,6,1
1,8,4
2,5,8
3,9,2
4,8,9
5,9,5
6,4,6
7,4,9
8,4,4
9,2,1


In [15]:
df3[("A","C1")]

0    6
1    8
2    5
3    9
4    8
5    9
6    4
7    4
8    4
9    2
Name: (A, C1), dtype: int32

In [16]:
df3.loc[2,("A","C1")]

5

In [17]:
df3.loc[2,("A","C1")]=555

In [18]:
df3

Cdx1,A,A,B,B
Cdx2,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,555,8,7,9
3,9,2,7,8
4,8,9,2,6
5,9,5,4,1
6,4,6,1,3
7,4,9,2,4
8,4,4,8,1
9,2,1,5,8


In [19]:
df4

Unnamed: 0_level_0,Cdx1,A,A,B,B
Unnamed: 0_level_1,Cdx2,C,D,C,D
Rdx1,Rdx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,ID0,6,1,4,4
M,ID1,8,4,6,3
M,ID2,5,8,7,9
M,ID3,9,2,7,8
F,ID0,8,9,2,6
F,ID1,9,5,4,1
F,ID2,4,6,1,3
F,ID3,4,9,2,4


In [20]:
df4.loc[("M","ID0"),("A","C")]

6

In [21]:
df4.loc[:,("A","C")]

Rdx1  Rdx2
M     ID0     6
      ID1     8
      ID2     5
      ID3     9
F     ID0     8
      ID1     9
      ID2     4
      ID3     4
Name: (A, C), dtype: int32

In [22]:
df4.loc[("All","All"),:] = df4.sum()

In [23]:
df4

Unnamed: 0_level_0,Cdx1,A,A,B,B
Unnamed: 0_level_1,Cdx2,C,D,C,D
Rdx1,Rdx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,ID0,6.0,1.0,4.0,4.0
M,ID1,8.0,4.0,6.0,3.0
M,ID2,5.0,8.0,7.0,9.0
M,ID3,9.0,2.0,7.0,8.0
F,ID0,8.0,9.0,2.0,6.0
F,ID1,9.0,5.0,4.0,1.0
F,ID2,4.0,6.0,1.0,3.0
F,ID3,4.0,9.0,2.0,4.0
All,All,53.0,44.0,33.0,38.0


In [24]:
# 다중 인덱스의 인덱스 순서 교환
# swaplevel : 다중 인덱스의 인덱스 순서를 바꾸고 싶을 때
# swaplevel(i, j, axis) : i,j는 교환하고자 하는 인덱스 라벨(혹은 인덱스 번호) axis=0 행 인덱스, 1일 때 열 인덱스

In [25]:
df4.swaplevel("Rdx1", "Rdx2")

Unnamed: 0_level_0,Cdx1,A,A,B,B
Unnamed: 0_level_1,Cdx2,C,D,C,D
Rdx2,Rdx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
ID0,M,6.0,1.0,4.0,4.0
ID1,M,8.0,4.0,6.0,3.0
ID2,M,5.0,8.0,7.0,9.0
ID3,M,9.0,2.0,7.0,8.0
ID0,F,8.0,9.0,2.0,6.0
ID1,F,9.0,5.0,4.0,1.0
ID2,F,4.0,6.0,1.0,3.0
ID3,F,4.0,9.0,2.0,4.0
All,All,53.0,44.0,33.0,38.0


In [26]:
df4.swaplevel("Cdx1","Cdx2",1)

Unnamed: 0_level_0,Cdx2,C,D,C,D
Unnamed: 0_level_1,Cdx1,A,A,B,B
Rdx1,Rdx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,ID0,6.0,1.0,4.0,4.0
M,ID1,8.0,4.0,6.0,3.0
M,ID2,5.0,8.0,7.0,9.0
M,ID3,9.0,2.0,7.0,8.0
F,ID0,8.0,9.0,2.0,6.0
F,ID1,9.0,5.0,4.0,1.0
F,ID2,4.0,6.0,1.0,3.0
F,ID3,4.0,9.0,2.0,4.0
All,All,53.0,44.0,33.0,38.0


In [47]:
# 연습문제2
# A반 학생 5명, B반 학생 5명 국어, 영어, 수학 점수를 나타내는 데이터프레임
#1. 반, 번호, 국어, 영어, 수학을 열로 가지는 데이터 프레임 df_score2
df_score2 = pd.DataFrame(np.random.randint(1, 10, (10, 5)),
                         columns = ["반", "번호", "국어", "영어", "수학"],
                         index = [["A","A","A","A","A","B","B","B","B","B"],[str(i) for i in range(5)] * 2])
df_score2

Unnamed: 0,Unnamed: 1,반,번호,국어,영어,수학
A,0,5,1,3,4,2
A,1,8,2,4,5,2
A,2,8,5,1,3,8
A,3,5,1,3,7,3
A,4,5,6,5,5,9
B,0,2,6,8,1,2
B,1,4,3,9,3,5
B,2,9,3,9,8,9
B,3,3,4,4,7,1
B,4,4,7,4,7,4


In [55]:
# df_score2 : 1차 행 인덱스를 반, 2차 행 인덱스로 번호
df_score2.stack("반")

TypeError: 'tuple' object is not callable

In [76]:
# 각 학생의 평균을 나타내는 행을 오른쪽에 추가
df_score2.loc[:,"평균"] = df_score2.mean(axis=1)
df_score2

Unnamed: 0,Unnamed: 1,반,번호,국어,영어,수학,평균
A,0,5,1,3,4,2,3.0
A,1,8,2,4,5,2,4.2
A,2,8,5,1,3,8,5.0
A,3,5,1,3,7,3,3.8
A,4,5,6,5,5,9,6.0
B,0,2,6,8,1,2,3.8
B,1,4,3,9,3,5,4.8
B,2,9,3,9,8,9,7.6
B,3,3,4,4,7,1,3.8
B,4,4,7,4,7,4,5.2


In [None]:
# df_score2를 변형 -> 행 인덱스로 "번호"을, 1차 열 인덱스로 "국여","영어","수학"을 2차 열 인덱스로 "반"을 가지는 데이터 프레임 생성