In [None]:
"""
pandas index control

데이터프레임 인덱스 설정 및 제거
때로는 데이터프레임에 인덱스로 들어가 있어야 할 데이터가 일반 데이터 열에 
들어가 있거나 반대로 일반 데이터 열이어야 할 것이 인덱스로 되어 있을 수 있다.
이 때는 set_index 명령이나 reset_index 명령으로 인덱스와 일반 데이터 열을 
교환할 수 있다.

set_index : 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 인덱스로 설정
reset_index : 기존의 행 인덱스를 제거하고 인덱스를 마지막 데이터 열로 추가
"""

In [1]:
import numpy as np
import pandas as pd

In [2]:
np.random.seed(0)
df = pd.DataFrame(np.random.randint(1, 10, (10, 4)), 
                  columns=["C1", "C2", "C3", "C4"])
df

Unnamed: 0,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,5,8,7,9
3,9,2,7,8
4,8,9,2,6
5,9,5,4,1
6,4,6,1,3
7,4,9,2,4
8,4,4,8,1
9,2,1,5,8


In [4]:
# set_index() 
# 명령으로 column을 인덱스로 설정할 수 있다. 
# 이 때 기존 row index는 없어진다.
df1 = df.set_index("C1")
df1

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
6,1,4,4
8,4,6,3
5,8,7,9
9,2,7,8
8,9,2,6
9,5,4,1
4,6,1,3
4,9,2,4
4,4,8,1
2,1,5,8


In [5]:
# 마찬가지로 C2 열을 index로 설정하면 기존의 index는 사라진다.
df2 = df1.set_index("C2")
df2

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
1,4,4
4,6,3
8,7,9
2,7,8
9,2,6
5,4,1
6,1,3
9,2,4
4,8,1
1,5,8


In [7]:
# reset_index()
# 명령으로 인덱스 열을 보통의 자료열로 넣을 수 있다. 
# 이 때 인덱스 열은 자료열의 가장 선두로 삽입된다.
# 인덱스는 숫자로 된 디폴트 인덱스가 된다.
df1.reset_index()

Unnamed: 0,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,5,8,7,9
3,9,2,7,8
4,8,9,2,6
5,9,5,4,1
6,4,6,1,3
7,4,9,2,4
8,4,4,8,1
9,2,1,5,8


In [8]:
# reset_index(drop=True)
# index 열을 보통의 자료열로 올리는 것이 아니라 그냥 버리게 된다.
df1.reset_index(drop=True)

Unnamed: 0,C2,C3,C4
0,1,4,4
1,4,6,3
2,8,7,9
3,2,7,8
4,9,2,6
5,5,4,1
6,6,1,3
7,9,2,4
8,4,8,1
9,1,5,8


In [None]:
"""
연습 문제 1

5명의 학생의 국어, 영어, 수학 점수를 나타내는 데이터프레임 df_score을 
다음과 같이 만든다.

데이터프레임 df_score 생성시에 학생 이름을 나타내는 열이 
일반 데이터 열이 되도록 만든 후에 set_index 명령으로 인덱스로 변경한다.
학생 이름을 나타내는 열을 포함시키지 않고 데이터프레임 df_score 을 생성한 후,
df_score.index 속성에 학생 이름을 나타내는 열을 지정하여 인덱스를 지정한다. 
그 다음 reset_index 명령으로 이 인덱스 열을 일반 데이터 열로 만든다.
"""

In [16]:
data = {
    "name": ["lee", "jhon", "jackson", "choi", "seo"],
    "kor": list(np.random.randint(50, 100, 5)),
    "eng": list(np.random.randint(50, 100, 5)),
    "math": list(np.random.randint(50, 100, 5))
}
df_score = pd.DataFrame(data)
df_score

Unnamed: 0,eng,kor,math,name
0,71,84,73,lee
1,59,92,52,jhon
2,50,63,84,jackson
3,60,98,85,choi
4,93,89,80,seo


In [17]:
df_score.set_index("name")

Unnamed: 0_level_0,eng,kor,math
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
lee,71,84,73
jhon,59,92,52
jackson,50,63,84
choi,60,98,85
seo,93,89,80


In [19]:
data = {
    "kor": list(np.random.randint(50, 100, 5)),
    "eng": list(np.random.randint(50, 100, 5)),
    "math": list(np.random.randint(50, 100, 5))
}

df_score = pd.DataFrame(data)
df_score

Unnamed: 0,eng,kor,math
0,88,61,63
1,69,52,80
2,96,66,74
3,92,82,52
4,90,50,53


In [26]:
df_score.index = ["lee", "jhon", "jackson", "choi", "seo"]
df_score.index.name = "name"
df_score

Unnamed: 0_level_0,eng,kor,math
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
lee,88,61,63
jhon,69,52,80
jackson,96,66,74
choi,92,82,52
seo,90,50,53


In [27]:
df_score.reset_index()

Unnamed: 0,name,eng,kor,math
0,lee,88,61,63
1,jhon,69,52,80
2,jackson,96,66,74
3,choi,92,82,52
4,seo,90,50,53


In [None]:
"""
multiple index
행이나 열 각각에 여러 계층의 복수 인덱스 즉, 
다중 인덱스를 설정할 수도 있다.

데이터프레임을 생성할 때 columns 인수에 리스트의 리스트(행렬) 형태로 
인덱스를 넣으면 다중 열 인덱스를 가진다.
"""

In [30]:
np.random.seed(0)
df3 = pd.DataFrame(np.random.randint(1, 10, (10,4 )),
                   columns=[["A", "A", "B", "B"], 
                            ["C1", "C2", "C3", "C4"]])
df3

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,5,8,7,9
3,9,2,7,8
4,8,9,2,6
5,9,5,4,1
6,4,6,1,3
7,4,9,2,4
8,4,4,8,1
9,2,1,5,8


In [31]:
# 다중 인덱스는 이름을 지정하면 더 편리하게 사용할 수 있다. 
# 열 인덱스들의 이름 지정은 columns 객체의 names 속성에 
# 리스트를 넣어서 지정한다.

df3.columns.names = ["Cdx1", "Cdx2"]
df3

Cdx1,A,A,B,B
Cdx2,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,5,8,7,9
3,9,2,7,8
4,8,9,2,6
5,9,5,4,1
6,4,6,1,3
7,4,9,2,4
8,4,4,8,1
9,2,1,5,8


In [37]:
# 마찬가지로 데이터프레임을 생성할 때 index 인수에 
# 리스트의 리스트(행렬) 형태로 인덱스를 넣으면 다중 (행) 인덱스를 가진다. 
# 행 인덱스들의 이름 지정은 index 객체의 names 속성에 
# 리스트를 넣어서 지정한다.
np.random.seed(0)
df4 = pd.DataFrame(np.random.randint(1, 10, (8, 4)), 
                   columns=[["A", "A", "B", "B"],
                            ["C", "D", "C", "D"]],
                   index=[["M", "M", "M", "M", "F", "F", "F", "F"],
                          ["ID" + str(i) for i in range(4)] * 2])
df4.columns.names = ["Cdx1", "Cdx2"]
df4.index.names = ["Rdx1", "Rdx2"]
df4

Unnamed: 0_level_0,Cdx1,A,A,B,B
Unnamed: 0_level_1,Cdx2,C,D,C,D
Rdx1,Rdx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,ID0,6,1,4,4
M,ID1,8,4,6,3
M,ID2,5,8,7,9
M,ID3,9,2,7,8
F,ID0,8,9,2,6
F,ID1,9,5,4,1
F,ID2,4,6,1,3
F,ID3,4,9,2,4


In [None]:
"""
행 인덱스와 열 인덱스 교환

행 인덱스와 열 인덱스는 stack 명령이나 unstack 명령으로 교환할 수 있다.

stack()
열 인덱스 -> 행 인덱스로 변환

unstack()
행 인덱스 -> 열 인덱스로 변환

stack 명령을 실행하면 열 인덱스가 
시계 방향으로 90도 회전한 것과 비슷한 모양이 된다. 

마찬가지로 unstack 명령을 실행하면 행 인덱스가 반시계 방향으로
90도 회전한 것과 비슷하다.

인덱스 조작시에는 이름이나 숫자 인덱스를 사용한다.
"""

In [43]:
df4.stack("Cdx1")

Unnamed: 0_level_0,Unnamed: 1_level_0,Cdx2,C,D
Rdx1,Rdx2,Cdx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,ID0,A,6,1
M,ID0,B,4,4
M,ID1,A,8,4
M,ID1,B,6,3
M,ID2,A,5,8
M,ID2,B,7,9
M,ID3,A,9,2
M,ID3,B,7,8
F,ID0,A,8,9
F,ID0,B,2,6


In [49]:
df4.stack(1)

Unnamed: 0_level_0,Unnamed: 1_level_0,Cdx1,A,B
Rdx1,Rdx2,Cdx2,Unnamed: 3_level_1,Unnamed: 4_level_1
M,ID0,C,6,4
M,ID0,D,1,4
M,ID1,C,8,6
M,ID1,D,4,3
M,ID2,C,5,7
M,ID2,D,8,9
M,ID3,C,9,7
M,ID3,D,2,8
F,ID0,C,8,2
F,ID0,D,9,6


In [51]:
df4.unstack("Rdx2")

Cdx1,A,A,A,A,A,A,A,A,B,B,B,B,B,B,B,B
Cdx2,C,C,C,C,D,D,D,D,C,C,C,C,D,D,D,D
Rdx2,ID0,ID1,ID2,ID3,ID0,ID1,ID2,ID3,ID0,ID1,ID2,ID3,ID0,ID1,ID2,ID3
Rdx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3
F,8,9,4,4,9,5,6,9,2,4,1,2,6,1,3,4
M,6,8,5,9,1,4,8,2,4,6,7,7,4,3,9,8


In [52]:
df4.unstack(0)

Cdx1,A,A,A,A,B,B,B,B
Cdx2,C,C,D,D,C,C,D,D
Rdx1,F,M,F,M,F,M,F,M
Rdx2,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
ID0,8,6,9,1,2,4,6,4
ID1,9,8,5,4,4,6,1,3
ID2,4,5,6,8,1,7,3,9
ID3,4,9,9,2,2,7,4,8


In [None]:
"""
다중 인덱스가 있는 경우의 인덱싱
데이터프레임이 다중 인덱스를 가지는 경우에는 
인덱스가 하나의 라벨이나 숫자가 아니라 ()로 둘러싸인 튜플이 되어야 한다. 
만약 하나의 레벨 값만 넣으면 다중 인덱스 중에서
가장 상위의 값을 지정한 것으로 본다.

예를 들어 앞에서 만든 df3 데이터프레임의 경우 다음과 같이 인덱싱한다.
"""

In [53]:
df3

Cdx1,A,A,B,B
Cdx2,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,5,8,7,9
3,9,2,7,8
4,8,9,2,6
5,9,5,4,1
6,4,6,1,3
7,4,9,2,4
8,4,4,8,1
9,2,1,5,8


In [54]:
# 상위 A열 읽기
df3["A"]

Cdx2,C1,C2
0,6,1
1,8,4
2,5,8
3,9,2
4,8,9
5,9,5
6,4,6
7,4,9
8,4,4
9,2,1


In [55]:
# 상위 A열의 하위 C1열 읽기
df3[("A", "C1")]

0    6
1    8
2    5
3    9
4    8
5    9
6    4
7    4
8    4
9    2
Name: (A, C1), dtype: int32

In [66]:
# 2행, 상위 A열 하위 c1열
df3.loc[2, ("A", "C1")]

5

In [67]:
# 2행, B-C3열 데이터 값 변경
 df3.loc[2, ("B", "C3")] = 55
 df3

Cdx1,A,A,B,B
Cdx2,C1,C2,C3,C4
0,6,1,4,4
1,8,4,6,3
2,5,8,55,9
3,9,2,7,8
4,8,9,2,6
5,9,5,4,1
6,4,6,1,3
7,4,9,2,4
8,4,4,8,1
9,2,1,5,8


In [68]:
# 다중 열 index, 다중 행 index
# 상위 M행 하위 ID0행, 상위 A열 하위 C열
df4.loc[("M", "ID0"), ("A", "C")]

6

In [69]:
# A-C 열
df4.loc[:, ("A", "C")]

Rdx1  Rdx2
M     ID0     6
      ID1     8
      ID2     5
      ID3     9
F     ID0     8
      ID1     9
      ID2     4
      ID3     4
Name: (A, C), dtype: int32

In [70]:
# M-ID0 행
df4.loc[("M", "ID0"), :]

Cdx1  Cdx2
A     C       6
      D       1
B     C       4
      D       4
Name: (M, ID0), dtype: int32

In [71]:
# All 행 추가(합계)
df4.loc[("All", "All"), :] = df4.sum()
df4

Unnamed: 0_level_0,Cdx1,A,A,B,B
Unnamed: 0_level_1,Cdx2,C,D,C,D
Rdx1,Rdx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,ID0,6.0,1.0,4.0,4.0
M,ID1,8.0,4.0,6.0,3.0
M,ID2,5.0,8.0,7.0,9.0
M,ID3,9.0,2.0,7.0,8.0
F,ID0,8.0,9.0,2.0,6.0
F,ID1,9.0,5.0,4.0,1.0
F,ID2,4.0,6.0,1.0,3.0
F,ID3,4.0,9.0,2.0,4.0
All,All,53.0,44.0,33.0,38.0


In [76]:
# All 열 추가
df4[("All", "All")] = df4.sum(axis=1)
df4

Unnamed: 0_level_0,Cdx1,A,A,B,B,All
Unnamed: 0_level_1,Cdx2,C,D,C,D,All
Rdx1,Rdx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
M,ID0,6.0,1.0,4.0,4.0,15.0
M,ID1,8.0,4.0,6.0,3.0,21.0
M,ID2,5.0,8.0,7.0,9.0,29.0
M,ID3,9.0,2.0,7.0,8.0,26.0
F,ID0,8.0,9.0,2.0,6.0,25.0
F,ID1,9.0,5.0,4.0,1.0,19.0
F,ID2,4.0,6.0,1.0,3.0,14.0
F,ID3,4.0,9.0,2.0,4.0,19.0
All,All,53.0,44.0,33.0,38.0,168.0
