In [95]:
import pandas as pd
import numpy as np

### 계층 색인
- 행, 열의 각 축에 대해 다중 단계(계층)를 지정하여 데이터에 차원을 설정
- 인덱스에 다차원 리스트를 전달하면 계층 색인을 지정할 수 있음
- 데이터 구조를 재배열하거나 pivot 테이블과 같은 그룹 기반 작업에 유용
- 재배열 메서드
    - stack() : 컬럼을 로우로 피벗
    - unstack() : 로우를 컬럼으로 피벗

In [96]:
# Series
# 인덱스에 다차원 리스트(아이템 2개)를 전달
# 다차원리스트[0] : 상위계층
# 상위계층 작성시 주의점 : 각 계층별로 속하는 하위계층 값의 개수만큼 계층명 작성
# 상위계층 리스트 개수 = 하위계층 리스트 개수
# 다차원리스트[1] : 하위계층
# 실습--->
# 로우 인덱스 - 상위계층 : a, b, c, d
# 하위계층 : a(1, 2, 3), b(1, 2), c(1, 2, 3, 4), d(1)
s1 = pd.Series(np.arange(10),
               index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'c', 'c', 'd'],
                     [1, 2, 3, 1, 2, 1, 2, 3, 4, 1]])
s1

a  1    0
   2    1
   3    2
b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [97]:
# s1 인덱스 확인
s1.index

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2),
            ('c', 3),
            ('c', 4),
            ('d', 1)],
           )

In [98]:
# 상위 인덱스(상위 계층)에 접근
# 계층 색인이 적용된 객체에 상위 인덱스에 접근 : 일반적인 Series 인덱싱으로 접근
s1['c']

1    5
2    6
3    7
4    8
dtype: int32

In [99]:
# 계층색인에 대한 슬라이싱 : 마지막 인덱스도 포함 ('b' : 'd'로 입력시 b, c, d 조회)
s1['b' : 'd']

b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [100]:
s1

a  1    0
   2    1
   3    2
b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [101]:
# 하위계층에 접근
# a, b, c, d에서 하위계층 레벨번호 2인 데이터만 조회
# 데이터[상위계층범위, 하위계츨번호]
# d는 1개밖에 없고 2번이 없기 때문에 출력되지않습니다.
s1[:,2]

a    1
b    4
c    6
dtype: int32

In [102]:
# 하위 계층에 슬라이싱 : loc메서드를 이용하여 슬라이싱
# 상위계층이 c이고 하위계층을 2~4까지 슬라이싱 (마지막번호도 포함)
s1['c'][2:4]

3    7
4    8
dtype: int32

In [103]:
# .loc 이용시 이렇게 나옵니다.
s1['c'].loc[2:4]

2    6
3    7
4    8
dtype: int32

In [104]:
# unstack() : 최하위(기본동작)에 있는 로우 계층을  컬럼으로 적용하여 위로 올림
# Series 객체를 DataFrame으로 재배열 할 수 있음
# NaN : 기존에는 없던 로우 계층에 대한 값
s1

a  1    0
   2    1
   3    2
b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [105]:
# a4는 없어서 NaN값을 출력합니다.
# 다른 없는 값 또한 마찬가지입니다.
s1.unstack()

Unnamed: 0,1,2,3,4
a,0.0,1.0,2.0,
b,3.0,4.0,,
c,5.0,6.0,7.0,8.0
d,9.0,,,


In [106]:
# stack()메서드 : 컬럼에 있던 값을, 멀티인덱스의 하위 인덱스로 내려서 재배열
# DataFarame을 가시 Series()로 바꿔줄떄 사용
s1.unstack().stack()

a  1    0.0
   2    1.0
   3    2.0
b  1    3.0
   2    4.0
c  1    5.0
   2    6.0
   3    7.0
   4    8.0
d  1    9.0
dtype: float64

In [107]:
# DataFrame 생성
# 구조 : 4 x 5
# 로우 인덱스 : 상위(2017, 2018) / 하위(모든 상위 인덱스에 대해 동일하게 'a', 'b')
# 컬럼 인덱스 : 상위(서울, 경기) / 하위(서울-강남, 잠실 / 경기-분당, 수원, 판교)
# 값 : 1씩 증가하는 20개
# 멀티 인덱스, 컬럼
df = pd.DataFrame(np.arange(20).reshape(4, 5),
                 index=[[2017, 2017, 2018, 2018],
                       ['a', 'b', 'a', 'b']],
                 columns=[['서울', '서울', '경기', '경기', '경기'],
                         ['강남', '잠실', '분당', '수원', '판교']])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,Unnamed: 1_level_1,강남,잠실,분당,수원,판교
2017,a,0,1,2,3,4
2017,b,5,6,7,8,9
2018,a,10,11,12,13,14
2018,b,15,16,17,18,19


In [108]:
# 컬럼의 상위계층접근 : 일반적인 df컬럼 인덱싱 방식
# 서울 데이터만 조회
df['서울']

Unnamed: 0,Unnamed: 1,강남,잠실
2017,a,0,1
2017,b,5,6
2018,a,10,11
2018,b,15,16


In [109]:
# 이중컬럼이기 때문에 인덱싱을 이중으로 해야 하나의 요소 조회 가능
df['서울']['강남']

2017  a     0
      b     5
2018  a    10
      b    15
Name: 강남, dtype: int32

In [110]:
# 서울 강남 2017년 b만 가져올 때
df['서울']['강남'][2017]['b']

5

In [111]:
# 혹은 한번에 조회하고 싶다면 튜플로 전달
df[('서울', '강남')]

2017  a     0
      b     5
2018  a    10
      b    15
Name: (서울, 강남), dtype: int32

In [112]:
# 로우의 상위 계층 접근
# 2017 데이터 불러오기
df.loc[2017]

Unnamed: 0_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,강남,잠실,분당,수원,판교
a,0,1,2,3,4
b,5,6,7,8,9


In [113]:
# 방법 1. 2017 전반기 데이터
df.loc[2017].loc['a']

서울  강남    0
    잠실    1
경기  분당    2
    수원    3
    판교    4
Name: a, dtype: int32

In [114]:
# 방법 2. 2017 전반기 데이터(튜플로 전달)
df.loc[(2017, 'a')]

서울  강남    0
    잠실    1
경기  분당    2
    수원    3
    판교    4
Name: (2017, a), dtype: int32

In [115]:
# 분당 ~ 수원까지만 데이터를 조회
# 주의점 : 데이터프레임 컬럼은 로우슬라이싱 결과에 대해서만 슬라이싱 적용
# df['경기']['분당':'수원'] -> Error(컬럼 슬라이싱은 단독으로 불가능)

df['경기'].loc[:,'분당' : '수원']

Unnamed: 0,Unnamed: 1,분당,수원
2017,a,2,3
2017,b,7,8
2018,a,12,13
2018,b,17,18


In [116]:
# df로우 최하위계층인 a,b를 컬럼으로 올리려면??
# 이렇게 하면 3단컬럼으로 변경됩니다.
df.unstack()

Unnamed: 0_level_0,서울,서울,서울,서울,경기,경기,경기,경기,경기,경기
Unnamed: 0_level_1,강남,강남,잠실,잠실,분당,분당,수원,수원,판교,판교
Unnamed: 0_level_2,a,b,a,b,a,b,a,b,a,b
2017,0,5,1,6,2,7,3,8,4,9
2018,10,15,11,16,12,17,13,18,14,19


In [117]:
# 컬럼의 최하위를 로우의 하위계층으로 재배열
# 이렇게 하면 a,b 로우밑에 강남으로 재배치됩니다.
df.stack()

Unnamed: 0,Unnamed: 1,Unnamed: 2,경기,서울
2017,a,강남,,0.0
2017,a,분당,2.0,
2017,a,수원,3.0,
2017,a,잠실,,1.0
2017,a,판교,4.0,
2017,b,강남,,5.0
2017,b,분당,7.0,
2017,b,수원,8.0,
2017,b,잠실,,6.0
2017,b,판교,9.0,


In [118]:
# 계층의 인덱스번호 or 라벨을 이용하여 상/하위간 교환
# swaplevel(key1, key2, axis = 0(기본값))
# axis가 0인 경우는 row의 상하위개념이 뒤집힙니다.
df.swaplevel(1,0,axis = 0)

Unnamed: 0_level_0,Unnamed: 1_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,Unnamed: 1_level_1,강남,잠실,분당,수원,판교
a,2017,0,1,2,3,4
b,2017,5,6,7,8,9
a,2018,10,11,12,13,14
b,2018,15,16,17,18,19


In [119]:
# axis = 1은 로우 계층 변동이 아닌 컬럼 계층변동
df.swaplevel(1,0,axis = 1)

Unnamed: 0_level_0,Unnamed: 1_level_0,강남,잠실,분당,수원,판교
Unnamed: 0_level_1,Unnamed: 1_level_1,서울,서울,경기,경기,경기
2017,a,0,1,2,3,4
2017,b,5,6,7,8,9
2018,a,10,11,12,13,14
2018,b,15,16,17,18,19


### 정렬
- obj.sort_index() : 인덱스를 기준으로 정렬 (기본값은 ascending=True, 오름차순 정렬)
    - DataFrame, Series
        - axis = 0 : 기본값, 로우 인덱스 기준으로 정렬
        - axis = 1 : 컬럼 인덱스 기준으로 정렬
- obj.sort_values() : 값을 기준으로 정렬
    - DataFrame, Series
        - by : 정렬의 기준이 되는 인덱스 값 전달
        - axis = 0 : 기본값, 컬럼을 기준으로 로우 인덱스를 정렬하며 기준값으로 by에 인덱스 컬럼 레벨 또는 컬럼명 전달
        - axis = 1 : 로우 인덱스를 기준으로 컬럼 라벨을 정렬하며 기준값으로 by에 레벨 또는 라벨명 전달

In [120]:
# Series 생성
# 값과 인덱스라벨이 순서대로 들어가지 않은 Series
s1 = pd.Series([2,3,1,7,0], index = list('gacfd'))
s1

g    2
a    3
c    1
f    7
d    0
dtype: int64

In [121]:
# 인덱스기준 오름차순 정렬
# 기본동작 : 오름차순 & 로우 인덱스
s1.sort_index()


a    3
c    1
d    0
f    7
g    2
dtype: int64

In [122]:
# 인덱스기준 내림차순 정렬
s1.sort_index(ascending = False)

g    2
f    7
d    0
c    1
a    3
dtype: int64

In [123]:
# 시뮬레이션이므로 s1자체에 영향없음
s1

g    2
a    3
c    1
f    7
d    0
dtype: int64

In [124]:
# 값 기준으로 오름차순 정렬
s1.sort_values()

d    0
c    1
g    2
a    3
f    7
dtype: int64

In [125]:
# 값 기준으로 내림차순 정렬
s1.sort_values(ascending = False)

f    7
a    3
g    2
c    1
d    0
dtype: int64

In [126]:
# 난수 시드 고정
np.random.seed(4)

In [127]:
# DataFrame 생성
# 4 * 5, 무작위 정수
# 로우/컬럼 인덱스도 순서가 없는 값 지정
df1 = pd.DataFrame(np.random.randint(20, size = (4,5)),
                   index = list('hcae'),
                   columns = list('EAFCD'))

df1

Unnamed: 0,E,A,F,C,D
h,14,5,1,8,8
c,18,9,7,13,8
a,4,18,12,6,10
e,3,0,9,6,6


In [128]:
# 로우 인덱스 기준으로 오름차순 정렬(axis = 0)
df1.sort_index()

Unnamed: 0,E,A,F,C,D
a,4,18,12,6,10
c,18,9,7,13,8
e,3,0,9,6,6
h,14,5,1,8,8


In [129]:
# 로우인덱스 기준으로 내림차순 정렬
df1.sort_index(ascending = False)

Unnamed: 0,E,A,F,C,D
h,14,5,1,8,8
e,3,0,9,6,6
c,18,9,7,13,8
a,4,18,12,6,10


In [130]:
# 컬럼명 기준으로 오름차순정렬
df1.sort_index(axis = 1)

Unnamed: 0,A,C,D,E,F
h,5,8,8,14,1
c,9,13,8,18,7
a,18,6,10,4,12
e,0,6,6,3,9


In [131]:
# 컬럼명 기준으로 내림차순정렬
df1.sort_index(axis = 1, ascending = False)

Unnamed: 0,F,E,D,C,A
h,1,14,8,8,5
c,7,18,8,13,9
a,12,4,10,6,18
e,9,3,6,6,0


In [132]:
# 컬럼 기준으로 내림차순 정렬후 , 로우기준으로 오름차순 정렬
df1.sort_index(axis = 1, ascending = False).sort_index()

Unnamed: 0,F,E,D,C,A
a,12,4,10,6,18
c,7,18,8,13,9
e,9,3,6,6,0
h,1,14,8,8,5


In [133]:
# 당연하지만 원본에는 영향이 없습니다.
df1

Unnamed: 0,E,A,F,C,D
h,14,5,1,8,8
c,18,9,7,13,8
a,4,18,12,6,10
e,3,0,9,6,6


In [134]:
# 값 기준으로 정렬
# 컬럼 D의 값을 기준으로 오름차순
# sort_values(axis = m0, by = '기준컬럼이름') : 기본동작(정렬결과를 로우에 반영)
df1.sort_values(by = 'D')

Unnamed: 0,E,A,F,C,D
e,3,0,9,6,6
h,14,5,1,8,8
c,18,9,7,13,8
a,4,18,12,6,10


In [135]:
# 컬럼 A를 기준으로 내림차순 정렬
df1.sort_values(by = 'A', ascending = False)

Unnamed: 0,E,A,F,C,D
a,4,18,12,6,10
c,18,9,7,13,8
h,14,5,1,8,8
e,3,0,9,6,6


In [136]:
# 인덱스라벨(로우) c의 값을 오름차순으로 정렬
# 결과적으로는 정렬괴는 대상 : 컬럼
# 정렬의 기준 : 로우 레이블
df1.sort_values(by = 'c', axis = 1)

Unnamed: 0,F,D,A,C,E
h,1,8,5,8,14
c,7,8,9,13,18
a,12,10,18,6,4
e,9,6,0,6,3


In [137]:
# 로우 'e'의 값을 기준으로 내림차순 정렬
df1.sort_values(by = 'e', axis = 1, ascending = False)

Unnamed: 0,F,C,D,E,A
h,1,8,8,14,5
c,7,13,8,18,9
a,12,6,10,4,18
e,9,6,6,3,0


In [138]:
# 두 개의 컬럼에 대해서 정렬 : 리스트로 묶어서 by의 인자값으로 전달
# 정렬 우선순위 : 차례대로 1순위 > 2순위(1순위 동점시 2순위로 넘어감)
# 1순위 정렬 후 1순위 컬럼의 동점값에 대해 2순위 컬럼의 값이 재정렬
# 동일한 값이 아니라면 무조건 1순위 컬럼이 우선
# D기준으로 먼저 정렬하고 동점의 경우 E로 구분합니다.
df1.sort_values(by = ['D', 'E'])

Unnamed: 0,E,A,F,C,D
e,3,0,9,6,6
h,14,5,1,8,8
c,18,9,7,13,8
a,4,18,12,6,10


In [139]:
# e는 오름차순, c는 내림차순으로 하고싶다면
# ascending = [True, False]와 같이 각각의 기준에 대해서 ascending을 따로 매겨줍니다.


Unnamed: 0,A,E,C,D,F
h,5,14,8,8,1
c,9,18,13,8,7
a,18,4,6,10,12
e,0,3,6,6,9


### 연습문제

#### 1. 아래의 데이터프레임을 생성하세요

- 학생들의 점수는 50 이상 100 미만의 무작위 정수 값을 생성하여 사용

<img src="img/df_sort_practice1.png" width=250 align='left'>

In [140]:
# 데이터프레임 생성
df = pd.DataFrame(np.random.randint(50, 100, (5, 4)),
                 index=['Kim', 'Park', 'Lee', 'Jung', 'Moon'],
                 columns=[[2016, 2016, 2017, 2017],
                         ['영어', '수학', '영어', '수학']])
df

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
Kim,52,96,80,58
Park,99,52,73,82
Lee,90,92,95,83
Jung,82,95,78,53
Moon,65,84,81,67


In [141]:
# 로우 인덱스 이름 설정
df.index.name = '학생명'
df

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,52,96,80,58
Park,99,52,73,82
Lee,90,92,95,83
Jung,82,95,78,53
Moon,65,84,81,67


In [142]:
# 컬럼 인덱스 이름 설정(리스트로 넘김)
# 멀티 인덱스는 df.columns.set_names 로 세팅 가능하다
# 혹은
# df.columns.names = '카테고리1', '카테고리2'...
# 로도 대체가 가능합니다.
df.columns.set_names(['연도', '과목명'], inplace=True)
df

연도,2016,2016,2017,2017
과목명,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,52,96,80,58
Park,99,52,73,82
Lee,90,92,95,83
Jung,82,95,78,53
Moon,65,84,81,67


#### 2. 2016년 데이터만 별도의 데이터프레임으로 분리 저장하세요.(깊은복사)

In [143]:
df2016 = df[2016].copy()
df2016

과목명,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,52,96
Park,99,52
Lee,90,92
Jung,82,95
Moon,65,84


#### 3. 2016년 데이터에 대해 학생 이름을 기준으로 오름차순 정렬하세요.

In [144]:
df2016.sort_index()

과목명,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Jung,82,95
Kim,52,96
Lee,90,92
Moon,65,84
Park,99,52


#### 4. 2016년 데이터의 과목별 점수에 대하여 영어 점수가 높은 순서로 정렬하고, 영어 점수 동점자의 경우 수학 점수가 낮은 순서로 정렬하세요.

In [145]:
df2016

과목명,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,52,96
Park,99,52
Lee,90,92
Jung,82,95
Moon,65,84


In [146]:
# 2등 lee와 4인 moon의 점수를 동일하게 90점으로 통일
df2016['영어']['Moon'] = 90
df2016

과목명,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,52,96
Park,99,52
Lee,90,92
Jung,82,95
Moon,90,84


In [147]:
df2016.sort_values(by=['영어', '수학'], ascending=[False, True])

과목명,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Park,99,52
Moon,90,84
Lee,90,92
Jung,82,95
Kim,52,96
