In [2]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

# 정렬
## * 데이터 정렬 : sort_values()
<img src="img/7강/데이터프레임정렬.jpg" alt="DataFrame.sort_values" style="width: 600px;"/>
## * 인덱스 정렬 : sort_index() - 인자는 sort_values()와 동일
### http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sort_values.html#pandas.DataFrame.sort_values

In [3]:
# 샘플 데이터 생성
np.random.seed(0)
df = pd.DataFrame(np.random.randint(50, 100, (5, 6)), 
                  columns=[[2019, 2019, 2019, 2020, 2020, 2020], ['영어','수학', '과학','영어','수학', '과학']], 
                  index = ['Kim','Park','Lee','Jung','Moon'])
df.index.set_names('학생명', inplace = True)
df.columns.set_names(['년도','과목'], inplace = True)
df.loc['Moon', (2019, '과학')] = np.nan

## 1) Series 정렬

In [4]:
# Series 정렬을 위한 샘플 데이터
sr = Series([3,5,2,1,7,10], index = list('bcafed'))
sr

b     3
c     5
a     2
f     1
e     7
d    10
dtype: int64

In [5]:
# 로우 인덱스 라벨의 값으로 정렬
sr.sort_index()

a     2
b     3
c     5
d    10
e     7
f     1
dtype: int64

In [6]:
# Series의 값으로 정렬 (기본값 = 오름차순)
sr.sort_values()

f     1
a     2
b     3
c     5
e     7
d    10
dtype: int64

In [7]:
# Series의 값으로 내림차순 정렬
sr.sort_values(ascending=False)

d    10
e     7
c     5
b     3
a     2
f     1
dtype: int64

## 2) DataFrame 정렬

* 2차원 DataFrame 정렬
 - df에서 2020년 데이터만 선택하여 df2020 생성한 후 실습

In [9]:
df2020=df[2020]

In [11]:
# 학생명으로 정렬
df2020.sort_index(axis=0)

과목,영어,수학,과학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jung,67,87,75
Kim,53,53,89
Lee,51,88,89
Moon,70,66,55
Park,86,73,56


In [14]:
# 수학 성적으로 오름차순 정렬
# df2020.sort_values(by='수학')
df2020.sort_values('수학')

In [15]:
# 실습. 영어 성적의 내림차순 정렬
df2020.sort_values(by='영어',ascending=False)

과목,영어,수학,과학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Park,86,73,56
Moon,70,66,55
Jung,67,87,75
Kim,53,53,89
Lee,51,88,89


* 3차원 데이터 정렬 (계층색인)

In [16]:
# 2020년 수학 성적 기준으로 내림차순 정렬
df.sort_values(by=(2020,'수학'),ascending=False)

년도,2019,2019,2019,2020,2020,2020
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Lee,74,74,62.0,51,88,89
Jung,73,96,74.0,67,87,75
Park,59,69,71.0,86,73,56
Moon,63,58,,70,66,55
Kim,94,97,50.0,53,53,89


In [21]:
# 2개 이상의 컬럼으로 정렬하기
# 2020년 과학성적으로 내림차순 정렬하고 만약 동일하다면 2019년도 과학성적으로 분리
df.sort_values(by=[(2020,'과학'),(2019,'과학')],ascending=False)

년도,2019,2019,2019,2020,2020,2020
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Lee,74,74,62.0,51,88,89
Kim,94,97,50.0,53,53,89
Jung,73,96,74.0,67,87,75
Park,59,69,71.0,86,73,56
Moon,63,58,,70,66,55


In [22]:
# 2020년 과학 성적으로 내림차순 정렬, 만약 2020년 과학성적이 동일하다면 2019년 과학성적으로 오름차순 정렬
df.sort_values(by=[(2020,'과학'),(2019,'과학')],ascending=[False,True])

년도,2019,2019,2019,2020,2020,2020
과목,영어,수학,과학,영어,수학,과학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Kim,94,97,50.0,53,53,89
Lee,74,74,62.0,51,88,89
Jung,73,96,74.0,67,87,75
Park,59,69,71.0,86,73,56
Moon,63,58,,70,66,55


In [23]:
# 정렬 결과를 원본에 반영하기 
df.sort_values(by=[(2020,'과학'),(2019,'과학')],ascending=[False,True],inplace=True)