## 정렬과 순위

In [4]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series

In [5]:
obj = Series(range(4), index=['d', 'a', 'b', 'c'])

* 로우나 컬럼의 색인을 알파벳 순으로 정렬하려면 정렬된 새로운 객체를 반환하는 sort_index 메서드를 사용한다.

In [6]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

* DataFrame은 로우나 컬럼 중 하나의 축을 기준으로 정렬할 수 있다.

In [7]:
frame = DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'],
                  columns=['d', 'a', 'b', 'c'])

In [8]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [9]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


* 내림차순으로 정렬할 수도 있다.

In [10]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


- Series 객체를 값에 따라 정렬하고 싶다면 sort_values 메서드를 사용한다.

In [11]:
obj = Series([4, 7, -3, 2])

In [12]:
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

- 정렬할 때 비어있는 값은 기본적으로 Series 객체에서 가장 마지막에 위치한다.

In [13]:
obj = Series([4, np.nan, 7, np.nan, -3, 2])

In [14]:
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

- DataFrame에서는 컬럼에 있는 값으로 정렬이 필요할 수 있다.
- by 옵션에 정렬이 필요한 컬럼의 이름을 넘긴다.

In [15]:
frame = DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})

In [16]:
frame

Unnamed: 0,a,b
0,0,4
1,1,7
2,0,-3
3,1,2


In [17]:
frame.sort_values(by='b')

Unnamed: 0,a,b
2,0,-3
3,1,2
0,0,4
1,1,7


- 여러 개의 컬럼을 정렬하려면 컬럼의 이름이 담긴 리스트를 전달한다.

In [18]:
frame.sort_values(by=['a', 'b'])

Unnamed: 0,a,b
2,0,-3
0,0,4
3,1,2
1,1,7


- 순위는 정렬과 거의 유사하다.
- 1부터 배열의 유효한 데이터 개수까지의 순위를 매긴다.
- numpy.argsort에서 반환하는 간접 정렬 색인과 유사하지만 동률인 순위를 처리하는 방식이 다르다.
- 기본적으로 Series와 DataFrame의 rank 메서드는 동점인 항목에 대해서는 평균 순위를 매긴다.

In [19]:
obj = Series([7, -5, 7, 4, 2, 0, 4])

In [20]:
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

- 데이터 상에서 나타나는 순서에 따라 순위를 매길 수도 있다.

In [21]:
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

- 내림차순으로 순위를 매길 수도 있다.

In [22]:
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

- DataFrame에서는 로우나 컬럼에 대해 순위를 정할 수 있다.

In [24]:
frame = DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1],
                   'c': [-2, 5, 8, -2.5]})

In [25]:
frame

Unnamed: 0,a,b,c
0,0,4.3,-2.0
1,1,7.0,5.0
2,0,-3.0,8.0
3,1,2.0,-2.5


In [26]:
frame.rank(axis=1)

Unnamed: 0,a,b,c
0,2.0,3.0,1.0
1,1.0,3.0,2.0
2,2.0,1.0,3.0
3,2.0,3.0,1.0


- average: 기본값, 같은 값을 가지는 항목의 평균 값을 순위로 삼는다.
- min: 같은 값을 가지는 그룹을 낮은 순위로 매긴다.
- max: 같은 값을 가지는 그룹을 높은 순위로 매긴다.
- first: 데이터 내에서 위치에 따라 순위를 매긴다.