In [3]:
import pandas as pd

# 정렬

## 시리즈의 값 정렬

In [4]:
obj1 = pd.Series([40,10,20,30], index=['가','다','나','라'])
obj1

가    40
다    10
나    20
라    30
dtype: int64

* 값에 의한 정렬

In [5]:
obj1.sort_values() # 기본 정렬방식은 오름차순이다.

다    10
나    20
라    30
가    40
dtype: int64

In [7]:
obj1.sort_values(ascending=False) # 내림차순 정렬

가    40
라    30
나    20
다    10
dtype: int64

In [6]:
obj1 # 자기 자신은 변경하지 않는다.

가    40
다    10
나    20
라    30
dtype: int64

* 인덱스에 의한 정렬

In [8]:
obj1.sort_index() # 기본값은 오름차순

가    40
나    20
다    10
라    30
dtype: int64

In [9]:
obj1.sort_index(ascending=False)

라    30
다    10
나    20
가    40
dtype: int64

## 데이터프레임의 값 정렬

In [10]:
import numpy as np

In [11]:
np.arange(8)

array([0, 1, 2, 3, 4, 5, 6, 7])

* reshape((행의수, 열의수)):넘파이 데이터의 차원을 변경하는 함수

In [13]:
data = np.arange(8).reshape( (2,4) )
data

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [14]:
frame = pd.DataFrame(data, 
                     index=['three','one'], 
                     columns=['d','a','b','c'])
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


### 열의 값을 기준으로 정렬하기

In [15]:
frame.sort_values(by='a') # 원본 값이 a열 기준으로 정렬되어 있으므로 아무변화 없음

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [16]:
frame.sort_values(by='a', ascending=False) 

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


### 다중 열 기준 정렬

In [17]:
frame2 = pd.DataFrame([{'가':3, '나':15, '다': 3},
                       {'가':3, '나':10, '다': 5},
                       {'가':1, '나':20, '다': 5},
                       {'가':2, '나':15, '다': 7},
                       {'가':2, '나':100,'다': 9}])
frame2

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
2,1,20,5
3,2,15,7
4,2,100,9


* 가 열을 기준으로 오름차순 정렬
sort_values([정렬할 열이름])

In [18]:
frame2.sort_values(['가']) 

Unnamed: 0,가,나,다
2,1,20,5
3,2,15,7
4,2,100,9
1,3,10,5
0,3,15,3


* 가, 나 열 오름차순 정렬  
  가열의 오름차순 정렬 결과에 나열 오름차순 정렬

In [19]:
frame2.sort_values(['가','나']) 

Unnamed: 0,가,나,다
2,1,20,5
3,2,15,7
4,2,100,9
1,3,10,5
0,3,15,3


* 각 열의 정렬 방식을 다르게 지정  
  예) 가열 오름차순, 나열은 내림차순 정렬

In [18]:
frame2.sort_values(['가','나'],ascending=[True,False]) 

Unnamed: 0,가,나,다
2,1,20,5
4,2,100,9
3,2,15,7
0,3,15,3
1,3,10,5


### 데이터프레임 인덱스, 컬럼 정렬

In [19]:
frame3 = pd.DataFrame([{'가':3, '나':15, '다': 3},
                       {'가':3, '나':10, '다': 5},
                       {'가':1, '나':20, '다': 5},
                       {'가':2, '나':15, '다': 7},
                       {'가':2, '나':100,'다': 9}],
                     columns=['다','가','나'])
frame3

Unnamed: 0,다,가,나
0,3,3,15
1,5,3,10
2,5,1,20
3,7,2,15
4,9,2,100


In [20]:
frame3.sort_index()

Unnamed: 0,다,가,나
0,3,3,15
1,5,3,10
2,5,1,20
3,7,2,15
4,9,2,100


In [20]:
frame3.sort_index(ascending=False)

Unnamed: 0,다,가,나
0,3,3,15
1,5,3,10
2,5,1,20
3,7,2,15
4,9,2,100


* 열 인덱스로 정렬

In [21]:
frame3.sort_index(ascending=False, axis=1)

Unnamed: 0,다,나,가
0,3,15,3
1,5,10,3
2,5,20,1
3,7,15,2
4,9,100,2


In [None]:
frame3.sort_index(ascending=False)

* 행, 열 인덱스 모두 사용  
문제] 행 인덱스를 내림차순 정렬하고 열 인덱스 내림차순으로 정렬 (메소드 체인 기법을 활용)

# 순위 처리

In [22]:
data1 = {'이름': ['길동', '옥주', '현웅', '주몽', '지원'], 
        '학번': [2012, 2012, 2013, 2014, 2014], 
        '과제건수': [1, 5, 2, 3, 4],
        '점수': [25, 94, 57, 62, 70]}
frame3 = pd.DataFrame(data1)
frame3

Unnamed: 0,이름,학번,과제건수,점수
0,길동,2012,1,25
1,옥주,2012,5,94
2,현웅,2013,2,57
3,주몽,2014,3,62
4,지원,2014,4,70


In [25]:
frame3['점수'].rank() #값에 대한 순위를 매김, 기본 옵션은 오른차순

0    1.0
1    5.0
2    2.0
3    3.0
4    4.0
Name: 점수, dtype: float64

In [26]:
frame3['점수'].rank(ascending=False)

0    5.0
1    1.0
2    4.0
3    3.0
4    2.0
Name: 점수, dtype: float64

In [28]:
frame3.점수.rank(ascending=False)

0    5.0
1    1.0
2    4.0
3    3.0
4    2.0
Name: 점수, dtype: float64

* 문제] 위 데이터 프레임에 점수에 따른 내림차순 순위를 매겨 '순위' 열을 추가

In [30]:
frame3['순위']= frame3.점수.rank(ascending=False)
frame3

Unnamed: 0,이름,학번,과제건수,점수,순위
0,길동,2012,1,25,5.0
1,옥주,2012,5,94,1.0
2,현웅,2013,2,57,4.0
3,주몽,2014,3,62,3.0
4,지원,2014,4,70,2.0


* 문제] '순위' 열의 값을 기준으로 오름차순 정렬

In [31]:
frame3.sort_values(['순위'])

Unnamed: 0,이름,학번,과제건수,점수,순위
1,옥주,2012,5,94,1.0
4,지원,2014,4,70,2.0
3,주몽,2014,3,62,3.0
2,현웅,2013,2,57,4.0
0,길동,2012,1,25,5.0


* 문제] '순위' 열의 값을 기준으로 성적이 낮은 학생순으로 정렬

In [32]:
frame3.sort_values(by='순위',ascending=False)

Unnamed: 0,이름,학번,과제건수,점수,순위
0,길동,2012,1,25,5.0
2,현웅,2013,2,57,4.0
3,주몽,2014,3,62,3.0
4,지원,2014,4,70,2.0
1,옥주,2012,5,94,1.0


* 인덱스 재정렬

In [33]:
frame4=frame3['점수'].rank(ascending=False)
frame4

0    5.0
1    1.0
2    4.0
3    3.0
4    2.0
Name: 점수, dtype: float64

In [34]:
frame4.index= [0,1,2,3,4]
frame4

0    5.0
1    1.0
2    4.0
3    3.0
4    2.0
Name: 점수, dtype: float64

* 인덱스 사이즈

In [36]:
frame3.index.values

array([0, 1, 2, 3, 4])

In [37]:
frame3.index.values.size

5

* 인덱스 재정렬 자동화

In [40]:
frame5=frame3.sort_values(by='순위', ascending=False)
frame5

Unnamed: 0,이름,학번,과제건수,점수,순위
0,길동,2012,1,25,5.0
2,현웅,2013,2,57,4.0
3,주몽,2014,3,62,3.0
4,지원,2014,4,70,2.0
1,옥주,2012,5,94,1.0


## Rank 함수 심화

In [41]:
import pandas as pd
df = pd.DataFrame([2.0, 3.0, 3.5,3.5, 5.0],columns=['학점'])
df

Unnamed: 0,학점
0,2.0
1,3.0
2,3.5
3,3.5
4,5.0


* rank() 기본 동작 방식은 등수간 평균값으로 선정

In [42]:
df.학점.rank(ascending=False)

0    5.0
1    4.0
2    2.5
3    2.5
4    1.0
Name: 학점, dtype: float64

* method='max' 동일 등수자에 대해서 최대등수값으로 결정

In [44]:
df.학점.rank(ascending=False, method='max')

0    5.0
1    4.0
2    3.0
3    3.0
4    1.0
Name: 학점, dtype: float64

* method='min' 동일 등수자에 대해서 최대등수값으로 결정

In [46]:
df.학점.rank(ascending=False, method='min')

0    5.0
1    4.0
2    2.0
3    2.0
4    1.0
Name: 학점, dtype: float64

- 등수를 정수 타입으로 변경

In [49]:
df.학점.rank(ascending=False, method='min').astype(int)

0    5
1    4
2    2
3    2
4    1
Name: 학점, dtype: int64

### 결론
* rank() 함수 사용시 동일 등수에 대한 처리는 min 방식이 가장 범용적이다.