# 데이터프레임 정렬
판다스(Pandas)에서는 데이터프레임(DataFrame)을 정렬하는 주된 방법으로 두 가지 메서드를 주로 사용합니다. 바로 **sort_values()**와 **sort_index()**인데, 각각 값(데이터) 기준 정렬과 인덱스 기준 정렬을 수행합니다.

## sort_values() 메서드
* by: 정렬 기준이 되는 컬럼 이름 또는 컬럼 이름의 리스트를 지정합니다.
* ascending: 오름차순(True) 또는 내림차순(False) 정렬을 지정합니다. 여러 컬럼을 정렬할 때는 리스트로 전달할 수 있습니다.
* inplace: 기본값은 False이며, True로 설정하면 정렬 결과를 원본 데이터프레임에 바로 반영합니다.
* na_position: 결측치(NaN)의 위치를 지정합니다. 기본값은 'last'로, 결측치를 맨 뒤에 배치합니다. 'first'로 설정하면 맨 앞으로 배치됩니다.

In [14]:
import pandas as pd

# 파생변수 만들기.
df = pd.read_excel("성적 처리.xlsx", sheet_name="Sheet1")
df['총점'] = df.iloc[:, 2:].sum(axis = 1)
df['평균'] = df['총점'] / 5
df

Unnamed: 0,반,성명,국어,영어,수학,사회,과학,총점,평균
0,1반,홍길동,93,80,94,73,64,404,80.8
1,5반,백일홍,93,63,76,84,92,408,81.6
2,3반,이삼상,94,74,86,90,70,414,82.8
3,4반,정말로,83,55,64,90,65,357,71.4
4,5반,한번도,87,95,66,75,60,383,76.6
5,4반,이철수,53,81,59,88,69,350,70.0
6,3반,김영자,71,71,51,84,57,334,66.8
7,5반,다니엘,87,54,95,71,97,404,80.8
8,2반,이미로,59,54,75,90,82,360,72.0
9,1반,신성삼,64,66,59,91,86,366,73.2


* 단일 컬럼 기준 정렬

In [15]:
# 평균 열을 오름차순으로 정렬.
df.sort_values("평균")

Unnamed: 0,반,성명,국어,영어,수학,사회,과학,총점,평균
16,1반,소행성,62,58,58,62,73,313,62.6
10,3반,케로로,56,76,52,64,65,313,62.6
14,4반,우주로,96,54,51,54,78,333,66.6
6,3반,김영자,71,71,51,84,57,334,66.8
17,1반,유비비,67,94,61,61,52,335,67.0
11,2반,장발장,85,51,64,80,68,348,69.6
5,4반,이철수,53,81,59,88,69,350,70.0
3,4반,정말로,83,55,64,90,65,357,71.4
12,4반,백설공,75,57,77,57,91,357,71.4
8,2반,이미로,59,54,75,90,82,360,72.0


In [16]:
# 평균 열을 내림차순으로 정렬.
df.sort_values("평균", ascending = False)

Unnamed: 0,반,성명,국어,영어,수학,사회,과학,총점,평균
2,3반,이삼상,94,74,86,90,70,414,82.8
1,5반,백일홍,93,63,76,84,92,408,81.6
0,1반,홍길동,93,80,94,73,64,404,80.8
7,5반,다니엘,87,54,95,71,97,404,80.8
15,3반,조미료,86,68,97,56,85,392,78.4
18,2반,이관우,91,65,57,79,93,385,77.0
19,2반,장비비,52,82,93,81,75,383,76.6
4,5반,한번도,87,95,66,75,60,383,76.6
13,5반,이태원,54,97,88,56,78,373,74.6
9,1반,신성삼,64,66,59,91,86,366,73.2


* 여러 컬럼 기준 정렬

In [17]:
# 반, 평균 열을 내림차순으로 정렬.
df.sort_values(["반", "평균"], ascending = False)

Unnamed: 0,반,성명,국어,영어,수학,사회,과학,총점,평균
1,5반,백일홍,93,63,76,84,92,408,81.6
7,5반,다니엘,87,54,95,71,97,404,80.8
4,5반,한번도,87,95,66,75,60,383,76.6
13,5반,이태원,54,97,88,56,78,373,74.6
3,4반,정말로,83,55,64,90,65,357,71.4
12,4반,백설공,75,57,77,57,91,357,71.4
5,4반,이철수,53,81,59,88,69,350,70.0
14,4반,우주로,96,54,51,54,78,333,66.6
2,3반,이삼상,94,74,86,90,70,414,82.8
15,3반,조미료,86,68,97,56,85,392,78.4


In [18]:
# 반은 오름차순으로, 평균은 내림차순으로 정렬.
df.sort_values(["반", "평균"], ascending = [True, False])

Unnamed: 0,반,성명,국어,영어,수학,사회,과학,총점,평균
0,1반,홍길동,93,80,94,73,64,404,80.8
9,1반,신성삼,64,66,59,91,86,366,73.2
17,1반,유비비,67,94,61,61,52,335,67.0
16,1반,소행성,62,58,58,62,73,313,62.6
18,2반,이관우,91,65,57,79,93,385,77.0
19,2반,장비비,52,82,93,81,75,383,76.6
8,2반,이미로,59,54,75,90,82,360,72.0
11,2반,장발장,85,51,64,80,68,348,69.6
2,3반,이삼상,94,74,86,90,70,414,82.8
15,3반,조미료,86,68,97,56,85,392,78.4


## sort_index() 메서드
* axis: 정렬할 축을 지정합니다. axis=0은 행(기본값), axis=1은 열을 의미합니다.
* ascending: 오름차순(True) 또는 내림차순(False) 정렬 여부를 결정합니다.
* inplace: 기본값은 False이며, True로 설정하면 원본 데이터프레임에 반영합니다.

In [19]:
# 행 이름을 기준으로 정렬.
df.sort_index()

Unnamed: 0,반,성명,국어,영어,수학,사회,과학,총점,평균
0,1반,홍길동,93,80,94,73,64,404,80.8
1,5반,백일홍,93,63,76,84,92,408,81.6
2,3반,이삼상,94,74,86,90,70,414,82.8
3,4반,정말로,83,55,64,90,65,357,71.4
4,5반,한번도,87,95,66,75,60,383,76.6
5,4반,이철수,53,81,59,88,69,350,70.0
6,3반,김영자,71,71,51,84,57,334,66.8
7,5반,다니엘,87,54,95,71,97,404,80.8
8,2반,이미로,59,54,75,90,82,360,72.0
9,1반,신성삼,64,66,59,91,86,366,73.2


In [20]:
# 행 이름을 내림차순으로 정렬.
df.sort_index(ascending = False)

Unnamed: 0,반,성명,국어,영어,수학,사회,과학,총점,평균
19,2반,장비비,52,82,93,81,75,383,76.6
18,2반,이관우,91,65,57,79,93,385,77.0
17,1반,유비비,67,94,61,61,52,335,67.0
16,1반,소행성,62,58,58,62,73,313,62.6
15,3반,조미료,86,68,97,56,85,392,78.4
14,4반,우주로,96,54,51,54,78,333,66.6
13,5반,이태원,54,97,88,56,78,373,74.6
12,4반,백설공,75,57,77,57,91,357,71.4
11,2반,장발장,85,51,64,80,68,348,69.6
10,3반,케로로,56,76,52,64,65,313,62.6


In [21]:
# 열 이름을 기준으로 정렬
df.sort_index(axis = 1)

Unnamed: 0,과학,국어,반,사회,성명,수학,영어,총점,평균
0,64,93,1반,73,홍길동,94,80,404,80.8
1,92,93,5반,84,백일홍,76,63,408,81.6
2,70,94,3반,90,이삼상,86,74,414,82.8
3,65,83,4반,90,정말로,64,55,357,71.4
4,60,87,5반,75,한번도,66,95,383,76.6
5,69,53,4반,88,이철수,59,81,350,70.0
6,57,71,3반,84,김영자,51,71,334,66.8
7,97,87,5반,71,다니엘,95,54,404,80.8
8,82,59,2반,90,이미로,75,54,360,72.0
9,86,64,1반,91,신성삼,59,66,366,73.2


# 순위 구하기
rank() 함수는 여러 옵션을 통해 세밀하게 동작을 제어할 수 있습니다.

* average (기본값): 동점인 값들에 대해 평균 순위를 부여합니다.
* min: 동점 그룹 내에서 가장 낮은(최소) 순위를 부여합니다.
* max: 동점 그룹 내에서 가장 높은(최대) 순위를 부여합니다.
* first: 동점이라도 원래 나타난 순서대로 순위를 매깁니다.
* dense: min과 유사하지만, 순위가 건너뛰지 않고 연속적으로 증가합니다.

In [26]:
# 동점인 값들에 대해 평균 순위를 부여합니다.
df["순위"] = df['평균'].rank(ascending = False, method = "average")
df

Unnamed: 0,반,성명,국어,영어,수학,사회,과학,총점,평균,순위
0,1반,홍길동,93,80,94,73,64,404,80.8,3.5
1,5반,백일홍,93,63,76,84,92,408,81.6,2.0
2,3반,이삼상,94,74,86,90,70,414,82.8,1.0
3,4반,정말로,83,55,64,90,65,357,71.4,12.5
4,5반,한번도,87,95,66,75,60,383,76.6,7.5
5,4반,이철수,53,81,59,88,69,350,70.0,14.0
6,3반,김영자,71,71,51,84,57,334,66.8,17.0
7,5반,다니엘,87,54,95,71,97,404,80.8,3.5
8,2반,이미로,59,54,75,90,82,360,72.0,11.0
9,1반,신성삼,64,66,59,91,86,366,73.2,10.0


In [27]:
# 동점 그룹 내에서 가장 낮은(최소) 순위를 부여합니다.
df["순위"] = df['평균'].rank(ascending = False, method = "min")
df

Unnamed: 0,반,성명,국어,영어,수학,사회,과학,총점,평균,순위
0,1반,홍길동,93,80,94,73,64,404,80.8,3.0
1,5반,백일홍,93,63,76,84,92,408,81.6,2.0
2,3반,이삼상,94,74,86,90,70,414,82.8,1.0
3,4반,정말로,83,55,64,90,65,357,71.4,12.0
4,5반,한번도,87,95,66,75,60,383,76.6,7.0
5,4반,이철수,53,81,59,88,69,350,70.0,14.0
6,3반,김영자,71,71,51,84,57,334,66.8,17.0
7,5반,다니엘,87,54,95,71,97,404,80.8,3.0
8,2반,이미로,59,54,75,90,82,360,72.0,11.0
9,1반,신성삼,64,66,59,91,86,366,73.2,10.0


In [28]:
# 동점 그룹 내에서 가장 높은(최대) 순위를 부여합니다.
df["순위"] = df['평균'].rank(ascending = False, method = "max")
df

Unnamed: 0,반,성명,국어,영어,수학,사회,과학,총점,평균,순위
0,1반,홍길동,93,80,94,73,64,404,80.8,4.0
1,5반,백일홍,93,63,76,84,92,408,81.6,2.0
2,3반,이삼상,94,74,86,90,70,414,82.8,1.0
3,4반,정말로,83,55,64,90,65,357,71.4,13.0
4,5반,한번도,87,95,66,75,60,383,76.6,8.0
5,4반,이철수,53,81,59,88,69,350,70.0,14.0
6,3반,김영자,71,71,51,84,57,334,66.8,17.0
7,5반,다니엘,87,54,95,71,97,404,80.8,4.0
8,2반,이미로,59,54,75,90,82,360,72.0,11.0
9,1반,신성삼,64,66,59,91,86,366,73.2,10.0


In [29]:
# 동점이라도 원래 나타난 순서대로 순위를 매깁니다.
df["순위"] = df['평균'].rank(ascending = False, method = "first")
df

Unnamed: 0,반,성명,국어,영어,수학,사회,과학,총점,평균,순위
0,1반,홍길동,93,80,94,73,64,404,80.8,3.0
1,5반,백일홍,93,63,76,84,92,408,81.6,2.0
2,3반,이삼상,94,74,86,90,70,414,82.8,1.0
3,4반,정말로,83,55,64,90,65,357,71.4,12.0
4,5반,한번도,87,95,66,75,60,383,76.6,7.0
5,4반,이철수,53,81,59,88,69,350,70.0,14.0
6,3반,김영자,71,71,51,84,57,334,66.8,17.0
7,5반,다니엘,87,54,95,71,97,404,80.8,4.0
8,2반,이미로,59,54,75,90,82,360,72.0,11.0
9,1반,신성삼,64,66,59,91,86,366,73.2,10.0


In [30]:
# min과 유사하지만, 순위가 건너뛰지 않고 연속적으로 증가합니다.
df["순위"] = df['평균'].rank(ascending = False, method = "dense")
df

Unnamed: 0,반,성명,국어,영어,수학,사회,과학,총점,평균,순위
0,1반,홍길동,93,80,94,73,64,404,80.8,3.0
1,5반,백일홍,93,63,76,84,92,408,81.6,2.0
2,3반,이삼상,94,74,86,90,70,414,82.8,1.0
3,4반,정말로,83,55,64,90,65,357,71.4,10.0
4,5반,한번도,87,95,66,75,60,383,76.6,6.0
5,4반,이철수,53,81,59,88,69,350,70.0,11.0
6,3반,김영자,71,71,51,84,57,334,66.8,14.0
7,5반,다니엘,87,54,95,71,97,404,80.8,3.0
8,2반,이미로,59,54,75,90,82,360,72.0,9.0
9,1반,신성삼,64,66,59,91,86,366,73.2,8.0


In [42]:
# 백분위 순위 구하기.
df["순위"] = df['평균'].rank(ascending = False, method = "dense", pct = True)
df

Unnamed: 0,반,성명,국어,영어,수학,사회,과학,총점,평균,순위
0,1반,홍길동,93,80,94,73,64,404,80.8,0.1875
1,5반,백일홍,93,63,76,84,92,408,81.6,0.125
2,3반,이삼상,94,74,86,90,70,414,82.8,0.0625
3,4반,정말로,83,55,64,90,65,357,71.4,0.625
4,5반,한번도,87,95,66,75,60,383,76.6,0.375
5,4반,이철수,53,81,59,88,69,350,70.0,0.6875
6,3반,김영자,71,71,51,84,57,334,66.8,0.875
7,5반,다니엘,87,54,95,71,97,404,80.8,0.1875
8,2반,이미로,59,54,75,90,82,360,72.0,0.5625
9,1반,신성삼,64,66,59,91,86,366,73.2,0.5


In [40]:
# 행별로 순위 구하기
df.iloc[:, 2:].rank(axis = 1)

Unnamed: 0,국어,영어,수학,사회,과학,총점,평균,순위
0,6.0,4.0,7.0,3.0,2.0,8.0,5.0,1.0
1,7.0,2.0,3.0,5.0,6.0,8.0,4.0,1.0
2,7.0,3.0,5.0,6.0,2.0,8.0,4.0,1.0
3,6.0,2.0,3.0,7.0,4.0,8.0,5.0,1.0
4,6.0,7.0,3.0,4.0,2.0,8.0,5.0,1.0
5,2.0,6.0,3.0,7.0,4.0,8.0,5.0,1.0
6,5.5,5.5,2.0,7.0,3.0,8.0,4.0,1.0
7,5.0,2.0,6.0,3.0,7.0,8.0,4.0,1.0
8,3.0,2.0,5.0,7.0,6.0,8.0,4.0,1.0
9,3.0,4.0,2.0,7.0,6.0,8.0,5.0,1.0


# 연습문제 (gapminder 데이터를 활용하세요.)
1. gapminder 데이터셋에서 lifeExp (기대수명) 컬럼을 기준으로 오름차순 정렬한 후, 상위 5개 행을 출력하세요.

2. gapminder 데이터셋에서 gdpPercap (1인당 GDP) 컬럼을 기준으로 내림차순 정렬한 후, 상위 10개 행을 출력하세요.

3. gapminder 데이터셋을 먼저 year 컬럼을 오름차순으로 정렬하고, 그 후 정렬된 결과에서 lifeExp 컬럼을 내림차순으로 정렬하여 출력하세요.

4. gapminder 데이터셋의 lifeExp 컬럼에 대해 순위를 계산하여 새로운 컬럼 lifeExp_rank를 추가하세요.
    * 순위는 오름차순으로 계산하며, 동일 값이 있을 경우 평균 순위(method='average')를 사용하세요.

5. gapminder 데이터셋의 pop (인구수) 컬럼에 대해 순위를 계산하여 새로운 컬럼 pop_rank를 추가하세요.
    * 이번에는 내림차순으로 계산하여, 인구수가 큰 국가가 1위를 받도록 하세요. 동일 값 처리 방식은 method='min'을 사용하세요.

6. gapminder 데이터셋의 gdpPercap 컬럼에 대해 백분율 순위를 계산하여 새로운 컬럼 gdpPercap_pct_rank에 저장하세요.

7. gapminder 데이터셋을 country 컬럼을 기준으로 오름차순 정렬하고, 그 후 같은 정렬된 결과에서 year 컬럼을 오름차순으로 정렬하여 출력하세요.

8. gapminder 데이터셋의 인덱스를 기준으로 내림차순 정렬한 결과를 출력하세요.

9. gapminder 데이터셋의 컬럼명을 알파벳 순서로 정렬하여 출력하세요.

10. gapminder 데이터셋의 lifeExp 컬럼에 대해 두 가지 방식으로 순위를 계산하여 각각 새로운 컬럼 lifeExp_rank_avg와 lifeExp_rank_dense에 저장하세요.

* 첫 번째는 기본값(method='average')을 사용하고,
* 두 번째는 method='dense'를 사용하세요.

그 후, 상위 10개 행을 출력하여 두 순위 방식의 차이를 확인하세요.