## Sorting
Pandas에서 데이터프레임을 정렬하는 것은 데이터를 특정 기준에 따라 순서대로 나열하는 과정을 말합니다. 데이터 분석에서 데이터를 특정 조건에 따라 정렬하는 것은 분석의 효율성을 높이고, 데이터의 패턴이나 특정 값을 쉽게 식별할 수 있게 합니다.

Pandas에서는 주로 ```sort_values()``` 메소드와 ```sort_index()``` 메소드를 사용하여 데이터프레임을 정렬합니다.

In [2]:
import pandas as pd
df = pd.read_excel("Data/성적 처리.xlsx", sheet_name="Sheet1")

#df['SUM'] = df['국어'] + df['영어'] + df['수학'] + df['사회'] + df['과학']
# df.iloc[:,2:].sum()
df['sum']=df.iloc[:, 2:].sum(axis=1)

### sort_values()
sort_values() 메소드는 하나 이상의 열의 값을 기준으로 데이터프레임의 행을 정렬합니다. 가장 일반적으로 사용되는 정렬 방법입니다.

<br>

#### 주요 매개변수
* by: 정렬 기준이 되는 열의 이름. 하나의 열 또는 열의 리스트를 지정할 수 있습니다.
* axis: 정렬을 행 방향으로 할지(0 또는 'index'), 열 방향으로 할지(1 또는 'columns')를 결정합니다. 기본값은 'index'입니다.
* ascending: 정렬 순서를 오름차순(True) 또는 내림차순(False)으로 설정합니다. 기본값은 True입니다. 열 리스트를 by에 지정한 경우, 각 열에 대해 별도의 순서를 리스트로 전달할 수 있습니다.
* inplace: 정렬 결과를 원본 데이터프레임에 반영할지의 여부. 기본값은 False로, 원본 데이터는 변경되지 않고 정렬된 새 데이터프레임이 반환됩니다.

In [24]:
df.sort_values(['반', 'sum', '성명'], ascending=[True, False, True])

Unnamed: 0,반,성명,국어,영어,수학,사회,과학,sum
0,1반,홍길동,93,80,94,73,64,404
9,1반,신성삼,64,66,59,91,86,366
17,1반,유비비,67,94,61,61,52,335
16,1반,소행성,62,58,58,62,73,313
18,2반,이관우,91,65,57,79,93,385
19,2반,장비비,52,82,93,81,75,383
8,2반,이미로,59,54,75,90,82,360
11,2반,장발장,85,51,64,80,68,348
2,3반,이삼상,94,74,86,90,70,414
15,3반,조미료,86,68,97,56,85,392


### sort_index()
sort_index() 메소드는 데이터프레임의 인덱스를 기준으로 정렬합니다. 이는 인덱스 값을 기준으로 행 또는 열의 순서를 정렬할 때 사용됩니다.

<br>

#### 주요 매개변수
* axis: 정렬을 행 인덱스 기준(0 또는 'index')으로 할지, 열 인덱스 기준(1 또는 'columns')으로 할지 결정합니다. 기본값은 'index'입니다.
* ascending: 정렬 순서를 오름차순(True) 또는 내림차순(False)으로 설정합니다. 기본값은 True입니다.
* inplace: 정렬 결과를 원본 데이터프레임에 반영할지의 여부. 기본값은 False로, 원본 데이터는 변경되지 않고 정렬된 새 데이터프레임이 반환됩니다.

In [27]:
df.sort_index()

Unnamed: 0,반,성명,국어,영어,수학,사회,과학,sum
0,1반,홍길동,93,80,94,73,64,404
1,5반,백일홍,93,63,76,84,92,408
2,3반,이삼상,94,74,86,90,70,414
3,4반,정말로,83,55,64,90,65,357
4,5반,한번도,87,95,66,75,60,383
5,4반,이철수,53,81,59,88,69,350
6,3반,김영자,71,71,51,84,57,334
7,5반,다니엘,87,54,95,71,97,404
8,2반,이미로,59,54,75,90,82,360
9,1반,신성삼,64,66,59,91,86,366


## 연습문제

In [28]:
data = {
    '이름': ['김철수', '박영희', '이민정', '정수빈', '한가인'],
    '성별': ['남', '여', '여', '남', '여'],
    '나이': [25, 30, 22, 28, 35],
    '점수': [88, 92, 95, 70, 85]
}
df = pd.DataFrame(data)
df

Unnamed: 0,이름,성별,나이,점수
0,김철수,남,25,88
1,박영희,여,30,92
2,이민정,여,22,95
3,정수빈,남,28,70
4,한가인,여,35,85


1. 나이를 기준으로 데이터프레임을 오름차순으로 정렬하세요.

In [29]:
df.sort_values('나이')

Unnamed: 0,이름,성별,나이,점수
2,이민정,여,22,95
0,김철수,남,25,88
3,정수빈,남,28,70
1,박영희,여,30,92
4,한가인,여,35,85


2. 점수를 기준으로 데이터프레임을 내림차순으로 정렬하세요.

In [30]:
df.sort_values('점수', ascending=False)

Unnamed: 0,이름,성별,나이,점수
2,이민정,여,22,95
1,박영희,여,30,92
0,김철수,남,25,88
4,한가인,여,35,85
3,정수빈,남,28,70


3. 성별을 먼저 오름차순으로, 그리고 나이를 내림차순으로 정렬하세요.

In [32]:
df.sort_values(['성별','나이'], ascending=[1,0])

Unnamed: 0,이름,성별,나이,점수
3,정수빈,남,28,70
0,김철수,남,25,88
4,한가인,여,35,85
1,박영희,여,30,92
2,이민정,여,22,95


4. 성별을 먼저 내림차순으로, 그리고 점수를 오름차순으로 정렬하세요. (동일 성별 내에서 점수가 낮은 순으로 정렬)

In [33]:
df.sort_values(['성별','점수'], ascending=[0,1])

Unnamed: 0,이름,성별,나이,점수
4,한가인,여,35,85
1,박영희,여,30,92
2,이민정,여,22,95
3,정수빈,남,28,70
0,김철수,남,25,88


5. 성별과 나이 열을 기준으로 먼저 성별을 오름차순, 그리고 나이를 내림차순으로 정렬한 결과에서, 마지막 3명의 정보를 출력하세요.

In [34]:
df.sort_values(['성별','나이'], ascending=[1,0]).tail(3)

Unnamed: 0,이름,성별,나이,점수
4,한가인,여,35,85
1,박영희,여,30,92
2,이민정,여,22,95


6. 점수 열의 값에 따라 내림차순으로 정렬한 후, 상위 3명의 이름과 점수만 출력하세요.

In [50]:
df.sort_values('점수', ascending=0)[['이름','점수']].head(3)

Unnamed: 0,이름,점수
2,이민정,95
1,박영희,92
0,김철수,88


In [67]:
# 순위 Ranking 세우기
# average: 3등이 2명이면, 둘다 3.5등으로 처리하고 다음 등수를 5등
df['순위']=df['sum'].rank(method='average',ascending=0)
df.sort_values('sum', ascending=0)

# max: 3등이 2명이면, 둘다 4등으로 처리하고 다음 등수를 5등
df['순위']=df['sum'].rank(method='max',ascending=0)
df.sort_values('sum', ascending=0)

# min: 3등이 2명이면, 둘다 3등으로 처리하고 다음 등수를 5등
df['순위']=df['sum'].rank(method='min',ascending=0)
df.sort_values('sum', ascending=0)

# first: 3등이 2명이면, 먼저 발견한 3등은 3등, 다음 등수를 4등
df['순위']=df['sum'].rank(method='first',ascending=0)
df.sort_values('sum', ascending=0)

# dense: 3등이 2명이면, 둘다 3등으로 처리하고 다음 등수를 4등
df['순위']=df['sum'].rank(method='dense',ascending=0)
df.sort_values('sum', ascending=0)

Unnamed: 0,반,성명,국어,영어,수학,사회,과학,sum,순위
2,3반,이삼상,94,74,86,90,70,414,1.0
1,5반,백일홍,93,63,76,84,92,408,2.0
0,1반,홍길동,93,80,94,73,64,404,3.0
7,5반,다니엘,87,54,95,71,97,404,3.0
15,3반,조미료,86,68,97,56,85,392,4.0
18,2반,이관우,91,65,57,79,93,385,5.0
19,2반,장비비,52,82,93,81,75,383,6.0
4,5반,한번도,87,95,66,75,60,383,6.0
13,5반,이태원,54,97,88,56,78,373,7.0
9,1반,신성삼,64,66,59,91,86,366,8.0


In [8]:
df.loc[:, ['반','성명']]
df[['반','성명']]

Unnamed: 0,반,성명
0,1반,홍길동
1,5반,백일홍
2,3반,이삼상
3,4반,정말로
4,5반,한번도
5,4반,이철수
6,3반,김영자
7,5반,다니엘
8,2반,이미로
9,1반,신성삼
