# 행, 열 재배치 / 이름변경 / 정렬 / 필터링

## #01. 준비과정

### [1] 패키지 참조

In [1]:
from pandas import read_excel

### [2] 데이터 가져오기

In [2]:
origin = read_excel("https://data.hossam.kr/pydata/grade.xlsx", index_col="이름")
origin

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,120,62,72
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,71
호영,4,남자,75,50,90,88
영호,4,남자,80,88,91,72
용식,2,남자,82,88,79,90
나영,1,여자,90,92,81,95
석영,1,남자,91,90,89,80


### [3] 데이터 타입 변경

In [3]:
origin['학년'] = origin['학년'].astype('category')
origin['성별'] = origin['성별'].astype('category')
origin.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9 entries, 철수 to 석영
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   학년      9 non-null      category
 1   성별      9 non-null      category
 2   국어      9 non-null      int64   
 3   영어      9 non-null      int64   
 4   수학      9 non-null      int64   
 5   과학      9 non-null      int64   
dtypes: category(2), int64(4)
memory usage: 1006.0+ bytes


## #02. 행 혹은 열(변수)에 대한 재배치

### [1] 열 순서 변경

- 지정된 순서대로 열이 재정렬 된 결과가 반환된다.
- 

### [2] 행 순서 변경
- 지정된 순서대로 행이 재정렬 된 결과가 반환된다
- 원본은 변화 없음. 결과가 적용된 복사본이 생성된다.
- 재배치 되지 못한 열은 제외된다.

In [4]:
df1 = origin.reindex(columns = ['국어', '수학','과학','영어'])
df1

Unnamed: 0_level_0,국어,수학,과학,영어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
철수,98,88,64,77
영희,88,62,72,120
민철,92,83,79,70
수현,63,31,71,60
호영,75,90,88,50
영호,80,91,72,88
용식,82,79,90,88
나영,90,81,95,92
석영,91,89,80,90


### [2] 행 순서 변경
- 지정된 순서대로 행이 재정렬 된 결과가 반환된다.
- 원본은 변화 없음. 결과가 적용된 복사본이 생성된다.
- 재배치 되지 못한 행은 제외된다.

In [5]:
df2 = origin.reindex(index=['석영', '호영', '민철', '수현'])
df2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
석영,1,남자,91,90,89,80
호영,4,남자,75,50,90,88
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,71


## #03. 행, 열의 이름 변경

- **기존이름: 새이름** 형식의 딕셔너리로 지정
- **columns**와 **index**중 변경을 원하는 하나만 설정 가능
- 원본은 변화 없음. 결과가 적용된 복사본이 생성된다.
- 이름이 변경되지 않은 항목이 결과에서 제외되지는 않는다.
- 원본에 즉시 반영해야 할 경우 **inplace=True** 파라미터 적용

In [6]:
df3 = origin.rename(
    columns={'국어': 'kor', '영어': 'eng', '수학': 'math', '과학': 'sci'},
    index = {'석영': 'suk', '호영':'ho', '민철':'min', '수현':'su'}
)
df3

Unnamed: 0_level_0,학년,성별,kor,eng,math,sci
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,120,62,72
min,1,남자,92,70,83,79
su,3,여자,63,60,31,71
ho,4,남자,75,50,90,88
영호,4,남자,80,88,91,72
용식,2,남자,82,88,79,90
나영,1,여자,90,92,81,95
suk,1,남자,91,90,89,80


## #04. 정렬

특정 변수 (열, 컬럼)를 기준으로 하여 행 단위로 정렬

### [1] 오름차순 정렬
#### (1) 단일 컬럼에 대한 정렬
원본에 즉시 반영해야 할 경우 **inplace=True **파라미터를 적용

In [7]:
df4 = origin.sort_values('국어')
df4

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수현,3,여자,63,60,31,71
호영,4,남자,75,50,90,88
영호,4,남자,80,88,91,72
용식,2,남자,82,88,79,90
영희,2,여자,88,120,62,72
나영,1,여자,90,92,81,95
석영,1,남자,91,90,89,80
민철,1,남자,92,70,83,79
철수,1,남자,98,77,88,64


#### (2) 복수 컬럼에 대한 정렬
정렬 기준이 되는 컬럼 이름을 리스트로 설정하면 첫 번째 컬럼의 값이 동일한 경우 두 번 째 컬럼을 기준으로 정렬한다.

In [8]:
df5 = origin.sort_values(['영어', '학년'])
df5

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,75,50,90,88
수현,3,여자,63,60,31,71
민철,1,남자,92,70,83,79
철수,1,남자,98,77,88,64
용식,2,남자,82,88,79,90
영호,4,남자,80,88,91,72
석영,1,남자,91,90,89,80
나영,1,여자,90,92,81,95
영희,2,여자,88,120,62,72


### [2] 내림차순
**ascending=False** 파라미터를 추가한다. (기본값 = True, 오름차순)


In [9]:
df6 = origin.sort_values('국어', ascending=False)
df6

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
민철,1,남자,92,70,83,79
석영,1,남자,91,90,89,80
나영,1,여자,90,92,81,95
영희,2,여자,88,120,62,72
용식,2,남자,82,88,79,90
영호,4,남자,80,88,91,72
호영,4,남자,75,50,90,88
수현,3,여자,63,60,31,71


### [3] 인덱스를 기준으로 하는 정렬
- 인덱스는 하나만 존재하므로 열 이름을 지정할 필요가 없다.
- 정렬 방향을 위한 ascending 파라미터를 False로 설정하면 내림차순으로 정렬됨.
- inplace = True를 적용할 경우 원본에 즉시 반영됨.

In [10]:
df7 = origin.sort_index()
df7

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
나영,1,여자,90,92,81,95
민철,1,남자,92,70,83,79
석영,1,남자,91,90,89,80
수현,3,여자,63,60,31,71
영호,4,남자,80,88,91,72
영희,2,여자,88,120,62,72
용식,2,남자,82,88,79,90
철수,1,남자,98,77,88,64
호영,4,남자,75,50,90,88


## #05. 특정 데이터 필터링

### [1] 행 단위 필터링 (조건검색)
#### (1) 특정 조건에 맞는 행 조회
숫자형 데이터에 대한 조회

In [11]:
r1 = origin.query('국어>80')
r1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,120,62,72
민철,1,남자,92,70,83,79
용식,2,남자,82,88,79,90
나영,1,여자,90,92,81,95
석영,1,남자,91,90,89,80


문자열 데이터에 대한 검색

값을 따옴표로 감싸야 한다.

In [13]:
r2 = origin.query("성별 == '남자'")
r2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
민철,1,남자,92,70,83,79
호영,4,남자,75,50,90,88
영호,4,남자,80,88,91,72
용식,2,남자,82,88,79,90
석영,1,남자,91,90,89,80


#### (2) AND 조건

In [14]:
r3 = origin.query('국어>80 and 수학>80')
r3

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
민철,1,남자,92,70,83,79
나영,1,여자,90,92,81,95
석영,1,남자,91,90,89,80


#### (3) OR 조건

In [16]:
r4 = origin.query('국어>80 or 수학>80')
r4

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,120,62,72
민철,1,남자,92,70,83,79
호영,4,남자,75,50,90,88
영호,4,남자,80,88,91,72
용식,2,남자,82,88,79,90
나영,1,여자,90,92,81,95
석영,1,남자,91,90,89,80


#### (4) 조건값을 변수로 적용하기

@변수이름 형태로 조건식에 포함시킨다.

In [18]:
point = int(input('점수를 입력하세요.'))
print("국어 점수가 %d점보다 높은 학생은 다음과 같습니다." % point)

r5 = origin.query('국어> @point')
r5

국어 점수가 80점보다 높은 학생은 다음과 같습니다.


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,120,62,72
민철,1,남자,92,70,83,79
용식,2,남자,82,88,79,90
나영,1,여자,90,92,81,95
석영,1,남자,91,90,89,80


### [2] 열 단위 필터링

In [19]:
fl = origin.filter(['국어', '영어'])
fl

Unnamed: 0_level_0,국어,영어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
철수,98,77
영희,88,120
민철,92,70
수현,63,60
호영,75,50
영호,80,88
용식,82,88
나영,90,92
석영,91,90
