In [1]:
%%html
<!--마크다운 표 정렬 설정-->
<style> table {float:left} </style>

## 데이터 전처리 - 원하는 형태로 데이터 가공하기

| 함수          |  기능          |
|-------------|--------------|
| query()       | 행 추출        |
| df[]          | 열(변수) 추출  |
| sort_values() | 정렬           |
| groupby()     | 집단별로 나누기 |
| agg()         | 통계치 구하기    |
| merge()       | 데이터 합치기(열) |
| concat()      | 데이터 합치기(행) |

In [2]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np
exam = pd.read_csv('exam.csv')
exam.head()

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65


In [3]:
# exam에서 nclass가 3인 경우만 추출

exam.query('nclass == 3')

Unnamed: 0,id,nclass,math,english,science
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32


In [4]:
# exam에서 nclass가 3반이 아닌 경우만 추출

exam.query('nclass != 3')

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
12,13,4,46,98,65
13,14,4,48,87,12


In [5]:
# 초과 미만 이상 이하
# >     <    >=    <=
# 수학점수가 50점 초과한 경우 추출
exam.query('math > 50')

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
6,7,2,80,90,45
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [6]:
# 여러 조건을 충족하는 행 추출하기
# 이거나 Or   |
# 이면서 And   &

In [7]:
# 1반이면서 수학점수가 50점 이상인 경우
# nclass == 1
# 이면서 &
# math >= 50

exam.query('nclass == 1 & math >= 50')

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60


In [8]:
# 문제 모든 과목이 50점 이상인 경우 추출
# 모든 과목 And &
# math >= 50
# english >= 50
# science >= 50

exam.query('math >= 70 & english >= 70 & science >= 70')

Unnamed: 0,id,nclass,math,english,science
17,18,5,80,78,90


In [9]:
# 모든 과목중에 한과목이라도 90점이 넘는 과목의 경우 추출
# 이라도 OR |
# math = 90
# english >= 90
# science >= 90

exam.query('math >= 95 | english >= 95 | science >= 95')

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
3,4,1,30,98,58
5,6,2,50,89,98
8,9,3,20,98,15
9,10,3,50,98,45
12,13,4,46,98,65
15,16,4,58,98,65
16,17,5,65,68,98


In [10]:
nclass1 = exam.query('nclass == 1')

In [11]:
nclass1['math'].mean()

46.25

In [12]:
exam[['nclass','math','english']].head()

Unnamed: 0,nclass,math,english
0,1,50,98
1,1,60,97
2,1,45,86
3,1,30,98
4,2,25,80


In [13]:
# 원하는 열을 제거하고 출력할 경우
# 메소드 .drop()
# math 제거하고 출력

exam.drop(columns = 'math').head()

Unnamed: 0,id,nclass,english,science
0,1,1,98,50
1,2,1,97,60
2,3,1,86,78
3,4,1,98,58
4,5,2,80,65


In [14]:
# query + [] 조합 검색
# nclass 1 이고 영어만 출력
exam.query('nclass == 1')[['english']]

Unnamed: 0,english
0,98
1,97
2,86
3,98


In [15]:
# math 50점 이상인 행에서 id math 추출

exam.query('math >= 50')[['id','math']]

Unnamed: 0,id,math
0,1,50
1,2,60
5,6,50
6,7,80
7,8,90
9,10,50
10,11,65
14,15,75
15,16,58
16,17,65


In [26]:
# 오름차순으로 정렬하기 .sort_values()
# 수학점수로 정렬
exam.sort_values('math').head()

Unnamed: 0,id,nclass,math,english,science
8,9,3,20,98,15
4,5,2,25,80,65
3,4,1,30,98,58
2,3,1,45,86,78
11,12,3,45,85,32


In [28]:
# 내림차순 속성 ascending = False
exam.sort_values('math', ascending = False).head()

Unnamed: 0,id,nclass,math,english,science
7,8,2,90,78,25
18,19,5,89,68,87
17,18,5,80,78,90
6,7,2,80,90,45
19,20,5,78,83,58


In [32]:
# nclass, math 오름차순
exam.sort_values(['nclass','math'])

Unnamed: 0,id,nclass,math,english,science
3,4,1,30,98,58
2,3,1,45,86,78
0,1,1,50,98,50
1,2,1,60,97,60
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
11,12,3,45,85,32


In [41]:
# nclass 내림차순 math 오름차순
exam.sort_values(['nclass','math'], ascending = [False, True]).head(10)

Unnamed: 0,id,nclass,math,english,science
16,17,5,65,68,98
19,20,5,78,83,58
17,18,5,80,78,90
18,19,5,89,68,87
12,13,4,46,98,65
13,14,4,48,87,12
15,16,4,58,98,65
14,15,4,75,56,78
8,9,3,20,98,15
11,12,3,45,85,32


In [45]:
# 변수 추가 .assign
# total
exam.assign(total = exam['math'] + exam['english'] + exam['science']).head(10)

Unnamed: 0,id,nclass,math,english,science,total
0,1,1,50,98,50,198
1,2,1,60,97,60,217
2,3,1,45,86,78,209
3,4,1,30,98,58,186
4,5,2,25,80,65,170
5,6,2,50,89,98,237
6,7,2,80,90,45,215
7,8,2,90,78,25,193
8,9,3,20,98,15,133
9,10,3,50,98,45,193


In [48]:
exam.assign(total = exam['math'] + exam['english'] + exam['science'],            # total 추가
           mean = (exam['math'] + exam['english'] + exam['science'])/3).head(10) # mean 추가

Unnamed: 0,id,nclass,math,english,science,total,mean
0,1,1,50,98,50,198,66.0
1,2,1,60,97,60,217,72.333333
2,3,1,45,86,78,209,69.666667
3,4,1,30,98,58,186,62.0
4,5,2,25,80,65,170,56.666667
5,6,2,50,89,98,237,79.0
6,7,2,80,90,45,215,71.666667
7,8,2,90,78,25,193,64.333333
8,9,3,20,98,15,133,44.333333
9,10,3,50,98,45,193,64.333333


In [50]:
# test 열을 만들어 주고 과학이 60점 이상이면 pass fall
exam.assign(test = np.where(exam['science'] >= 60, 'pass', 'fall'))

Unnamed: 0,id,nclass,math,english,science,test
0,1,1,50,98,50,fall
1,2,1,60,97,60,pass
2,3,1,45,86,78,pass
3,4,1,30,98,58,fall
4,5,2,25,80,65,pass
5,6,2,50,89,98,pass
6,7,2,80,90,45,fall
7,8,2,90,78,25,fall
8,9,3,20,98,15,fall
9,10,3,50,98,45,fall
