### 데이터 전처리

데이터의 양적/질적 수준이 분석의 수준을 결정한다.

데이터 분석 업무의 80~90%는 데이터를 수집하고 정제하는 사전적인 전처리 업무이다.

- query() : 행 추출
- df[] : 열 추출(변수, 열/칼럼)
- sort_values() : 정렬
- groupby() : 그룹화 연산, 그룹 객체 만들기
- assign() : 변수 추가
- agg() : 통계치 구하기
- merge() : 열 기준 데이터 합치기
- concat() : 행 기준 데이터 합치기

In [1]:
import pandas as pd

In [9]:
exam = pd.read_csv('resource/exam.csv')

In [11]:
exam

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


###### query() 함수

** 판다스에서 조건에 부합하는 데이터를 추출할 때 가장 많이 사용

1) 비교 연산자 (==, >, >=, <, <=, !=)

2) in / not in 연산자 (in, not in)

3) 논리 연산자 (and, or, not)

4) 외부 변수 혹은 함수 참조 연산

5) 인덱스 검색

6) 문자열 부분 검색 (str.contains, str.startswith, str.endswith)

In [15]:
exam.query('nclass') # 전체 행이 출력된다 ... (근데 왜 행이 반복되서 나오는지...)

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
1,2,1,60,97,60
1,2,1,60,97,60
1,2,1,60,97,60
2,3,1,45,86,78
2,3,1,45,86,78
2,3,1,45,86,78
2,3,1,45,86,78
3,4,1,30,98,58
3,4,1,30,98,58


In [20]:
exam.query('nclass==1') # nclass == 1 인 행 추출 / 비교 연산자 이용

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [16]:
exam.query('nclass != 1')

Unnamed: 0,id,nclass,math,english,science
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12


In [18]:
exam.query('math >= 65')

Unnamed: 0,id,nclass,math,english,science
6,7,2,80,90,45
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [21]:
exam.query('math<65 and english>80')  # 비교 연산자와 논리 연산자 이용

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
5,6,2,50,89,98
8,9,3,20,98,15
9,10,3,50,98,45
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12


In [29]:
exam.query('math<65 | english > 80 & science > 50')  # and or not 순서 : not -> and -> or

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
8,9,3,20,98,15
9,10,3,50,98,45
11,12,3,45,85,32
12,13,4,46,98,65


In [31]:
exam.query('nclass in [5]')

Unnamed: 0,id,nclass,math,english,science
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


내가 원하는 데이터를 query해 변수에 대입한 후, 데이터 프레임을 분석할 수 있다.

In [36]:
df_nc1 = exam.query('nclass == 5')

In [37]:
df_nc1

Unnamed: 0,id,nclass,math,english,science
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [39]:
df_nc1['english'].mean()

74.25

### 변수 추출

In [40]:
exam['math']

0     50
1     60
2     45
3     30
4     25
5     50
6     80
7     90
8     20
9     50
10    65
11    45
12    46
13    48
14    75
15    58
16    65
17    80
18    89
19    78
Name: math, dtype: int64

In [43]:
exam[['id', 'math', 'english', 'science']]

Unnamed: 0,id,math,english,science
0,1,50,98,50
1,2,60,97,60
2,3,45,86,78
3,4,30,98,58
4,5,25,80,65
5,6,50,89,98
6,7,80,90,45
7,8,90,78,25
8,9,20,98,15
9,10,50,98,45


In [44]:
exam['math'].to_frame()

Unnamed: 0,math
0,50
1,60
2,45
3,30
4,25
5,50
6,80
7,90
8,20
9,50


- 변수를 하나만 추출할 때는 단일 리스트로 추출

    (but Series 형태로 추출되므로, 데이터 프레임으로 변환하고 싶으면 .to_frame() 함수 사용)
    

- 변수를 두 개 이상 추출할 떄는 이중 리스트에 넣어서 추출

In [47]:
exam['new_df'] = 1

In [48]:
exam

Unnamed: 0,id,nclass,math,english,science,new_df
0,1,1,50,98,50,1
1,2,1,60,97,60,1
2,3,1,45,86,78,1
3,4,1,30,98,58,1
4,5,2,25,80,65,1
5,6,2,50,89,98,1
6,7,2,80,90,45,1
7,8,2,90,78,25,1
8,9,3,20,98,15,1
9,10,3,50,98,45,1


변수를 제거하고 싶은 경우 : drop() 함수 사용

inplace 변수를 True로 설정해야지 실제 데이터에 문법이 적용된다.

In [52]:
exam.drop(columns = 'new_df', inplace = True)

In [54]:
exam

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


### query()와 []로 행 추출/ 열 추출을 조합하자!

query()[] 와 같은 형태로 행과 열을 같이 추출할 수 있다.

In [55]:
exam.query('nclass==1')['english']

0    98
1    97
2    86
3    98
Name: english, dtype: int64

In [57]:
exam.query('math > 50')[['math', 'science']]

Unnamed: 0,math,science
1,60,60
6,80,45
7,90,25
10,65,65
14,75,78
15,58,65
16,65,98
17,80,90
18,89,87
19,78,58


In [60]:
exam.query('math>50')[['id', 'math', 'science']].head()

Unnamed: 0,id,math,science
1,2,60,60
6,7,80,45
7,8,90,25
10,11,65,65
14,15,75,78


###### sort_values()
** 데이터 정렬

- 디폴트 값이 "오름차순" 이다
- 내림차순으로 보려면 ascending = False

In [61]:
exam.sort_values('math')

Unnamed: 0,id,nclass,math,english,science
8,9,3,20,98,15
4,5,2,25,80,65
3,4,1,30,98,58
2,3,1,45,86,78
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12
0,1,1,50,98,50
9,10,3,50,98,45
5,6,2,50,89,98


In [63]:
exam.sort_values('math', ascending = False)

Unnamed: 0,id,nclass,math,english,science
7,8,2,90,78,25
18,19,5,89,68,87
17,18,5,80,78,90
6,7,2,80,90,45
19,20,5,78,83,58
14,15,4,75,56,78
16,17,5,65,68,98
10,11,3,65,65,65
1,2,1,60,97,60
15,16,4,58,98,65


###### 여러 변수를 가지고 정렬

- 리스트의 첫 번째 변수 기준으로 먼저 정렬 후, 그 이후 변수들 기준으로 정렬된다.
- 차순의 종류를 각각 조정하고 싶으면, ascending 변수에 리스트로 True, False 넣어주기

In [65]:
exam.sort_values(['math', 'english'])

Unnamed: 0,id,nclass,math,english,science
8,9,3,20,98,15
4,5,2,25,80,65
3,4,1,30,98,58
11,12,3,45,85,32
2,3,1,45,86,78
12,13,4,46,98,65
13,14,4,48,87,12
5,6,2,50,89,98
0,1,1,50,98,50
9,10,3,50,98,45


In [66]:
exam.sort_values(['math', 'english'], ascending = [True, False])

Unnamed: 0,id,nclass,math,english,science
8,9,3,20,98,15
4,5,2,25,80,65
3,4,1,30,98,58
2,3,1,45,86,78
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12
0,1,1,50,98,50
9,10,3,50,98,45
5,6,2,50,89,98


###### assign()
** 기존에 존재하는 행들 이외로 새 행을 할당할 수 있다.

- 기존에 존재하는 변수들을 이용해서 파생 변수를 새롭게 만들 수도 있다.
- 새롭게 만든 파생 변수를 assign() 함수를 이용해서 새 행으로 할당할 수 있다.

In [74]:
exam.assign(total = exam['math'] + exam['english'] + exam['science'], mean = (exam['math'] + exam['english'] + exam['science'])/3)

Unnamed: 0,id,nclass,math,english,science,total,mean
0,1,1,50,98,50,198,66.0
1,2,1,60,97,60,217,72.333333
2,3,1,45,86,78,209,69.666667
3,4,1,30,98,58,186,62.0
4,5,2,25,80,65,170,56.666667
5,6,2,50,89,98,237,79.0
6,7,2,80,90,45,215,71.666667
7,8,2,90,78,25,193,64.333333
8,9,3,20,98,15,133,44.333333
9,10,3,50,98,45,193,64.333333


In [75]:
exam_total_mean = exam.assign(total = exam['math'] + exam['english'] + exam['science'], mean = (exam['math'] + exam['english'] + exam['science'])/3)

In [77]:
exam_total_mean

Unnamed: 0,id,nclass,math,english,science,total,mean
0,1,1,50,98,50,198,66.0
1,2,1,60,97,60,217,72.333333
2,3,1,45,86,78,209,69.666667
3,4,1,30,98,58,186,62.0
4,5,2,25,80,65,170,56.666667
5,6,2,50,89,98,237,79.0
6,7,2,80,90,45,215,71.666667
7,8,2,90,78,25,193,64.333333
8,9,3,20,98,15,133,44.333333
9,10,3,50,98,45,193,64.333333


In [82]:
# 파생 변수 만들어서 바로 할당하는 방법

exam['total'] = exam['math'] + exam['english'] + exam['science']

In [84]:
exam

Unnamed: 0,id,nclass,math,english,science,total,mean
0,1,1,50,98,50,198,66.0
1,2,1,60,97,60,217,72.333333
2,3,1,45,86,78,209,69.666667
3,4,1,30,98,58,186,62.0
4,5,2,25,80,65,170,56.666667
5,6,2,50,89,98,237,79.0
6,7,2,80,90,45,215,71.666667
7,8,2,90,78,25,193,64.333333
8,9,3,20,98,15,133,44.333333
9,10,3,50,98,45,193,64.333333


In [85]:
import numpy as np

In [86]:
# np.where을 이용해 새로운 열 할당하기

exam.assign(test = np.where(exam['math']>=80, 'pass', 'fail'))

Unnamed: 0,id,nclass,math,english,science,total,mean,test
0,1,1,50,98,50,198,66.0,fail
1,2,1,60,97,60,217,72.333333,fail
2,3,1,45,86,78,209,69.666667,fail
3,4,1,30,98,58,186,62.0,fail
4,5,2,25,80,65,170,56.666667,fail
5,6,2,50,89,98,237,79.0,fail
6,7,2,80,90,45,215,71.666667,pass
7,8,2,90,78,25,193,64.333333,pass
8,9,3,20,98,15,133,44.333333,fail
9,10,3,50,98,45,193,64.333333,fail


In [91]:
# 새로운 변수 만들어서 할당하고 해당 변수를 기준으로 정렬하기

exam.assign(total_reverse = exam['math'] + exam['english'] + exam['science']).sort_values('total', ascending = False)

Unnamed: 0,id,nclass,math,english,science,total,mean,total_reverse
17,18,5,80,78,90,248,82.666667,248
18,19,5,89,68,87,244,81.333333,244
5,6,2,50,89,98,237,79.0,237
16,17,5,65,68,98,231,77.0,231
15,16,4,58,98,65,221,73.666667,221
19,20,5,78,83,58,219,73.0,219
1,2,1,60,97,60,217,72.333333,217
6,7,2,80,90,45,215,71.666667,215
12,13,4,46,98,65,209,69.666667,209
2,3,1,45,86,78,209,69.666667,209


In [92]:
# lambda 식 사용한 전처리

exam.assign(new_total = lambda x : x['math'] + x['english'] + x['science'], new_mean = lambda x : x['new_total']/3)

Unnamed: 0,id,nclass,math,english,science,total,mean,new_total,new_mean
0,1,1,50,98,50,198,66.0,198,66.0
1,2,1,60,97,60,217,72.333333,217,72.333333
2,3,1,45,86,78,209,69.666667,209,69.666667
3,4,1,30,98,58,186,62.0,186,62.0
4,5,2,25,80,65,170,56.666667,170,56.666667
5,6,2,50,89,98,237,79.0,237,79.0
6,7,2,80,90,45,215,71.666667,215,71.666667
7,8,2,90,78,25,193,64.333333,193,64.333333
8,9,3,20,98,15,133,44.333333,133,44.333333
9,10,3,50,98,45,193,64.333333,193,64.333333


In [93]:
exam

Unnamed: 0,id,nclass,math,english,science,total,mean
0,1,1,50,98,50,198,66.0
1,2,1,60,97,60,217,72.333333
2,3,1,45,86,78,209,69.666667
3,4,1,30,98,58,186,62.0
4,5,2,25,80,65,170,56.666667
5,6,2,50,89,98,237,79.0
6,7,2,80,90,45,215,71.666667
7,8,2,90,78,25,193,64.333333
8,9,3,20,98,15,133,44.333333
9,10,3,50,98,45,193,64.333333


###### groupby()
** 데이터를 특정 기준으로 묶어서 통계 또는 집계 결과를 얻기 위해서 사용

- agg와 함께 사용해서 통계치를 구하는 경우가 많다.
- mean, max, sum, min, std, median과도 함께 사용할 수 있다.

In [95]:
exam.groupby('nclass').agg(mean_math = ('math', 'mean'))

Unnamed: 0_level_0,mean_math
nclass,Unnamed: 1_level_1
1,46.25
2,61.25
3,45.0
4,56.75
5,78.0


nclass를 기준으로 그룹을 나눈 후에, math 열을 선정해서 해당 열에 대한 mean 평균을 계산

In [96]:
exam.groupby('nclass').agg(mean_math = ('math', 'mean'), sum_math = ('math', 'sum'), median_math = ('math', 'median'), ct = ('math', 'count'))

Unnamed: 0_level_0,mean_math,sum_math,median_math,ct
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,46.25,185,47.5,4
2,61.25,245,65.0,4
3,45.0,180,47.5,4
4,56.75,227,53.0,4
5,78.0,312,79.0,4
