### 데이터 전처리
- 데이터 전처리 data processing에 가장 많은 시간을 사용
- 다양한 데이터를 분석하기 전에 전처리 필요
- 분석 기초반은 다양한 데이터를 최대한 다뤄보며 데이터 전처리 역량을 키울 수 있도록 한다.
- pandas는 데이터 분석 전처리 작업에서 가장 많이 사용되는 패키지
- pandas의 여러 기능을 가볍게 배우고 추후에 중요한 기능들을 깊게 공부할 계획

### 데이터 전처리 방법
- quary() : 행을 추출
- df[] : 컬럼(열)을 추출
- sort_values() : 정렬
- groupby() : 집단별 나누기
- assign() : 변수 추가
- agg() : 통계치 구하기
- merge() : 데이터 합치기(열)
- concat() : 데이터 합치기(행)

In [6]:
import pandas as pd

In [7]:
exam = pd.read_csv('exam.csv')
exam

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [8]:
exam.query('nclass == 1')  # 특정 컬럼에서 특정 값을 추출

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [9]:
## query 비교 연산을 통해 데이터를 추출할 수 있다.
# 비교 연산에서 이상, 이하, 초과, 미만 모두 가능하다.
# 수학이 50점 이상인 경우
exam.query('math > 50')

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
6,7,2,80,90,45
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [10]:
exam.query('english <= 78')

Unnamed: 0,id,nclass,math,english,science
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87


In [11]:
# 여러 조건을 충족하는 행을 추출할 수 있다.
exam.query('nclass == 1 & english > 65')

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [12]:
# and와 or의 차이를 보여주는 예제
exam.query('math >89 | english < 68')

Unnamed: 0,id,nclass,math,english,science
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78


In [14]:
exam.query('nclass in [2, 4, 6]')

Unnamed: 0,id,nclass,math,english,science
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
12,13,4,46,98,65
13,14,4,48,87,12
14,15,4,75,56,78
15,16,4,58,98,65


### 쿼리를 이용해서 변수에 추출하고 그 변수를 이용해서 값을 추출

In [15]:
nclass1 = exam.query('nclass==1')  # 따옴표 안에 값을 추출할 조건을 입력

In [16]:
nclass1

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [17]:
nclass2 = exam.query('nclass==2')
nclass2

Unnamed: 0,id,nclass,math,english,science
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25


In [18]:
nclass1['math'].mean()

46.25

In [19]:
nclass1['math'].sum()

185

In [20]:
nclass1['b'] = 'F'  # column 'b'와 value F 추가

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  nclass1['b'] = 'F'  # column 'b'와 value F 추가


In [21]:
nclass1

Unnamed: 0,id,nclass,math,english,science,b
0,1,1,50,98,50,F
1,2,1,60,97,60,F
2,3,1,45,86,78,F
3,4,1,30,98,58,F


In [22]:
df = pd.DataFrame({'a':['A','B','C'],
                  'b':[1,2,3]})

In [23]:
df.query('a=="A"')  # query 문자열도 추출이 될 수 있다.

Unnamed: 0,a,b
0,A,1


### 필요한 변수 추출하기

In [24]:
exam[['math','english']]  # 원하는 컬럼을 추출할 수 있다.

Unnamed: 0,math,english
0,50,98
1,60,97
2,45,86
3,30,98
4,25,80
5,50,89
6,80,90
7,90,78
8,20,98
9,50,98


In [25]:
nclass1['math'].mean()

46.25

In [26]:
nclass1['math'].sum()

185

In [27]:
nclass1['b'] = 'F'

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  nclass1['b'] = 'F'


In [28]:
nclass1

Unnamed: 0,id,nclass,math,english,science,b
0,1,1,50,98,50,F
1,2,1,60,97,60,F
2,3,1,45,86,78,F
3,4,1,30,98,58,F


In [29]:
df = pd.DataFrame({'a':['A','B','C'],
                  'b':[1,2,3]})

In [30]:
df.query('a=="A"')  # query 문자열도 추출될 수 있다.

Unnamed: 0,a,b
0,A,1


### 필요한 변수 추출하기

In [31]:
exam[['math','english']]  # 원하는 컬럼을 추출할 수 있다.

Unnamed: 0,math,english
0,50,98
1,60,97
2,45,86
3,30,98
4,25,80
5,50,89
6,80,90
7,90,78
8,20,98
9,50,98


In [32]:
exam.columns

Index(['id', 'nclass', 'math', 'english', 'science'], dtype='object')

In [33]:
## 만약 컬럼, 변수를 제거하고 싶은 경우 .drop(columns=' ') 사용
exam.drop(columns='math')

Unnamed: 0,id,nclass,english,science
0,1,1,98,50
1,2,1,97,60
2,3,1,86,78
3,4,1,98,58
4,5,2,80,65
5,6,2,89,98
6,7,2,90,45
7,8,2,78,25
8,9,3,98,15
9,10,3,98,45


In [34]:
exam  # 위에서 컬럼을 제거했어도 원본은 바뀌지 않는다.

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [35]:
exam.drop(columns='math', inplace=True)  # inplace = True를 하면 원본 데이터가 바로 변경된다.

In [36]:
exam

Unnamed: 0,id,nclass,english,science
0,1,1,98,50
1,2,1,97,60
2,3,1,86,78
3,4,1,98,58
4,5,2,80,65
5,6,2,89,98
6,7,2,90,45
7,8,2,78,25
8,9,3,98,15
9,10,3,98,45


In [37]:
# 행과, 열을 같이 추출하는 경우
exam.query('nclass==1')['english']

0    98
1    97
2    86
3    98
Name: english, dtype: int64

In [38]:
exam.query('nclass==1')[['english','science']]

Unnamed: 0,english,science
0,98,50
1,97,60
2,86,78
3,98,58


In [39]:
exam.query('nclass==1 & english > 50')[['english','science']]

Unnamed: 0,english,science
0,98,50
1,97,60
2,86,78
3,98,58


### sort_values()
- 오름차순, 내림차순

In [40]:
exam.sort_values('english')  # 영어에 대해 오름차순 정렬, 오름차순 디폴트값

Unnamed: 0,id,nclass,english,science
14,15,4,56,78
10,11,3,65,65
16,17,5,68,98
18,19,5,68,87
17,18,5,78,90
7,8,2,78,25
4,5,2,80,65
19,20,5,83,58
11,12,3,85,32
2,3,1,86,78


In [41]:
exam.sort_values('english', ascending=False)  # 내림차순

Unnamed: 0,id,nclass,english,science
0,1,1,98,50
12,13,4,98,65
3,4,1,98,58
15,16,4,98,65
8,9,3,98,15
9,10,3,98,45
1,2,1,97,60
6,7,2,90,45
5,6,2,89,98
13,14,4,87,12


In [42]:
## 영어와 과학 2가지를 함께 정렬하고 싶다면
exam.sort_values(['english','science'])

Unnamed: 0,id,nclass,english,science
14,15,4,56,78
10,11,3,65,65
18,19,5,68,87
16,17,5,68,98
7,8,2,78,25
17,18,5,78,90
4,5,2,80,65
19,20,5,83,58
11,12,3,85,32
2,3,1,86,78


In [43]:
### 오름차순과 내림차순을 정해서 정렬하고 싶은 경우
# 앞에 먼저 사용한 컬럼이 기준이 되고, 그 이후의 컬럼은 후순위가 된다.
exam.sort_values(['english','science'], ascending=[False, True])

Unnamed: 0,id,nclass,english,science
8,9,3,98,15
9,10,3,98,45
0,1,1,98,50
3,4,1,98,58
12,13,4,98,65
15,16,4,98,65
1,2,1,97,60
6,7,2,90,45
5,6,2,89,98
13,14,4,87,12


### 파생변수 만들어보기
- assign()을 이용해서 파생변수를 만들 수 있다.
- 바로 직관적으로 새로운 컬럼을 만들 수 있다.

In [53]:
# 위쪽에서 원본을 수정했기 때문에 한 번 더 선언
exam = pd.read_csv('exam.csv')  
exam

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [54]:
exam.assign(tot = exam['math'] + exam['english'] + exam['science'])

Unnamed: 0,id,nclass,math,english,science,tot
0,1,1,50,98,50,198
1,2,1,60,97,60,217
2,3,1,45,86,78,209
3,4,1,30,98,58,186
4,5,2,25,80,65,170
5,6,2,50,89,98,237
6,7,2,80,90,45,215
7,8,2,90,78,25,193
8,9,3,20,98,15,133
9,10,3,50,98,45,193


In [65]:
exam['mean'] = (exam['math']+exam['english']+exam['science'])/3
exam

Unnamed: 0,id,nclass,math,english,science,mean
0,1,1,50,98,50,66.0
1,2,1,60,97,60,72.333333
2,3,1,45,86,78,69.666667
3,4,1,30,98,58,62.0
4,5,2,25,80,65,56.666667
5,6,2,50,89,98,79.0
6,7,2,80,90,45,71.666667
7,8,2,90,78,25,64.333333
8,9,3,20,98,15,44.333333
9,10,3,50,98,45,64.333333


In [66]:
exam_new = exam.sort_values('mean', ascending=True)
exam_new

Unnamed: 0,id,nclass,math,english,science,mean
8,9,3,20,98,15,44.333333
13,14,4,48,87,12,49.0
11,12,3,45,85,32,54.0
4,5,2,25,80,65,56.666667
3,4,1,30,98,58,62.0
9,10,3,50,98,45,64.333333
7,8,2,90,78,25,64.333333
10,11,3,65,65,65,65.0
0,1,1,50,98,50,66.0
2,3,1,45,86,78,69.666667


### 람다식을 이용해서 데이터 전처리 해보기!

In [68]:
exam = pd.read_csv('exam.csv')

In [69]:
exam.assign(tot = lambda x: x['math']+x['english']+x['science'])

Unnamed: 0,id,nclass,math,english,science,tot
0,1,1,50,98,50,198
1,2,1,60,97,60,217
2,3,1,45,86,78,209
3,4,1,30,98,58,186
4,5,2,25,80,65,170
5,6,2,50,89,98,237
6,7,2,80,90,45,215
7,8,2,90,78,25,193
8,9,3,20,98,15,133
9,10,3,50,98,45,193


In [70]:
exam.assign(tot = lambda x: x['math'] + x['english'] + x['science'],
            mean = lambda x: x['tot']/3)

Unnamed: 0,id,nclass,math,english,science,tot,mean
0,1,1,50,98,50,198,66.0
1,2,1,60,97,60,217,72.333333
2,3,1,45,86,78,209,69.666667
3,4,1,30,98,58,186,62.0
4,5,2,25,80,65,170,56.666667
5,6,2,50,89,98,237,79.0
6,7,2,80,90,45,215,71.666667
7,8,2,90,78,25,193,64.333333
8,9,3,20,98,15,133,44.333333
9,10,3,50,98,45,193,64.333333


### 집단별 요약 (groupby)
- .groupby('컬럼')  # 해당 컬럼을 묶어서 보여준다.
- .agg(변수 = ('컬럼','원하는 통계치')

In [71]:
# 반별로 어떤 컬럼의 평균이나, 기타 통계치를 알고 싶다.
exam.groupby('nclass').agg(mean_math = ('math','mean'))

Unnamed: 0_level_0,mean_math
nclass,Unnamed: 1_level_1
1,46.25
2,61.25
3,45.0
4,56.75
5,78.0


In [73]:
exam.groupby('nclass').agg(sum_math = ('math','sum'))

Unnamed: 0_level_0,sum_math
nclass,Unnamed: 1_level_1
1,185
2,245
3,180
4,227
5,312


In [74]:
## 여러 개의 변수의 요약 통계를 보고싶은 경우
# 반별로 영어, 수학, 과학에 대한 평균, sum, median, count

exam.groupby('nclass').agg(mean_math = ('math','mean'),
                          mean_sum = ('math','sum'),
                          math_median = ('math','median'),
                          n = ('nclass','count'))

Unnamed: 0_level_0,mean_math,mean_sum,math_median,n
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,46.25,185,47.5,4
2,61.25,245,65.0,4
3,45.0,180,47.5,4
4,56.75,227,53.0,4
5,78.0,312,79.0,4


In [76]:
## 빠르게 groupby로만 요약 통계 구하기

exam.groupby('nclass').sum()  # 전체 요약 통계

Unnamed: 0_level_0,id,math,english,science
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,10,185,379,246
2,26,245,337,233
3,42,180,346,157
4,58,227,339,220
5,74,312,297,333


In [77]:
exam

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


### 데이터 병합, 합치기

In [78]:
a = pd.DataFrame({'id':[1,2,3,4,5],
                 'midterm':[50,60,70,80,90]})

b = pd.DataFrame({'id':[1,2,3,4,5],
                 'final':[40,60,80,30,80]})

In [79]:
display(a)
display(b)

Unnamed: 0,id,midterm
0,1,50
1,2,60
2,3,70
3,4,80
4,5,90


Unnamed: 0,id,final
0,1,40
1,2,60
2,3,80
3,4,30
4,5,80


In [81]:
total = pd.merge(a, b, how='inner')
total

Unnamed: 0,id,midterm,final
0,1,50,40
1,2,60,60
2,3,70,80
3,4,80,30
4,5,90,80


In [82]:
## concat
pd.concat([a,b],axis=0)  # 0은 행이고, 1은 열이다.

Unnamed: 0,id,midterm,final
0,1,50.0,
1,2,60.0,
2,3,70.0,
3,4,80.0,
4,5,90.0,
0,1,,40.0
1,2,,60.0
2,3,,80.0
3,4,,30.0
4,5,,80.0


In [83]:
pd.concat([a,b],axis=1)

Unnamed: 0,id,midterm,id.1,final
0,1,50,1,40
1,2,60,2,60
2,3,70,3,80
3,4,80,4,30
4,5,90,5,80
