## 데이터 전처리 

- 데이터 전처리 data preprocessing 가장 많은 시간을 사용

- 다양한 데이터를 가지고 분석하기 전에 전처리가 필요함
- 분석기초반은 다양한 데이터를 최대한 다뤄보며 데이터 전처리 역량을 키울 수 있게 함!

- pandas 데이터 분석 전처리 작업에서 가장 많이 사용되는 패키지!
- pandas 의 여러 기능을 가볍게 보고, 추후에 중요한 기능들은 깊게 공부할 것

## 데이터 전처리 하는 방법
- query() : 행을 추출
- df[] : 컬럼, 열을 추출
- sort_values() : 정렬
- groupby() : 집단별 나누기
- assign() : 변수 추가 
- agg() : 통계치 구하기
- merge(): 데이터 합치기 (열)
- concat(): 데이터 합치기 (행)

In [1]:
# pandas 라이브러리 불러오기
import pandas as pd

In [2]:
# exam 변수에 exam.csv 파일 데이터 저장

exam = pd.read_csv('exam.csv')

In [3]:
# query 함수 - 컬럼명을 이용한 다양한 조건을 통해 행 추출
# nclass가 1인 행 추출

exam.query('nclass ==1') #특정한 컬럼에서 특정 값을 추출할 경우 사용

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [4]:
# nclass가 1인 행 추출

exam.query('nclass ==3') #특정한 컬럼에서 특정 값을 추출할 경우 사용

Unnamed: 0,id,nclass,math,english,science
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32


In [5]:
# nclass가 1이 아닌 행 추출

exam.query('nclass !=1') #특정한 컬럼에서 특정 값을 추출할 경우 사용

Unnamed: 0,id,nclass,math,english,science
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12


In [6]:
## query 비교연산를 통해 데이터를  추출할 수 있다.
# 수학이 50점 초과인 경우

exam.query('math>50') #이상,이하, 초과,미만

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
6,7,2,80,90,45
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


#### 다른 변수들도 직접 진행해 보세요!!

In [7]:
## 여러 조건을 충족하는 행을 추출할 수 있다
# nclass가 1이고 english가 65 초과인 행 추출

exam.query('nclass ==1 & english > 65')

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [8]:
## and or 차이는
# & (and), | (or) 을 통해 행 추출 가능
# math가 89 초과거나 english가 68 미만인 행 추출

exam.query('math>89 | english <68')

Unnamed: 0,id,nclass,math,english,science
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78


In [9]:
# 리스트 또한 사용 가능
# nclass 가 [2,4,6]에 있는 행 추출

exam.query('nclass in [2,4,6]')

Unnamed: 0,id,nclass,math,english,science
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
12,13,4,46,98,65
13,14,4,48,87,12
14,15,4,75,56,78
15,16,4,58,98,65


### 쿼리를 이용해서 변수에 추출하고 그 변수를 이용해서 값을 추출

In [10]:
# nclass1 이라는 변수에  nclass가 1인 행들 저장
# nclass2 이라는 변수에  nclass가 2인 행들 저장

nclass1 = exam.query('nclass==1')
nclass2 = exam.query('nclass==2')

In [11]:
nclass1

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [12]:
nclass2

Unnamed: 0,id,nclass,math,english,science
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25


In [13]:
# nclass1 math 컬럼 행들의 평균 값 

nclass1['math'].mean()

46.25

In [14]:
# nclass1 math 컬럼 행들의 총합 

nclass1['math'].sum()

185

In [15]:
# nclass1의 b라는 컬럼을 새로 만들고 그 값을 F로 설정

nclass1['b'] = 'F'

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  nclass1['b'] = 'F'


In [16]:
nclass1 

Unnamed: 0,id,nclass,math,english,science,b
0,1,1,50,98,50,F
1,2,1,60,97,60,F
2,3,1,45,86,78,F
3,4,1,30,98,58,F


In [17]:
nclass1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4 entries, 0 to 3
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   id       4 non-null      int64 
 1   nclass   4 non-null      int64 
 2   math     4 non-null      int64 
 3   english  4 non-null      int64 
 4   science  4 non-null      int64 
 5   b        4 non-null      object
dtypes: int64(5), object(1)
memory usage: 224.0+ bytes


In [18]:
nclass1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4 entries, 0 to 3
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   id       4 non-null      int64 
 1   nclass   4 non-null      int64 
 2   math     4 non-null      int64 
 3   english  4 non-null      int64 
 4   science  4 non-null      int64 
 5   b        4 non-null      object
dtypes: int64(5), object(1)
memory usage: 224.0+ bytes


In [19]:
df = pd.DataFrame({'a':['A','B','C'],
                 'b':[1,2,3]})

In [20]:
df.query('a=="A"') ## query 문자열도 추출이 될 수 있음!!

Unnamed: 0,a,b
0,A,1


### 필요한 변수 추출하기

In [21]:
# 추출하고자 하는 컬럼이 하나일 땐 []를, 두 개 이상일 땐 [[]]를 통해 추출

exam[['math','english']] # 원하는 컬럼을 추출할 수 있다.

Unnamed: 0,math,english
0,50,98
1,60,97
2,45,86
3,30,98
4,25,80
5,50,89
6,80,90
7,90,78
8,20,98
9,50,98


In [22]:
# exam 데이터의 컬럼값들을 불러옴

exam.columns

Index(['id', 'nclass', 'math', 'english', 'science'], dtype='object')

In [23]:
## 만약 컬럼, 변수를 제거하 싶은 경우
# math 컬럼 제거하고 df_nonmath 변수에 저장
df_nonmath= exam.drop(columns='math')

In [24]:
df_nonmath

Unnamed: 0,id,nclass,english,science
0,1,1,98,50
1,2,1,97,60
2,3,1,86,78
3,4,1,98,58
4,5,2,80,65
5,6,2,89,98
6,7,2,90,45
7,8,2,78,25
8,9,3,98,15
9,10,3,98,45


In [25]:
exam.drop(columns='math', inplace=True) ## inplace=True를 하면 바로 원본 데이터에 반영이 된다!

In [26]:
exam

Unnamed: 0,id,nclass,english,science
0,1,1,98,50
1,2,1,97,60
2,3,1,86,78
3,4,1,98,58
4,5,2,80,65
5,6,2,89,98
6,7,2,90,45
7,8,2,78,25
8,9,3,98,15
9,10,3,98,45


In [27]:
## 행과, 열을 같이 추출하는 경우!
# nclass가 1인 값들 중 english 컬럼의 행 값들을 불러옴
exam.query('nclass==1')['english']

0    98
1    97
2    86
3    98
Name: english, dtype: int64

In [28]:
exam.query('nclass==1')[['english','science']]

Unnamed: 0,english,science
0,98,50
1,97,60
2,86,78
3,98,58


In [29]:
exam.query('nclass==1 & english >50')[['english','science']]

Unnamed: 0,english,science
0,98,50
1,97,60
2,86,78
3,98,58


### sort_values
- 오름차순, 내림차순

In [30]:
# sort_values 메서드를 통해 행들을 정렬할 수 있음

exam.sort_values('english') # 오름차순 디폴트 값

Unnamed: 0,id,nclass,english,science
14,15,4,56,78
10,11,3,65,65
16,17,5,68,98
18,19,5,68,87
17,18,5,78,90
7,8,2,78,25
4,5,2,80,65
19,20,5,83,58
11,12,3,85,32
2,3,1,86,78


In [31]:
# 내림차순을 원하는 경우는 asending= False 내림차순으로 바뀌게 만드는 인자

exam.sort_values('english', ascending=False )# 내림차순으로 정렬

Unnamed: 0,id,nclass,english,science
0,1,1,98,50
12,13,4,98,65
3,4,1,98,58
15,16,4,98,65
8,9,3,98,15
9,10,3,98,45
1,2,1,97,60
6,7,2,90,45
5,6,2,89,98
13,14,4,87,12


In [32]:
##  정렬을 영어랑, 과학이랑 두 개를 함께 정렬하고 싶다?
exam.sort_values(['english','science']) # 오름차순 디폴트 값

Unnamed: 0,id,nclass,english,science
14,15,4,56,78
10,11,3,65,65
18,19,5,68,87
16,17,5,68,98
7,8,2,78,25
17,18,5,78,90
4,5,2,80,65
19,20,5,83,58
11,12,3,85,32
2,3,1,86,78


In [33]:
### 오름차순과 내림차순을 정해서 정렬하고 싶은 경우!

exam.sort_values(['english','science'], ascending=[False, True])
# 앞에 먼저 사용한 컬럼이 기준이 되고, 그 이후에 컬럼은 2순위로 정렬이 된다.

Unnamed: 0,id,nclass,english,science
8,9,3,98,15
9,10,3,98,45
0,1,1,98,50
3,4,1,98,58
12,13,4,98,65
15,16,4,98,65
1,2,1,97,60
6,7,2,90,45
5,6,2,89,98
13,14,4,87,12


### 파생변수 만들어보기!

- assign() 이용해서 파생변수를 만들수 있다.
- 그냥 바로 직관적으로 새로운 컬럼을 만들어서 만들 수 있다.

In [34]:
# assign 메서드를 사용하여 tot라는 변수에 exam의 math, english, science를 합친 값을 지정
exam = pd.read_csv('exam.csv')
exam.assign(tot = exam['math']+exam['english']+exam['science'])

Unnamed: 0,id,nclass,math,english,science,tot
0,1,1,50,98,50,198
1,2,1,60,97,60,217
2,3,1,45,86,78,209
3,4,1,30,98,58,186
4,5,2,25,80,65,170
5,6,2,50,89,98,237
6,7,2,80,90,45,215
7,8,2,90,78,25,193
8,9,3,20,98,15,133
9,10,3,50,98,45,193


In [35]:
# exam의 math, english, science의 평균 값을 mean이라는 컬럼에 저장
exam['mean'] = (exam['math']+exam['english']+exam['science'])/3

In [36]:
exam

Unnamed: 0,id,nclass,math,english,science,mean
0,1,1,50,98,50,66.0
1,2,1,60,97,60,72.333333
2,3,1,45,86,78,69.666667
3,4,1,30,98,58,62.0
4,5,2,25,80,65,56.666667
5,6,2,50,89,98,79.0
6,7,2,80,90,45,71.666667
7,8,2,90,78,25,64.333333
8,9,3,20,98,15,44.333333
9,10,3,50,98,45,64.333333


In [39]:
# tot 컬럼을 기준으로 두고 내림차순으로 정렬한 것을 exam_new 변수에 저장 

exam['tot'] = exam['math']+exam['english']+exam['science']
exam_new = exam.sort_values('tot',ascending=False)

In [40]:
exam_new

Unnamed: 0,id,nclass,math,english,science,mean,tot
17,18,5,80,78,90,82.666667,248
18,19,5,89,68,87,81.333333,244
5,6,2,50,89,98,79.0,237
16,17,5,65,68,98,77.0,231
15,16,4,58,98,65,73.666667,221
19,20,5,78,83,58,73.0,219
1,2,1,60,97,60,72.333333,217
6,7,2,80,90,45,71.666667,215
12,13,4,46,98,65,69.666667,209
2,3,1,45,86,78,69.666667,209


### 람다식을 이용해서 데이터 전처리 해보기!

In [41]:
exam = pd.read_csv('exam.csv')

In [42]:
exam.assign(tot = lambda x: x['math']+ x['english']+x['science'])

Unnamed: 0,id,nclass,math,english,science,tot
0,1,1,50,98,50,198
1,2,1,60,97,60,217
2,3,1,45,86,78,209
3,4,1,30,98,58,186
4,5,2,25,80,65,170
5,6,2,50,89,98,237
6,7,2,80,90,45,215
7,8,2,90,78,25,193
8,9,3,20,98,15,133
9,10,3,50,98,45,193


In [43]:
exam.assign(tot = lambda x: x['math']+ x['english']+x['science'],
           mean = lambda x: x['tot']/3)

Unnamed: 0,id,nclass,math,english,science,tot,mean
0,1,1,50,98,50,198,66.0
1,2,1,60,97,60,217,72.333333
2,3,1,45,86,78,209,69.666667
3,4,1,30,98,58,186,62.0
4,5,2,25,80,65,170,56.666667
5,6,2,50,89,98,237,79.0
6,7,2,80,90,45,215,71.666667
7,8,2,90,78,25,193,64.333333
8,9,3,20,98,15,133,44.333333
9,10,3,50,98,45,193,64.333333


### 집단별 요약 (groupby) 

- .groupby('컬럼') # 해당컬럼을 묶어서 보여준다
- .agg(변수 = ('컬럼','원하는 통계치')

In [44]:
#반별로 어떤 컬럼의 평균이나, 기타 통계치를 알고 싶다!
exam.groupby('nclass').agg(mean_math = ('math','mean'))

Unnamed: 0_level_0,mean_math
nclass,Unnamed: 1_level_1
1,46.25
2,61.25
3,45.0
4,56.75
5,78.0


In [45]:
exam.groupby('nclass').agg(mean_math = ('math','sum'))

Unnamed: 0_level_0,mean_math
nclass,Unnamed: 1_level_1
1,185
2,245
3,180
4,227
5,312


In [46]:
##여러 개의 변수의 요약 통계를 보고싶은 경우
# 반별로 영어, 수학, 과학에 대한 평균, sum, median, count 

exam.groupby('nclass').agg(mean_math = ('math','mean'),
                          mean_sum = ('math','sum'),
                          math_median = ('math','median'),
                          n =('nclass','count'))

Unnamed: 0_level_0,mean_math,mean_sum,math_median,n
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,46.25,185,47.5,4
2,61.25,245,65.0,4
3,45.0,180,47.5,4
4,56.75,227,53.0,4
5,78.0,312,79.0,4


In [47]:
##빠르게 groupby로만 요약 통계 구하기! 퀵하게 구하는법

exam.groupby('nclass').sum() #전체요약통계 

Unnamed: 0_level_0,id,math,english,science
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,10,185,379,246
2,26,245,337,233
3,42,180,346,157
4,58,227,339,220
5,74,312,297,333


In [48]:
exam

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


### 데이터 병합, 합치기

In [49]:
a = pd.DataFrame({'id':[1,2,3,4,5],
                 'midterm':[50,60,70,80,90]})

b = pd.DataFrame({'id':[1,2,3,4,5],
                 'final':[40,60,80,30,80]})

In [50]:
display(a)
display(b)

Unnamed: 0,id,midterm
0,1,50
1,2,60
2,3,70
3,4,80
4,5,90


Unnamed: 0,id,final
0,1,40
1,2,60
2,3,80
3,4,30
4,5,80


In [51]:
# a, b의 컬럼명이 같은 컬럼을 통한 데이터 병합

total = pd.merge(a, b, how='inner')

In [52]:
total

Unnamed: 0,id,midterm,final
0,1,50,40
1,2,60,60
2,3,70,80
3,4,80,30
4,5,90,80


In [53]:
###concat
pd.concat([a,b],axis=0) #0은 행이고 1은 열이다

Unnamed: 0,id,midterm,final
0,1,50.0,
1,2,60.0,
2,3,70.0,
3,4,80.0,
4,5,90.0,
0,1,,40.0
1,2,,60.0
2,3,,80.0
3,4,,30.0
4,5,,80.0


In [54]:
pd.concat([a,b],axis=1)

Unnamed: 0,id,midterm,id.1,final
0,1,50,1,40
1,2,60,2,60
2,3,70,3,80
3,4,80,4,30
4,5,90,5,80


# 필수과제
### mpg 데이터를 가지고 위에 나와있는 문법을 한 번 이상 복습하기
### 필수과제

1. 스스로 mpg데이터를 통해 질문을 하고 그 질문에 답을 찾는 코드를 작성하기 , 주석처리 꼭 해주세요!
- ex) audi a4의 평균 연비는 몇일까?

- ex) midsize의 가장 연비가 좋은 차는 무엇일까?

- ex) model별로 가장 도시연비가 좋은 차는?  복합연비 (cty, hwy) 합의 평균 

- 너무 쉬운 질문의 답변 코드는 제외할게요. sum, mean, 기본적인 건 제외 최소 2개 이상 조건이 들어가야 함

질문 수는 최소 15개 이상으로 진행!