## 데이터 전처리
- 수집된(주어진) 데이터를 원하는 형태로 변형하여 분석
- 데이터 전처리(Data Preprocessing) : 분석에 적합하게 데이터를 가공하는 작업

(동의어)

1. 데이터 전처리(Data Preprocessing)
2. 데이터 가공(Data manipulation)
3. 데이터 핸들링(Data Handling)
4. 데이터 랭글링(Data wrangling)
5. 데이터 먼징(Data Munging)
6. 데이터 클리닝(Data Cleaning)

## Lab1:query() - 조건에 맞는 데이터 추출하기 / 숫자 변수
- 반별(nclass)데이터를 추출하여 작업해보자
- exam.query('nclass == 1)
- SQL:"SELECT * FROM exam WHERE nclass = 1"

In [1]:
# Pandas 패키지를 로드함
# exam.csv를 데이터 프레임 exam으로 읽어들임
import pandas as pd
exam = pd.read_csv('exam.csv')
exam.head()

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65


In [2]:
# 1반 (nclass == 1) 데이터만 추출
exam.query('nclass == 1')

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [4]:
# 2반 (nclass == 2) 데이터만 추출
exam.query('nclass == 2')

Unnamed: 0,id,nclass,math,english,science
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25


In [5]:
# 1반이 아닌 (nclass != 1) 디른 모든 반의 데이터 추출
exam.query('nclass != 1')

Unnamed: 0,id,nclass,math,english,science
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12


- 여러 조건을 충족하는 행 추출

In [6]:
# 1반이고 math 점수가 50점 이상인 데이터 추출
exam.query('nclass == 1 & math >= 50')

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60


In [9]:
# english 점수가 90점 미만이고, science 점수가 50점 미만인 데이터 3개만 추출
exam.query('english < 90 | science < 50').head(3)

Unnamed: 0,id,nclass,math,english,science
2,3,1,45,86,78
4,5,2,25,80,65
5,6,2,50,89,98


> 목록에 해당하면 추출

In [11]:
# 1반이거나, 3반이거나, 5반인 데이터 추출
exam.query('nclass == 1 | nclass == 3 | nclass == 5')

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32
16,17,5,65,68,98
17,18,5,80,78,90


In [12]:
# 1반이거나, 3반이거나, 5반인 데이터 추출(리스트로 표현)
exam.query('nclass in [1, 3, 5]')

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32
16,17,5,65,68,98
17,18,5,80,78,90


> query()로 추출한 행으로 데이터 만들기

In [13]:
# 1반인 데이터 추출하여 데이터 프레임 nclass1로 저장하고 출력
nclass1 = exam.query('nclass == 1')
nclass1

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [14]:
# 2반인 데이터 추출하여 데이터 프레임 nclass2로 저장하고 출력
nclass2 = exam.query('nclass == 2')
nclass2

Unnamed: 0,id,nclass,math,english,science
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25


In [15]:
# nclass1(1반인 데이터)의 math 평균 값 출력
nclass1['math'].mean()    # 1반의 수학 평균

46.25

In [17]:
# nclass2(2반인 데이터)의 math 평균 값 출력
nclass2['math'].mean()    # 2반 수학 평균

61.25

> query() - 조건에 맞는 데이터 추출하기 / 문자 변수
> - 데이터 값이 문자인 경우 추출하여 작업해보자
> - exam.query('nclass == 1')
> - df.query('sex == "F"')
> - df.query("sex == 'F'")

In [18]:
# 2개 변수(sex, country)를 갖는 데이터 프레임 생성
df = pd.DataFrame({'sex' : ['F', 'M', 'F', 'M'],
                  'country' : ['Korea', 'China', 'Japan', 'USA']})
df

Unnamed: 0,sex,country
0,F,Korea
1,M,China
2,F,Japan
3,M,USA


In [19]:
# sex가 'F'이고 country가 'Korea'인 데이터 추출
# 작은 따옴표와 큰 따옴표에 주의
df.query('sex == "F" & country == "Korea"')

Unnamed: 0,sex,country
0,F,Korea


In [20]:
# sex가 'F'이고 country가 'Korea'인 데이터 추출
# 작은 따옴표와 큰 따옴표에 주의
df.query("sex == 'F' & country == 'Korea'")

Unnamed: 0,sex,country
0,F,Korea


In [21]:
# 외부 변수 var 값을 query로 사용할 수 있음
var = 'F'
df.query('sex == @var')     # 외부 변수 사용

Unnamed: 0,sex,country
0,F,Korea
2,F,Japan


## Lab 2 (혼자해보기) : mpg 데이터 분석
- mpg(mile per gallon) 를 통해 데이터 파악해 보기
- 1999년 ~ 2008년까지 미국에서 출시된 자동차 234종의 정보를 담고 있음 >
- manufacturer : 제조사
- model : 자동차 모델명
- displ : 배기량(cc)
- year : 생산 연도
- cyl : 실린더 수(4기통, 6기통, ...)
- trans : 변속기 종류 - 자동(auto)/수동(manual)
- drv : 구동 방식 (전륜 f, 후륜 r, 4륜 4)
- cty : 도심 주행시 연비 (예: 18마일/갤런)
- hwy : 고속도로 주행시 연비 (예: 18마일/갤런)
- fl : 연료 종류(일반 가솔린 p, 고급 가솔린 r)
- class : 자동차 크기(compact, suv, van, ...)

> Q1 : 자동차 배기량(displ)이 4이하인 자동차와 5이상인 자동차 중 어떤 자동차의 고속도록 연비(hwy)가 높은가?

In [22]:
# mpg 데이터 읽어오기
mpg = pd.read_csv('mpg.csv')
mpg.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact


In [23]:
# 자동차 배기량(displ)이 4이하 자동차 데이터를 읽어와서 mpg_a 만들기
mpg_a = mpg.query('displ <= 4')
mpg_a.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact


In [24]:
# 자동차 배기량(displ)이 5이하인 자동차 데이터를 읽어와서 mpg_b 만들기
mpg_b = mpg.query('displ <= 5')
mpg_b.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact


In [25]:
# mpg_a(배기량(displ)이 4이하 자동차) 고속도록 연비(hwy) 평균 구하기
mpg_a['hwy'].mean()

25.96319018404908

In [26]:
# mpg_b(배기량(displ)이 5이하 자동차) 고속도로 연비(hwy) 평균 구하기
mpg_b['hwy'].mean()

24.404040404040405

In [29]:
# 자동차 배기량(displ)이 4이하인 자동차와 5이상인 자동차 중 어떤 자동차의 고속도로
# 연비가 높은가?

if mpg_a['hwy'].mean() > mpg_b['hwy'].mean():
    print('배기량 4이하 자동차의 고속도로 연비가 높다')
elif mpg_a['hwy'].mean() < mpg_b['hwy'].mean():
    print('배기량 5이하 자동차의 고속도로 연비가 높다')

배기량 4이하 자동차의 고속도로 연비가 높다


> Q2: 자동차 회사에 따라 도시 연비가 어떻게 다른가?
> - 'audi'와 'toyota' 중 어느 자동차 회사(manufaturer)의 도시 연비(cty)가 높은지 알아보기

In [31]:
# 자동차 회사(manufaturer) audi 데이터를 읽어와서 mpg_audi 만들기
mpg_audi = mpg.query('manufacturer == "audi"')
mpg_audi.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact


In [33]:
# 자동차 회사(manufacturer) toyota 데이터를 읽어와서 mpg_toyota 만들기
mpg_toyota = mpg.query('manufacturer == "toyota"')
mpg_toyota.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
173,toyota,4runner 4wd,2.7,1999,4,manual(m5),4,15,20,r,suv
174,toyota,4runner 4wd,2.7,1999,4,auto(l4),4,16,20,r,suv
175,toyota,4runner 4wd,3.4,1999,6,auto(l4),4,15,19,r,suv
176,toyota,4runner 4wd,3.4,1999,6,manual(m5),4,15,17,r,suv
177,toyota,4runner 4wd,4.0,2008,6,auto(l5),4,16,20,r,suv


In [34]:
# mpg_audi(자동차 회사(manufacturer) audi)의 도시 연비(cty) 평균 구하기
mpg_audi['cty'].mean()

17.61111111111111

In [35]:
# mpg_toyota(자동차 회사(manufacturer) toyota)의 도시 연비(cty) 평균 구하기
mpg_toyota['cty'].mean()

18.529411764705884

## ??? 의미있는 차이인가 ? 통계적 검증 t검증

> Q3 : 'chevrolet' 'ford' 'honda' 자동차의 고속도로 연비(hwy) 평균을 알아보려고 함

In [37]:
# 'chevrolet' 'ford' 'hond' 자동차 데이터를 추출하여 mpg_new 테이블 생성

mpg_new = mpg.query("manufacturer in ['chevrolet', 'ford', 'honda']")

# 각 자동차 회사의 모델별 자동차 수를 알아보자
mpg_new['manufacturer'].value_counts()

ford         25
chevrolet    19
honda         9
Name: manufacturer, dtype: int64

In [38]:
# mpg_new() ('chevrolet' 'ford' 'honda' 자동차 데이터)의 고속도로 연비(hwy)의 평균 구하기
mpg_new['hwy'].mean()

22.50943396226415