# 3. 데이터 표준화

동일한 대상을 표현하는 방법에 차이가 있으면, 분석의 정확도는 현저히 낮아진다.<br>
따라서 데이터 포맷을 일관성 있게 표준화하는 작업이 필요하다.
<br><br>
## 3-1 단위 환산

같은 데이터셋 안에서 서로 다른 측정 단위를 사용한다면, 전체 데이터의 일관성 문제에서 문제가 발생한다.<br>
따라서 측정 단위를 동일하게 맞출 필요가 있다. 흔히, 외국 데이터를 가져오면 국내에서 잘 사용하지 않는 도량형 단위를 사용하는 경우가 많다.<br>
영미권에서 주로 사용하는 마일, 야드, 온스 등을 한국에서 사용하는 미터, 평, 그램 등으로 변환하는 것이 좋다.
<br><br>
UCI 자동차 연비 데이터셋에서 'mpg' 열은 영미권에서 사용하는 '갤런당 마일(mile per gallon)' 단위로 연비를 표시하고 있다.<br>
한국에서 사용하는 '리터당 킬로미터(km/L)' 단위로 변환해보자.<br>
1마일은 1.60934km이고, 1갤런은 3.78541리터이다. 따라서 1mpg는 0.425km/L이다.
<br><br>
0행에 들어 있는 차량의 연비는 18mpg이다.<br>
한국식 연비 표현으로 변환한 'kpl'열의 0행에 해당하는 값은 리터 당 7.65킬로미터이다.<br>
`round(2)` 명령은 소수점 아래 둘째자리 반올림을 뜻한다.

In [1]:
import pandas as pd

# read_csv() 함수로 df 생성
df = pd.read_csv('./auto-mpg.csv', header=None)

# 열 이름 지정
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
              'acceleration', 'model year', 'origin', 'name']
print(df.head(3))
print('\n')

# mpg(mile per gallon)를 kpl(kilometer per liter)로 변환 (mpg_to_kpl = 0.425)
mpg_to_kpl = 1.60934/3.78541

# mpg 열에 0.425를 곱한 결과를 새로운 열(kpl)에 추가
df['kpl'] = df['mpg'] * mpg_to_kpl
print(df.head(3))
print('\n')

# kpl 열을 소수점 아래 둘째자리에서 반올림
df['kpl'] = df['kpl'].round(2)
print(df.head(3))


    mpg  cylinders  displacement horsepower  weight  acceleration  model year  \
0  18.0          8         307.0      130.0  3504.0          12.0          70   
1  15.0          8         350.0      165.0  3693.0          11.5          70   
2  18.0          8         318.0      150.0  3436.0          11.0          70   

   origin                       name  
0       1  chevrolet chevelle malibu  
1       1          buick skylark 320  
2       1         plymouth satellite  


    mpg  cylinders  displacement horsepower  weight  acceleration  model year  \
0  18.0          8         307.0      130.0  3504.0          12.0          70   
1  15.0          8         350.0      165.0  3693.0          11.5          70   
2  18.0          8         318.0      150.0  3436.0          11.0          70   

   origin                       name       kpl  
0       1  chevrolet chevelle malibu  7.652571  
1       1          buick skylark 320  6.377143  
2       1         plymouth satellite  7.65257