### 데이터 표준화
* 동일한 대상을 표현하는 방법에 차이가 있으면 분석의 정확도는 현저히 낮아짐.
* 같은 데이터셋 안에서 서로 다른 측정 단위를 사용한다면, 전체 데이터의 일관성 측면에서 문제가 발생.
* 데이터 포맷을 일관성 있게 표준화하는 작업이 필요함.

단위 환산

In [22]:
# 라이브러리 불러오기
import pandas as pd

df = pd.read_csv('../data/auto-mpg.csv', header=None)

# 열 이름을 지정
df.columns = ['연비','실린더','변위','마력','무게', '가속', '연식', '원산지', '이름'] 
df.head(5)

Unnamed: 0,연비,실린더,변위,마력,무게,가속,연식,원산지,이름
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino


In [23]:
# mpg(mile per gallon)를 kpl(kilometer per liter)로 변환 (mpg_to_kpl = 0.425)
mpg_to_kpl = 1.60934 / 3.78541
mpg_to_kpl

0.42514285110463595

In [24]:
# mpg 열에 0.425를 곱한 결과를 새로운 열(kpl)에 추가
df['연비2'] = df['연비'] * mpg_to_kpl
df.head()

Unnamed: 0,연비,실린더,변위,마력,무게,가속,연식,원산지,이름,연비2
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu,7.652571
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320,6.377143
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite,7.652571
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst,6.802286
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino,7.227428


In [25]:
# kpl 열을 소수점 아래 둘째 자리에서 반올림 
df['연비2'] = df['연비2'].round(2)   # round(df['연비2'], 2) 같은 표현 
df.head()

Unnamed: 0,연비,실린더,변위,마력,무게,가속,연식,원산지,이름,연비2
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu,7.65
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320,6.38
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite,7.65
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst,6.8
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino,7.23


자료형 변환

In [26]:
# 라이브러리 불러오기
import pandas as pd

df = pd.read_csv('../data/auto-mpg.csv', header=None)

# 열 이름을 지정
df.columns = ['연비','실린더','변위','마력','무게', '가속', '연식', '원산지', '이름'] 

# 각 열의 자료형 확인
print(df.dtypes)   

연비     float64
실린더      int64
변위     float64
마력      object
무게     float64
가속     float64
연식       int64
원산지      int64
이름      object
dtype: object


In [27]:
# horsepower 열의 고유값 확인
print(df['마력'].unique())

['130.0' '165.0' '150.0' '140.0' '198.0' '220.0' '215.0' '225.0' '190.0'
 '170.0' '160.0' '95.00' '97.00' '85.00' '88.00' '46.00' '87.00' '90.00'
 '113.0' '200.0' '210.0' '193.0' '?' '100.0' '105.0' '175.0' '153.0'
 '180.0' '110.0' '72.00' '86.00' '70.00' '76.00' '65.00' '69.00' '60.00'
 '80.00' '54.00' '208.0' '155.0' '112.0' '92.00' '145.0' '137.0' '158.0'
 '167.0' '94.00' '107.0' '230.0' '49.00' '75.00' '91.00' '122.0' '67.00'
 '83.00' '78.00' '52.00' '61.00' '93.00' '148.0' '129.0' '96.00' '71.00'
 '98.00' '115.0' '53.00' '81.00' '79.00' '120.0' '152.0' '102.0' '108.0'
 '68.00' '58.00' '149.0' '89.00' '63.00' '48.00' '66.00' '139.0' '103.0'
 '125.0' '133.0' '138.0' '135.0' '142.0' '77.00' '62.00' '132.0' '84.00'
 '64.00' '74.00' '116.0' '82.00']


In [28]:
# 누락 데이터('?') 삭제 
import numpy as np
df['마력'].replace('?', np.nan, inplace=True)     # '?'을 np.nan으로 변경
df.dropna(subset=['마력'], axis=0, inplace=True)  # 누락데이터 행을 삭제
df['마력'] = df['마력'].astype('float')
print(df['마력'].unique())

[130. 165. 150. 140. 198. 220. 215. 225. 190. 170. 160.  95.  97.  85.
  88.  46.  87.  90. 113. 200. 210. 193. 100. 105. 175. 153. 180. 110.
  72.  86.  70.  76.  65.  69.  60.  80.  54. 208. 155. 112.  92. 145.
 137. 158. 167.  94. 107. 230.  49.  75.  91. 122.  67.  83.  78.  52.
  61.  93. 148. 129.  96.  71.  98. 115.  53.  81.  79. 120. 152. 102.
 108.  68.  58. 149.  89.  63.  48.  66. 139. 103. 125. 133. 138. 135.
 142.  77.  62. 132.  84.  64.  74. 116.  82.]


In [29]:
# horsepower 열의 자료형 확인
print(df['마력'].dtypes)  

float64


In [30]:
# origin 열의 고유값 확인
print(df['원산지'].unique())

[1 3 2]


In [31]:
# 정수형 데이터를 문자형 데이터로 변환 
df['원산지'].replace({1:'USA', 2:'EU', 3:'JAPAN'}, inplace=True)

# origin 열의 고유값과 자료형 확인
print(df['원산지'].unique())
print(df['원산지'].dtypes) 

['USA' 'JAPAN' 'EU']
object


In [33]:
# origin 열의 문자열 자료형을 범주형으로 변환
df['원산지'] = df['원산지'].astype('category')     
print(df['원산지'].dtypes) 
print(df['원산지'])

category
0      USA
1      USA
2      USA
3      USA
4      USA
      ... 
393    USA
394     EU
395    USA
396    USA
397    USA
Name: 원산지, Length: 392, dtype: category
Categories (3, object): ['EU', 'JAPAN', 'USA']


In [35]:
# 범주형을 문자열로 다시 변환
df['원산지'] = df['원산지'].astype('str')     
print(df['원산지'].dtypes)
print(df['원산지'])

object
0      USA
1      USA
2      USA
3      USA
4      USA
      ... 
393    USA
394     EU
395    USA
396    USA
397    USA
Name: 원산지, Length: 392, dtype: object


In [36]:
# model year 열의 정수형을 범주형으로 변환
print(df['연식'].sample(3))
df['연식'] = df['연식'].astype('category') 
print(df['연식'].sample(3)) 

291    79
172    75
395    82
Name: 연식, dtype: int64
310    80
50     71
226    77
Name: 연식, dtype: category
Categories (13, int64): [70, 71, 72, 73, ..., 79, 80, 81, 82]
