#### 【데이터 전처리 - 표준화】
- 다양한 데이터 수집 시 각각 다른 형태/포맷으로 수집이 되는 경우 발생
- 데이터 단위 불일치 / 자료형 불일치 / 컬럼별 데이터의 범위차이 큰 경우
- 분석을 용이하게 하기 위해서 일치 필요
- 단위 변환 / 자료형 변환 / 스케일링

In [61]:
import pandas as pd
import numpy as np

# 1. 데이터 로드
DATA_FILE = '../Data/auto_mpg.csv'
mpgDF = pd.read_csv(DATA_FILE)
mpgDF2 = mpgDF.copy()

# 2. 결측치 및 이상값 처리
mpgDF2['horsepower'] = mpgDF2['horsepower'].replace("?", np.nan)
mpgDF2.dropna(inplace=True)

# 3. horsepower를 숫자형으로 변환
mpgDF2['horsepower'] = pd.to_numeric(mpgDF2['horsepower'], errors='coerce')

# 4. 결측치 평균으로 채우기 (혹시 남아있을 경우)
mpgDF2['horsepower'] = mpgDF2['horsepower'].fillna(mpgDF2['horsepower'].mean())

# ✅ 이제 나머지 자료형 변환
cols = ['cylinders', 'model year', 'origin']
types = ['category', 'category', 'category']

for col, dtype in zip(cols, types):
    mpgDF2[col] = mpgDF2[col].astype(dtype)

# 5. 단위 변환 (mpg → kpl)
mpgDF2['kpl'] = mpgDF2['mpg'] * 0.425

# 6. 구간 분할 (horsepower 범주화)
outSR, retbins = pd.cut(
    mpgDF2['horsepower'],
    3,
    right=False,
    include_lowest=True,
    retbins=True,
    labels=['저출력', '보통출력', '고출력']
)

mpgDF2['horsepower'] = outSR

print(mpgDF2.head(2))

## origin 컬럼의 수치값 ==> 글자값 변경
mpgDF2.origin = mpgDF2.origin.cat.rename_categories({1:'USA', 2:'JPN', 3:'EU'})


    mpg cylinders  displacement horsepower  weight  acceleration model year  \
0  18.0         8         307.0       보통출력    3504          12.0         70   
1  15.0         8         350.0       보통출력    3693          11.5         70   

  origin                   car name    kpl  
0      1  chevrolet chevelle malibu  7.650  
1      1          buick skylark 320  6.375  


In [60]:
mpgDF2.head(3)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name,kpl
0,18.0,8,307.0,보통출력,3504,12.0,70,USA,chevrolet chevelle malibu,7.65
1,15.0,8,350.0,보통출력,3693,11.5,70,USA,buick skylark 320,6.375
2,18.0,8,318.0,보통출력,3436,11.0,70,USA,plymouth satellite,7.65
