In [1]:
from sklearn import preprocessing
import numpy as np
import pandas as pd
import platform
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc

# matplotlib 기반의 그래프를 출력 시 한글 사용을 위한 설정

# system이 Mac이면,
if platform.system() == 'Darwin':
    rc('font', family='AppleGothic')

# 음수를 사용하기 위함
plt.rcParams['axes.unicode_minus'] = False

In [2]:
auto_mpg = pd.read_csv('../data/auto-mpg.csv', header=None)
auto_mpg.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin', 'name']

auto_mpg['horsepower'].replace('?', np.nan, inplace=True)
auto_mpg.dropna(subset=['horsepower'], axis=0, inplace=True)
auto_mpg['horsepower'] = auto_mpg['horsepower'].astype('float')

print(auto_mpg.head())

    mpg  cylinders  displacement  horsepower  weight  acceleration  \
0  18.0          8         307.0       130.0  3504.0          12.0   
1  15.0          8         350.0       165.0  3693.0          11.5   
2  18.0          8         318.0       150.0  3436.0          11.0   
3  16.0          8         304.0       150.0  3433.0          12.0   
4  17.0          8         302.0       140.0  3449.0          10.5   

   model year  origin                       name  
0          70       1  chevrolet chevelle malibu  
1          70       1          buick skylark 320  
2          70       1         plymouth satellite  
3          70       1              amc rebel sst  
4          70       1                ford torino  


In [3]:
# One-Hot Encoding
# horsepower 특성을 범주형으로 추가.

# 3개의 구간으로 구분해서 개수와 경계값을 리턴 받아 저장.
count, bin_dividers = np.histogram(auto_mpg['horsepower'], bins = 3)
print(count, bin_dividers)
# [257 103  32] [ 46.         107.33333333 168.66666667 230.        ]

# 범주형의 형태로 생성
auto_mpg['hp_bin'] = pd.cut(x = auto_mpg['horsepower'],
                            bins = bin_dividers,
                            labels=['저출력', '중간출력', '고출력'],
                            include_lowest = True)

# One-Hot Encoding 수행 - 값이 3종류 이므로 3개의 특성이 만들어지고 값은 하나만 할당됨.
horsepower_dummies = pd.get_dummies(auto_mpg['hp_bin'])
print(horsepower_dummies)
#    저출력   중간출력    고출력
# 0    False   True  False
# 1    False   True  False
# 2    False   True  False
# 3    False   True  False
# 4    False   True  False
# ..     ...    ...    ...
# 393   True  False  False
# 394   True  False  False
# 395   True  False  False
# 396   True  False  False
# 397   True  False  False

[257 103  32] [ 46.         107.33333333 168.66666667 230.        ]
       저출력   중간출력    고출력
0    False   True  False
1    False   True  False
2    False   True  False
3    False   True  False
4    False   True  False
..     ...    ...    ...
393   True  False  False
394   True  False  False
395   True  False  False
396   True  False  False
397   True  False  False

[392 rows x 3 columns]
