In [2]:
import pandas as pd
import numpy as np

In [3]:
# auto-mpg.csv 파일을 load
df = pd.read_csv('./dataset/auto-mpg.csv')

# horsepower 의 데이터 타입을 float 형으로 형변환
df.columns = [ 'mpg', 'cylinders', 'displacement', 'horsepower', 'weight','acceleration',
              'model year', 'origin', 'name']

# df['horsepower'] = df['horsepower'].astype('float') # error
# 형 변환 할 수 없는 자료의 행을 제거
df['horsepower'].unique() #  데이터 확인 -> '?' 찾음
df['horsepower'].replace('?', np.nan, inplace=True)
df.dropna(subset=['horsepower'], axis=0, inplace=True)
df['horsepower'] = df['horsepower'].astype('float')

# origin 1 , 2, 3 -> 1:USA, 2:EU, 3:JPN 으로 변경, category로 형변환
df['origin'].replace({1:'USA', 2:'EU', 3:'JPN'}, inplace=True)
df['origin'] = df['origin'].astype('category')

In [None]:
# np.histogram() 함수를 활용하면 각 구간의 경계선을 구할 수있음
count, bin_dividers = np.histogram( df['horsepower'], bins=3)
print(count, bin_dividers)

# pd.cut() 함수로 각각 데이터를 3개의 빈에 할당
# bin의 이름 정함
bin_names = ['저출력', '보통출력', '고출력']

df['hp_bin'] = pd.cut( x= df['horsepower'],   # 데이터 배열
                      bins = bin_dividers,     # 경계값 리스트
                      labels = bin_names,     # bin의 이름
                      include_lowest=True     # 첫 경계값 포함 여부
                     )
df[['horsepower', 'hp_bin']].head(15)

In [16]:
hp_dummies = pd.get_dummies(df['hp_bin'])
hp_dummies.head(15)

Unnamed: 0,저출력,보통출력,고출력
0,0,1,0
1,0,1,0
2,0,1,0
3,0,1,0
4,0,0,1
5,0,0,1
6,0,0,1
7,0,0,1
8,0,0,1
9,0,0,1


In [15]:
# 머신러닝 분석을 위한 라이브러리 sklearn, 딥러닝 tensorflow의 keras
from sklearn import preprocessing   # 전처리 모듈
# 전처리를 위한 encoder 
label_encoder = preprocessing.LabelEncoder()   # 클래스 instance 생성 label encoder
onehot_encoder = preprocessing.OneHotEncoder()  # onehot encoder 생성

# label encoder로 문자형 범주를 숫자형 범주로 변환
onehot_labeled = label_encoder.fit_transform(df['hp_bin'].head(15))
print(onehot_labeled)  # [1 1 1 1 0 0 0 0 0 0 1 1 0 2 2]

# 2차원 배열로 변경
onehot_reshape = onehot_labeled.reshape(len(onehot_labeled), 1)  # 2차원 배열로 변환
print(onehot_reshape) # [[1][1] ... [2]]

# 희소행렬로 변환
onehot_fitted = onehot_encoder.fit_transform(onehot_reshape)
print(onehot_fitted)

[1 1 1 1 0 0 0 0 0 0 1 1 0 2 2]
[[1]
 [1]
 [1]
 [1]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [1]
 [1]
 [0]
 [2]
 [2]]
  (0, 1)	1.0
  (1, 1)	1.0
  (2, 1)	1.0
  (3, 1)	1.0
  (4, 0)	1.0
  (5, 0)	1.0
  (6, 0)	1.0
  (7, 0)	1.0
  (8, 0)	1.0
  (9, 0)	1.0
  (10, 1)	1.0
  (11, 1)	1.0
  (12, 0)	1.0
  (13, 2)	1.0
  (14, 2)	1.0


In [None]:
import numpy as np
df['horsepower'].unique()    #  데이터 확인 -> '?' 찾음
df['horsepower'].replace('?', np.nan, inplace=True)
df.dropna(subset=['horsepower'], axis=0, inplace=True)
df['horsepower'] = df['horsepower'].astype('float')