In [8]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np

# read_csv() 함수로 df 생성
df = pd.read_csv('./data/auto-mpg.csv', header=None)

# 열 이름을 지정
df.columns = ['mpg','cylinders','displacement','horsepower','weight',
              'acceleration','model year','origin','name'] 

# horsepower 열의 누락 데이터('?') 삭제하고 실수형으로 변환
df['horsepower'] = df['horsepower'].replace('?', np.nan)      # '?'을 np.nan으로 변경
df = df.dropna(subset=['horsepower'], axis=0)                 # 누락데이터 행을 삭제
df['horsepower'] = df['horsepower'].astype('float')           # 문자열을 실수형으로 변환

# np.histogram 으로 3개의 bin으로 나누는 경계 값의 리스트 구하기
count, bin_dividers = np.histogram(df['horsepower'], bins=3)

# 3개의 bin에 이름 지정
bin_names = ['저출력', '보통출력', '고출력']

# pd.cut 으로 각 데이터를 3개의 bin에 할당
df['hp_bin'] = pd.cut(x=df['horsepower'],     # 데이터 배열
                      bins=bin_dividers,      # 경계 값 리스트
                      labels=bin_names,       # bin 이름
                      include_lowest=True)    # 첫 경계값 포함

# hp_bin 열의 범주형 데이터를 더미 변수로 변환
horsepower_dummies = pd.get_dummies(df['hp_bin'])
horsepower_dummies.head(15)

Unnamed: 0,저출력,보통출력,고출력
0,False,True,False
1,False,True,False
2,False,True,False
3,False,True,False
4,False,True,False
5,False,False,True
6,False,False,True
7,False,False,True
8,False,False,True
9,False,False,True


In [9]:
df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name,hp_bin
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu,보통출력
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320,보통출력
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite,보통출력
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst,보통출력
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino,보통출력


In [17]:
pd.get_dummies(df['hp_bin']).iloc[[0]]

Unnamed: 0,저출력,보통출력,고출력
0,False,True,False


In [16]:
pd.get_dummies(df['cylinders'],dtype=int).iloc[[0]]

Unnamed: 0,3,4,5,6,8
0,0,0,0,0,1


In [None]:
df['hp_bin'][0]

0    보통출력
Name: hp_bin, dtype: category
Categories (3, object): ['저출력' < '보통출력' < '고출력']

In [12]:
# hp_bin 열의 범주형 데이터를 더미 변수로 변환 (dtype 지정)
horsepower_dummies_float = pd.get_dummies(df['hp_bin'], dtype=float)
horsepower_dummies_float.head()

Unnamed: 0,저출력,보통출력,고출력
0,0.0,1.0,0.0
1,0.0,1.0,0.0
2,0.0,1.0,0.0
3,0.0,1.0,0.0
4,0.0,1.0,0.0


In [13]:
# hp_bin 열의 범주형 데이터를 더미 변수로 변환 (첫번째 열 제외)
horsepower_dummies_drop = pd.get_dummies(df['hp_bin'], dtype=float, 
                                          drop_first=True)
horsepower_dummies_drop.head()

Unnamed: 0,보통출력,고출력
0,1.0,0.0
1,1.0,0.0
2,1.0,0.0
3,1.0,0.0
4,1.0,0.0
