In [13]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np

# read_csv() 함수로 df 생성
df = pd.read_csv('./data/auto-mpg.csv', header=None)

# 열 이름을 지정
df.columns = ['mpg','cylinders','displacement','horsepower','weight',
              'acceleration','model year','origin','name'] 

# horsepower 열의 누락 데이터('?') 삭제하고 실수형으로 변환
df['horsepower'] = df['horsepower'].replace('?', np.nan)      # '?'을 np.nan으로 변경
df = df.dropna(subset=['horsepower'], axis=0)                 # 누락데이터 행을 삭제
df['horsepower'] = df['horsepower'].astype('float')           # 문자열을 실수형으로 변환

# np.histogram 으로 3개의 bin으로 나누는 경계 값의 리스트 구하기
count, bin_dividers = np.histogram(df['horsepower'], bins=3)

# 3개의 bin에 이름 지정
bin_names = ['저출력', '보통출력', '고출력']

# pd.cut 으로 각 데이터를 3개의 bin에 할당
df['hp_bin'] = pd.cut(x=df['horsepower'],     # 데이터 배열
                      bins=bin_dividers,      # 경계 값 리스트
                      labels=bin_names,       # bin 이름
                      include_lowest=True)    # 첫 경계값 포함

# sklern 라이브러리 불러오기
from sklearn import preprocessing    

# 전처리를 위한 encoder 객체 만들기
label_encoder = preprocessing.LabelEncoder()       # label encoder 생성
onehot_encoder = preprocessing.OneHotEncoder(sparse_output=True)     # one hot encoder 생성

# label encoder로 문자열 범주를 숫자형 범주로 변환

onehot_labeled = label_encoder.fit_transform(df['hp_bin'].head(15))  
# print(onehot_labeled)
# print(type(onehot_labeled))

# # 2차원 행렬로 형태 변경
onehot_reshaped = onehot_labeled.reshape(len(onehot_labeled), 1) 
# print(onehot_reshaped)
# print(type(onehot_reshaped))

# # 희소행렬로 변환
onehot_fitted = onehot_encoder.fit_transform(onehot_reshaped)
print(onehot_fitted)
print(type(onehot_fitted))

  (0, 1)	1.0
  (1, 1)	1.0
  (2, 1)	1.0
  (3, 1)	1.0
  (4, 1)	1.0
  (5, 0)	1.0
  (6, 0)	1.0
  (7, 0)	1.0
  (8, 0)	1.0
  (9, 0)	1.0
  (10, 0)	1.0
  (11, 1)	1.0
  (12, 1)	1.0
  (13, 0)	1.0
  (14, 2)	1.0
<class 'scipy.sparse._csr.csr_matrix'>


In [3]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np

# read_csv() 함수로 df 생성
df = pd.read_csv('./data/auto-mpg.csv', header=None)

# 열 이름을 지정
df.columns = ['mpg','cylinders','displacement','horsepower','weight',
              'acceleration','model year','origin','name'] 

# horsepower 열의 누락 데이터('?') 삭제하고 실수형으로 변환
df['horsepower'] = df['horsepower'].replace('?', np.nan)      # '?'을 np.nan으로 변경
df = df.dropna(subset=['horsepower'], axis=0)                 # 누락데이터 행을 삭제
df['horsepower'] = df['horsepower'].astype('float')           # 문자열을 실수형으로 변환

# np.histogram 으로 3개의 bin으로 나누는 경계 값의 리스트 구하기
count, bin_dividers = np.histogram(df['horsepower'], bins=3)

# 3개의 bin에 이름 지정
bin_names = ['저출력', '보통출력', '고출력']

# pd.cut 으로 각 데이터를 3개의 bin에 할당
df['hp_bin'] = pd.cut(x=df['horsepower'],     # 데이터 배열
                      bins=bin_dividers,      # 경계 값 리스트
                      labels=bin_names,       # bin 이름
                      include_lowest=True)    # 첫 경계값 포함

# 원-핫 인코딩 수행
onehot_encoded = pd.get_dummies(df['hp_bin'], prefix='', prefix_sep='')

# 원본 데이터프레임에 원-핫 인코딩된 데이터프레임을 추가
df = pd.concat([df, onehot_encoded], axis=1)

# True/False를 1/0으로 변환
df['저출력'] = df['저출력'].astype(int)
df['보통출력'] = df['보통출력'].astype(int)
df['고출력'] = df['고출력'].astype(int)

# 결과 출력
print(df.head(15))  # 상위 5개 행 출력


     mpg  cylinders  displacement  horsepower  weight  acceleration  \
0   18.0          8         307.0       130.0  3504.0          12.0   
1   15.0          8         350.0       165.0  3693.0          11.5   
2   18.0          8         318.0       150.0  3436.0          11.0   
3   16.0          8         304.0       150.0  3433.0          12.0   
4   17.0          8         302.0       140.0  3449.0          10.5   
5   15.0          8         429.0       198.0  4341.0          10.0   
6   14.0          8         454.0       220.0  4354.0           9.0   
7   14.0          8         440.0       215.0  4312.0           8.5   
8   14.0          8         455.0       225.0  4425.0          10.0   
9   15.0          8         390.0       190.0  3850.0           8.5   
10  15.0          8         383.0       170.0  3563.0          10.0   
11  14.0          8         340.0       160.0  3609.0           8.0   
12  15.0          8         400.0       150.0  3761.0           9.5   
13  14

In [12]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder

# read_csv() 함수로 df 생성
df = pd.read_csv('./data/auto-mpg.csv', header=None)

# 열 이름을 지정
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
              'acceleration', 'model year', 'origin', 'name']

# horsepower 열의 누락 데이터('?') 삭제하고 실수형으로 변환
df['horsepower'] = df['horsepower'].replace('?', np.nan)  # '?'을 np.nan으로 변경
df = df.dropna(subset=['horsepower'], axis=0)  # 누락데이터 행을 삭제
df['horsepower'] = df['horsepower'].astype('float')  # 문자열을 실수형으로 변환

# np.histogram 으로 3개의 bin으로 나누는 경계 값의 리스트 구하기
count, bin_dividers = np.histogram(df['horsepower'], bins=3)
# print(bin_dividers)

# 3개의 bin에 이름 지정
bin_names = ['저출력', '보통출력', '고출력']

# pd.cut 으로 각 데이터를 3개의 bin에 할당
df['hp_bin'] = pd.cut(x=df['horsepower'],  # 데이터 배열
                      bins=bin_dividers,  # 경계 값 리스트
                      labels=bin_names,  # bin 이름
                      include_lowest=True)  # 첫 경계값 포함
print(df['hp_bin'])
# OneHotEncoder 객체 생성 (sparse 대신 sparse_output 사용)
encoder = OneHotEncoder(sparse_output=False)

# 'hp_bin' 컬럼에 대해 원-핫 인코딩 수행
# DataFrame을 2D 배열 형태로 변환
onehot_encoded = encoder.fit_transform(df[['hp_bin']])

# 원-핫 인코딩된 결과를 DataFrame으로 변환하고 컬럼 이름 지정
onehot_df = pd.DataFrame(onehot_encoded, columns=encoder.get_feature_names_out(['hp_bin']))
# print(onehot_df)

# 원본 데이터프레임에 원-핫 인코딩된 데이터프레임을 추가
df = pd.concat([df, onehot_df], axis=1)

# 결과 출력
#print(df.head(15))  # 상위 15개 행 출력


0      보통출력
1      보통출력
2      보통출력
3      보통출력
4      보통출력
       ... 
393     저출력
394     저출력
395     저출력
396     저출력
397     저출력
Name: hp_bin, Length: 392, dtype: category
Categories (3, object): ['저출력' < '보통출력' < '고출력']
     mpg  cylinders  displacement  horsepower  weight  acceleration  \
0   18.0        8.0         307.0       130.0  3504.0          12.0   
1   15.0        8.0         350.0       165.0  3693.0          11.5   
2   18.0        8.0         318.0       150.0  3436.0          11.0   
3   16.0        8.0         304.0       150.0  3433.0          12.0   
4   17.0        8.0         302.0       140.0  3449.0          10.5   
5   15.0        8.0         429.0       198.0  4341.0          10.0   
6   14.0        8.0         454.0       220.0  4354.0           9.0   
7   14.0        8.0         440.0       215.0  4312.0           8.5   
8   14.0        8.0         455.0       225.0  4425.0          10.0   
9   15.0        8.0         390.0       190.0  3850.0           8.