In [1]:
import pandas as pd
import numpy as np

# 구간 분할

In [2]:
df = pd.read_csv('e:/data_파이썬머신러닝판다스데이터분석/part5/auto-mpg.csv', header=None) # 데이터 불러오기
df.columns=['mpg','cylinders','displacement','horsepower','weight','acceleration','model year','origin','name'] # 컬럼명 지정
df['horsepower'].replace('?',np.nan,inplace=True) # ?문자를 NaN으로 치환
df.dropna(subset=['horsepower'], axis=0, inplace=True) # horsepower 컬럼에 NaN이 포함된 행 제거
df['horsepower'] = df['horsepower'].astype('float64') # 자료형을 실수형으로 변환

count, bin_dividers = np.histogram(df['horsepower'], bins=3)
# np.histogram()은 각 구간에 속하는 값의 개수(count)와 경계값 리스트(bin_dividers)를 반환
print(np.histogram(df['horsepower'], bins=3), '\n')
print(bin_dividers, '\n')

bin_names = ['저출력','보통출력','고출력'] # 각 구간의 이름 설정

df['hp_bin'] = pd.cut(x=df['horsepower'], # 사용할 데이터
                     bins=bin_dividers, # 구간 경계 정보
                     labels=bin_names, # 각 구간 이름
                     include_lowest=True) # 첫 경계값 포함(이상,초과 설정)

print(df[['horsepower','hp_bin']].head(10), '\n')

(array([257, 103,  32], dtype=int64), array([ 46.        , 107.33333333, 168.66666667, 230.        ])) 

[ 46.         107.33333333 168.66666667 230.        ] 

   horsepower hp_bin
0       130.0   보통출력
1       165.0   보통출력
2       150.0   보통출력
3       150.0   보통출력
4       140.0   보통출력
5       198.0    고출력
6       220.0    고출력
7       215.0    고출력
8       225.0    고출력
9       190.0    고출력 



# 더미 변수
### 알고리즘에서 구간 분할을 통해 생성한 범주형데이터를 사용할 수 없는 경우가 존재
### 컴퓨터가 인식 가능한 0,1로 표현되는 더미변수를 사용해야함
### 특성이 존재하면 1 아니면 0으로 구분하는 개념
### 숫자 0과 1로만 구성되는 원핫벡터로 변환한다고 해서 원핫인코딩(one-hot-encoding)이라고도 함

In [3]:
horsepower_dummies = pd.get_dummies(df['hp_bin'])
print(horsepower_dummies.head(10), '\n')

   저출력  보통출력  고출력
0    0     1    0
1    0     1    0
2    0     1    0
3    0     1    0
4    0     1    0
5    0     0    1
6    0     0    1
7    0     0    1
8    0     0    1
9    0     0    1 



# 사이킷런 라이브러리 이용, 원핫인코딩 처리

In [4]:
from sklearn import preprocessing # 라이브러리 호출

label_encoder = preprocessing.LabelEncoder() # LabelEncoder 객체 생성
onehot_encoder = preprocessing.OneHotEncoder() # OneHotEncoder 객체 생성

onehot_labeled = label_encoder.fit_transform(df['hp_bin'].head(20)) # LabelEncoder로 hp_bin컬럼의 범주형 데이터를 문자에서 숫자로 변경
print(onehot_labeled, '\n')
print(type(onehot_labeled), '\n')

onehot_reshaped = onehot_labeled.reshape(len(onehot_labeled),1) # 변경된 데이터를 데이터개수X1 행렬(2차원 행렬) 형태로 변환
print(onehot_reshaped, '\n')
print(type(onehot_reshaped), '\n')

onehot_fitted = onehot_encoder.fit_transform(onehot_reshaped) # 희소행렬로 변환
print(onehot_fitted, '\n')
print(type(onehot_fitted), '\n')
# 희소행렬이란 행렬의 값이 대부분 0인 행렬
# 단순히 모든 값을 행렬형태로 저장한다면 메모리상의 불이익
# 따라서 해당 값이 존재하는 (행,열) 정보와 해당 값을 따로 저장함

[1 1 1 1 1 0 0 0 0 0 0 1 1 0 2 2 2 2 2 2] 

<class 'numpy.ndarray'> 

[[1]
 [1]
 [1]
 [1]
 [1]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [1]
 [1]
 [0]
 [2]
 [2]
 [2]
 [2]
 [2]
 [2]] 

<class 'numpy.ndarray'> 

  (0, 1)	1.0
  (1, 1)	1.0
  (2, 1)	1.0
  (3, 1)	1.0
  (4, 1)	1.0
  (5, 0)	1.0
  (6, 0)	1.0
  (7, 0)	1.0
  (8, 0)	1.0
  (9, 0)	1.0
  (10, 0)	1.0
  (11, 1)	1.0
  (12, 1)	1.0
  (13, 0)	1.0
  (14, 2)	1.0
  (15, 2)	1.0
  (16, 2)	1.0
  (17, 2)	1.0
  (18, 2)	1.0
  (19, 2)	1.0 

<class 'scipy.sparse.csr.csr_matrix'> 

