In [26]:
import pandas as pd 
import numpy as np 
df = pd.read_csv('/Users/jw/python/4.Study/data/auto-mpg.csv', header=None)
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin', 'name']

In [27]:
print(df['horsepower'])

0      130.0
1      165.0
2      150.0
3      150.0
4      140.0
       ...  
393    86.00
394    52.00
395    84.00
396    79.00
397    82.00
Name: horsepower, Length: 398, dtype: object


In [28]:
# 데이터 형변환 
# df['horsepower'] = df['horsepower'].astype('float')
# object 형식을 float로 치환할려고 하려니 아래와 같은 에러가 발생한다. 
# 데이터중에 ? 가 있나보다.
# ValueError: could not convert string to float: '?'

In [29]:
# ?인 데이터를 NaN으로 치환하고 NaN인 데이터를 제거 
df['horsepower'].replace('?', np.NaN, inplace=True)
df.dropna(subset=['horsepower'], inplace=True, axis=0)

In [30]:
# 데이터 형변환 
df['horsepower'] = df['horsepower'].astype('float')

In [31]:
# horsepower를 저출력, 보통출력, 고출력으로 구간분할
# 범주형 목록을 생성
bin_names = ['저출력', '보통출력','고출력']
# 3개로 나눌 경계값을 생성
count, bin_dividers = np.histogram(df['horsepower'], bins=3)
print(bin_dividers)

[ 46.         107.33333333 168.66666667 230.        ]


In [32]:
# 구간 분할
df['hp_bin'] = pd.cut(x=df['horsepower'], bins=bin_dividers, labels=bin_names, include_lowest=True)
print(df['hp_bin'])

0      보통출력
1      보통출력
2      보통출력
3      보통출력
4      보통출력
       ... 
393     저출력
394     저출력
395     저출력
396     저출력
397     저출력
Name: hp_bin, Length: 392, dtype: category
Categories (3, object): [저출력 < 보통출력 < 고출력]


In [33]:
# hp_bin 을 원핫인코딩 - 3개의 컬럼이 생성되고
# 컬럼의 이름은 저출력, 보통출력, 고출력이 된다. 
# 자신의 값과 일치하는 컬럼에만 1이 되고 나머지 컬럼에는 0이 대입 
# 저출력 보통출력 고출력 
# 0         1        0
# 컬럼이름이 있음
dummy = pd.get_dummies(df['hp_bin'])
print(dummy)

hp_bin  저출력  보통출력  고출력
0         0     1    0
1         0     1    0
2         0     1    0
3         0     1    0
4         0     1    0
..      ...   ...  ...
393       1     0    0
394       1     0    0
395       1     0    0
396       1     0    0
397       1     0    0

[392 rows x 3 columns]


In [34]:
# 사이킷 런을 이용한 원 핫 인코딩
from sklearn.preprocessing import LabelBinarizer

# 컬럼이름이 없다.
# [[0 1 0 ]]
one_hot = LabelBinarizer()
print(one_hot.fit_transform(df['hp_bin']))

[[0 1 0]
 [0 1 0]
 [0 1 0]
 ...
 [0 0 1]
 [0 0 1]
 [0 0 1]]


In [35]:
# sort를 해버려서 class가 뭔지 확인을 해야한다. 
# 데이터를 정렬하기 때문에 순서를 확인해야 한다. 
print(one_hot.classes_)

['고출력' '보통출력' '저출력']


In [36]:
print(one_hot.inverse_transform(one_hot.fit_transform(df['hp_bin'])))

['보통출력' '보통출력' '보통출력' '보통출력' '보통출력' '고출력' '고출력' '고출력' '고출력' '고출력' '고출력'
 '보통출력' '보통출력' '고출력' '저출력' '저출력' '저출력' '저출력' '저출력' '저출력' '저출력' '저출력' '저출력'
 '보통출력' '저출력' '고출력' '고출력' '고출력' '고출력' '저출력' '저출력' '저출력' '저출력' '저출력' '저출력'
 '저출력' '저출력' '보통출력' '고출력' '보통출력' '보통출력' '고출력' '고출력' '고출력' '보통출력' '저출력'
 '저출력' '저출력' '저출력' '저출력' '저출력' '저출력' '저출력' '저출력' '저출력' '저출력' '저출력' '저출력'
 '저출력' '저출력' '저출력' '보통출력' '고출력' '보통출력' '보통출력' '보통출력' '고출력' '보통출력' '보통출력'
 '고출력' '저출력' '보통출력' '보통출력' '보통출력' '보통출력' '보통출력' '저출력' '저출력' '저출력' '저출력'
 '저출력' '저출력' '저출력' '저출력' '고출력' '보통출력' '보통출력' '보통출력' '보통출력' '고출력' '보통출력'
 '보통출력' '보통출력' '고출력' '고출력' '고출력' '저출력' '저출력' '저출력' '저출력' '저출력' '저출력'
 '보통출력' '보통출력' '고출력' '고출력' '저출력' '저출력' '저출력' '저출력' '저출력' '저출력' '저출력' '저출력'
 '보통출력' '고출력' '저출력' '저출력' '저출력' '보통출력' '보통출력' '보통출력' '보통출력' '고출력' '저출력'
 '저출력' '저출력' '저출력' '저출력' '저출력' '저출력' '저출력' '보통출력' '저출력' '보통출력' '보통출력'
 '보통출력' '보통출력' '보통출력' '저출력' '저출력' '저출력' '저출력' '저출력' '저출력' '저출력' '저출력'
 '저출력' '저출력' '저출력' '저출력' '저출력' '저출력' '저출력' '고출력' '보통출력' '보통출력'

In [37]:
# 여러개이 특성을 원 핫 인코딩 
# 한개의 데이터가 여러 개의 특성을 갖는 경우 - Tuple, List 등
# 문장의 유사도 측정, 상품 추천 할 때 사용 
from sklearn.preprocessing import MultiLabelBinarizer
features = [('Java', 'C++'), ('Java', 'Python'), ('C#', 'R'), ('Python', 'R')]
one_hot = MultiLabelBinarizer()
print(one_hot.fit_transform(features))
print(one_hot.classes_)

[[0 1 1 0 0]
 [0 0 1 1 0]
 [1 0 0 0 1]
 [0 0 0 1 1]]
['C#' 'C++' 'Java' 'Python' 'R']


In [38]:
# get_dummies는 하나의 특성을 하나의 컬럼으로 생성 
# 값의 종류가 15가지이면 15개의 컬럼이 생성
# 컬럼을 1개만 만들고 0부터 일련번호 형태로 값을 설정 
from sklearn.preprocessing import LabelEncoder
one_hot = LabelEncoder()
print(one_hot.fit_transform(df['hp_bin']))

[1 1 1 1 1 0 0 0 0 0 0 1 1 0 2 2 2 2 2 2 2 2 2 1 2 0 0 0 0 2 2 2 2 2 2 2 2
 1 0 1 1 0 0 0 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 0 1 1 1 0 1 1 0 2 1 1 1
 1 1 2 2 2 2 2 2 2 2 0 1 1 1 1 0 1 1 1 0 0 0 2 2 2 2 2 2 1 1 0 0 2 2 2 2 2
 2 2 2 1 0 2 2 2 1 1 1 1 0 2 2 2 2 2 2 2 2 1 2 1 1 1 1 1 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 0 1 1 1 1 2 1 2 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2
 1 1 1 1 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 1 2 1 1 0 1 1 1 2 2 2 2 2 1 1 1
 1 1 2 2 2 0 0 0 1 2 2 2 2 2 2 2 2 2 1 1 2 2 2 2 2 1 1 1 2 2 2 2 2 2 2 2 1
 1 1 1 1 1 2 2 2 2 2 2 2 2 2 1 1 1 2 2 1 2 2 2 1 1 1 1 1 1 1 1 1 2 2 2 2 2
 1 2 2 2 2 2 2 2 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2
 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 1 2 2 1 2 2 2 2 2 2 2 2]


In [39]:
# sklearn 의 인코더들은 문자열을 기준으로 정렬을 한 후 수치를 부여함. 
# 원하는 수치값으로 부여할수가 없음 
# 범주형 데이터에 원하는 수치값을 부여해서 인코딩할 때는 replace 메소드나 OrdinalEncoder 이용 

# 이상태에서 인코딩하면 보통->우수->저조 순서입니다.
df = pd.DataFrame({'Score':['저조', '우수','보통', '저조']})
print(df)

Score
0    저조
1    우수
2    보통
3    저조


In [40]:
mapper = {'저조':0, '보통' :1, '우수':2}
# 저조:0, 보통:1, 우수:2
df['encoder'] = df['Score'].replace(mapper)
print(df)

Score  encoder
0    저조        0
1    우수        2
2    보통        1
3    저조        0


In [41]:
# 순서가 있는 범주형 인코딩 
from sklearn.preprocessing import  OrdinalEncoder
features = np.array([['대한민국', 30], ['미국', 10],['뉴질랜드', 25],['캐나다', 20]])

# 각 컬럼의 데이터를 정렬하고 순서대로 가중치를 부여 
# 가나다 순, 숫자 
encoder = OrdinalEncoder()
result = encoder.fit_transform(features)
print(result)

[[1. 3.]
 [2. 0.]
 [0. 2.]
 [3. 1.]]


In [48]:
# 머신러닝 알고리즘을 이용한 누락된 값 대체
from sklearn.neighbors import KNeighborsClassifier

# 훈련할 데이터 
X = np.array([[0, 2.10, 1.45],
              [1, 1.22, 4.34],
              [0, 2.34, 1.98],
              [3, -1.19, -0.30]])

# NaN을 가진 데이터
X_with_nan = np.array([[np.NaN, 0.33, 0.22],
                       [np.NaN, -3.22, -1.45]])

# 분류기를 생성
clf = KNeighborsClassifier(3, weights='distance')

# 훈련 모델
trained_model = clf.fit(X[:,1:], X[:,0])

# 데이터 예측
imputed_values = trained_model.predict(X_with_nan[:,1:])
print(imputed_values)

# 갑과의 거리가 짧은 값으로 리턴 

[0. 3.]
