## 용어
- 가변수, 더미변수(dummy variable): 회귀나 다른 모델에서 요인 데이터를 사용하기 위해 0과 1의 이진변수로 부호화한 변수
- 기준 부호화(reference coding): 통계학자들이 많이 사용하는 부호화 헝태, 여기서 한 요인을 기준으로 하고 다른 요인들이 이 기준에 따라 비교할 수 있도록 한다.(유의어: 처리 부호화(treatment coding))
- 원-핫 인코딩(one-hot encoding): 머신러닝 분야에서 많이 사용되는 부호화. 모든 요인 수준이 계속 유지된다. 어떤 머신러닝 알고리즘에서는 유용한 반면, 다중선형회귀에서는 적합하지 않다.
- 편차 부호화(deviation coding): 기준 수준과는 반대로 전체 평균에 대해 각 수준을 비교하는 부호화 방법(유의어:총합 대비(sum contrast))

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

In [2]:
# 데이터 로드
house = pd.read_csv('../../data/house_sales.csv', sep='\t')

## 더미변수 표현

In [3]:
# 카테고리 데이터
house['PropertyType'].head()

1        Multiplex
2    Single Family
3    Single Family
4    Single Family
5    Single Family
Name: PropertyType, dtype: object

In [4]:
# 더미변수로 표현(원-핫 인코딩)
pd.get_dummies(house['PropertyType']).head()

Unnamed: 0,Multiplex,Single Family,Townhouse
1,1,0,0
2,0,1,0
3,0,1,0
4,0,1,0
5,0,1,0


In [5]:
#더미변수로 표현(원-핫 인코딩): drop_first=True(다중공선성 문제를 피하기 위해 사용)
pd.get_dummies(house['PropertyType'], drop_first=True).head()

Unnamed: 0,Single Family,Townhouse
1,0,0
2,1,0
3,1,0
4,1,0
5,1,0


In [6]:
features =['SqFtTotLiving', 'SqFtLot', 'Bathrooms', 'Bedrooms',
              'BldgGrade', 'PropertyType']
label = 'AdjSalePrice'
X = pd.get_dummies(house[features], drop_first=True) # 숫자형이 아닌 모든 컬럼들에 대해서 원핫인코딩(PropertyType)

house_lm_factor = LinearRegression()
house_lm_factor.fit(X, house[label])

print(f'Intercept: {house_lm_factor.intercept_:.3f}')
print('Coefficients:')
for name, coef in zip(X.columns, house_lm_factor.coef_):
    print(f' {name}: {coef}')

Intercept: -446841.366
Coefficients:
 SqFtTotLiving: 223.373628925038
 SqFtLot: -0.07036798136812017
 Bathrooms: -15979.013473415263
 Bedrooms: -50889.73218483014
 BldgGrade: 109416.30516146208
 PropertyType_Single Family: -84678.21629549275
 PropertyType_Townhouse: -115121.97921609186


## 다수의 수준을 갖는 카테고리 변수들

In [7]:
# 우편번호(ZipCode)와 그 개수
pd.DataFrame(house['ZipCode'].value_counts()).transpose()

Unnamed: 0,98038,98103,98042,98115,98117,98052,98034,98033,98059,98074,...,98051,98024,98354,98050,98057,98288,98224,98068,98113,98043
ZipCode,788,671,641,620,619,614,575,517,513,502,...,32,31,9,7,4,4,3,1,1,1


### 초기 모델의 잔차를 사용하여 우편번호 그룹 만들기

In [8]:

features =['SqFtTotLiving', 'SqFtLot', 'Bathrooms', 'Bedrooms', 'BldgGrade']
label = 'AdjSalePrice'

house_lm = LinearRegression()
house_lm.fit(house[features], house[label])

LinearRegression()

In [9]:
zip_groups = pd.DataFrame([
    *pd.DataFrame({
    'ZipCode':house['ZipCode'],
    'residual': house[label] - house_lm.predict(house[features])
}).groupby('ZipCode').apply(lambda x:{
    'ZipCode':x.iloc[0, 0],
    'count': len(x),
    'median_residual':x['residual'].median()
})
]).sort_values('median_residual')

zip_groups['cum_count'] = np.cumsum(zip_groups['count']) # count 누적 합계
zip_groups['ZipGroup'] = pd.qcut(zip_groups['cum_count'],5, labels=False, retbins=False) # 5개의 그룹으로 분할

zip_groups

Unnamed: 0,ZipCode,count,median_residual,cum_count,ZipGroup
36,98057,4,-537321.644462,4,0
27,98043,1,-307661.343614,5,0
46,98092,289,-193569.183599,294,0
23,98038,788,-150066.477035,1082,0
31,98051,32,-142352.869593,1114,0
...,...,...,...,...,...
60,98119,260,174462.549290,21746,4
54,98112,357,232788.487256,22103,4
25,98040,244,254004.002463,22347,4
3,98004,293,383596.028729,22640,4


In [10]:
to_join = zip_groups[['ZipCode', 'ZipGroup']].set_index('ZipCode')
to_join

Unnamed: 0_level_0,ZipGroup
ZipCode,Unnamed: 1_level_1
98057,0
98043,0
98092,0
98038,0
98051,0
...,...
98119,4
98112,4
98040,4
98004,4


In [11]:
house = house.join(to_join, on='ZipCode')
pd.get_dummies(house['ZipGroup'], drop_first=1).rename(columns = {1:'ZipGroup_1', 2:'ZipGroup_2', 3:'ZipGroup_3', 4:'ZipGroup_4'})

Unnamed: 0,ZipGroup_1,ZipGroup_2,ZipGroup_3,ZipGroup_4
1,0,1,0,0
2,0,1,0,0
3,0,1,0,0
4,0,1,0,0
5,0,1,0,0
...,...,...,...,...
27057,0,0,1,0
27058,0,0,0,1
27061,0,0,0,0
27062,0,1,0,0


## 순서가 있는 카테고리 변수
- 순서 카테고리 변수는 일반적으로 숫자 값으로 변환히여 그대로 사용할 수 있다.
- 순서 카테고리 변수를 수치형 변수로 다루는 것은, 그냥 카테고리 변수로 다루면 잃어버릴 수 있는 순서에 담긴 정보를 유지하기 위함이다.