In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from matplotlib import font_manager, rc
font_path = "C:/Windows/Fonts/NGULIM.TTF"
font = font_manager.FontProperties(fname=font_path).get_name()
rc('font', family=font)

import warnings
warnings.filterwarnings("ignore")

In [33]:
train_df = pd.read_csv('train.csv')
age_gender_df = pd.read_csv('age_gender_info.csv')
test_df = pd.read_csv('test.csv')

## 기본 전처리
- 데이콘에서 제시한 오류 2번, 3번 제거
- 숫자형 데이터 : 0 으로 결측치 채움
- 범주형 데이터 : 같은 단지의 같은 코드로 결측치 채움
- 완전히 동일한 중복행 제거

In [34]:
def data_preprocessing(train_df, test_df):
    
    # 오류 2번, 3번만 제거 : 1번은 감안하여 분석 하세요!
    error_data = error_data = ['C2085', 'C1397', 'C2431', 'C1649', 'C1095', 'C2051', 'C1218', 'C1894', 'C2483', 'C1502', 'C1988']
    
    for error in error_data :
        train_df = train_df[train_df['단지코드'] != error]
    
    train_df.loc[train_df['임대보증금'] == '-','임대보증금'] = np.nan
    train_df.loc[train_df['임대료'] == '-','임대료'] = np.nan

    train_df['임대보증금'] = train_df['임대보증금'].astype(float)
    train_df['임대료'] = train_df['임대료'].astype(float)
    
    cols = ['임대보증금', '임대료','도보 10분거리 내 지하철역 수(환승노선 수 반영)','도보 10분거리 내 버스정류장 수']

    train_df[cols] = train_df[cols].fillna(0)
    test_df[cols] = test_df[cols].fillna(0)
    
    test_df[ (test_df['단지코드']=='C2411') & (test_df['자격유형'].isnull())] = 'A'
    test_df[ (test_df['단지코드']=='C2253') & (test_df['자격유형'].isnull())] = 'C'
    
    train_df = train_df.drop_duplicates()
    test_df = test_df.drop_duplicates()
    
    
    return train_df, test_df

In [37]:
train_df, test_df = data_preprocessing(train_df, test_df)
train_df = train_df.reset_index(drop=True)
train_init = train_df.drop('단지코드',axis=1)

In [38]:
train_init.shape, test.shape

((2556, 14), (949, 14))

### 범주형 데이터 전처리
- 원핫인코딩

In [39]:
train = pd.get_dummies(train_init)

In [40]:
train.shape

(2556, 53)

In [42]:
train.columns # 임대건물구분, 지역, 공급유형, 자격유형 -> 범주형 변수를 원핫인코딩으로 처리.

Index(['총세대수', '전용면적', '전용면적별세대수', '공가수', '임대보증금', '임대료',
       '도보 10분거리 내 지하철역 수(환승노선 수 반영)', '도보 10분거리 내 버스정류장 수', '단지내주차면수',
       '등록차량수', '임대건물구분_상가', '임대건물구분_아파트', '지역_강원도', '지역_경기도', '지역_경상남도',
       '지역_경상북도', '지역_광주광역시', '지역_대구광역시', '지역_대전광역시', '지역_부산광역시', '지역_서울특별시',
       '지역_세종특별자치시', '지역_울산광역시', '지역_전라남도', '지역_전라북도', '지역_제주특별자치도', '지역_충청남도',
       '지역_충청북도', '공급유형_공공분양', '공급유형_공공임대(10년)', '공급유형_공공임대(50년)',
       '공급유형_공공임대(5년)', '공급유형_공공임대(분납)', '공급유형_국민임대', '공급유형_영구임대', '공급유형_임대상가',
       '공급유형_장기전세', '공급유형_행복주택', '자격유형_A', '자격유형_B', '자격유형_C', '자격유형_D',
       '자격유형_E', '자격유형_F', '자격유형_G', '자격유형_H', '자격유형_I', '자격유형_J', '자격유형_K',
       '자격유형_L', '자격유형_M', '자격유형_N', '자격유형_O'],
      dtype='object')

### 데이터 분리

In [43]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

y_target = train['등록차량수']
X_data = train.drop('등록차량수',axis=1)

X_train, X_test, y_train, y_test = train_test_split(X_data, y_target, test_size=0.3, random_state=0)

### LinearRegression 이용한 회귀모델
- 평가지표는 대회에서 정한 MAE로 측정

In [44]:
lr = LinearRegression()
lr.fit(X_train, y_train)
y_pred = lr.predict(X_test)

mae  = mean_absolute_error(y_test, y_pred)
print(mae)

134.36078705237819


### 교차검증
- scoring = 'neg_mean_absolute_error' 
- 일반적으로 scoring을 값이 클 수록 모델 성능이 좋은 것으로 사이킷런에서 인식하는데,
- mae는 값이 클 수록 모델 성능이 저하되는 것이므로 Negative 키워드를 붙여서 사용
- 값은 양수로 보기 위해 -1 곱함

In [45]:
# 교차 검증
from sklearn.model_selection import cross_val_score

mae_scores = -1 * cross_val_score(lr, X_data, y_target, scoring='neg_mean_absolute_error',cv=5)

print(mae_scores)
print(np.mean(mae_scores))

[254.46306275 137.83352433 119.121148   174.02640801 246.29458308]
186.34774523513798


### 릿지와 라쏘 규제
- 회귀계수 값의 차이가 너무 크게 남.
- 규제 적용을 해보자

In [47]:
from sklearn.linear_model import Ridge

ridge = Ridge(alpha=10)

mae_scores = -1 * cross_val_score(ridge, X_data, y_target, scoring='neg_mean_absolute_error',cv=5)

print(mae_scores)
print(np.mean(mae_scores))

[263.06846595 138.66787736 119.42754998 169.25500872 209.83412229]
180.05060485963511


In [48]:
# 회귀계수 값의 차이가 너무 크게 나서,
# 규제 적용을 해보자

from sklearn.linear_model import Lasso

lasso = Lasso(alpha=10)

mae_scores = -1 * cross_val_score(lasso, X_data, y_target, scoring='neg_mean_absolute_error',cv=5)

print(mae_scores)
print(np.mean(mae_scores))

[278.52890251 140.1565933  110.83523215 173.35395185 171.25191903]
174.82531976977975


In [49]:
from sklearn.linear_model import ElasticNet

elastic = ElasticNet(alpha=10)

mae_scores = -1 * cross_val_score(elastic, X_data, y_target, scoring='neg_mean_absolute_error',cv=5)

print(mae_scores)
print(np.mean(mae_scores))

[273.80517017 139.91008926 111.24267413 172.83100692 171.84234941]
173.92625797856505


### 결과
- LinearRegression : 186.3
- Ridge : 180.0 (alpha=10)
- Lasso : 174.8 (alpha=10)
- ElasticNet : 173.9 (alpha=10)
- (최적의 alpha 값 찾는 것도 후에 고려 필요)

**규제만으로는 여전히 에러값이 너무 큼**

### kfold 검증 함수 생성
- log 변환시 교차 검증 후 mae 값이 기존 mae 값과 비교 어려움.
- 같은 수치로 비교 하기 위해 kfold 사용
- 타깃값의 skew를 제거하기 전과 후 비교

In [120]:
from sklearn.model_selection import KFold

def kfold_val(n, model, X_data, y_target,expm1):
    kfold = KFold(n_splits=n)
    cv_mae=[]

    n_iter = 0 

    for train_index, test_index in kfold.split(X_data):
        X_train, X_test = X_data.iloc[train_index], X_data.iloc[test_index]
        y_train, y_test = y_target[train_index], y_target[test_index]
        # 학습 및 예측

        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)
        n_iter += 1

        if expm1 :
            y_test = np.expm1(y_test)
            y_pred = np.expm1(y_pred)

        mae = mean_absolute_error(y_test,y_pred)
        train_size = X_train.shape[0]
        test_size = X_test.shape[0]
#         print('\n#{0} 교차 검증 MAE :{1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'.format(n_iter, mae, train_size, test_size))
        cv_mae.append(mae)
    # 개별 iteration별 정확도를 합하여 평균 정확도 계산
    print(model, '\n## 평균 검증 MAE:', np.mean(cv_mae))
    return np.mean(cv_mae)

## 데이터 변환 (추가 전처리)
- 선형 회귀 모델은 피처값과 타깃값의 분포가 정규분포 형태를 매우 선호.
- **특히! 타깃값의 경우 왜곡된 형태의 분포도일 경우 예측 성능에 부정적인 영향 미칠 가능성 높음.**


### target 로그변환 + feature 로그변환
- 데이터 EDA시, 타깃값 뿐만아니라 피처값들도 오른쪽 꼬리가 긴 skew 가 많이 나타남.
- 타깃값과 피처값 모두 로그 변환 후 평가 진행

In [121]:
y_target_log = np.log1p(train['등록차량수']) # 타깃에 로그함수 적용
X_data_log = np.log1p(X_data)
lr_reg = LinearRegression()
ridge_reg = Ridge(alpha=10)
lasso_reg = Lasso(alpha=10)
elastic_reg = ElasticNet(alpha=10)

# 성능 평가
models = [lr_reg, ridge_reg, lasso_reg, elastic_reg]

for model in models:
    kfold_val(5, model, X_data_log, y_target_log,True)

LinearRegression() 
## 평균 검증 MAE: 176.49434423156475
Ridge(alpha=10) 
## 평균 검증 MAE: 149.73366850188603
Lasso(alpha=10) 
## 평균 검증 MAE: 343.9587984146907
ElasticNet(alpha=10) 
## 평균 검증 MAE: 343.9587984146907


### 로그변환(target+feature) 적용 후 Ridge 의 성능이 많이 개선됨.
- LinearRegression : 186.3 -> 176.4 
- **Ridge : 180.0 (alpha=10) -> 149.7**
- Lasso : 174.8 (alpha=10) -> 343.9
- ElasticNet : 173.9 (alpha=10) -> 343. 9

### Ridge, Lasso, Elastic 최적의 파라미터 찾기

In [122]:
from sklearn.model_selection import GridSearchCV

def get_best_params(model, params,X_data, y_target):
    grid_model = GridSearchCV(model, param_grid=params, 
                              scoring='neg_mean_absolute_error', cv=5)
    grid_model.fit(X_data, y_target)
    mae = -1 *  grid_model.best_score_
    print('{0} 5 CV 시 최적 평균 로그 변환된 MAE 값: {1}, 최적 alpha:{2}'.format(model.__class__.__name__,
                                        np.round(mae, 4), grid_model.best_params_))
    return grid_model.best_estimator_

- 타깃과 피처 모두 로그 변환된 상태에서 최적의 파라미터 찾기

In [123]:
ridge_params = {'alpha' : [0.05,0.1,1,5,8,10,12,15,20]}
lasso_params = {'alpha' : [0.001,0.005, 0.008,0.05, 0.03, 0.1, 0.5, 1.5,10]}
elastic_params = {'alpha' : [0.001,0.005, 0.008,0.05, 0.03, 0.1, 0.5, 1.5,10]}

best_ridge=get_best_params(ridge_reg,ridge_params,X_data_log,y_target_log)
best_lasso = get_best_params(lasso_reg,lasso_params,X_data_log,y_target_log)
best_elastic = get_best_params(elastic,elastic_params,X_data_log,y_target_log)

Ridge 5 CV 시 최적 평균 로그 변환된 MAE 값: 0.2958, 최적 alpha:{'alpha': 5}
Lasso 5 CV 시 최적 평균 로그 변환된 MAE 값: 0.3034, 최적 alpha:{'alpha': 0.005}
ElasticNet 5 CV 시 최적 평균 로그 변환된 MAE 값: 0.2982, 최적 alpha:{'alpha': 0.001}


In [124]:
lr_reg = LinearRegression()
ridge_reg = Ridge(alpha=best_ridge.alpha)
lasso_reg = Lasso(alpha=best_lasso.alpha)
elastic_reg = ElasticNet(alpha=best_elastic.alpha)

# 성능 평가
models = [lr_reg, ridge_reg, lasso_reg, elastic_reg]

for model in models:

    kfold_val(5, model, X_data_log, y_target_log,True)

LinearRegression() 
## 평균 검증 MAE: 176.49434423156475
Ridge(alpha=5) 
## 평균 검증 MAE: 150.91111135172
Lasso(alpha=0.005) 
## 평균 검증 MAE: 155.49801926244294
ElasticNet(alpha=0.001) 
## 평균 검증 MAE: 152.7007431415346



### 라쏘와 엘라스틱넷이 최적 파라미터 적용시 성능 개선 많이 됨
##### 모델 : 기본전처리 -> 로그변환 -> 최적파라미터
- LinearRegression : 186.3    ->       176.4        -> 176.4
- Ridge : 180.0 (alpha=5)    ->       149.7        -> 150.9
- **Lasso : 174.8 (alpha=0.005)    ->       343.9        -> 155.4**
- **ElasticNet : 173.9 (alpha=0.001) ->     343.9        -> 152.7**


### 다른 형식으로 데이터 변환

- 데이터 스케일링/정규화 작업 필요
1. StandardScaler
2. MinMaScaler
3. log 함수
4. 다항 특성 적용

- 타깃값 : log변환적용
- 피처값
1. 표준정규화
2. 표준정규화 + 2차다항
3. MinMax 
4. MinMax + 2차다항
5. log변환
6. log변환 + 2차다항

In [125]:
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import PolynomialFeatures


def get_scaled_data(method='None', p_degree=None, input_data=None):
    if method == 'Standard':
        scaled_data = StandardScaler().fit_transform(input_data)
    elif method =='MinMax':
        scaled_data = MinMaxScaler().fit_transform(input_data)
    elif method == 'Log':
        scaled_data = np.log1p(input_data)
    else:
        scaled_data = input_data
    
    
    if p_degree != None:
        scaled_data = PolynomialFeatures(degree=p_degree, include_bias=False).fit_transform(scaled_data)
    
    return scaled_data

In [136]:
# scale_methods=[ ('Standard', None), ('Standard', 2), 
#                ('MinMax', None), ('MinMax', 2), ('Log', None), ('Log', 2)]

scale_methods=[ ('Standard', None)]

for s in scale_methods:

    X_scaled_data = get_scaled_data(method=s[0], p_degree=s[1], input_data=X_data)
    print(s[0], '+', s[1])

    X_scaled_df = pd.DataFrame(X_scaled_data)

    ridge_params = {'alpha' : [0.05,0.1,1,5,8,10,12,15,20]}
    lasso_params = {'alpha' : [0.001,0.005, 0.008,0.05, 0.03, 0.1, 0.5, 1.5,10]}
    elastic_params = {'alpha' : [0.001,0.005, 0.008,0.05, 0.03, 0.1, 0.5, 1.5,10]}

    best_ridge=get_best_params(ridge_reg,ridge_params,X_scaled_data,y_target_log)
    best_lasso = get_best_params(lasso_reg,lasso_params,X_scaled_data,y_target_log)
    best_elastic = get_best_params(elastic,elastic_params,X_scaled_data,y_target_log)
    
    lr_reg = LinearRegression()
    ridge_reg = Ridge(alpha=best_ridge.alpha)
    lasso_reg = Lasso(alpha=best_lasso.alpha)
    elastic_reg = ElasticNet(alpha=best_elastic.alpha)

    # 성능 평가
    models = [lr_reg, ridge_reg, lasso_reg, elastic_reg]
#     print(y_target_log)
#     print(X_scaled_df)
    for model in models:
        kfold_val(5, model, X_scaled_df, y_target_log,True)

Standard + None
Ridge 5 CV 시 최적 평균 로그 변환된 MAE 값: 0.3416, 최적 alpha:{'alpha': 20}
Lasso 5 CV 시 최적 평균 로그 변환된 MAE 값: 0.3544, 최적 alpha:{'alpha': 0.001}
ElasticNet 5 CV 시 최적 평균 로그 변환된 MAE 값: 0.3524, 최적 alpha:{'alpha': 0.001}
            0         1         2         3         4         5         6   \
0    -0.633589 -0.374801  1.183161  0.350280 -0.670450 -0.638592 -0.372238   
1    -0.633589 -0.188008 -0.400902  0.350280 -0.499466 -0.456947 -0.372238   
2    -0.633589 -0.188008 -0.694247  0.350280 -0.499466 -0.456947 -0.372238   
3    -0.633589  0.034800 -0.562242  0.350280 -0.214445 -0.136836 -0.372238   
4    -0.633589  0.034800 -0.701580  0.350280 -0.214445 -0.136836 -0.372238   
...        ...       ...       ...       ...       ...       ...       ...   
2551 -1.261341  0.105000 -0.701580 -0.602385 -0.565069 -0.389666 -0.372238   
2552 -1.261341  0.162381 -0.591576 -0.602385 -0.433517 -0.192779 -0.372238   
2553 -1.261341  0.182220 -0.591576 -0.602385 -0.433517 -0.192779 -0.372238   
2

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').