<h1> Library 

In [1]:
# Standard library imports
import os 
import glob
import numpy as np
import itertools

# Third party imports
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold 
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error
from xgboost import XGBRegressor
from catboost import CatBoostRegressor
import lightgbm as LGB
from sklearn.cross_decomposition import PLSRegression
from sklearn.linear_model import Lasso,ElasticNet,Ridge
from sklearn.svm import SVR

from tqdm import tqdm
import plotly 
import plotly.express as px
import plotly.graph_objects as go 
from plotly.subplots import make_subplots
import matplotlib
from matplotlib import font_manager, rc
import shap

# Dacon plotly 그림 업로드 
pd.options.plotting.backend = 'plotly'
## plotly.io를 import 한 후 renderers 기본값을 꼭 "notebook_connected" 로 설정해주시기 바랍니다.
import plotly.io as pio
pio.renderers.default = "notebook_connected"

#options 
pd.set_option('display.max_columns', None)
rc('font', family='AppleGothic')
matplotlib.rcParams['axes.unicode_minus'] = False


<H1> Data Loading 

<h1> Data Prep 

In [None]:
df_train, df_test, df_gender, df_sub = dataset[files[2]].copy(), dataset[files[1]].copy(), dataset[files[0]].copy(), dataset[files[3]].copy()

In [None]:
df_train = pd.read_csv("train.csv")
df_test = pd.read_csv("test.csv")
df_gender = pd.read_csv("age_gen")

In [None]:
display("Train", df_train.head(10))
display("Test", df_test.head(10))

단지 코드 중첩, 임대건물 구분, 지역, 공급유형, 전용면적 등 정보 병합 필요 

In [None]:
display(df_train.describe())
display(df_test.describe())

<h2> Step 1

In [None]:
train_tmp = df_train.iloc[:,0:-1]
train_tmp['type'] = 'train'
test_tmp = df_test
test_tmp['type'] = 'test'

df_all = pd.concat([train_tmp, test_tmp], axis=0)

names = ["자격유형", "공급유형", "임대건물구분", "지역"]
fig = make_subplots(rows=2, cols=2, subplot_titles=("자격유형", "공급유형", "임대건물구분", "지역"))
postion = {'0' : [1,1], '1' : [1,2], '2' : [2,1], '3' : [2,2]}

for order, name in enumerate(names):
    row, col = postion[str(order)][0], postion[str(order)][1]
    fig.add_trace(go.Bar(name='Train', x=df_all[name], y=df_all[name]), row=row, col=col)
    fig.add_trace(go.Bar(name='Test', x=df_all[name], y=df_all[name]), row=row, col=col)

fig.update_layout(barmode='stack', 
    autosize=False,
    width=800,
    height=600,)
# fig.show()

del train_tmp,test_tmp,df_all

<h2> Train vs Test 명목 변수 차집합 

In [None]:
columns = ['임대건물구분', '지역', '공급유형', '자격유형']
for col in columns:
    complement = list(set(df_train[col].unique()) - set(df_test[col].unique()))
    print(f"Train 데이터 기준 차집합 {col} : {complement}")
    

Train 데이터에만 있는 값들 제거 필요할까? 
그럼 얼마나 포함하고 있을까? <br>
100개 정도 포함하고 있네 어떻게 처리하지?

버릴까? 다른 이름으로 병합할까?



In [None]:
options = True 

if options:
    # 방안 1  값 통일 
    df_train.loc[df_train.지역.isin(['서울특별시']), '지역'] = '이외'
    df_train.loc[df_train.공급유형.isin(['공공임대(5년)', '장기전세', '공공분양']), '공급유형'] = '이외'
    df_train.loc[df_train.자격유형.isin(['O', 'B', 'F']), '공급유형'] = '이외'
else:
    #방안 2 Drop

    df_train = df_train.loc[df_train.지역 != '서울특별시']

    mask = df_train.공급유형 != '공공분양'
    mask &= df_train.공급유형 != '장기전세'
    mask &= df_train.공급유형 != '공공임대(5년)'
    df_train = df_train.loc[mask]

    mask = df_train.자격유형 != 'F'
    mask &= df_train.자격유형 != 'B'
    mask &= df_train.자격유형 != 'O'
    df_train = df_train.loc[mask]


<h3> for Train data

In [None]:
print (f'train data \n{df_train.isnull().sum()}')

공란이 제법 있군

In [None]:
## 공란 처리 및 기타 작업 
## 문자열 처리 
df_train.rename(columns={"도보 10분거리 내 지하철역 수(환승노선 수 반영)" : "지하철", "도보 10분거리 내 버스정류장 수" : "버스"}, inplace=True)
df_train[['임대보증금','임대료']] = df_train[['임대보증금', '임대료']].fillna("0").replace("-", "0").astype(int)

## 지하철 버스 공란 변경하기 
df_train['지하철'].fillna(0,inplace=True)
df_train['버스'].fillna(0,inplace=True)

##면적은 게속 변경 하면서 확인할것 
df_train['전용면적'] = df_train['전용면적'] //10*10
df_train['전용면적'] = np.where(df_train['전용면적'] > 100, 100, df_train['전용면적'])
df_train['전용면적'] = np.where(df_train['전용면적'] < 15, 15, df_train['전용면적'])

if df_train.isnull().sum().sum() != 0:
    print (df_train.isnull().sum())
else:
    print("공란 없어요")

## 카데코리화 
df_train.loc[:,'임대용총전용면적'] = df_train.loc[:,'전용면적'] * df_train.loc[:,'전용면적별세대수']
df_train.loc[:,"임대건물구분"] = df_train.loc[:,"임대건물구분"].astype('category').cat.codes
df_train.loc[:,'지역'] = df_train.loc[:,'지역'].astype('category').cat.codes
df_train.loc[:,'공급유형'] = df_train.loc[:,'공급유형'].astype('category').cat.codes
df_train.loc[:,'자격유형'] = df_train.loc[:,'자격유형'].astype('category').cat.codes
df_train['key'] = df_train['임대건물구분'].astype(str).str.cat(df_train['공급유형'].astype(str), sep='-').str.cat(df_train['자격유형'].astype(str), sep='-')


<h3> for df_test

In [None]:
print (f'test data \n{df_test.isnull().sum()}')

역시 공란이 좀 있군, 자격 유형에 공란있네 

In [None]:
df_test[df_test.자격유형.isnull()]

In [None]:
df_test[(df_test.단지코드=='C2411') | (df_test.단지코드=='C2253')].head(10)

임대료 있고, 임대보증금 있는데 공란이네, c2411은 A로, c2253은 C로 넣으면 되겠네 

In [None]:
## 빠진 자격 유형 
df_test.loc[(df_test.자격유형.isnull()) & (df_test.단지코드 == "C2411"), '자격유형'] = 'A'
df_test.loc[(df_test.자격유형.isnull()) & (df_test.단지코드 == "C2253"), '자격유형'] = 'C'

## 문자열 처리 
df_test.rename(columns={"도보 10분거리 내 지하철역 수(환승노선 수 반영)" : "지하철", "도보 10분거리 내 버스정류장 수" : "버스"}, inplace=True)
df_test[['임대보증금','임대료']] = df_test[['임대보증금', '임대료']].fillna("0").replace("-", "0").astype(int)

## 지하철 버스 공란 변경하기 
df_test['지하철'].fillna(0,inplace=True)
df_test['버스'].fillna(0,inplace=True)

##면적은 게속 변경 하면서 확인할것 
df_test['전용면적'] = df_test['전용면적'] //10*10
df_test['전용면적'] = np.where(df_test['전용면적'] > 100, 100, df_test['전용면적'])
df_test['전용면적'] = np.where(df_test['전용면적'] < 15, 15, df_test['전용면적'])


if df_test.isnull().sum().sum() != 0:
    print(df_test.isnull().sum())
else:
    print("공란 없어요")

df_test.loc[:,'임대용총전용면적'] = df_test.loc[:,'전용면적'] * df_test.loc[:,'전용면적별세대수']
df_test.loc[:,"임대건물구분"] = df_test.loc[:,"임대건물구분"].astype('category').cat.codes
df_test.loc[:,'지역'] = df_test.loc[:,'지역'].astype('category').cat.codes
df_test.loc[:,'공급유형'] = df_test.loc[:,'공급유형'].astype('category').cat.codes
df_test.loc[:,'자격유형'] = df_test.loc[:,'자격유형'].astype('category').cat.codes
df_test['key'] = df_test['임대건물구분'].astype(str).str.cat(df_test['공급유형'].astype(str), sep='-').str.cat(df_test['자격유형'].astype(str), sep='-')

# df_test.loc[df_test.자격유형.isnull()]

<h2>성별 정보 

In [None]:
# 성별 구성 지역 카테고리 
df_gender.loc[:,'지역'] = df_gender.loc[:,'지역'].astype('category').cat.codes



<h2> 명목변수 확인

어떻게 병합할 것인가? 명목 변수 중복은 없니? 


In [None]:
codes = df_train.단지코드.unique()

diff_key =[]

for code in codes:
    tmp = df_train.loc[df_train.단지코드 == code]
    if len(tmp.key.unique()) !=1:
        diff_key.append(code)

df_by_key = df_train.loc[df_train['단지코드'].isin(diff_key),:]
df_by_key.head(14)



단지코드 601 88~90 모든 행열의 값이 동일 단순 실수? 
87과 비교하면 공급유형과 자격유형이 다르네, 공급유형과 자격유형에 따라 구분하기 위함인듯 

"임대건물구분", "공금유형", "자격유형"으로 Key를 구성하였을 때 같은 단지코드라도 다른 key값이 발생됨 

key 값마다 예상 등록 차량수를 예측하면 좋겠지만 훈련 데이터의 동록 차량수는 총합만 기록되어 있음 

"임대건물구분", "공금유형", "자격유형"은 제외해야 하나?

In [None]:
codes = df_test.단지코드.unique()

diff_key =[]

for code in codes:
    tmp = df_test.loc[df_test.단지코드 == code]
    if len(tmp.key.unique()) !=1:
        diff_key.append(code)

df_by_key = df_test.loc[df_test['단지코드'].isin(diff_key),:]
df_by_key.head(14)

## test에도 단지 코드별 다른 key값 발생 

우선은 신경쓰지 말자. 나중에 고민

<h1> Test Data, Test Data <br> 
<h3> 주차 면수와 나머지 변수의 상관관계

In [None]:
## 그림을 위해 train , test 하나의 df로 

train_tmp = df_train.iloc[:,0:-1]
train_tmp['type'] = 'train'
test_tmp = df_test
test_tmp['type'] = 'test'

df_all = pd.concat([train_tmp, test_tmp], axis=0)

df_all = df_all.drop_duplicates(['단지코드'], keep='first').reset_index(drop=True)

In [None]:
df_all

In [None]:
df = df_all[['등록차량수', '총세대수',	'임대건물구분',	'지역',	'공급유형',	'전용면적',	'전용면적별세대수',	'공가수',	'자격유형',	'임대보증금',	'임대료',	'지하철',	'버스',	'단지내주차면수',	'임대용총전용면적', 'type']]
fig = px.scatter_matrix(df, color = 'type' )
fig.update_layout(dragmode='select',
                  width=1000,
                  height=1000,
                  hovermode='closest')
fig.update_traces(diagonal_visible=False)
fig.show()

대충 저렇게 그려지는데 Train과 Test 분포가 조금 다르네

<h3> 하나씩 살펴 보면 

In [None]:

fig = px.scatter(df_all, x="총세대수", y="단지내주차면수",  color="type", trendline="ols", hover_data=['단지코드'], marginal_x="box",marginal_y="box",)
fig.update_layout(width=600,
                  height=600,
                  hovermode='closest')
fig.show()
# C1397의 경우 총 세대수에 비해 주차면이 과도하게 많음 1가구당 4대 수준  

In [None]:
fig = px.scatter(df_all, x="전용면적", y="단지내주차면수",  color="type", trendline="ols", hover_data=['단지코드'], marginal_x="box",marginal_y="box",)
fig.update_layout(width=600,
                  height=600,
                  hovermode='closest')
fig.show()

In [None]:
fig = px.scatter(df_all, x="공가수", y="단지내주차면수",  color="type", trendline="ols", hover_data=['단지코드'], marginal_x="box",marginal_y="box",)
fig.update_layout(width=600,
                  height=600,
                  hovermode='closest')
fig.show()

In [None]:
fig = px.scatter(df_all, x="버스", y="단지내주차면수",  color="type", trendline="ols", hover_data=['단지코드'], marginal_x="box",marginal_y="box",)
fig.update_layout(width=600,
                  height=600,
                  hovermode='closest')
fig.show()

In [None]:
fig = px.scatter(df_all, x="지하철", y="단지내주차면수",  color="type", trendline="ols", hover_data=['단지코드'], marginal_x="box",marginal_y="box",)
fig.update_layout(width=600,
                  height=600,
                  hovermode='closest')
fig.show()

In [None]:
fig = px.scatter(df_all, x="임대보증금", y="단지내주차면수",  color="type", trendline="ols", hover_data=['단지코드'], marginal_x="box",marginal_y="box",)
fig.update_layout(width=600,
                  height=600,
                  hovermode='closest')
fig.show()

In [None]:
fig = px.scatter(df_all, x="임대료", y="단지내주차면수",  color="type", trendline="ols", hover_data=['단지코드'], marginal_x="box",marginal_y="box",)
fig.update_layout(width=600,
                  height=600,
                  hovermode='closest')
fig.show()

<h1> Step 2

<h2> 면적 처리 & 코드 그룹

In [None]:
df_train.loc[:,'총전용면적'] = df_train.loc[:,'전용면적'] * df_train.loc[:,'전용면적별세대수']

codes = df_train.단지코드.unique()
areas = np.sort(df_train.전용면적.unique())

df_train_edited = pd.DataFrame()
columns = ['단지코드', '등록차량수', '총세대수', '지역', '공가수','지하철', '버스', '단지내주차면수']

for order, code in enumerate(codes):
    temp_by_code = df_train.loc[df_train.단지코드==code].reset_index(drop=True)
    ## 원 계열 값 그냥 가져오기 
    df_train_edited.loc[order, columns] = temp_by_code.loc[0, columns]             
    df_train_edited.loc[order, "총임대가구수"] = temp_by_code.전용면적별세대수.sum()

    for area in areas:
        temp_by_code_areas = temp_by_code.loc[temp_by_code.전용면적==area].reset_index(drop=True)

        if temp_by_code_areas.shape[0] !=0:
            df_train_edited.loc[order, f'면적_{int(area)}'] = temp_by_code_areas.전용면적별세대수.sum() / temp_by_code_areas.총세대수[0]
        else:
            df_train_edited.loc[order, f'면적_{int(area)}'] = 0


df_train_edited["임대비율"] = df_train_edited.총임대가구수 / df_train_edited.총세대수
df_train_edited["가구당주차면수"] = df_train_edited.단지내주차면수 / df_train_edited.총세대수

## gender 정보 병합 
df_train_edited = pd.merge(df_train_edited, df_gender, left_on= [ "지역"], right_on= ["지역"], how='left')


df_train_edited

In [None]:
df_test.loc[:,'총전용면적'] = df_test.loc[:,'전용면적'] * df_test.loc[:,'전용면적별세대수']

codes = df_test.단지코드.unique()
areas = np.sort(df_test.전용면적.unique())

df_test_edited = pd.DataFrame()
columns = ['단지코드', '총세대수', '지역', '공가수','지하철', '버스', '단지내주차면수']

for order, code in enumerate(codes):
    temp_by_code = df_test.loc[df_test.단지코드==code].reset_index(drop=True)
    ## 원 계열 값 그냥 가져오기 
    df_test_edited.loc[order, columns] = temp_by_code.loc[0, columns]             
    df_test_edited.loc[order, "총임대가구수"] = temp_by_code.전용면적별세대수.sum()

    for area in areas:
        temp_by_code_areas = temp_by_code.loc[temp_by_code.전용면적==area].reset_index(drop=True)

        if temp_by_code_areas.shape[0] !=0:
            df_test_edited.loc[order, f'면적_{int(area)}'] = temp_by_code_areas.전용면적별세대수.sum() / temp_by_code_areas.총세대수[0]
        else:
            df_test_edited.loc[order, f'면적_{int(area)}'] = 0


df_test_edited["임대비율"] = df_test_edited.총임대가구수 / df_test_edited.총세대수
df_test_edited["가구당주차면수"] = df_test_edited.단지내주차면수 / df_test_edited.총세대수
## gender 정보 병합 
df_test_edited = pd.merge(df_test_edited, df_gender, left_on= [ "지역"], right_on= ["지역"], how='left')


df_test_edited

<h3> 상관도 확인

In [None]:
corr = df_train_edited.drop(['단지코드'],1,).corr()["등록차량수"].abs().sort_values(ascending=False)
corr

<h3> 학습 데이터 만들기 

In [None]:
X = df_train_edited.copy()
X = X.loc[:,corr.index[0:20]]
X.drop(['등록차량수',  ],axis=1, inplace=True)
feature_names = X.columns.to_list()
# scaler = StandardScaler()
# X = scaler.fit(X).transform(X)

y = df_train_edited.iloc[:,1]

# 피쳐 선택은 나중에 우선 상관도 높은 20개 사용 

<h2> 바닐라 모델 교차 검증

In [None]:
models = {'RF' : RandomForestRegressor(), 'LR': LinearRegression() , 'RD' : Ridge(), 'LS' : Lasso(), 'ET' : ElasticNet(),
          'XGB' : XGBRegressor(), 
          'LGB' : LGB.LGBMRegressor(), 
          'CB' : CatBoostRegressor(logging_level='Silent'), 
          'PLS' : PLSRegression()}

#CatBoostRegressor은 시끄러운 녀석이라 닥쳐
kfold = KFold(n_splits=5, shuffle = True, random_state=0)
# n_split : 몇개로 분할할지
# shuffle : Fold를 나누기 전에 무작위로 섞을지
# random_state : 나눈 Fold를 그대로 사용할지
answer = []
for model in models.keys():
    print(model)
    scores = cross_val_score(models[model] , X, y, cv=kfold, scoring='neg_mean_absolute_error')
    answer.append(scores)

corss_val_result = pd.DataFrame(answer)
corss_val_result.index = models.keys()
corss_val_result['mean'] = corss_val_result.mean(axis=1)




In [None]:
corss_val_result


많이 사용하는 회귀 모델 바닐라 모드로, 대충 비슷 하군 튜닝이 필요하겠네  

<h1> 결과 파일 생성 

In [None]:
model = RF = RandomForestRegressor(n_jobs=-1, random_state=300, max_depth =12,	min_samples_leaf =2,	min_samples_split=2,	n_estimators=200)
model.fit(X, y)

X_test = df_test_edited[feature_names]

pred = RF.predict(X_test)
submission = dataset[files[3]]

submission['num'] = pred
submission.to_csv('baseline.csv', index=False)



<h1> 모델 설명 

In [None]:
explainer = shap.TreeExplainer(RF) # Tree model Shap Value 확인 객체 지정
shap_values = explainer.shap_values(X_test) # Shap Values 계산
shap.initjs() # javascript 초기화 (graph 초기화)
shap.force_plot(explainer.expected_value, shap_values[1,:], feature_names)

## 빨간색 영향도 높음, 파란색 영향도 낮음(음의 영향력)

In [None]:
shap.force_plot(explainer.expected_value, shap_values, X_test,feature_names) 
#x축. y축 title을 클릭하면 drop down 생성, 전 피처에 대하여 영향력 확인 가능 

In [None]:
shap.summary_plot(shap_values, X_test,feature_names)

# 모든 변수들의 shap value를 요약한 것으로 해당 변수가 빨간색을 띄면 target(price)에 대해 양의 영향력, 파란색을 띄면 음의 영향력을 가진다. 


In [None]:
 # 각 변수에 대한 |Shap Values|을 통해 변수 importance 파악
shap.summary_plot(shap_values, X_test, plot_type = "bar")