## 1. 데이터 로딩 및 전처리

In [1]:
# load library
import pandas as pd
import numpy as np

import plotly.offline as off
import plotly.graph_objs as go

### 1.1 train data 생성

In [2]:
estate_price_2016 = pd.read_csv('../dataset/estate_price_2016.csv', encoding='cp949')
estate_price_2017 = pd.read_csv('../dataset/estate_price_2017.csv', encoding='cp949')
estate_price_2018 = pd.read_csv('../dataset/estate_price_2018.csv', encoding='cp949')
estate_price_2019 = pd.read_csv('../dataset/estate_price_2019.csv', encoding='cp949')
estate_price_2020 = pd.read_csv('../dataset/estate_price_2020.csv', encoding='cp949')
estate_price_2021 = pd.read_csv('../dataset/estate_price_2021.csv', encoding='cp949')

In [3]:
train_data = pd.concat([estate_price_2018, estate_price_2019, estate_price_2020])
train_data

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일,거래유형,중개사소재지
0,서울특별시 강남구 개포동,658-1,658.0,1.0,개포6차우성아파트1동~8동,79.97,201801,3,130000,4,1987,언주로 3,,-,-
1,서울특별시 강남구 개포동,658-1,658.0,1.0,개포6차우성아파트1동~8동,79.97,201801,8,117000,2,1987,언주로 3,,-,-
2,서울특별시 강남구 개포동,658-1,658.0,1.0,개포6차우성아파트1동~8동,79.97,201801,11,130000,1,1987,언주로 3,,-,-
3,서울특별시 강남구 개포동,658-1,658.0,1.0,개포6차우성아파트1동~8동,79.97,201803,19,139500,2,1987,언주로 3,,-,-
4,서울특별시 강남구 개포동,658-1,658.0,1.0,개포6차우성아파트1동~8동,54.98,201804,5,107500,5,1987,언주로 3,,-,-
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
84234,서울특별시 중랑구 중화동,274-77,274.0,77.0,한영(104),67.57,202008,7,26000,2,2003,동일로144길 74,,-,-
84235,서울특별시 중랑구 중화동,11,11.0,0.0,현대휴앤미,95.94,202007,10,44000,6,2007,봉화산로27가길 23,,-,-
84236,서울특별시 중랑구 중화동,11,11.0,0.0,현대휴앤미,100.17,202012,3,54800,5,2007,봉화산로27가길 23,,-,-
84237,서울특별시 중랑구 중화동,11월 07일,11.0,7.0,현대휴앤미(102동),77.71,202009,28,40000,5,2007,봉화산로27가길 19,,-,-


In [4]:
# train data 생성 위한 전처리 수행

train_data.drop(['해제사유발생일', '거래유형', '중개사소재지'], inplace=True, axis=1)
train_data.drop(['번지', '본번', '부번', '계약일'], inplace=True, axis=1)
# train_data.to_csv('projectDataset/main data from seoul/train_data.csv', index=False, encoding='utf-8-sig')

In [5]:
train_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 240921 entries, 0 to 84238
Data columns (total 8 columns):
 #   Column    Non-Null Count   Dtype  
---  ------    --------------   -----  
 0   시군구       240921 non-null  object 
 1   단지명       240921 non-null  object 
 2   전용면적(㎡)   240921 non-null  float64
 3   계약년월      240921 non-null  int64  
 4   거래금액(만원)  240921 non-null  object 
 5   층         240921 non-null  int64  
 6   건축년도      240921 non-null  int64  
 7   도로명       240921 non-null  object 
dtypes: float64(1), int64(3), object(4)
memory usage: 16.5+ MB


In [6]:
train_data

Unnamed: 0,시군구,단지명,전용면적(㎡),계약년월,거래금액(만원),층,건축년도,도로명
0,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,201801,130000,4,1987,언주로 3
1,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,201801,117000,2,1987,언주로 3
2,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,201801,130000,1,1987,언주로 3
3,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,201803,139500,2,1987,언주로 3
4,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,54.98,201804,107500,5,1987,언주로 3
...,...,...,...,...,...,...,...,...
84234,서울특별시 중랑구 중화동,한영(104),67.57,202008,26000,2,2003,동일로144길 74
84235,서울특별시 중랑구 중화동,현대휴앤미,95.94,202007,44000,6,2007,봉화산로27가길 23
84236,서울특별시 중랑구 중화동,현대휴앤미,100.17,202012,54800,5,2007,봉화산로27가길 23
84237,서울특별시 중랑구 중화동,현대휴앤미(102동),77.71,202009,40000,5,2007,봉화산로27가길 19


### 1.2 단지명 컬럼 데이터 분석 및 전처리

In [7]:
# 각 컬럼 별 결측치 파악

np.sum(pd.isnull(train_data))

시군구         0
단지명         0
전용면적(㎡)     0
계약년월        0
거래금액(만원)    0
층           0
건축년도        0
도로명         0
dtype: int64

In [8]:
# 연도별 데이터 집계 위해 계약연도 컬럼 추가

year_splited = train_data['계약년월'].astype(str).str[:4]
train_data['계약연도'] = year_splited
train_data.head()

Unnamed: 0,시군구,단지명,전용면적(㎡),계약년월,거래금액(만원),층,건축년도,도로명,계약연도
0,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,201801,130000,4,1987,언주로 3,2018
1,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,201801,117000,2,1987,언주로 3,2018
2,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,201801,130000,1,1987,언주로 3,2018
3,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,201803,139500,2,1987,언주로 3,2018
4,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,54.98,201804,107500,5,1987,언주로 3,2018


In [9]:
# 단지 별 아파트 데이터 탐색
train_data_by_danji = train_data.groupby(train_data['단지명'])

# 아파트 실거래가 컬럼 숫자형 변환 => 단지 별 아파트 데이터 탐색에 실거래가 포함 위함
train_data['거래금액(만원)'] = train_data['거래금액(만원)'].apply(lambda x: x.replace(',', '')).astype('int64')

# 단지 별 거래금액(만원) 평균 가격(2018~2020)
train_data_by_danji = train_data_by_danji.mean()

In [10]:
train_data_by_danji

Unnamed: 0_level_0,전용면적(㎡),계약년월,거래금액(만원),층,건축년도
단지명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
(1-102),29.985000,201905.000000,8125.000000,3.500000,1997.0
(1101-1),14.168571,201911.523810,11892.023810,6.595238,2012.0
(13-21),66.510000,201803.666667,38666.666667,4.000000,2006.0
(1546-0),29.350000,201910.000000,22900.000000,9.000000,2015.0
(1617-21),82.340000,201806.000000,66500.000000,5.000000,2007.0
...,...,...,...,...,...
힐튼빌리지1차,82.350000,202005.000000,63000.000000,1.000000,2002.0
힐튼빌리지2차,140.720000,201907.333333,81500.000000,3.333333,2002.0
힐하우스,163.980000,202010.000000,118000.000000,6.000000,1998.0
힐하우스(577-79),88.350000,201802.000000,59000.000000,1.000000,2003.0


In [11]:
# 상위 30개의 거래금액 가격을 지닌 아파트 단지
train_data_by_danji_top30 = train_data_by_danji.sort_values('거래금액(만원)', ascending=False)[:30]

danji_fig = go.Figure()
danji_trace = go.Bar(x=train_data_by_danji_top30.index, y=train_data_by_danji_top30['거래금액(만원)'])
danji_fig.add_trace(danji_trace)

danji_fig.update_layout(
    title='상위 30개 아파트 단지별 평균 거래금액(2018~2020)',
    xaxis_title='단지명',
    yaxis_title='거래금액(만원)',
    yaxis_tickformat='(만원)',
    autosize=False,
    width=1200,
    height=1000
)

danji_fig.show()

In [12]:
#  단지 별 계약 연도 별 그룹바이 수행 후 단지 별 내 계약 연도 내 거래금액 평균가격 도출

train_data_by_danji_year = train_data.groupby(['단지명', '계약연도']).mean()
train_data_by_danji_year_top30 = train_data_by_danji_year.sort_values('거래금액(만원)', ascending=False)[:30]
train_data_by_danji_year_top30

Unnamed: 0_level_0,Unnamed: 1_level_0,전용면적(㎡),계약년월,거래금액(만원),층,건축년도
단지명,계약연도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
상지리츠빌카일룸2차,2019,244.32,201911.0,645000.0,8.0,2006.0
상지카일룸,2018,244.98,201806.0,640000.0,13.0,2003.0
효성빌라청담101(A동),2020,226.74,202011.0,620000.0,5.0,2019.0
상지리츠빌카일룸2차,2018,244.32,201803.666667,575000.0,7.333333,2006.0
상지리츠빌카일룸,2020,210.5,202010.0,565400.0,4.0,2018.0
마크힐스이스트윙,2018,192.86,201808.0,553333.333333,14.0,2010.0
상지리츠빌카일룸(65-4),2019,237.74,201907.0,533000.0,2.0,2012.0
효성빌라청담101(B동),2019,226.74,201905.0,530000.0,3.0,2019.0
청담어퍼하우스,2020,199.7025,202006.75,519500.0,3.75,2019.0
아펠바움,2019,241.83,201907.0,510000.0,15.0,2008.0


In [13]:
# 단지 별 내 계약 연도 내 거래금액 평균가격 시각화
df = train_data_by_danji_year_top30.reset_index()

danji_year_fig = go.Figure()

trace_danji_2018 = go.Bar(x=df[df['계약연도'] == '2018']['단지명'], y=df[df['계약연도'] == '2018']['거래금액(만원)'], name='2018년')
trace_danji_2019 = go.Bar(x=df[df['계약연도'] == '2019']['단지명'], y=df[df['계약연도'] == '2019']['거래금액(만원)'], name='2019년')
trace_danji_2020 = go.Bar(x=df[df['계약연도'] == '2020']['단지명'], y=df[df['계약연도'] == '2020']['거래금액(만원)'], name='2020년')

danji_year_fig.add_traces([trace_danji_2018, trace_danji_2019, trace_danji_2020])

danji_year_fig.update_layout(
    title='상위 30개 아파트 단지, 연도별 평균 거래금액(2018~2020)',
    xaxis_title='단지명',
    yaxis_title='거래금액(만원)',
    yaxis_tickformat='(만원)',
    autosize=False,
    width=1200,
    height=1000
)

danji_year_fig.show()

### 1.3 주요 아파트 시공사 별 거래횟수

In [14]:
# 아파트 별 몇 채 있는지 탐색, 같은 아파트 이름 갖는 수 저장
# column => 아파트 별 집 개수
train_data['아파트 별 집 개수'] = 0
train_data_apt_count = train_data.groupby('단지명')['아파트 별 집 개수'].count()

train_data = pd.merge(train_data, train_data_apt_count, on='단지명', how='left')
train_data = train_data.drop('아파트 별 집 개수_x', axis=1).rename(columns={'아파트 별 집 개수_y':'아파트 별 집 개수'})

train_data.sort_values('아파트 별 집 개수', ascending=False)

Unnamed: 0,시군구,단지명,전용면적(㎡),계약년월,거래금액(만원),층,건축년도,도로명,계약연도,아파트 별 집 개수
177688,서울특별시 구로구 개봉동,현대,59.94,202006,59500,7,2001,개봉로20길 6,2020,2249
130809,서울특별시 성동구 옥수동,현대,84.90,201910,108000,11,1990,독서당로40길 25,2019,2249
63684,서울특별시 송파구 잠실동,현대,84.68,201803,81500,10,1990,백제고분로18길 7,2018,2249
63685,서울특별시 송파구 잠실동,현대,71.90,201804,83000,13,1990,백제고분로18길 7,2018,2249
63686,서울특별시 송파구 잠실동,현대,84.67,201804,100000,2,1990,백제고분로18길 7,2018,2249
...,...,...,...,...,...,...,...,...,...,...
96660,서울특별시 관악구 봉천동,새진7차,84.66,201910,47000,3,2005,인헌16길 35,2019,1
178866,서울특별시 구로구 구로동,계영주택(738-27),48.42,202001,14200,5,1996,구로동로18길 20-8,2020,1
47525,서울특별시 서대문구 연희동,충우하이빌,105.44,201802,23400,3,2003,연희로18안길 13,2018,1
210044,서울특별시 서초구 방배동,방배포레스트,139.84,202006,133000,4,2003,방배로28길 93,2020,1


아파트 단지 별 개수 집계 결과 고유 값을 가지는 아파트 단지명이 적기 때문에 데이터 모델링으로써 적합하지 못한 데이터셋을 지녔다고 판단하였다.
단순히 단지명 컬럼을 모델링에 바로 사용하는 것에는 무리가 있다...

In [15]:
# top10 시공사 + 데이터에서 가장 많이 나오는 아파트 20개의 이름을 통일
# top 10 시공사 아파트 여부를 나타내는 컬럼 생성
# 2021.09.16 시공사 브랜드평판 순위 참고 링크: http://brikorea.com/bbs/board.php?bo_table=rep_1&wr_id=701 
train_data['top10'] = 'others'
top10_apt = ['힐스테이트', '자이', '롯데캐슬', '더샵', '푸르지오', 
            '래미안', '아이파크', 'sk|SK|에스케이', '이편한|e편한|e-편한', '더 플래티넘']

# top 10 시공사에 속해 있는 아파트면 해당 시공사 이름으로 top10 컬럼 값 할당
for brand in top10_apt:
    train_data.loc[train_data['단지명'].str.contains(brand), 'top10'] = brand

# top10 시공사에 속하는 아파트 단지 탐색
train_data[train_data['top10'] != 'others']

Unnamed: 0,시군구,단지명,전용면적(㎡),계약년월,거래금액(만원),층,건축년도,도로명,계약연도,아파트 별 집 개수,top10
17,서울특별시 강남구 개포동,개포자이(12-2),170.3200,201801,162000,16,2004,개포로109길 69,2018,25,자이
18,서울특별시 강남구 개포동,개포자이(12-2),134.3000,201801,153500,3,2004,개포로109길 69,2018,25,자이
19,서울특별시 강남구 개포동,개포자이(12-2),170.3200,201801,175000,15,2004,개포로109길 69,2018,25,자이
20,서울특별시 강남구 개포동,개포자이(12-2),134.3000,201803,158000,18,2004,개포로109길 69,2018,25,자이
21,서울특별시 강남구 개포동,개포자이(12-2),168.4200,201804,171000,5,2004,개포로109길 69,2018,25,자이
...,...,...,...,...,...,...,...,...,...,...,...
239380,서울특별시 중랑구 묵동,현대아이파크,84.9416,202009,77000,7,2002,중랑천로 286,2020,114,아이파크
239381,서울특별시 중랑구 묵동,현대아이파크,84.9416,202010,70000,1,2002,중랑천로 286,2020,114,아이파크
239382,서울특별시 중랑구 묵동,현대아이파크,84.9785,202010,78500,5,2002,중랑천로 286,2020,114,아이파크
239383,서울특별시 중랑구 묵동,현대아이파크,84.9785,202010,78500,5,2002,중랑천로 286,2020,114,아이파크


In [16]:
# 겹치는 아파트 이름 탐색
# 데이터에 존재하는 상위 20개 아파트
apt_top20 = train_data['단지명'].value_counts()[:20]
top20_apt = list(apt_top20.index)

# top10 시공사 + 기존 데이터에 존재하는 상위 20개 아파트 단지 키워드 리스트 합성
total_top_apt = top10_apt + top20_apt

# total_top_apt 의 키워드에 해당하는 아파트명이 있는지 여부를 나타내는 새로운 컬럼 생성
# top30 키워드에 속하지 않은 아파트는 others로 분류
train_data['top30'] = 'others'

for apt_name in total_top_apt:
    train_data.loc[train_data['단지명'].str.contains(apt_name), 'top30'] = apt_name

# 통합 상위 30개 아파트 단지명에 대한 각각의 속성 개수 탐색
train_data['top30'].value_counts()

others          133430
현대               18675
래미안              10568
삼성                8106
동아                7153
우성                6103
푸르지오              5566
한신                5354
두산                5181
힐스테이트             5008
벽산                4626
자이                4211
롯데캐슬              3928
이편한|e편한|e-편한      3460
대우                2584
아이파크              2421
쌍용                2412
극동                2169
주공2               1713
sk|SK|에스케이        1434
중앙하이츠             1373
더샵                1142
대림e-편한세상          1019
에스케이북한산시티          939
파크리오               911
신동아아파트1            739
중계그린1단지            696
Name: top30, dtype: int64

In [17]:
# 상위 30 시공사 아파트 군에 속하는 행 개수 count series 도출

train_data_top30_count = train_data['top30'].value_counts()
train_data_top30_count = train_data_top30_count.drop('others').sort_values(ascending=False)
# train_data_top30_count

In [18]:
# 상위 30 아파트 군에 속하는 행 개수 count 시각화

top30_count_fig = go.Figure()
top30_count_trace = go.Bar(x=train_data_top30_count.index, y=train_data_top30_count.values)
top30_count_fig.add_trace(top30_count_trace)

top30_count_fig.update_layout(
    title='상위 26 시공사 아파트 단지 거래횟수(2018~2020)',
    xaxis_title='상위 26 시공사',
    yaxis_title='거래횟수(회)',
    yaxis_tickformat='(횟수)',
    autosize=False,
    width=1200,
    height=1000
)

top30_count_fig.show()

In [19]:
# 연도별 상위 30 시공사 아파트 군에 속하는 행 개수 도출
train_data_top30_count_by_year = train_data[train_data['top30'] != 'others'].groupby(['top30', '계약연도']).count().sort_values('단지명', ascending=False)
train_data_top30_count_by_year

Unnamed: 0_level_0,Unnamed: 1_level_0,시군구,단지명,전용면적(㎡),계약년월,거래금액(만원),층,건축년도,도로명,아파트 별 집 개수,top10
top30,계약연도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
현대,2018,6389,6389,6389,6389,6389,6389,6389,6389,6389,6389
현대,2020,6362,6362,6362,6362,6362,6362,6362,6362,6362,6362
현대,2019,5924,5924,5924,5924,5924,5924,5924,5924,5924,5924
래미안,2019,3727,3727,3727,3727,3727,3727,3727,3727,3727,3727
래미안,2020,3489,3489,3489,3489,3489,3489,3489,3489,3489,3489
...,...,...,...,...,...,...,...,...,...,...,...
중계그린1단지,2018,226,226,226,226,226,226,226,226,226,226
에스케이북한산시티,2019,218,218,218,218,218,218,218,218,218,218
파크리오,2018,216,216,216,216,216,216,216,216,216,216
중계그린1단지,2019,202,202,202,202,202,202,202,202,202,202


In [20]:
# 연도별 상위 30 시공사 아파트 군 거래횟수 시각화
df = train_data_top30_count_by_year.reset_index()

top30_year_count_fig = go.Figure()

trace_top30_count_2018 = go.Bar(x=df[df['계약연도'] == '2018']['top30'], y=df[df['계약연도'] == '2018']['단지명'], name='2018년')
trace_top30_count_2019 = go.Bar(x=df[df['계약연도'] == '2019']['top30'], y=df[df['계약연도'] == '2019']['단지명'], name='2019년')
trace_top30_count_2020 = go.Bar(x=df[df['계약연도'] == '2020']['top30'], y=df[df['계약연도'] == '2020']['단지명'], name='2020년')

top30_year_count_fig.add_traces([trace_top30_count_2018, trace_top30_count_2019, trace_top30_count_2020])

top30_year_count_fig.update_layout(
    title='상위 26 시공사 아파트 단지 연도별 거래횟수(2018~2020)',
    xaxis_title='상위 26 시공사',
    yaxis_title='거래횟수(회)',
    yaxis_tickformat='(횟수)',
    autosize=False,
    width=1200,
    height=1000
)

top30_year_count_fig.show()

### 1.4 주요 아파트 시공사 별 평균 거래금액

In [21]:
# 상위 30 시공사 아파트 평균 거래금액 도출
train_data_top30_mean = train_data[train_data['top30'] != 'others']
train_data_top30_mean = train_data_top30_mean.groupby('top30').mean()
train_data_top30_mean['거래금액(만원)']

top30
sk|SK|에스케이       75505.575314
극동               71921.678654
대림e-편한세상         83480.117763
대우               67783.424149
더샵              126580.551664
동아               73591.333147
두산               63158.108859
래미안             114160.671650
롯데캐슬            107670.102342
벽산               51715.343709
삼성               85070.955959
신동아아파트1          30162.182679
쌍용               76014.265340
아이파크            114141.009913
에스케이북한산시티        52068.924388
우성               78820.868753
이편한|e편한|e-편한     96553.041618
자이              128949.995013
주공2              39859.612960
중계그린1단지          36170.163793
중앙하이츠            61087.513474
파크리오            157247.091109
푸르지오             85126.000719
한신               63342.387000
현대               80762.798661
힐스테이트            88930.139776
Name: 거래금액(만원), dtype: float64

In [22]:
# 상위 30 시공사 아파트 평균 거래금액 시각화
train_data_top30_mean = train_data_top30_mean['거래금액(만원)'].sort_values(ascending=False)

top30_mean_fig = go.Figure()
top30_mean_trace = go.Bar(x=train_data_top30_mean.index, y=train_data_top30_mean.values)
top30_mean_fig.add_trace(top30_mean_trace)

top30_mean_fig.update_layout(
    title='상위 26 시공사 아파트 단지 평균 거래금액(2018~2020)',
    xaxis_title='상위 26 시공사',
    yaxis_title='거래금액(만원)',
    yaxis_tickformat='(만원)',
    autosize=False,
    width=1200,
    height=1000
)

top30_mean_fig.show()

In [23]:
# 연도별 상위 30 시공사 아파트 평균 거래금액 도출
train_data_top30_mean_by_year = train_data[train_data['top30'] != 'others'].groupby(['top30', '계약연도']).mean().sort_values('거래금액(만원)', ascending=False)
train_data_top30_mean_by_year

Unnamed: 0_level_0,Unnamed: 1_level_0,전용면적(㎡),계약년월,거래금액(만원),층,건축년도,아파트 별 집 개수
top30,계약연도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
파크리오,2020,86.711625,202007.324910,180432.490975,15.602888,2008.000000,911.000000
파크리오,2019,83.691770,201907.655502,150490.550239,16.007177,2008.000000,911.000000
자이,2020,91.879273,202006.873926,144521.482808,12.422636,2011.729943,149.500716
더샵,2020,106.897383,202006.810127,140711.620253,14.931646,2010.005063,143.172152
파크리오,2018,88.134259,201804.939815,140589.120370,16.342593,2008.000000,911.000000
...,...,...,...,...,...,...,...
중계그린1단지,2019,48.208564,201908.381188,34589.772277,6.945545,1990.000000,696.000000
신동아아파트1,2020,63.884474,202005.855263,33480.953947,7.092105,1986.000000,739.000000
중계그린1단지,2018,47.649381,201805.969027,30317.079646,7.402655,1990.000000,696.000000
신동아아파트1,2019,67.781850,201907.930636,29472.791908,7.763006,1986.000000,739.000000


In [24]:
# 연도별 상위 30 시공사 아파트 평균 거래금액 시각화
df = train_data_top30_mean_by_year.reset_index()

top30_year_mean_fig = go.Figure()

trace_top30_mean_2018 = go.Bar(x=df[df['계약연도'] == '2018']['top30'], y=df[df['계약연도'] == '2018']['거래금액(만원)'], name='2018년')
trace_top30_mean_2019 = go.Bar(x=df[df['계약연도'] == '2019']['top30'], y=df[df['계약연도'] == '2019']['거래금액(만원)'], name='2019년')
trace_top30_mean_2020 = go.Bar(x=df[df['계약연도'] == '2020']['top30'], y=df[df['계약연도'] == '2020']['거래금액(만원)'], name='2020년')

top30_year_mean_fig.add_traces([trace_top30_mean_2018, trace_top30_mean_2019, trace_top30_mean_2020])

top30_year_mean_fig.update_layout(
    title='상위 26 시공사 아파트 단지 연도별 평균 거래금액(2018~2020)',
    xaxis_title='상위 26 시공사',
    yaxis_title='거래금액(만원)',
    yaxis_tickformat='(만원)',
    autosize=False,
    width=1200,
    height=1000
)

top30_year_mean_fig.show()

### 1.5 생성한 top30 컬럼에 대한 인코딩 및 가중치 처리

In [25]:
'''
    case 1. label encoding
        - 상위 30개 시공사에 대한 거래횟수 및 평균 거래금액의 가중치를 부여하여 레이블 된 숫자 자체에 의미를 부여하도록 함.
        - 숫자의 차이가 회귀분석 모델에 영향을 미치도록 함.
        - 본래 분류에서 사용하는 레이블 인코딩 개념과는 조금 상이함.
'''
# 상위 30개 시공사 및 아파트 단지 별 거래횟수
trade_count = train_data['top30'].value_counts().sort_values(ascending=False)
trade_count

# 단순 거래 횟수에서 others가 압도적으로 많을 수 밖에 없음.
# 해당 인코딩에서 단순 거래 횟수가 기여도를 높일 수 있는 방법은 상위 거래횟수 아파트 단지 수를 늘리는 것이라 판단됨 ex) 상위 30개 => 상위 60개

others          133430
현대               18675
래미안              10568
삼성                8106
동아                7153
우성                6103
푸르지오              5566
한신                5354
두산                5181
힐스테이트             5008
벽산                4626
자이                4211
롯데캐슬              3928
이편한|e편한|e-편한      3460
대우                2584
아이파크              2421
쌍용                2412
극동                2169
주공2               1713
sk|SK|에스케이        1434
중앙하이츠             1373
더샵                1142
대림e-편한세상          1019
에스케이북한산시티          939
파크리오               911
신동아아파트1            739
중계그린1단지            696
Name: top30, dtype: int64

In [26]:
# 상위 30개 시공사 및 아파트 단지 별 평균 거래금액
train_data_top30_mean = train_data.groupby('top30').mean()
trade_price = train_data_top30_mean['거래금액(만원)'].sort_values(ascending=False)
trade_price

top30
파크리오            157247.091109
자이              128949.995013
더샵              126580.551664
래미안             114160.671650
아이파크            114141.009913
롯데캐슬            107670.102342
이편한|e편한|e-편한     96553.041618
힐스테이트            88930.139776
푸르지오             85126.000719
삼성               85070.955959
대림e-편한세상         83480.117763
현대               80762.798661
우성               78820.868753
쌍용               76014.265340
sk|SK|에스케이       75505.575314
동아               73591.333147
others           71966.954306
극동               71921.678654
대우               67783.424149
한신               63342.387000
두산               63158.108859
중앙하이츠            61087.513474
에스케이북한산시티        52068.924388
벽산               51715.343709
주공2              39859.612960
중계그린1단지          36170.163793
신동아아파트1          30162.182679
Name: 거래금액(만원), dtype: float64

In [27]:
# 현재 적용하고자 하는 레이블 인코딩은
# 평균 거래금액이 총합 거래금액에서 도출된 값이므로 거래 횟수에도 영향받을 수 밖에 없다는 점을 고려하여
# 평균 거래금액 * 거래횟수 = 총합 거래금액이라는 단순한 식을 적용해보고자 함.

df_count_mean = pd.concat([trade_count, trade_price], axis=1)
df_count_mean.rename(columns={'top30':'trade_count', '거래금액(만원)':'trade_price'}, inplace=True)
df_count_mean['trade_label'] = df_count_mean['trade_price'] / df_count_mean['trade_count']

df_count_mean

Unnamed: 0,trade_count,trade_price,trade_label
others,133430,71966.954306,0.539361
현대,18675,80762.798661,4.324648
래미안,10568,114160.67165,10.802486
삼성,8106,85070.955959,10.494813
동아,7153,73591.333147,10.288177
우성,6103,78820.868753,12.915102
푸르지오,5566,85126.000719,15.293928
한신,5354,63342.387,11.830853
두산,5181,63158.108859,12.190332
힐스테이트,5008,88930.139776,17.757616


In [28]:
# trade_rank의 숫자가 높을수록 거래 금액이 높다고 판단

df_count_mean.sort_values('trade_label', ascending=False)
df_count_mean['trade_rank'] = df_count_mean['trade_label'].rank()
df_count_mean

Unnamed: 0,trade_count,trade_price,trade_label,trade_rank
others,133430,71966.954306,0.539361,1.0
현대,18675,80762.798661,4.324648,2.0
래미안,10568,114160.67165,10.802486,5.0
삼성,8106,85070.955959,10.494813,4.0
동아,7153,73591.333147,10.288177,3.0
우성,6103,78820.868753,12.915102,9.0
푸르지오,5566,85126.000719,15.293928,10.0
한신,5354,63342.387,11.830853,7.0
두산,5181,63158.108859,12.190332,8.0
힐스테이트,5008,88930.139776,17.757616,11.0


In [29]:
# train_data에 최종 반영

trade_rank_dict = df_count_mean['trade_rank'].sort_values(ascending=False).to_dict()

# top30 가중치 rank 변환 함수
def get_rank(top30_ele):
    return trade_rank_dict.get(top30_ele)

train_data['trade_rank'] = train_data['top30'].apply(get_rank)
train_data

Unnamed: 0,시군구,단지명,전용면적(㎡),계약년월,거래금액(만원),층,건축년도,도로명,계약연도,아파트 별 집 개수,top10,top30,trade_rank
0,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,201801,130000,4,1987,언주로 3,2018,26,others,우성,9.0
1,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,201801,117000,2,1987,언주로 3,2018,26,others,우성,9.0
2,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,201801,130000,1,1987,언주로 3,2018,26,others,우성,9.0
3,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,201803,139500,2,1987,언주로 3,2018,26,others,우성,9.0
4,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,54.98,201804,107500,5,1987,언주로 3,2018,26,others,우성,9.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
240916,서울특별시 중랑구 중화동,한영(104),67.57,202008,26000,2,2003,동일로144길 74,2020,5,others,others,1.0
240917,서울특별시 중랑구 중화동,현대휴앤미,95.94,202007,44000,6,2007,봉화산로27가길 23,2020,4,others,현대,2.0
240918,서울특별시 중랑구 중화동,현대휴앤미,100.17,202012,54800,5,2007,봉화산로27가길 23,2020,4,others,현대,2.0
240919,서울특별시 중랑구 중화동,현대휴앤미(102동),77.71,202009,40000,5,2007,봉화산로27가길 19,2020,3,others,현대,2.0


In [30]:
'''
    case 2. one-hot encoding
'''

one_hot_encoded = pd.get_dummies(train_data['top30'])
one_hot_encoded

# train_data에 최종 반영
train_data = pd.concat([train_data, one_hot_encoded], axis=1)
train_data

Unnamed: 0,시군구,단지명,전용면적(㎡),계약년월,거래금액(만원),층,건축년도,도로명,계약연도,아파트 별 집 개수,...,이편한|e편한|e-편한,자이,주공2,중계그린1단지,중앙하이츠,파크리오,푸르지오,한신,현대,힐스테이트
0,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,201801,130000,4,1987,언주로 3,2018,26,...,0,0,0,0,0,0,0,0,0,0
1,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,201801,117000,2,1987,언주로 3,2018,26,...,0,0,0,0,0,0,0,0,0,0
2,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,201801,130000,1,1987,언주로 3,2018,26,...,0,0,0,0,0,0,0,0,0,0
3,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,201803,139500,2,1987,언주로 3,2018,26,...,0,0,0,0,0,0,0,0,0,0
4,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,54.98,201804,107500,5,1987,언주로 3,2018,26,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
240916,서울특별시 중랑구 중화동,한영(104),67.57,202008,26000,2,2003,동일로144길 74,2020,5,...,0,0,0,0,0,0,0,0,0,0
240917,서울특별시 중랑구 중화동,현대휴앤미,95.94,202007,44000,6,2007,봉화산로27가길 23,2020,4,...,0,0,0,0,0,0,0,0,1,0
240918,서울특별시 중랑구 중화동,현대휴앤미,100.17,202012,54800,5,2007,봉화산로27가길 23,2020,4,...,0,0,0,0,0,0,0,0,1,0
240919,서울특별시 중랑구 중화동,현대휴앤미(102동),77.71,202009,40000,5,2007,봉화산로27가길 19,2020,3,...,0,0,0,0,0,0,0,0,1,0
