In [1]:
import pandas as pd
import numpy as np
import matplotlib
from matplotlib import font_manager, rc
from matplotlib import pyplot as plt
import seaborn as sns
rc('font', family = 'AppleGothic')
from sklearn.linear_model import LinearRegression

In [2]:
train = pd.read_csv("train.csv")
data = pd.read_csv('external_data.csv',header='infer')

In [3]:
train.shape

(2952, 15)

## 0. 전처리

- 세대수 = 총세대수
- 기본임대보증금 = 임대보증금
- 주택유형명 = 임대건물구분
- 공급유형명 = 공급유형
- 광역도시명 = 지역
- 공급전용면적 = 전용면적
- 주차수 = 단지내주차면수(완전히 동일하지는 않음!!)

In [4]:
train['임대료'] = train['임대료'].replace('-',np.nan)
train['임대보증금'] = train['임대보증금'].replace('-',np.nan)
train['임대료'] = train['임대료'].apply(lambda x : float(x))
train['임대보증금'] = train['임대보증금'].apply(lambda x : float(x))

In [5]:
data = data.rename(columns = {'세대수':'총세대수','기본임대보증금':'임대보증금','주택유형명':'임대건물구분','공급유형명':'공급유형','광역시도명':'지역','공급전용면적':'전용면적','주차수':'단지내주차면수'})

In [6]:
print(sorted(train['지역'].unique()))
print(sorted(data['지역'].unique()))

['강원도', '경기도', '경상남도', '경상북도', '광주광역시', '대구광역시', '대전광역시', '부산광역시', '서울특별시', '세종특별자치시', '울산광역시', '전라남도', '전라북도', '제주특별자치도', '충청남도', '충청북도']
['강원도', '경기도', '경상남도', '경상북도', '광주광역시', '대구광역시', '대전광역시', '부산광역시', '서울특별시', '세종특별자치시', '울산광역시', '인천광역시', '전라남도', '전라북도', '제주특별자치도', '충청남도', '충청북도']


In [7]:
print(sorted(data['공급유형'].unique()))
print(sorted(train['공급유형'].unique()))

['10년임대', '50년임대', '5년임대', '국민임대', '매입임대', '영구임대', '장기전세', '행복주택']
['공공분양', '공공임대(10년)', '공공임대(50년)', '공공임대(5년)', '공공임대(분납)', '국민임대', '영구임대', '임대상가', '장기전세', '행복주택']


In [8]:
data.loc[data.공급유형.isin(['10년임대']), '공급유형'] = '공공임대(10년)'
data.loc[data.공급유형.isin(['50년임대']), '공급유형'] = '공공임대(50년)'
data.loc[data.공급유형.isin(['5년임대']), '공급유형'] = '공공임대(5년)'

In [9]:
data1 = data[data['임대건물구분']=='아파트']
train1 = train[train['임대건물구분']=='아파트']

In [10]:
data1 = data1[['지역','총세대수','전용면적','단지명','공급유형','임대건물구분','임대보증금','단지내주차면수','기관명','도로명주소']]
train1 = train1[['단지코드','총세대수','지역','전용면적','임대보증금','공급유형','임대건물구분','임대보증금','단지내주차면수']]

## 기준1 : 지역, 공급유형, 총세대수

In [11]:
print('전체 단지코드: ',train['단지코드'].nunique())

전체 단지코드:  423


In [12]:
result1 = pd.merge(train1,data1,how='left',on=['지역','공급유형','총세대수'])[['단지코드','단지명']].drop_duplicates()

In [13]:
print('NA 개수: ',result1['단지명'].isna().sum())
print('특정된 단지코드 수: ',train['단지코드'].nunique()-result1['단지명'].isna().sum())
print('전체 단지코드 수: ',train['단지코드'].nunique())
print('NA 비율: ', round(result1['단지명'].isna().sum()/train['단지코드'].nunique(),2))

NA 개수:  94
특정된 단지코드 수:  329
전체 단지코드 수:  423
NA 비율:  0.22


## 기준 2 : 지역, 공급유형, 전용면적, 임대보증금

In [14]:
datana = result1[result1['단지명'].isna()==True]['단지코드'].values
n = len(datana)

In [15]:
datana = train.loc[train['단지코드'].isin(datana)]
datana = datana[datana['임대건물구분']=='아파트']

In [16]:
result2 = pd.merge(datana,data1,how='left',on=['지역','공급유형','전용면적','임대보증금'])[['단지코드','단지명']].drop_duplicates()

In [17]:
print('NA 개수: ',result2['단지명'].isna().sum())
print('특정된 단지코드 수: ',n-result2['단지명'].isna().sum())
print('전체 단지코드 수: ',n)
print('NA 비율: ', round(result2['단지명'].isna().sum()/train['단지코드'].nunique(),2))

NA 개수:  39
특정된 단지코드 수:  55
전체 단지코드 수:  94
NA 비율:  0.09


## 기준3 : 지역, 공급유형, 전용면적, 단지내주차면수

In [18]:
datana = result2[result2['단지명'].isna()==True]['단지코드'].values
n = len(datana)

In [19]:
datana = train.loc[train['단지코드'].isin(datana)]
datana = datana[datana['임대건물구분']=='아파트']

In [20]:
result3 = pd.merge(datana,data1,how='left',on=['지역','공급유형','전용면적','단지내주차면수'])[['단지코드','단지명']].drop_duplicates()

In [21]:
print('NA 개수: ',result3['단지명'].isna().sum())
print('특정된 단지코드 수: ',n-result3['단지명'].isna().sum())
print('전체 단지코드 수: ',n)
print('NA 비율: ', round(result3['단지명'].isna().sum()/train['단지코드'].nunique(),2))

NA 개수:  28
특정된 단지코드 수:  11
전체 단지코드 수:  39
NA 비율:  0.07


In [22]:
result = result1.dropna()
result = result.append(result2.dropna())
result= result.append(result3.dropna()).reset_index(drop=True)

In [23]:
na_value=[]
for i in train['단지코드'].unique():
    if i not in result['단지코드'].unique():
        na_value.append(i)

In [24]:
na_value

['C1899', 'C2245', 'C1584', 'C1156', 'C2020']

- 아래 데이터는 하나의 단지코드 별로 두개 이상의 단지명 보유 $\rightarrow$ 잘못 merge된 케이스

In [25]:
#전체
tmp = pd.DataFrame(result.groupby('단지코드').count()['단지명']).reset_index()
tmp = np.array(tmp[tmp['단지명']>=2]['단지코드'])
print(tmp)
print(len(tmp))

['C1022' 'C1039' 'C1068' 'C1085' 'C1109' 'C1175' 'C1206' 'C1207' 'C1234'
 'C1258' 'C1269' 'C1307' 'C1341' 'C1344' 'C1439' 'C1451' 'C1601' 'C1616'
 'C1681' 'C1732' 'C1740' 'C1744' 'C1790' 'C1859' 'C1874' 'C1875' 'C1894'
 'C1965' 'C1970' 'C2034' 'C2038' 'C2070' 'C2082' 'C2085' 'C2109' 'C2127'
 'C2132' 'C2133' 'C2135' 'C2173' 'C2186' 'C2190' 'C2227' 'C2232' 'C2258'
 'C2289' 'C2310' 'C2325' 'C2352' 'C2378' 'C2393' 'C2416' 'C2453' 'C2530'
 'C2563' 'C2597' 'C2621' 'C2627' 'C2635' 'C2657']
60


## 상가 drop

In [26]:
drop = [460, 462, 465, 469, 470, 411, 414, 415, 416, 417, 418, 419, 420, 421, 423, 424 ,425, 426, 427, 428,432,434,435,436,437,438,440,441,442,443,444,445,446,447,448,449,450,452,453,454,456,458,459,363, 365,366,370,371,372,373,375,378,379,380,381,382,385,386,388,389,390,391,393,394,395,396,391,393,394,395,396,406]

In [27]:
result = result.drop(drop,axis=0).reset_index(drop=True)

In [28]:
result.to_csv("result.csv",index=False) #상가 부분 제거!!

## 아파트

In [29]:
tmp = pd.DataFrame(result.groupby('단지코드').count()['단지명']).reset_index()
tmp = np.array(tmp[tmp['단지명']>=2]['단지코드'])
print(tmp)
print(len(tmp))

['C1022' 'C1039' 'C1068' 'C1085' 'C1175' 'C1207' 'C1234' 'C1258' 'C1269'
 'C1307' 'C1341' 'C1344' 'C1439' 'C1451' 'C1601' 'C1616' 'C1681' 'C1732'
 'C1740' 'C1744' 'C1859' 'C1894' 'C1965' 'C1970' 'C2070' 'C2082' 'C2085'
 'C2127' 'C2133' 'C2173' 'C2186' 'C2227' 'C2232' 'C2325' 'C2352' 'C2378'
 'C2393' 'C2453' 'C2530' 'C2563' 'C2597' 'C2627' 'C2635' 'C2657']
44


In [30]:
# 'C1681', 'C1740', 'C1744', 'C1790', 'C1859', 'C1874', 'C1875', 'C1894', 'C1965', 'C1970', 'C2034', 'C2038', 'C2070'
# 'C2416', 'C2453', 'C2530','C2563'

In [31]:
# 'C2416'
# 'C2453' 성남여수1 
# 'C2530' 원주개운LH2단지아파트
# 'C2563' 안산팔곡주공아파트
# [329,171,136]

In [32]:
ind = [116,118,415,85,87,88,375,376,377,378,379,456,221,452,156,329,171,136,257, 250, 71, 123, 134, 67, 390, 392, 393, 92, 93, 164,149, # 'C1022'
       150, # 'C1068'
       385, # 'C1085'
       185, # 'C1085'
       32, # 'C1175'
       354, # 'C1207'
       53, # 'C1234'
       153, # 'C1269'
       182, # 'C1307'
       395,396, # 'C1439'
       139,140, # 'C1601'
       370, # 'C1616'
       191, # 'C2325'
       266,409, # 'C2352'
       224]

In [33]:
result = result.drop(ind,axis=0).reset_index(drop=True)

In [34]:
result.to_csv("result0708.csv",index=False)

In [35]:
result = result.drop_duplicates().reset_index(drop=True)

In [36]:
price = pd.read_csv("store_tr0708.csv")

In [37]:
price = price[['단지코드','전용면적','임대료','임대보증금','단지명']]

In [38]:
store_price = pd.merge(price,result,on='단지코드',how='left').iloc[:,:-1].rename(columns={'단지명_x':'단지명'})
store_price = store_price.drop_duplicates()

In [39]:
tmp1 = train[train['임대건물구분']=='상가']
tmp1 = tmp1.drop(['임대료','임대보증금'],axis=1)
tmp1 = pd.merge(tmp1,store_price[['단지코드','전용면적','임대료','임대보증금','단지명']],how='left',on=['단지코드','전용면적']) #상가 임대료

In [40]:
print(train[(train['임대건물구분']=='아파트')].shape)
print(train[(train['임대건물구분']=='상가')].shape)

(2390, 15)
(562, 15)


In [41]:
tmp2 = train[train['임대건물구분']=='아파트']
tmp2 = pd.merge(tmp2,result[['단지코드','단지명']],how='left',on=['단지코드']) #상가 임대료

In [42]:
train = pd.concat([tmp2,tmp1])
train = train.reset_index(drop=True)

In [43]:
train[(train['임대건물구분']=='아파트')&(train['임대료'].isna()==True)]['단지코드'].unique()

array(['C1397', 'C1039', 'C1350', 'C1326', 'C1786', 'C2186'], dtype=object)

In [44]:
def get_area(code):
    area = train[(train['단지코드']==code)]['전용면적'].unique()
    ind = train[(train['단지코드']==code)].index
    print('단지명: ',train[train['단지코드']==code]['단지명'].unique())
    print('지역: ',train[train['단지코드']==code]['지역'].unique())
    print('면적 개수: ',train[train['단지코드']==code]['지역'].shape[0])
    for i,j in zip(area,ind):
        print(i,j,'/',end=' ')

In [45]:
def func(num,a,b):
    train.loc[num,'임대보증금'] = a
    train.loc[num,'임대료'] = b

In [46]:
def linear_func(code):
    tmp = train[(train['단지코드']==code)][['전용면적','임대료','임대보증금']]
    tmp = tmp.replace(0,np.nan)
    ind = tmp[tmp['임대료'].isna()==True].index
    train1 = tmp.dropna()
    train_X = np.array(train1['전용면적']).reshape(-1,1)
    y1 = np.array(train1['임대료'])
    y2 = np.array(train1['임대보증금'])
    test = tmp[tmp['임대료'].isna()==True]
    test_X = np.array(test['전용면적']).reshape(-1,1)
    lg = LinearRegression()
    lg1 = LinearRegression()
    lg.fit(train_X,y1) #임대료
    lg1.fit(train_X,y2) #임대보증금
    pred = lg.predict(test_X)
    pred1 = lg1.predict(test_X)
    train.loc[ind,'임대료'] = pred
    train.loc[ind,'임대보증금'] = pred1

In [47]:
#임대료가 없는 경우 
train.loc[1538:1540,'임대료']=0 #C1039
train.loc[1481:1486,'임대료']=0 #C1397

In [48]:
get_area('C1350') # 없음..
linear_func('C1350') 

단지명:  ['관저 LH다온숲 3단지']
지역:  ['대전광역시']
면적 개수:  13
74.94 1769 / 84.94 1770 / 84.96 1771 / 84.97 1772 / 51.99 1773 / 59.91 1774 / 59.92 1775 / 

In [49]:
get_area( 'C1326')
func(1985,7000000,135000)
func(1986,7000000,135000)
func(1987,7600000,142000)
func(1988,14800000,198000)
func(1989,23100000,259000)

단지명:  ['부산정관 7단지(A-1BL)']
지역:  ['부산광역시']
면적 개수:  5
24.72 1985 / 24.79 1986 / 26.83 1987 / 37.7 1988 / 46.94 1989 / 

In [50]:
get_area('C1786')
func(2118,13181000,62610)
func(2119,19397000,92130)
func(2120,30464000,144700)
func(2121,30464000,144700)

단지명:  ['춘천거두2 행복주택']
지역:  ['강원도']
면적 개수:  5
16.91 2118 / 26.9 2119 / 36.91 2120 / 

In [51]:
get_area('C2186') #없음
linear_func('C2186') 

단지명:  ['대구연경 LH천년나무 2단지']
지역:  ['대구광역시']
면적 개수:  6
29.17 2344 / 29.34 2345 / 37.43 2346 / 46.51 2347 / 26.37 2348 / 26.54 2349 / 

In [52]:
train.to_csv("train0708.csv",index=False)