In [2]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

font_name = fm.FontProperties(fname = 'C:\Windows\Fonts\malgun.ttf').get_name()
plt.rc('font', family = font_name)

# 데이터 전처리

- 매매, 전/월세 모두 단위 면적당 금액을 구함
- 각 행정동의 대푯값을 중앙값으로 채택

---

## 매매 데이터

1. 필요한 column 만 선택 <br>
    -> 전용면적(㎡), 거래금액(만원), 구, 행정동<br><br>
    
2. 단위 면적당 금액에 대한 컬럼 생성<br>
    -> 거래금액에 콤마 제거 및 int형으로 변환<br>
    -> 단위면적당 매매금액 = 전용면적 / 거래금액

In [63]:
data = pd.read_csv("data/부동산/연립다세대_매매_2019(cp949).csv", encoding="cp949")
data

Unnamed: 0,시군구,건물명,전용면적(㎡),대지권면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명주소,지번주소,구,행정동
0,서울특별시 강남구 개포동,(1164-27),51.78,36.36,201902,26,55000,3,2016.0,서울특별시 강남구 논현로2길 66,서울특별시 강남구 개포동1164-27,강남구,개포4동
1,서울특별시 강남구 개포동,(1164-27),51.78,37.61,201912,21,57500,4,2016.0,서울특별시 강남구 논현로2길 66,서울특별시 강남구 개포동1164-27,강남구,개포4동
2,서울특별시 강남구 개포동,(1216-4),33.77,21.67,201910,26,27500,4,2012.0,서울특별시 강남구 개포로26길 16,서울특별시 강남구 개포동1216-4,강남구,개포4동
3,서울특별시 강남구 개포동,(170-18),26.60,21.53,201903,18,38000,1,1988.0,서울특별시 강남구 선릉로12길 17,서울특별시 강남구 개포동170-18,강남구,개포2동
4,서울특별시 강남구 개포동,(171-10),78.14,56.07,201902,19,68000,2,1991.0,서울특별시 강남구 선릉로14길 19,서울특별시 강남구 개포동171-10,강남구,개포2동
...,...,...,...,...,...,...,...,...,...,...,...,...,...
42149,서울특별시 중랑구 중화동,해피리움빌,29.89,21.90,201906,7,21200,3,2019.0,서울특별시 중랑구 봉화산로4길 20-4,서울특별시 중랑구 중화동329-25,중랑구,중화2동
42150,서울특별시 중랑구 중화동,현석아트빌,43.90,31.02,201904,12,20800,3,2003.0,서울특별시 중랑구 동일로140길 77,서울특별시 중랑구 중화동275-4,중랑구,중화1동
42151,서울특별시 중랑구 중화동,화랑힐스빌,49.20,29.70,201902,22,25500,5,2014.0,서울특별시 중랑구 동일로144가길 27,서울특별시 중랑구 중화동274-36,중랑구,중화1동
42152,서울특별시 중랑구 중화동,화수분빌리지103,74.40,44.25,201906,22,27000,2,2003.0,서울특별시 중랑구 봉화산로21길 18,서울특별시 중랑구 중화동86-11,중랑구,중화1동


In [64]:
# 1. 필요한 column 만 선택
data = data[["전용면적(㎡)", "거래금액(만원)", "구", "행정동"]]
data.head()

Unnamed: 0,전용면적(㎡),거래금액(만원),구,행정동
0,51.78,55000,강남구,개포4동
1,51.78,57500,강남구,개포4동
2,33.77,27500,강남구,개포4동
3,26.6,38000,강남구,개포2동
4,78.14,68000,강남구,개포2동


In [65]:
# 2. 단위면적당 금액에 대한 컬럼 생성

## 2-1. comma 제거 및 int형 변환
data["거래금액(만원)"] = data["거래금액(만원)"].str.replace(",", "")
data["거래금액(만원)"] = data["거래금액(만원)"].astype("int")

## 2-2. 단위면적당 매매금액 column 생성
data["단위면적당금액"] = data["거래금액(만원)"] / data["전용면적(㎡)"]
data.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0,전용면적(㎡),거래금액(만원),구,행정동,단위면적당금액
0,51.78,55000,강남구,개포4동,1062.186172
1,51.78,57500,강남구,개포4동,1110.467362
2,33.77,27500,강남구,개포4동,814.332248
3,26.6,38000,강남구,개포2동,1428.571429
4,78.14,68000,강남구,개포2동,870.232915


In [68]:
attachSalesMedian = data.groupby(["구", "행정동"])[["단위면적당금액"]].median()
attachSalesMedian = attachSalesMedian.reset_index()
attachSalesMedian

Unnamed: 0,구,행정동,단위면적당금액
0,강남구,개포2동,982.499232
1,강남구,개포4동,773.838364
2,강남구,논현1동,930.350788
3,강남구,논현2동,1109.289617
4,강남구,대치1동,1115.333265
...,...,...,...
386,중랑구,상봉1동,378.698225
387,중랑구,상봉2동,637.073986
388,중랑구,신내1동,451.536584
389,중랑구,중화1동,432.325735


In [69]:
attachSalesMedian.to_csv("data/분석용 데이터/연립다세대_매매_2019(cp949).csv", encoding="cp949", index = False)

In [70]:
pd.read_csv("data/분석용 데이터/연립다세대_매매_2019(cp949).csv", encoding="cp949")

Unnamed: 0,구,행정동,단위면적당금액
0,강남구,개포2동,982.499232
1,강남구,개포4동,773.838364
2,강남구,논현1동,930.350788
3,강남구,논현2동,1109.289617
4,강남구,대치1동,1115.333265
...,...,...,...
386,중랑구,상봉1동,378.698225
387,중랑구,상봉2동,637.073986
388,중랑구,신내1동,451.536584
389,중랑구,중화1동,432.325735


## 전/월세 데이터

1. 필요한 column 만 선택 <br>
    -> 전용면적(㎡), 전월세구분, 보증금, 월세, 구, 행정동<br><br>

2. 월세 -> 전세로 변환 (데이터의 통일성을 높이기 위해)<br>
    -> 보증금 콤마 제거 및 int형으로 변환 (월세는 이미 int형)<br>
    -> 공식 : 전세보증금 = {(월세*12)/전월세전환율} * 100 + 월세보증금<br>
    -> 전월세 전환율 : {연립다세대 : 4.48, 아파트 : 4.04, 단독주택 : 6.13}<br>
    -> __출처 : (한국감정원, 전국주택가격동향조사, 지역별 전월세전환율)__<br><br>

3. 단위 면적당 금액에 대한 컬럼 생성<br>
    -> 단위면적당 매매금액 = 전용면적 / 전세보증금

In [71]:
data = pd.read_csv("data/부동산/연립다세대_전월세_2019(cp949).csv", encoding="cp949")
data

Unnamed: 0,시군구,건물명,전월세구분,전용면적(㎡),계약년월,계약일,보증금(만원),월세(만원),층,건축년도,도로명주소,지번주소,구,행정동
0,서울특별시 강남구 개포동,(1163-4),전세,21.88,201902,24,15000,0,3,2013,서울특별시 강남구 논현로 10,서울특별시 강남구 개포동1163-4,강남구,개포4동
1,서울특별시 강남구 개포동,(1163-4),전세,21.88,201903,16,16000,0,4,2013,서울특별시 강남구 논현로 10,서울특별시 강남구 개포동1163-4,강남구,개포4동
2,서울특별시 강남구 개포동,(1163-4),전세,21.88,201904,2,16000,0,3,2013,서울특별시 강남구 논현로 10,서울특별시 강남구 개포동1163-4,강남구,개포4동
3,서울특별시 강남구 개포동,(1163-4),전세,21.88,201906,9,15000,0,2,2013,서울특별시 강남구 논현로 10,서울특별시 강남구 개포동1163-4,강남구,개포4동
4,서울특별시 강남구 개포동,(1163-4),전세,21.88,201908,26,16000,0,5,2013,서울특별시 강남구 논현로 10,서울특별시 강남구 개포동1163-4,강남구,개포4동
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
98962,서울특별시 중랑구 중화동,화인하우스(307-4),월세,51.70,201908,4,6000,70,6,2017,서울특별시 중랑구 동일로139가길 22,서울특별시 중랑구 중화동307-4,중랑구,중화2동
98963,서울특별시 중랑구 중화동,화인하우스(307-4),전세,51.28,201908,10,30000,0,5,2017,서울특별시 중랑구 동일로139가길 22,서울특별시 중랑구 중화동307-4,중랑구,중화2동
98964,서울특별시 중랑구 중화동,휴렉스빌,전세,29.92,201911,8,17000,0,3,2016,서울특별시 중랑구 봉화산로27다길 6,서울특별시 중랑구 중화동15-2,중랑구,중화1동
98965,서울특별시 중랑구 중화동,힐하우스,전세,29.09,201910,1,15500,0,2,2018,서울특별시 중랑구 중랑천로 119,서울특별시 중랑구 중화동325-22,중랑구,중화2동


In [72]:
# 1. 필요한 column 만 선택
data = data[["전용면적(㎡)", "보증금(만원)", "월세(만원)", "구", "행정동"]]
data.head()

Unnamed: 0,전용면적(㎡),보증금(만원),월세(만원),구,행정동
0,21.88,15000,0,강남구,개포4동
1,21.88,16000,0,강남구,개포4동
2,21.88,16000,0,강남구,개포4동
3,21.88,15000,0,강남구,개포4동
4,21.88,16000,0,강남구,개포4동


In [73]:
# 2. 월세 -> 전세로 변환
## 2-1. 보증금 콤마 제거 및 int형으로 변환
data["보증금(만원)"] = data["보증금(만원)"].str.replace(",", "")
data["보증금(만원)"] = data["보증금(만원)"].astype("int")
data.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


Unnamed: 0,전용면적(㎡),보증금(만원),월세(만원),구,행정동
0,21.88,15000,0,강남구,개포4동
1,21.88,16000,0,강남구,개포4동
2,21.88,16000,0,강남구,개포4동
3,21.88,15000,0,강남구,개포4동
4,21.88,16000,0,강남구,개포4동


In [74]:
## 2-2. 공식 : 전세보증금 = {(월세*12)/전환율} * 100 + 월세보증금
### 전환율 : {연립다세대 : 4.48, 아파트 : 4.04, 단독주택 : 6.13}- 데이터에 따라 변환 할 것

data["전세보증금"] = ((data["월세(만원)"] * 12 / 4.48) * 100) + data['보증금(만원)']
data.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


Unnamed: 0,전용면적(㎡),보증금(만원),월세(만원),구,행정동,전세보증금
0,21.88,15000,0,강남구,개포4동,15000.0
1,21.88,16000,0,강남구,개포4동,16000.0
2,21.88,16000,0,강남구,개포4동,16000.0
3,21.88,15000,0,강남구,개포4동,15000.0
4,21.88,16000,0,강남구,개포4동,16000.0


In [75]:
# 3.단위 면적당 금액에 대한 컬럼 생성
data["단위면적당_전세"] = data["전세보증금"] / data["전용면적(㎡)"]
data.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0,전용면적(㎡),보증금(만원),월세(만원),구,행정동,전세보증금,단위면적당_전세
0,21.88,15000,0,강남구,개포4동,15000.0,685.557587
1,21.88,16000,0,강남구,개포4동,16000.0,731.261426
2,21.88,16000,0,강남구,개포4동,16000.0,731.261426
3,21.88,15000,0,강남구,개포4동,15000.0,685.557587
4,21.88,16000,0,강남구,개포4동,16000.0,731.261426


In [76]:
attachRentMedian = data.groupby(["구", "행정동"])[["단위면적당_전세"]].median()
attachRentMedian = attachRentMedian.reset_index()
attachRentMedian

Unnamed: 0,구,행정동,단위면적당_전세
0,강남구,개포1동,464.336107
1,강남구,개포2동,534.738486
2,강남구,개포4동,569.563807
3,강남구,논현1동,732.789322
4,강남구,논현2동,643.492772
...,...,...,...
392,중랑구,상봉1동,440.965715
393,중랑구,상봉2동,692.840647
394,중랑구,신내1동,390.075632
395,중랑구,중화1동,410.848550


In [77]:
attachRentMedian.to_csv("data/분석용 데이터/연립다세대_전월세_2019(cp949).csv", encoding="cp949", index = False)

In [78]:
pd.read_csv("data/분석용 데이터/연립다세대_전월세_2019(cp949).csv", encoding="cp949")

Unnamed: 0,구,행정동,단위면적당_전세
0,강남구,개포1동,464.336107
1,강남구,개포2동,534.738486
2,강남구,개포4동,569.563807
3,강남구,논현1동,732.789322
4,강남구,논현2동,643.492772
...,...,...,...
392,중랑구,상봉1동,440.965715
393,중랑구,상봉2동,692.840647
394,중랑구,신내1동,390.075632
395,중랑구,중화1동,410.848550


# Null값 처리

1. 실제로 해당 행정동에 매물이 있는지 없는지 확인
2. 해당 행정동에 매물이 정말 없는 부분은 0 값으로 처리
3. 매물이 존재할 경우 직접 손으로 처리(다른 사이트에서 크롤링)

---
* 데이터는 클러스터링 파일에서 만든 클러스터링용 데이터를 가져옴

In [140]:
### 분석용 데이터
data = pd.read_csv('data/분석용_데이터/1stClusteringData_1(cp949).csv', encoding="cp949")
data.head()

Unnamed: 0,구,행정동,독거노인,연립다세대_매매,연립다세대_전월세,아파트_매매,아파트_전월세,단독다가구_매매,단독다가구_전월세
0,종로구,사직동,439,658.951346,414.007713,1002.930454,479.008604,893.404747,385.71358
1,종로구,삼청동,167,441.153301,330.288235,,342.779517,748.753412,330.27138
2,종로구,부암동,346,508.474576,336.686423,504.896994,339.217722,444.702516,309.17675
3,종로구,평창동,640,546.834313,373.015873,633.650158,323.635888,417.301825,277.961668
4,종로구,무악동,265,652.413624,366.351374,1065.0,279.069767,670.07633,267.44186


In [141]:
data["행정동"] =data["행정동"].str.replace("·", ".")

In [142]:
data[data["행정동"].str.contains(r"[제]")]["행정동"].unique()

array(['제기동', '홍제1동', '홍제3동', '홍제2동'], dtype=object)

#### 단독다가구 매매

In [143]:
# Nan값 채울 데이터 불러오기
houseSales = pd.read_csv("data/분석용_데이터/단독_다가구_매매_결측치_forClustering(cp949).csv", encoding="cp949")
houseSales.head()

Unnamed: 0,구,법정동,도로명,단위면적당금액,도로명주소,행정동,x,y
0,종로구,연지동,창경궁로16나길,906.010488,서울특별시 종로구 연지동 창경궁로16나길,종로5.6가동,126.999396,37.575053
1,종로구,효제동,대학로2길,1696.28433,서울특별시 종로구 효제동 대학로2길,종로5.6가동,127.004077,37.571495
2,종로구,효제동,대학로2길,1038.637308,서울특별시 종로구 효제동 대학로2길,종로5.6가동,127.004077,37.571495
3,종로구,효제동,율곡로14길,457.478689,서울특별시 종로구 효제동 율곡로14길,종로5.6가동,127.003176,37.5747
4,종로구,효제동,김상옥로,3599.516031,서울특별시 종로구 효제동 김상옥로,종로5.6가동,127.002187,37.573337


In [144]:
# nan값에 채울 median 만들기
houseSalesMedian = houseSales.groupby(["구", "행정동"])[["단위면적당금액"]].median()
houseSalesMedian = houseSalesMedian.reset_index()
houseSalesMedian.head()

Unnamed: 0,구,행정동,단위면적당금액
0,강북구,미아동,337.683518
1,강북구,번2동,250.681528
2,강북구,번3동,359.647259
3,강북구,삼양동,485.3052
4,강북구,송중동,525.212512


In [145]:
houseSalesMedian.loc[houseSalesMedian["행정동"] == '면목제3.8동', "행정동"] = "면목3.8동"
houseSalesMedian[houseSalesMedian["행정동"].str.contains(r"[제]")]["행정동"].unique()

array([], dtype=object)

In [146]:
data[data["단독다가구_매매"].isnull()].shape

(43, 9)

In [147]:
count = 0
for k in data[data["단독다가구_매매"].isnull()]["행정동"].unique():
    if k in houseSalesMedian["행정동"].unique():
        count += 1
print(count)

5


In [148]:
# 구, 행정동에 맞춰서 nan값 채우기

for gu, dong in data[data["단독다가구_매매"].isnull()][["구", "행정동"]].values:
    value = houseSalesMedian[(houseSalesMedian["구"] == gu) & (houseSalesMedian["행정동"] == dong)]["단위면적당금액"].values
    if len(value) != 0:
        data.loc[(data["구"] == gu)&(data["행정동"] == dong), "단독다가구_매매"] = value[0]

In [149]:
data[data["단독다가구_매매"].isnull()].shape

(38, 9)

In [150]:
data.head()

Unnamed: 0,구,행정동,독거노인,연립다세대_매매,연립다세대_전월세,아파트_매매,아파트_전월세,단독다가구_매매,단독다가구_전월세
0,종로구,사직동,439,658.951346,414.007713,1002.930454,479.008604,893.404747,385.71358
1,종로구,삼청동,167,441.153301,330.288235,,342.779517,748.753412,330.27138
2,종로구,부암동,346,508.474576,336.686423,504.896994,339.217722,444.702516,309.17675
3,종로구,평창동,640,546.834313,373.015873,633.650158,323.635888,417.301825,277.961668
4,종로구,무악동,265,652.413624,366.351374,1065.0,279.069767,670.07633,267.44186


#### 단독다가구 전월세

In [151]:
# Nan값 채울 데이터 불러오기
house_rent = pd.read_csv("data/분석용_데이터/단독_다가구_전월세_결측치_forClustering(cp949).csv", encoding="cp949")
house_rent.head()

Unnamed: 0,구,법정동,도로명,단위면적당_전세,도로명주소,행정동,x,y,x+y
0,종로구,효제동,종로35길,180.505415,서울특별시 종로구 효제동 종로35길,종로5.6가동,127.0038,37.572654,127.003800329963 37.5726538002837
1,종로구,효제동,대학로2길,150.421179,서울특별시 종로구 효제동 대학로2길,종로5.6가동,127.004077,37.571495,127.004077378874 37.5714945707432
2,종로구,효제동,대학로2길,120.336943,서울특별시 종로구 효제동 대학로2길,종로5.6가동,127.004077,37.571495,127.004077378874 37.5714945707432
3,종로구,효제동,대학로2길,120.336943,서울특별시 종로구 효제동 대학로2길,종로5.6가동,127.004077,37.571495,127.004077378874 37.5714945707432
4,종로구,종로6가,충신길,130.365022,서울특별시 종로구 종로6가 충신길,종로5.6가동,127.007658,37.57472,127.007657810835 37.5747204952749


In [152]:
# nan값에 채울 median 만들기
house_rent_median = house_rent.groupby(["구", "행정동"])[["단위면적당_전세"]].median()
house_rent_median = house_rent_median.reset_index()
house_rent_median.head()

Unnamed: 0,구,행정동,단위면적당_전세
0,강서구,가양1동,138.107322
1,강서구,가양3동,70.19655
2,구로구,가리봉동,476.769984
3,구로구,구로2동,90.252708
4,구로구,구로3동,90.252708


In [153]:
house_rent_median[house_rent_median["행정동"].str.contains(r"[제]")]["행정동"].unique()

array(['면목제3.8동'], dtype=object)

In [154]:
house_rent_median.loc[house_rent_median["행정동"] == '면목제3.8동', "행정동"] = "면목3.8동"
house_rent_median[house_rent_median["행정동"].str.contains(r"[제]")]["행정동"].unique()

array([], dtype=object)

In [155]:
data[data["단독다가구_전월세"].isnull()].shape

(26, 9)

In [156]:
count = 0
for k in data[data["단독다가구_전월세"].isnull()]["행정동"].unique():
    if k in house_rent_median["행정동"].unique():
        count += 1
print(count)

2


In [157]:
# 구, 행정동에 맞춰서 nan값 채우기
for gu, dong in data[data["단독다가구_전월세"].isnull()][["구", "행정동"]].values:
    value = house_rent_median[(house_rent_median["구"] == gu) & (house_rent_median["행정동"] == dong)]["단위면적당_전세"].values
    if len(value) != 0:
        data.loc[(data["구"] == gu)&(data["행정동"] == dong), "단독다가구_전월세"] = value[0]

In [158]:
data[data["단독다가구_전월세"].isnull()].shape

(24, 9)

In [159]:
data.head()

Unnamed: 0,구,행정동,독거노인,연립다세대_매매,연립다세대_전월세,아파트_매매,아파트_전월세,단독다가구_매매,단독다가구_전월세
0,종로구,사직동,439,658.951346,414.007713,1002.930454,479.008604,893.404747,385.71358
1,종로구,삼청동,167,441.153301,330.288235,,342.779517,748.753412,330.27138
2,종로구,부암동,346,508.474576,336.686423,504.896994,339.217722,444.702516,309.17675
3,종로구,평창동,640,546.834313,373.015873,633.650158,323.635888,417.301825,277.961668
4,종로구,무악동,265,652.413624,366.351374,1065.0,279.069767,670.07633,267.44186


### 연립다세대

#### 매매

In [160]:
# Nan값 채울 데이터 불러오기
villaSales = pd.read_csv("data/분석용_데이터/연립다가구_매매_결측치_forClustering(cp949).csv", encoding="cp949")
villaSales.head()

Unnamed: 0,구,법정동,지번,연립/빌라이름,단위면적당금액,도로명주소,행정동
0,용산구,이촌동,203-33,(203-33),1279.863481,서울특별시 용산구 이촌동 203-33,이촌2동
1,용산구,이촌동,203-39,(203-39),2223.869533,서울특별시 용산구 이촌동 203-39,이촌2동
2,용산구,이촌동,203-39,(203-39),2409.191994,서울특별시 용산구 이촌동 203-39,이촌2동
3,용산구,이촌동,199-26,삼우(3동),1274.697259,서울특별시 용산구 이촌동 199-26,이촌2동
4,용산구,이촌동,203-39,(203-39),2446.256486,서울특별시 용산구 이촌동 203-39,이촌2동


In [161]:
# nan값에 채울 median 만들기
villaSalesMedian = villaSales.groupby(["구", "행정동"])[["단위면적당금액"]].median()
villaSalesMedian = villaSalesMedian.reset_index()
villaSalesMedian.head()

Unnamed: 0,구,행정동,단위면적당금액
0,강동구,둔촌2동,670.27027
1,강서구,가양1동,459.329572
2,노원구,중계4동,513.304059
3,노원구,중계본동,340.625
4,도봉구,창1동,364.391157


In [162]:
count = 0
for k in data[data["연립다세대_매매"].isnull()]["행정동"].unique():
    if k in villaSalesMedian["행정동"].unique():
        count += 1
print(count)

0


#### 전월세

In [163]:
# Nan값 채울 데이터 불러오기
villa_rent = pd.read_csv("data/분석용_데이터/연립다가구_전월세_결측치_forClustering(cp949).csv", encoding="cp949")
villa_rent.head()

Unnamed: 0,구,법정동,지번,연립/빌라이름,단위면적당_전세,도로명주소,행정동
0,노원구,중계동,90-27,(90-27)쉬즈빌,192.133816,서울특별시 노원구 중계동 90-27,중계본동
1,노원구,중계동,75-45,Mean.house(75-45),332.053743,서울특별시 노원구 중계동 75-45,중계본동
2,노원구,중계동,75-20,궁전빌라,144.378271,서울특별시 노원구 중계동 75-20,중계본동
3,노원구,중계동,75-20,궁전빌라,181.28453,서울특별시 노원구 중계동 75-20,중계본동
4,노원구,중계동,75-20,궁전빌라,181.28453,서울특별시 노원구 중계동 75-20,중계본동


In [164]:
# nan값에 채울 median 만들기
villa_rent_median = villa_rent.groupby(["구", "행정동"])[["단위면적당_전세"]].median()
villa_rent_median = villa_rent_median.reset_index()
villa_rent_median.head()

Unnamed: 0,구,행정동,단위면적당_전세
0,강동구,둔촌1동,611.951044
1,강동구,둔촌2동,572.197913
2,강서구,가양1동,673.289183
3,노원구,중계4동,350.701403
4,노원구,중계본동,260.678973


In [165]:
len(data[data["연립다세대_전월세"].isnull()]["행정동"].unique())

29

In [166]:
count = 0
for k in data[data["연립다세대_전월세"].isnull()]["행정동"].unique():
    if k in villa_rent_median["행정동"].unique():
        count += 1
print(count)

1


In [167]:
# 구, 행정동에 맞춰서 nan값 채우기
for gu, dong in data[data["연립다세대_전월세"].isnull()][["구", "행정동"]].values:
    value = villa_rent_median[(villa_rent_median["구"] == gu) & (villa_rent_median["행정동"] == dong)]["단위면적당_전세"].values
    if len(value) != 0:
        data.loc[(data["구"] == gu)&(data["행정동"] == dong), "연립다세대_전월세"] = value[0]

In [168]:
len(data[data["연립다세대_전월세"].isnull()]["행정동"].unique())

28

In [169]:
data.head()

Unnamed: 0,구,행정동,독거노인,연립다세대_매매,연립다세대_전월세,아파트_매매,아파트_전월세,단독다가구_매매,단독다가구_전월세
0,종로구,사직동,439,658.951346,414.007713,1002.930454,479.008604,893.404747,385.71358
1,종로구,삼청동,167,441.153301,330.288235,,342.779517,748.753412,330.27138
2,종로구,부암동,346,508.474576,336.686423,504.896994,339.217722,444.702516,309.17675
3,종로구,평창동,640,546.834313,373.015873,633.650158,323.635888,417.301825,277.961668
4,종로구,무악동,265,652.413624,366.351374,1065.0,279.069767,670.07633,267.44186


### 아파트
#### 매매

In [170]:
# Nan값 채울 데이터 불러오기
aptSales = pd.read_csv("data/분석용_데이터/아파트_매매_결측치_forClustering(cp949).csv", encoding="cp949")
aptSales

Unnamed: 0,구,법정동,지번,아파트이름,단위면적당금액,지번주소,행정동
0,종로구,효제동,65-2,포레스트힐시티,1199.760048,서울특별시 종로구 효제동 65-2,종로5.6가동
1,종로구,효제동,65-2,포레스트힐시티,1229.754049,서울특별시 종로구 효제동 65-2,종로5.6가동
2,종로구,효제동,65-2,포레스트힐시티,1128.003923,서울특별시 종로구 효제동 65-2,종로5.6가동
3,종로구,효제동,65-2,포레스트힐시티,1162.334478,서울특별시 종로구 효제동 65-2,종로5.6가동
4,종로구,충신동,62-2,CS타워,774.840474,서울특별시 종로구 충신동 62-2,종로5.6가동


In [171]:
data.loc[data["행정동"] == "종로5.6가동", "아파트_매매"] = aptSales["단위면적당금액"].median()
data.loc[data["행정동"] == "종로5.6가동", :]

Unnamed: 0,구,행정동,독거노인,연립다세대_매매,연립다세대_전월세,아파트_매매,아파트_전월세,단독다가구_매매,단독다가구_전월세
8,종로구,종로5.6가동,508,,,1162.334478,,449.225455,115.322904


#### 전월세
- 전세 월세 따로 file이 들어올 것(먼저 concat을 해주자)

In [172]:
# Nan값 채울 월세 불러오기
apt_month = pd.read_csv("data/분석용_데이터/아파트_월세_결측치_forClustering(cp949).csv", encoding="cp949")
apt_month.head()

Unnamed: 0,단지[준공년도],지번,자치구,행정동,계약일,단위면적당_전세,지번주소
0,신영[2013],538,중랑구,면목본동,1.26,960.93809,서울특별시 중랑구 면목동 538
1,한신[1987],193-1,중랑구,면목2동,1.15,568.573524,서울특별시 중랑구 면목동 193-1
2,한신[1987],193-1,중랑구,면목2동,1.15,513.568023,서울특별시 중랑구 면목동 193-1
3,한신[1987],193-1,중랑구,면목2동,1.18,513.568023,서울특별시 중랑구 면목동 193-1
4,한신[1987],193-1,중랑구,면목2동,2.21,568.573524,서울특별시 중랑구 면목동 193-1


In [173]:
apt_month = apt_month[["자치구", '행정동', "단위면적당_전세"]]
apt_month.columns = ["구", '행정동', "단위면적당_전세"]
apt_month.head()

Unnamed: 0,구,행정동,단위면적당_전세
0,중랑구,면목본동,960.93809
1,중랑구,면목2동,568.573524
2,중랑구,면목2동,513.568023
3,중랑구,면목2동,513.568023
4,중랑구,면목2동,568.573524


In [174]:
# Nan값 채울 전세 불러오기
apt_rent = pd.read_csv("data/분석용_데이터/아파트_전세_결측치_forClustering(cp949).csv", encoding="cp949")
apt_rent.head()

Unnamed: 0,단지[준공년도],지번,자치구,행정동,계약일,보증금,단위면적당_전세,지번주소
0,하이텍하우스[2011],36-1,종로구,종로5.6가동,4.05,10000.0,618.42919,서울특별시 종로구 연지동 36-1
1,하이텍하우스[2011],36-1,종로구,종로5.6가동,5.13,12000.0,571.428571,서울특별시 종로구 연지동 36-1
2,하이텍하우스[2011],36-1,종로구,종로5.6가동,8.13,10000.0,618.42919,서울특별시 종로구 연지동 36-1
3,하이텍하우스[2011],36-1,종로구,종로5.6가동,8.3,10000.0,476.190476,서울특별시 종로구 연지동 36-1
4,포레스트힐시티[2017],65-2,종로구,종로5.6가동,1.05,16500.0,880.469584,서울특별시 종로구 효제동 65-2


강남구
디에이치아너힐즈 강남구 개포2동
래미안 개포 루체하임 강남구 일원2동

'디에이치아너힐즈[2019]', '래미안 개포 루체하임[2018]'

양천구
목동파크자이 양천구 신정7동

노원구
불암신기 노원구 상계3동
불암신기 노원구 상계3동

In [175]:
apt_rent.loc[(apt_rent["자치구"] == "강남구") & (apt_rent["단지[준공년도]"] == '디에이치아너힐즈[2019]'), "행정동"] = "개포2동"
apt_rent.loc[(apt_rent["자치구"] == "강남구") & (apt_rent["단지[준공년도]"] == '래미안 개포 루체하임[2018]'), "행정동"] = "일원2동"

apt_rent.loc[(apt_rent["자치구"] == "양천구") & (apt_rent["행정동"] == "0"), "행정동"] = "신정7동"
apt_rent.loc[(apt_rent["자치구"] == "노원구") & (apt_rent["행정동"] == "0"), "행정동"] = "상계3동"

In [176]:
apt_rent = apt_rent[["자치구", '행정동', "단위면적당_전세"]]
apt_rent.columns = ["구", '행정동', "단위면적당_전세"]
apt_rent.head()

Unnamed: 0,구,행정동,단위면적당_전세
0,종로구,종로5.6가동,618.42919
1,종로구,종로5.6가동,571.428571
2,종로구,종로5.6가동,618.42919
3,종로구,종로5.6가동,476.190476
4,종로구,종로5.6가동,880.469584


In [177]:
# 전세, 월세 합쳐주기
print(apt_month.shape, apt_rent.shape)
apt_rent = pd.concat([apt_month, apt_rent], ignore_index=True)
apt_rent.shape

(320, 3) (27169, 3)


(27489, 3)

In [178]:
# nan값에 채울 월세 median 만들기
apt_rent_median = apt_rent.groupby(["구", "행정동"])[["단위면적당_전세"]].median()
apt_rent_median = apt_rent_median.reset_index()
apt_rent_median.head()

Unnamed: 0,구,행정동,단위면적당_전세
0,강남구,개포1동,648.929267
1,강남구,개포2동,901.186804
2,강남구,개포4동,550.206327
3,강남구,대치1동,1078.582435
4,강남구,대치2동,651.126449


In [179]:
len(data[data["아파트_전월세"].isnull()]["행정동"].unique())

20

In [180]:
count = 0
for k in data[data["아파트_전월세"].isnull()]["행정동"].unique():
    if k in apt_rent_median["행정동"].unique():
        count += 1
print(count)

16


In [181]:
# 구, 행정동에 맞춰서 nan값 채우기
for gu, dong in data[data["아파트_전월세"].isnull()][["구", "행정동"]].values:
    value = apt_rent_median[(apt_rent_median["구"] == gu) & (apt_rent_median["행정동"] == dong)]["단위면적당_전세"].values
    if len(value) != 0:
        data.loc[(data["구"] == gu)&(data["행정동"] == dong), "아파트_전월세"] = value[0]

In [182]:
len(data[data["아파트_전월세"].isnull()]["행정동"].unique())

4

#### nan값에 0넣고 저장

In [184]:
data = data.fillna(0)
data.head()

Unnamed: 0,구,행정동,독거노인,연립다세대_매매,연립다세대_전월세,아파트_매매,아파트_전월세,단독다가구_매매,단독다가구_전월세,합계
0,종로구,사직동,439,658.951346,414.007713,1002.930454,479.008604,893.404747,385.71358,0
1,종로구,삼청동,167,441.153301,330.288235,0.0,342.779517,748.753412,330.27138,1
2,종로구,부암동,346,508.474576,336.686423,504.896994,339.217722,444.702516,309.17675,0
3,종로구,평창동,640,546.834313,373.015873,633.650158,323.635888,417.301825,277.961668,0
4,종로구,무악동,265,652.413624,366.351374,1065.0,279.069767,670.07633,267.44186,0


In [185]:
data.drop('합계', axis = 1)

Unnamed: 0,구,행정동,독거노인,연립다세대_매매,연립다세대_전월세,아파트_매매,아파트_전월세,단독다가구_매매,단독다가구_전월세
0,종로구,사직동,439,658.951346,414.007713,1002.930454,479.008604,893.404747,385.713580
1,종로구,삼청동,167,441.153301,330.288235,0.000000,342.779517,748.753412,330.271380
2,종로구,부암동,346,508.474576,336.686423,504.896994,339.217722,444.702516,309.176750
3,종로구,평창동,640,546.834313,373.015873,633.650158,323.635888,417.301825,277.961668
4,종로구,무악동,265,652.413624,366.351374,1065.000000,279.069767,670.076330,267.441860
...,...,...,...,...,...,...,...,...,...
419,강동구,둔촌1동,3,0.000000,611.951044,1721.018693,0.000000,0.000000,0.000000
420,강동구,둔촌2동,775,608.600082,571.428571,918.503674,354.991749,736.368239,269.698206
421,강동구,암사1동,1304,591.387373,505.858586,993.233304,277.585010,665.488851,218.750000
422,강동구,천호2동,1538,749.667111,640.345982,852.130326,325.000000,664.696223,259.698206


In [186]:
data.drop('합계', axis = 1).to_csv("data/분석용_데이터/clustering_final(cp949).csv", encoding = "cp949", index = False)

# The End~

In [26]:
### Nan에 대한 데이터
nan_data = pd.read_excel("data/부동산/주택가격Nan값데이터.xlsx")
nan_data

Unnamed: 0,구,행정동,주택형태,거래형태,매물 유무 여부,표준공시지가(원/m2)
0,종로구,삼청동,아파트,매매,없음,
1,종로구,가회동,아파트,매매,없음,
2,종로구,종로1.2.3.4가동,연립다세대,매매,있음,
3,종로구,종로5·6가동,연립다세대,매매,없음,
4,종로구,종로5·6가동,연립다세대,전월세,없음,
...,...,...,...,...,...,...
151,강동구,둔촌1동,연립다세대,매매,있음,
152,강동구,둔촌1동,연립다세대,전월세,있음,
153,강동구,둔촌1동,아파트,전월세,있음,
154,강동구,둔촌1동,단독다가구,매매,있음,


In [27]:
# 2. 실제 매물이 없는 경우
## 매출 유무 여부 -> 없음
nan_data_real0 = nan_data[nan_data["매물 유무 여부"] == "없음"]
nan_data_real0.head()

Unnamed: 0,구,행정동,주택형태,거래형태,매물 유무 여부,표준공시지가(원/m2)
0,종로구,삼청동,아파트,매매,없음,
1,종로구,가회동,아파트,매매,없음,
3,종로구,종로5·6가동,연립다세대,매매,없음,
4,종로구,종로5·6가동,연립다세대,전월세,없음,
9,중구,소공동,연립다세대,매매,없음,


In [28]:
for row in nan_data_real0.values:
    column_name = row[2] + "_" + row[3]
    data.loc[(data["구"] == row[0]) & (data["행정동"] == row[1]), column_name] = 0

data

Unnamed: 0,구,행정동,독거노인_취약계층,연립다세대_매매,연립다세대_전월세,아파트_매매,아파트_전월세,단독다가구_매매,단독다가구_전월세
0,종로구,사직동,0.179954,658.951346,414.007713,1002.930454,479.008604,893.404747,385.713580
1,종로구,삼청동,0.107784,441.153301,330.288235,0.000000,342.779517,748.753412,330.271380
2,종로구,부암동,0.141618,508.474576,336.686423,504.896994,339.217722,444.702516,309.176750
3,종로구,평창동,0.110937,546.834313,373.015873,633.650158,323.635888,417.301825,277.961668
4,종로구,무악동,0.279245,652.413624,366.351374,1065.000000,279.069767,670.076330,267.441860
...,...,...,...,...,...,...,...,...,...
419,강동구,둔촌1동,0.000000,,,1721.018693,,,
420,강동구,둔촌2동,0.250323,608.600082,571.428571,918.503674,354.991749,736.368239,269.698206
421,강동구,암사1동,0.314417,591.387373,505.858586,993.233304,277.585010,665.488851,218.750000
422,강동구,천호2동,0.351105,749.667111,640.345982,852.130326,325.000000,664.696223,259.698206


## 처리 한 데이터 불러오기

# Outlier 제거하기

- 가장 보편적인 방법인 IQR을 이용하여 outlier 제거

In [45]:
# outlier의 index를 반환하는 함수
def find_outlier(df, column_name):
    # 1분위수
    Q1 = df[column_name].quantile(0.25)
    # 3분위수
    Q3 = df[column_name].quantile(0.75)
    # Interquartile range(IQR)
    IQR = Q3 - Q1
    
    # IQR을 이용한 최대, 최소
    minimum = Q1 - 1.5 * IQR
    maximum = Q3 + 1.5 * IQR
    
    # outlier인 dataframe
    outlier_df = df[(df[column_name]>maximum) | (df[column_name]<minimum)]
    
    # outlier인 index 반환
    return outlier_df.index

In [6]:
outlier_num = 0     # outlier세기 위한 변수

for dong in data["행정동"].unique():
    df = data[data["행정동"] == dong]
    
    outlier_index = find_outlier(df, "단위면적당금액")
    outlier_num += len(outlier_index)
    print(dong, "의 outlier : ", outlier_index)
    
    data.drop(outlier_index, axis = 0, inplace = True)

개포4동 의 outlier :  Int64Index([], dtype='int64')
개포2동 의 outlier :  Int64Index([118], dtype='int64')
논현1동 의 outlier :  Int64Index([352], dtype='int64')
논현2동 의 outlier :  Int64Index([230], dtype='int64')
대치4동 의 outlier :  Int64Index([], dtype='int64')
대치2동 의 outlier :  Int64Index([], dtype='int64')


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,


대치1동 의 outlier :  Int64Index([], dtype='int64')
도곡1동 의 outlier :  Int64Index([], dtype='int64')
도곡2동 의 outlier :  Int64Index([460], dtype='int64')
삼성2동 의 outlier :  Int64Index([], dtype='int64')
삼성1동 의 outlier :  Int64Index([504], dtype='int64')
세곡동 의 outlier :  Int64Index([], dtype='int64')
신사동 의 outlier :  Int64Index([], dtype='int64')
압구정동 의 outlier :  Int64Index([559, 577, 582, 585], dtype='int64')
역삼1동 의 outlier :  Int64Index([], dtype='int64')
역삼2동 의 outlier :  Int64Index([842, 859], dtype='int64')
일원1동 의 outlier :  Int64Index([936, 940, 973, 974, 975, 976], dtype='int64')
일원본동 의 outlier :  Int64Index([], dtype='int64')
청담동 의 outlier :  Int64Index([], dtype='int64')
고덕2동 의 outlier :  Int64Index([], dtype='int64')
고덕1동 의 outlier :  Int64Index([], dtype='int64')
길동 의 outlier :  Int64Index([1097, 1099], dtype='int64')
둔촌2동 의 outlier :  Int64Index([1337], dtype='int64')
명일1동 의 outlier :  Int64Index([], dtype='int64')
천호2동 의 outlier :  Int64Index([2220, 2765], dtype='int64')
명일2동 의 ou

시흥2동 의 outlier :  Int64Index([15303, 15304, 15521, 15535, 15536, 15537, 15538, 15539, 15540], dtype='int64')
공릉2동 의 outlier :  Int64Index([16124, 16171], dtype='int64')
공릉1동 의 outlier :  Int64Index([], dtype='int64')
상계1동 의 outlier :  Int64Index([16388, 16396, 16429, 16432, 16476, 16478, 16497, 16524, 16532,
            16563, 16564, 16622, 16638, 16639, 16640, 16641, 16659, 16660,
            16693, 16694, 16758, 16790, 16794, 16799, 16800, 16801, 16805,
            16844, 16917, 16925, 16926, 16959],
           dtype='int64')
상계3.4동 의 outlier :  Int64Index([16747, 16748, 16806, 16842, 16843], dtype='int64')
상계5동 의 outlier :  Int64Index([], dtype='int64')
상계2동 의 outlier :  Int64Index([16406], dtype='int64')
상계10동 의 outlier :  Int64Index([], dtype='int64')
월계3동 의 outlier :  Int64Index([], dtype='int64')
월계2동 의 outlier :  Int64Index([17065], dtype='int64')
월계1동 의 outlier :  Int64Index([17041, 17042], dtype='int64')
중계본동 의 outlier :  Int64Index([17092, 17107, 17115, 17116, 17124, 17150, 

동선동 의 outlier :  Int64Index([], dtype='int64')
돈암2동 의 outlier :  Int64Index([], dtype='int64')
성북동 의 outlier :  Int64Index([26869, 26882, 26896, 26897, 26899, 26913, 26931, 26932, 26939,
            26955, 26956, 26957, 26958, 26959, 26961, 26962, 26980, 26981,
            26982, 26986],
           dtype='int64')
보문동 의 outlier :  Int64Index([26535], dtype='int64')
삼선동 의 outlier :  Int64Index([], dtype='int64')
월곡2동 의 outlier :  Int64Index([26672, 26675, 26676, 26677, 26678, 26680, 26711, 26712, 26713,
            28564, 28565, 28568, 28581, 28582, 28583, 28584, 28585, 28600],
           dtype='int64')
석관동 의 outlier :  Int64Index([26824, 26836, 26838, 26839, 26849, 26850], dtype='int64')
안암동 의 outlier :  Int64Index([27028], dtype='int64')
장위1동 의 outlier :  Int64Index([27074, 27075, 27090, 27191, 27201, 27202, 27484, 27835], dtype='int64')
장위2동 의 outlier :  Int64Index([27258, 27779, 27831], dtype='int64')
장위3동 의 outlier :  Int64Index([27217, 27315, 27317, 27318, 27499, 27500, 27556, 2772

장충동 의 outlier :  Int64Index([40630, 40631, 40634], dtype='int64')
청구동 의 outlier :  Int64Index([40429, 40430], dtype='int64')
동화동 의 outlier :  Int64Index([40485, 40491, 40576, 40578], dtype='int64')
약수동 의 outlier :  Int64Index([40469, 40529, 40561], dtype='int64')
다산동 의 outlier :  Int64Index([40482, 40483], dtype='int64')
신당5동 의 outlier :  Int64Index([], dtype='int64')
광희동 의 outlier :  Int64Index([], dtype='int64')
필동 의 outlier :  Int64Index([], dtype='int64')
황학동 의 outlier :  Int64Index([], dtype='int64')
회현동 의 outlier :  Int64Index([], dtype='int64')
망우본동 의 outlier :  Int64Index([40757], dtype='int64')
망우3동 의 outlier :  Int64Index([], dtype='int64')
면목본동 의 outlier :  Int64Index([41204], dtype='int64')
면목7동 의 outlier :  Int64Index([40970, 41082, 41361], dtype='int64')
면목4동 의 outlier :  Int64Index([], dtype='int64')
면목2동 의 outlier :  Int64Index([41167, 41168, 41394, 41395, 41396, 41397], dtype='int64')
면목5동 의 outlier :  Int64Index([41305], dtype='int64')
면목3.8동 의 outlier :  Int64Index([

In [None]:
# 전/월세

In [54]:
original_shape = data.shape[0]
original_shape

98967

In [46]:
outlier_num = 0     # outlier세기 위한 변수

for dong in data["행정동"].unique():
    df = data[data["행정동"] == dong]
    
    outlier_index = find_outlier(df, "단위면적당_전세")
    outlier_num += len(outlier_index)
    print(dong, "의 outlier : ", outlier_index)
    
    data.drop(outlier_index, axis = 0, inplace = True)

print("이상치의 개수 : ", outlier_num)
print(original_shape - data.shape[0])

개포4동 의 outlier :  Int64Index([98, 100, 101, 102, 103, 237, 344], dtype='int64')
개포2동 의 outlier :  Int64Index([], dtype='int64')
개포1동 의 outlier :  Int64Index([], dtype='int64')
논현2동 의 outlier :  Int64Index([675, 678, 843, 874, 875, 1541], dtype='int64')
논현1동 의 outlier :  Int64Index([740, 881, 882, 891], dtype='int64')
대치1동 의 outlier :  Int64Index([1576, 2017, 2354], dtype='int64')
대치4동 의 outlier :  Int64Index([1580, 1581, 1624, 1625, 1633, 1634, 1635, 1636, 1642, 1643, 1651,
            1654, 1655, 1674, 1675, 1678, 1708, 1710, 1718, 1876, 1880, 1881,
            1882, 1902, 1916, 1940, 1941, 1945, 1946, 1948, 1957, 1958, 1959,
            1960, 1961, 1968, 1970, 1991, 1992, 1993, 1994, 2062, 2121, 2127,
            2128, 2129, 2130, 2132, 2136, 2137, 2139, 2140, 2141, 2142, 2143,
            2144, 2148, 2149, 2150, 2169, 2201, 2221, 2264, 2305, 2325, 2359,
            2374, 2381],
           dtype='int64')
대치2동 의 outlier :  Int64Index([1810, 1818, 1819, 1820, 1821, 1875, 2001], dtype='

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,


압구정동 의 outlier :  Int64Index([3151, 3152, 3212, 3229, 3230, 3268, 3269], dtype='int64')
역삼1동 의 outlier :  Int64Index([3354, 3357, 3369, 3632, 3678, 3743, 3848, 3849], dtype='int64')
역삼2동 의 outlier :  Int64Index([3869, 3870, 3871, 3936, 3981, 4323, 4324, 4327, 4328, 4612], dtype='int64')
일원1동 의 outlier :  Int64Index([4648], dtype='int64')
일원본동 의 outlier :  Int64Index([4730, 4766], dtype='int64')
청담동 의 outlier :  Int64Index([4863, 4940, 4941, 4942, 4943, 4944, 4945, 4946, 4969], dtype='int64')
강일동 의 outlier :  Int64Index([5018], dtype='int64')
고덕2동 의 outlier :  Int64Index([5022, 5027, 5045, 5054], dtype='int64')
고덕1동 의 outlier :  Int64Index([5040], dtype='int64')
길동 의 outlier :  Int64Index([5175, 5176, 5177, 5178, 5179, 5181, 5182, 5183, 5184, 5185, 5186,
            5187, 5484, 5521],
           dtype='int64')
둔촌2동 의 outlier :  Int64Index([5791, 5973, 6082], dtype='int64')
명일2동 의 outlier :  Int64Index([6119, 6218], dtype='int64')
명일1동 의 outlier :  Int64Index([], dtype='int64')
상일동 의 out

월계2동 의 outlier :  Int64Index([], dtype='int64')
월계1동 의 outlier :  Int64Index([], dtype='int64')
월계3동 의 outlier :  Int64Index([], dtype='int64')
중계본동 의 outlier :  Int64Index([37158], dtype='int64')
중계4동 의 outlier :  Int64Index([], dtype='int64')
하계1동 의 outlier :  Int64Index([37277, 37282, 37287, 37288, 37310, 37311, 37338], dtype='int64')
도봉1동 의 outlier :  Int64Index([], dtype='int64')
도봉2동 의 outlier :  Int64Index([], dtype='int64')
방학3동 의 outlier :  Int64Index([], dtype='int64')
방학2동 의 outlier :  Int64Index([37646, 37722], dtype='int64')
방학1동 의 outlier :  Int64Index([37621, 37674, 37678, 37729, 37730, 37838, 37889, 37959, 37960,
            38005, 38010, 38062],
           dtype='int64')
쌍문4동 의 outlier :  Int64Index([38270], dtype='int64')
쌍문1동 의 outlier :  Int64Index([38189, 38191, 38192], dtype='int64')
쌍문3동 의 outlier :  Int64Index([38432, 38471, 38472, 38509, 38510, 38571, 38572, 38573, 38587,
            38603, 38605, 38624, 38628],
           dtype='int64')
쌍문2동 의 outlier :  Int64

석관동 의 outlier :  Int64Index([], dtype='int64')
안암동 의 outlier :  Int64Index([], dtype='int64')
장위1동 의 outlier :  Int64Index([61729, 61742, 61923, 61941, 61942, 61943, 61944, 61952, 61956,
            61957, 61960, 61988, 62013, 62021, 62024, 62025, 62026, 62029,
            62065, 62109, 62124, 62196, 62201, 62202, 62207, 62208, 62210,
            62212, 62213, 62218],
           dtype='int64')
장위2동 의 outlier :  Int64Index([], dtype='int64')
장위3동 의 outlier :  Int64Index([], dtype='int64')
정릉1동 의 outlier :  Int64Index([62359, 62387, 62548, 62549], dtype='int64')
정릉4동 의 outlier :  Int64Index([62262, 62294, 62296, 62297, 62423, 62424, 62630, 62803], dtype='int64')
정릉3동 의 outlier :  Int64Index([], dtype='int64')
정릉2동 의 outlier :  Int64Index([], dtype='int64')
종암동 의 outlier :  Int64Index([], dtype='int64')
월곡1동 의 outlier :  Int64Index([63091, 63092], dtype='int64')
가락본동 의 outlier :  Int64Index([63365, 63545, 63969], dtype='int64')
가락2동 의 outlier :  Int64Index([63206, 63241, 63264, 63267, 633

대조동 의 outlier :  Int64Index([88623, 88870], dtype='int64')
불광2동 의 outlier :  Int64Index([89966, 89991, 89992], dtype='int64')
불광1동 의 outlier :  Int64Index([89926, 90279], dtype='int64')
수색동 의 outlier :  Int64Index([], dtype='int64')
신사1동 의 outlier :  Int64Index([90496, 90515, 90589, 90788], dtype='int64')
신사2동 의 outlier :  Int64Index([90504], dtype='int64')
역촌동 의 outlier :  Int64Index([91334], dtype='int64')
응암1동 의 outlier :  Int64Index([92706], dtype='int64')
응암3동 의 outlier :  Int64Index([], dtype='int64')
응암2동 의 outlier :  Int64Index([92944], dtype='int64')
증산동 의 outlier :  Int64Index([93073, 93074, 93075, 93076, 93077, 93078, 93079, 93084, 93085,
            93086, 93087, 93100, 93101, 93102, 93103, 93118, 93119, 93120,
            93121, 93122, 93123, 93124, 93125, 93128, 93143, 93151, 93152,
            93159, 93160, 93161, 93162, 93163, 93164, 93186, 93188, 93189,
            93197, 93198, 93199, 93201, 93237],
           dtype='int64')
가회동 의 outlier :  Int64Index([93264, 94067, 