In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

import urllib.request
from bs4 import BeautifulSoup

### 행정안전부 법정동 코드 데이터 전처리
- 행정표준코드관리시스템 : https://www.code.go.kr/index.do

In [1]:
# 법정동코드 파일 읽어오기
code = pd.read_csv('법정동코드 전체자료.txt', sep='\t',
           encoding='cp949')
code

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
...,...,...,...
46175,5013032022,제주특별자치도 서귀포시 표선면 하천리,존재
46176,5013032023,제주특별자치도 서귀포시 표선면 성읍리,존재
46177,5013032024,제주특별자치도 서귀포시 표선면 가시리,존재
46178,5013032025,제주특별자치도 서귀포시 표선면 세화리,존재


In [2]:
# 폐지된 법정동코드 삭제
# 조건) 폐지여부컬럼 == '존재'
code = code.loc[ code['폐지여부'] == '존재' ]
code

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
...,...,...,...
46175,5013032022,제주특별자치도 서귀포시 표선면 하천리,존재
46176,5013032023,제주특별자치도 서귀포시 표선면 성읍리,존재
46177,5013032024,제주특별자치도 서귀포시 표선면 가시리,존재
46178,5013032025,제주특별자치도 서귀포시 표선면 세화리,존재


In [3]:
# 인덱스를 초기화
code.reset_index(drop=True, inplace=True)
code

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
...,...,...,...
20539,5013032022,제주특별자치도 서귀포시 표선면 하천리,존재
20540,5013032023,제주특별자치도 서귀포시 표선면 성읍리,존재
20541,5013032024,제주특별자치도 서귀포시 표선면 가시리,존재
20542,5013032025,제주특별자치도 서귀포시 표선면 세화리,존재


In [4]:
# 시도명을 법정동주소에서 분리 후 컬럼 생성
# 분리하기 위한 문자열 함수 split
# 컬럼.str.split()
# expand=True <- 쪼개진 결과를 인덱싱 가능
code['시도명'] = code['법정동명'].str.split(' ', 
                                    expand=True)[0]
code

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  code['시도명'] = code['법정동명'].str.split(' ', expand=True)[0]


Unnamed: 0,법정동코드,법정동명,폐지여부,시도명
0,1100000000,서울특별시,존재,서울특별시
1,1111000000,서울특별시 종로구,존재,서울특별시
2,1111010100,서울특별시 종로구 청운동,존재,서울특별시
3,1111010200,서울특별시 종로구 신교동,존재,서울특별시
4,1111010300,서울특별시 종로구 궁정동,존재,서울특별시
...,...,...,...,...
20539,5013032022,제주특별자치도 서귀포시 표선면 하천리,존재,제주특별자치도
20540,5013032023,제주특별자치도 서귀포시 표선면 성읍리,존재,제주특별자치도
20541,5013032024,제주특별자치도 서귀포시 표선면 가시리,존재,제주특별자치도
20542,5013032025,제주특별자치도 서귀포시 표선면 세화리,존재,제주특별자치도


In [5]:
# 마찬가지로 시군구, 읍면동, 동리로 분리 후 컬럼 생성
code['시군구명'] = code['법정동명'].str.split(' ', 
                                    expand=True)[1]
code['읍면동명'] = code['법정동명'].str.split(' ', 
                                    expand=True)[2]
code['동리명'] = code['법정동명'].str.split(' ', 
                                    expand=True)[3]

code

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  code['시군구명'] = code['법정동명'].str.split(' ', expand=True)[1]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  code['읍면동명'] = code['법정동명'].str.split(' ', expand=True)[2]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  code['동리명'] = code['법정동명'].str.split(' ', expand=True)[3]


Unnamed: 0,법정동코드,법정동명,폐지여부,시도명,시군구명,읍면동명,동리명
0,1100000000,서울특별시,존재,서울특별시,,,
1,1111000000,서울특별시 종로구,존재,서울특별시,종로구,,
2,1111010100,서울특별시 종로구 청운동,존재,서울특별시,종로구,청운동,
3,1111010200,서울특별시 종로구 신교동,존재,서울특별시,종로구,신교동,
4,1111010300,서울특별시 종로구 궁정동,존재,서울특별시,종로구,궁정동,
...,...,...,...,...,...,...,...
20539,5013032022,제주특별자치도 서귀포시 표선면 하천리,존재,제주특별자치도,서귀포시,표선면,하천리
20540,5013032023,제주특별자치도 서귀포시 표선면 성읍리,존재,제주특별자치도,서귀포시,표선면,성읍리
20541,5013032024,제주특별자치도 서귀포시 표선면 가시리,존재,제주특별자치도,서귀포시,표선면,가시리
20542,5013032025,제주특별자치도 서귀포시 표선면 세화리,존재,제주특별자치도,서귀포시,표선면,세화리


In [6]:
# 법정동명, 폐지여부 컬럼 삭제
code.drop(['법정동명', '폐지여부'], axis=1, inplace=True)
code

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


Unnamed: 0,법정동코드,시도명,시군구명,읍면동명,동리명
0,1100000000,서울특별시,,,
1,1111000000,서울특별시,종로구,,
2,1111010100,서울특별시,종로구,청운동,
3,1111010200,서울특별시,종로구,신교동,
4,1111010300,서울특별시,종로구,궁정동,
...,...,...,...,...,...
20539,5013032022,제주특별자치도,서귀포시,표선면,하천리
20540,5013032023,제주특별자치도,서귀포시,표선면,성읍리
20541,5013032024,제주특별자치도,서귀포시,표선면,가시리
20542,5013032025,제주특별자치도,서귀포시,표선면,세화리


In [7]:
# 결측값을 임의로 채워준다.
code.fillna('없음', inplace=True)
code

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().fillna(


Unnamed: 0,법정동코드,시도명,시군구명,읍면동명,동리명
0,1100000000,서울특별시,없음,없음,없음
1,1111000000,서울특별시,종로구,없음,없음
2,1111010100,서울특별시,종로구,청운동,없음
3,1111010200,서울특별시,종로구,신교동,없음
4,1111010300,서울특별시,종로구,궁정동,없음
...,...,...,...,...,...
20539,5013032022,제주특별자치도,서귀포시,표선면,하천리
20540,5013032023,제주특별자치도,서귀포시,표선면,성읍리
20541,5013032024,제주특별자치도,서귀포시,표선면,가시리
20542,5013032025,제주특별자치도,서귀포시,표선면,세화리


In [8]:
# 시군구 정보가 없는 행 삭제
# 조건) 시군구명컬럼 != '없음'
code = code.loc[ code['시군구명'] != '없음' ]
code

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


Unnamed: 0,법정동코드,시도명,시군구명,읍면동명,동리명
1,1111000000,서울특별시,종로구,없음,없음
2,1111010100,서울특별시,종로구,청운동,없음
3,1111010200,서울특별시,종로구,신교동,없음
4,1111010300,서울특별시,종로구,궁정동,없음
5,1111010400,서울특별시,종로구,효자동,없음
...,...,...,...,...,...
20539,5013032022,제주특별자치도,서귀포시,표선면,하천리
20540,5013032023,제주특별자치도,서귀포시,표선면,성읍리
20541,5013032024,제주특별자치도,서귀포시,표선면,가시리
20542,5013032025,제주특별자치도,서귀포시,표선면,세화리


In [9]:
# 읍면동 정보가 있는 행 삭제(중복 시군구 제거)
# 조건) 읍면동컬럼 == '없음'
code = code.loc[ code['읍면동명'] == '없음' ]
code

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


Unnamed: 0,법정동코드,시도명,시군구명,읍면동명,동리명
1,1111000000,서울특별시,종로구,없음,없음
89,1114000000,서울특별시,중구,없음,없음
164,1117000000,서울특별시,용산구,없음,없음
201,1120000000,서울특별시,성동구,없음,없음
219,1121500000,서울특별시,광진구,없음,없음
...,...,...,...,...,...
19899,4887000000,경상남도,함양군,없음,없음
20014,4888000000,경상남도,거창군,없음,없음
20121,4889000000,경상남도,합천군,없음,없음
20332,5011000000,제주특별자치도,제주시,없음,없음


In [10]:
# 필요없는 읍면동, 동리 컬럼 삭제
code.drop(['읍면동명', '동리명'], axis=1, inplace=True)
code

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


Unnamed: 0,법정동코드,시도명,시군구명
1,1111000000,서울특별시,종로구
89,1114000000,서울특별시,중구
164,1117000000,서울특별시,용산구
201,1120000000,서울특별시,성동구
219,1121500000,서울특별시,광진구
...,...,...,...
19899,4887000000,경상남도,함양군
20014,4888000000,경상남도,거창군
20121,4889000000,경상남도,합천군
20332,5011000000,제주특별자치도,제주시


In [11]:
# 법정동코드 앞 5자리만 남긴다.
code['법정동코드'] = code['법정동코드'].astype('str').str[:5]
code

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  code['법정동코드'] = code['법정동코드'].astype('str').str[:5]


Unnamed: 0,법정동코드,시도명,시군구명
1,11110,서울특별시,종로구
89,11140,서울특별시,중구
164,11170,서울특별시,용산구
201,11200,서울특별시,성동구
219,11215,서울특별시,광진구
...,...,...,...
19899,48870,경상남도,함양군
20014,48880,경상남도,거창군
20121,48890,경상남도,합천군
20332,50110,제주특별자치도,제주시


In [12]:
# 인덱스 초기화
code.reset_index(drop=True, inplace=True)
code

Unnamed: 0,법정동코드,시도명,시군구명
0,11110,서울특별시,종로구
1,11140,서울특별시,중구
2,11170,서울특별시,용산구
3,11200,서울특별시,성동구
4,11215,서울특별시,광진구
...,...,...,...
247,48870,경상남도,함양군
248,48880,경상남도,거창군
249,48890,경상남도,합천군
250,50110,제주특별자치도,제주시


In [13]:
code['시도명'].unique()

array(['서울특별시', '부산광역시', '대구광역시', '인천광역시', '광주광역시', '대전광역시', '울산광역시',
       '세종특별자치시', '경기도', '강원도', '충청북도', '충청남도', '전라북도', '전라남도', '경상북도',
       '경상남도', '제주특별자치도'], dtype=object)

In [24]:
# 서울시의 정보를 따로 저장
# 조건) 시도명컬럼 == '서울특별시'
code_seoul = code.loc[ code['시도명']=='서울특별시' ]
code_seoul

Unnamed: 0,법정동코드,시도명,시군구명
41,27110,대구광역시,중구
42,27140,대구광역시,동구
43,27170,대구광역시,서구
44,27200,대구광역시,남구
45,27230,대구광역시,북구
46,27260,대구광역시,수성구
47,27290,대구광역시,달서구
48,27710,대구광역시,달성군


In [16]:
code_seoul

41     중구
42     동구
43     서구
44     남구
45     북구
46    수성구
47    달서구
48    달성군
Name: 시군구명, dtype: object

### 하나의 API 요청의 응답 데이터를 데이터프레임으로 생성하는 함수 선언

In [28]:
def GetData(ym,lawd_cd):
    API_KEY = "WdJsPPD6uZVTrgqXHlaNbcK2jroAVBZluTxlzsDsYBPEDPg89VFffRLKzSyFV5cfRKWa0gXHe6lMC0Xdie2arA%3D%3D"
    
    url = "http://openapi.molit.go.kr:8081/OpenAPI_ToolInstallPackage/service/rest/RTMSOBJSvc/getRTMSDataSvcAptTrade?LAWD_CD={loc}&DEAL_YMD={date}&serviceKey={key}"
    url = url.format(loc=lawd_cd, date=ym, key=API_KEY)
    result = urllib.request.urlopen(url).read().decode("utf-8")
    xmlsoup = BeautifulSoup(result, 'lxml-xml')

    te=xmlsoup.findAll("item")

    df_temp=pd.DataFrame()


    for t in te:
        build_y=t.find("건축년도").text
        year=t.find("년").text
        month=t.find("월").text
        day=t.find("일").text
        dong=t.find("법정동").text
        price=t.find("거래금액").text
        apt_nm=t.find("아파트").text
        size=t.find("전용면적").text
        
        # 지번 데이터가 없는경우 에러 대신 공백을 대입한다.
        try:
            jibun=t.find("지번").text
        except:
            jibun=""

        ji_code=t.find("지역코드").text
        floor=t.find("층").text

        temp = pd.DataFrame(([[build_y,year,month,day,dong,price,apt_nm,size,jibun,ji_code,floor]]), columns=["build_y","year","month","day","dong","price","apt_nm","size","jibun","ji_code","floor"])
        df_temp=pd.concat([df_temp,temp])

    df_temp=df_temp.reset_index(drop=True)

    return df_temp

### 강남구(11680) 지역의 2018년~2020년 아파트 매매 정보 조회

In [26]:
df = pd.DataFrame()
year = range(2018,2021)
month = range(1,13)

for y in tqdm(year):
    for m in month:
        date = "%d%02d" % (y, m)
        temp = GetData(date, 11680)
        
        df = pd.concat([df,temp])

df.head()

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:45<00:00, 15.24s/it]


Unnamed: 0,build_y,year,month,day,dong,price,apt_nm,size,jibun,ji_code,floor
0,1994,2018,1,2,범어동,30700,우방청솔맨션,59.94,88,27260,17
1,2003,2018,1,2,범어동,48500,태왕유성하이빌,84.9686,614-3,27260,20
2,2000,2018,1,2,범어동,54000,범어청구푸른마을,134.4475,614-100,27260,14
3,1985,2018,1,2,범어동,59500,가든하이츠1,84.945,300,27260,10
4,2015,2018,1,3,범어동,53000,e편한세상범어,84.7725,2240,27260,4


In [27]:
df.to_csv('./서울특별시 강남구 아파트 실거래가.csv', index=False)

## 나중에 따로 실행해볼것
### (2018년 ~ 2020년) (1월~12월) 동안 서울특별시 모든 지역(25개 지역)의 아파트 매매 정보 조회
####  api 요청이 900개정도라 시간이 매우 오래 걸림

In [13]:
import pandas as pd
from tqdm import tqdm_notebook

df = pd.DataFrame()

year = range(2018,2021) # 연도범위는 2018년~2020년으로 설정
month = range(1,13) # 월범위는 1년(1월~12월)로 설정
loc_code = code_seoul["법정동코드"].unique()

for loc in tqdm_notebook(loc_code):
    for y in year:
        for m in month:
            date = "%d%02d" % (y, m)
            temp = GetData(date, loc)

            df = pd.concat([df,temp])
df.head()

HBox(children=(IntProgress(value=0, max=25), HTML(value='')))




Unnamed: 0,build_y,year,month,day,dong,price,apt_nm,size,jibun,ji_code,floor
0,1999,2018,1,19,누상동,17900,청호그린빌,29.76,40,11110,4
1,1999,2018,1,19,누상동,17900,청호그린빌,29.76,40,11110,3
2,2008,2018,1,9,사직동,110000,광화문풍림스페이스본(101동~105동),146.92,9,11110,9
3,2008,2018,1,22,사직동,89000,광화문풍림스페이스본(101동~105동),94.51,9,11110,6
4,2008,2018,1,23,사직동,85000,광화문풍림스페이스본(101동~105동),95.88,9,11110,2


### 완성된 데이터프레임을 저장

In [23]:
df.to_csv('./서울특별시 아파트 실거래가.csv', index=False)