# 행정동 데이터, 법정동 데이터 다루기

## 행정동과 법정동 차이

__행정동__
- 우리가 평소에 쓰고 있는 주소에 쓰이는 것
- 행정편의를 위해 쓰임
- 법정동에 비해 쉽게 이름이 바뀌거나 없어지거나 생길 수 있음

__법정동__
- 일상생활에서는 잘 쓰이지 않음
- 법률 행위 등에 쓰이며, 특히 부동산에서 쓰임

## 행정동 데이터 얻기

- 엑셀 파일 다운받기: [통계분류포털](https://kssc.kostat.go.kr:8443/ksscNew_web/index.jsp#)에서 얻을 수 있다
- API 이용: [관련 자료](http://sgis.kostat.go.kr/OpenAPI2/subpage/openAPI2_10.jsp#) 참고
- [url](http://sgis.kostat.go.kr/OpenAPI2/upload/unitarea_code.xls)로 바로 접근 ( _2013년까지의 데이터만 존재하는 것 같은데??_ )

## pandas를 이용해 엑셀 데이터 다루기

In [15]:
import os
import pandas as pd

file_name = '한국행정구역분류_2019.10.1. 기준.xls'
file_dir = f'{os.getcwd()}/{file_name}'
df = pd.read_excel(file_dir, sheet_name='1. 총괄표(현행)', skiprows=2, dtype={'대분류': str, '중분류': str, '소분류': str})
df.drop('Unnamed: 0', axis=1, inplace=True)
df.head()

Unnamed: 0,대분류,시도,중분류,시군구,소분류,읍면동,영문 표기,한자 표기
0,11,서울특별시,,,,,Seoul,서울特別市
1,11,서울특별시,11010.0,종로구,,,Jongno-gu,鍾路區
2,11,서울특별시,11010.0,종로구,1101053.0,사직동,Sajik-dong,社稷洞
3,11,서울특별시,11010.0,종로구,1101054.0,삼청동,Samcheong-dong,三淸洞
4,11,서울특별시,11010.0,종로구,1101055.0,부암동,Buam-dong,付岩洞


In [16]:
df.tail()

Unnamed: 0,대분류,시도,중분류,시군구,소분류,읍면동,영문 표기,한자 표기
3778,39,제주특별자치도,39020,서귀포시,3902058,서홍동,Seohong-dong,西烘洞
3779,39,제주특별자치도,39020,서귀포시,3902059,대륜동,Daeryun-dong,大倫洞
3780,39,제주특별자치도,39020,서귀포시,3902060,대천동,Daecheon-dong,大川洞
3781,39,제주특별자치도,39020,서귀포시,3902061,중문동,Jungmun-dong,中文洞
3782,39,제주특별자치도,39020,서귀포시,3902062,예래동,Yerae-dong,猊來洞


## 법정동 데이터 얻기
1. txt파일로 얻기: [행정표준코드 관리시스템](https://www.code.go.kr/)에서 다운받을 수 있다.
2. 다음 [url](https://goo.gl/tM6r3v)에서 공유되어 있다.

## pandas를 이용해 법정동 데이터 다루기

### 모든 법정동코드 불러오기

In [17]:
import pandas as pd

df_areacode = pd.read_csv('https://goo.gl/tM6r3v', sep='\t', dtype={'법정동코드': str})
df_areacode.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


In [18]:
len(df_areacode)  # 폐지된 법정동코드도 포함

45957

### 존재하는 법정동코드만 얻기

In [21]:
# 존재하는 법정동코드만 얻기
df_areacode = df_areacode[df_areacode['폐지여부'] == '존재']
df_areacode.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


In [22]:
len(df_areacode)  # 존재하는 법정동코드만 포함

20544

### 시/도에 대한 법정동코드만 이용하기

In [24]:
# 임의 정수 2자리와 그 뒤에 0이 8개 있는 법정동코드가 세종을 제외한 시/도
# 세종특별자치시의 법정동코드는 3611000000

df_province = df_areacode[df_areacode['법정동코드'].str.contains('\d{2}0{8}|36110{6}')]
df_province

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
2615,2600000000,부산광역시,존재
2912,2700000000,대구광역시,존재
3244,2800000000,인천광역시,존재
3579,2900000000,광주광역시,존재
3825,3000000000,대전광역시,존재
4009,3100000000,울산광역시,존재
4241,3611000000,세종특별자치시,존재
4391,4100000000,경기도,존재
10867,4200000000,강원도,존재


In [25]:
len(df_province)  # 대한민국의 시/도는 모두 17개다.

17

### 해당 시/도의 법정동 코드 얻기

In [26]:
import pandas as pd

def get_areacode(province: str):
    df_areacode = pd.read_csv('https://goo.gl/tM6r3v', sep='\t', dtype={'법정동코드': str, '법정동명': str})
    df_areacode = df_areacode[df_areacode['폐지여부'] == '존재']
    df_areacode = df_areacode[['법정동코드', '법정동명']]
    
    df_province = df_areacode[ df_areacode['법정동코드'].str.contains('\d{2}0{8}|36110{6}')]
    
    areacode = df_province.loc[df_province['법정동명'] == province, '법정동코드'].values[0]
    return areacode

In [31]:
province = '서울특별시'

get_areacode(province)

'1100000000'