In [1]:
# deprecate 관련 경고는 무시하도록 설정
import warnings
warnings.filterwarnings('ignore')

# 데이터 수집 및 전처리
1. 서울특별시 아파트 정보
2. 서울특별시 주요 공원 현황
3. 전국 전철역 정보
4. 서울특별시 대규모점포 인허가 정보(대형마트, 백화점, 쇼핑센터, 복합쇼핑몰 등)
5. 경찰관서 위치 및 주소 현황(지방청, 경찰서, 관서명, 지구대, 파출소 등)
6. 전국 병의원 및 약국 현황 중 병원 정보

In [2]:
import pandas as pd
import googlemaps as gmaps
import numpy as np
from pyproj import Proj, transform

# 구글맵 API 키 등록 
gmap = gmaps.Client(key='AIzaSyBcaPtxKZ9HTVSMkf-kUVQwSH7UYgLPxZk')

## 1. data/서울특별시 공동주택 아파트 정보.csv
https://data.seoul.go.kr/dataList/OA-15818/S/1/datasetView.do
<div style='text-align:center;'><img src='data/capture_data_apt.jpg' width='500'></div>

In [3]:
df_apt = pd.read_csv('data/서울특별시 공동주택 아파트 정보.csv', sep=',', encoding='euc-kr')
df_apt.head()

Unnamed: 0,번호,k-아파트코드,k-아파트명,"k-단지분류(아파트,주상복합등등)",kapt도로명주소,주소(시도)k-apt주소split,주소(시군구),주소(읍면동),나머지주소,주소(도로명),...,청소비관리형태,건축면적,주차대수,기타/의무/임대/임의=1/2/3/4,단지승인일,사용허가여부,관리비 업로드,좌표X,좌표Y,단지신청일
0,1,A15679103,우리유앤미,아파트,서울특별시 동작구 서달로 83,서울,동작구,흑석동,우리유앤미아파트,서달로,...,위탁,1773.56,223.0,의무,2018-04-10 15:59:42.0,Y,N,126.959639,37.500668,2013-03-07 09:46:59.0
1,2,A13876112,송파파인타운13단지,아파트,서울특별시 송파구 송파대로8길 10,서울,송파구,장지동,857,송파대로8길,...,위탁,0.0,225.0,의무,2013-06-17 19:03:30.0,Y,N,127.129179,37.476897,2013-03-07 09:46:59.0
2,3,A13873701,오금현대백조(임대),아파트,서울특별시 송파구 양재대로72길 20,서울,송파구,오금동,20-2,양재대로72길,...,위탁,6892.79,60.0,임대,2013-11-21 16:43:07.0,Y,N,127.128775,37.508906,2013-03-07 09:46:59.0
3,4,A15275101,개봉건영,아파트,서울특별시 구로구 고척로21나길 85-6,서울,구로구,개봉동,47-1,고척로21나길,...,위탁,0.0,0.0,의무,2013-06-23 11:30:23.0,Y,N,126.840675,37.501162,2013-03-07 09:46:59.0
4,6,A13991016,월계동원베네스트,아파트,서울특별시 노원구 월계로53길 21,서울,노원구,월계동,서울시 노원구 월계2동 940번지,월계로53길,...,위탁,0.0,206.0,의무,2015-06-19 09:59:49.0,Y,N,127.05822,37.631732,2013-03-07 09:46:59.0


In [4]:
# 필요한 컬럼 추출
df_apt = df_apt.iloc[:, [2,4,5,6,7,8,44,45]]
df_apt = df_apt.rename(columns={'k-아파트명': '아파트명', 'kapt도로명주소': '주소',
                                '주소(시도)k-apt주소split': '시', '주소(시군구)': '구', '주소(읍면동)': '동', '나머지주소': '번지',
                                '좌표Y': 'lat', '좌표X': 'lon'})
df_apt.head()

Unnamed: 0,아파트명,주소,시,구,동,번지,lon,lat
0,우리유앤미,서울특별시 동작구 서달로 83,서울,동작구,흑석동,우리유앤미아파트,126.959639,37.500668
1,송파파인타운13단지,서울특별시 송파구 송파대로8길 10,서울,송파구,장지동,857,127.129179,37.476897
2,오금현대백조(임대),서울특별시 송파구 양재대로72길 20,서울,송파구,오금동,20-2,127.128775,37.508906
3,개봉건영,서울특별시 구로구 고척로21나길 85-6,서울,구로구,개봉동,47-1,126.840675,37.501162
4,월계동원베네스트,서울특별시 노원구 월계로53길 21,서울,노원구,월계동,서울시 노원구 월계2동 940번지,127.05822,37.631732


In [5]:
# 결측치 여부 확인
df_apt.info()                           # 주소 148개 , 좌표 9개 누락

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2584 entries, 0 to 2583
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   아파트명    2584 non-null   object 
 1   주소      2436 non-null   object 
 2   시       2584 non-null   object 
 3   구       2584 non-null   object 
 4   동       2584 non-null   object 
 5   번지      2113 non-null   object 
 6   lon     2575 non-null   float64
 7   lat     2575 non-null   float64
dtypes: float64(2), object(6)
memory usage: 161.6+ KB


In [6]:
chgidx = df_apt[df_apt.주소.isnull()].index    # 빈 주소란에 지번주소(시+구+동+번지) 입력
for idx in chgidx:
    faddr = df_apt.iloc[idx, 2] + ' ' + df_apt.iloc[idx, 3] + ' ' + df_apt.iloc[idx, 4] + ' ' + str(df_apt.iloc[idx, 5])
    df_apt.iloc[idx, 1] = faddr
    
chgidx = df_apt[df_apt.lon.isnull()].index    # 빈 좌표란에 geocode함수 사용하여 좌표값 추출하여 입력
for idx in chgidx:
    info = gmap.geocode(df_apt.iloc[idx, 1], language='ko')
    df_apt.iloc[idx, 7] = info[0]['geometry']['location']['lat']
    df_apt.iloc[idx, 6] = info[0]['geometry']['location']['lng']

df_apt = df_apt.iloc[:, [0, 1, 7, 6]]    # 최종 데이터 => 아파트명, 주소, lat, lon
df_apt.info()                            # 결측치 없음을 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2584 entries, 0 to 2583
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   아파트명    2584 non-null   object 
 1   주소      2584 non-null   object 
 2   lat     2584 non-null   float64
 3   lon     2584 non-null   float64
dtypes: float64(2), object(2)
memory usage: 80.9+ KB


In [7]:
df_apt

Unnamed: 0,아파트명,주소,lat,lon
0,우리유앤미,서울특별시 동작구 서달로 83,37.500668,126.959639
1,송파파인타운13단지,서울특별시 송파구 송파대로8길 10,37.476897,127.129179
2,오금현대백조(임대),서울특별시 송파구 양재대로72길 20,37.508906,127.128775
3,개봉건영,서울특별시 구로구 고척로21나길 85-6,37.501162,126.840675
4,월계동원베네스트,서울특별시 노원구 월계로53길 21,37.631732,127.058220
...,...,...,...,...
2579,래미안 라클래시,서울특별시 강남구 삼성로 651,37.517733,127.048165
2580,위례포레샤인17단지,서울 송파구 거여동 nan,37.486335,127.144056
2581,보라매자이 더 포레스트,서울 동작구 신대방동 nan,37.498558,126.925383
2582,DMC SK뷰 1단지 아파트,서울 은평구 수색동 nan,37.581097,126.895923


In [8]:
df_apt.to_csv('서울_아파트.csv', index=False)

## 2. data/서울시 주요 공원현황.csv
https://data.seoul.go.kr/dataList/OA-394/S/1/datasetView.do
<div style='text-align:center'><img src='data/capture_data_park.jpg' width='500'></div>

In [9]:
df_park = pd.read_csv('data/서울시 주요 공원현황.csv', encoding='euc-kr')
df_park.head()

Unnamed: 0,연번,공원명,공원개요,면적,개원일,주요시설,주요식물,안내도,오시는길,이용시참고사항,이미지,지역,공원주소,관리부서,전화번호,X좌표(GRS80TM),Y좌표(GRS80TM),X좌표(WGS84),Y좌표(WGS84),바로가기
0,1,남산도시자연공원,남산공원은 도심에 위치하여 서울시민에게 맑은 공기를 제공하는 자연휴식처이며 산책 꽃...,2896887㎡,1968.9.10,기반시설 : 광장 45950㎡ 도로 108530㎡ 산책로 6.7㎞ (북측:3.7㎞/...,소나무 단풍 아카시아 상수리나무 등 191종 2881870주,http://parks.seoul.go.kr/upload/seditorMulti/2...,명동역(남산케이블카 와룡묘 서울애니메이션센터 방면) 도보 명동역 3번출구 → 퍼시픽...,남산공원 차량통행 금지안내 2005년 5월 1일부터 남산공원에 일반승용차 택시 통행...,http://parks.seoul.go.kr/file/info/view.do?fId...,중구,서울특별시 중구 삼일대로 231(예장동),서울특별시중부푸른도시사업소,02-3783-5900,198364.107,450395.554,126.990377,37.55014,http://parks.seoul.go.kr/template/sub/namsan.do
1,2,길동생태공원,길동생태공원은 생물의 서식처를 제공하고 종다양성을 증진시키며 자연생태계의 생물들을 ...,80683㎡,1999.5.20,탐방객안내소 야외전시대 관찰대 목재데크 조류관찰대 길동생태문화센터,소나무 보리수 등 64종 31800주 산국 부들 등 138종 192800본,http://parks.seoul.go.kr/template/common/img/p...,,매주 월요일은 휴관입니다 사전예약 후 입장하실 수 있습니다. ▶ 인터넷 예약 바로가...,http://parks.seoul.go.kr/file/info/view.do?fId...,강동구,서울특별시 강동구 천호대로 1291(길동생태공원),동부공원녹지사업소 길동생태공원,02-489-2770,213554.12,448852.675,127.154779,37.540394,http://parks.seoul.go.kr/template/sub/gildong.do
2,3,서울대공원,서울대공원은 세계 각국의 야생동물들이 살아 숨 쉬는 서울동물원과 다양한 재미와 즐거...,9132690,1984.5.1,동물원 식물원 테마가든(장미원 어린이동물원 피크닉장) 치유숲 산림욕장 캠핑장 국립현...,,,지하철 4호선 대공원역 하차(2번 출구) 도보 15분 정도 문의처 02)500-73...,일반사항 공원을 깨끗하게 이용합니다. 대중교통을 이용해 주세요. 기념물 시설물 풀과...,http://parks.seoul.go.kr/file/info/view.do?fId...,과천시,경기도 과천시 대공원광장로 102,전략기획실,02-500-7032,200994.267,437163.981,127.019846,37.426449,http://grandpark.seoul.go.kr/
3,4,서울숲,당초 골프장 승마장 등이 있던 뚝섬일대를 주거업무 지역으로 개발할 경우 약 4조원에...,480994㎡,2005.6.18,4개 테마공원: 문화예술공원 자연생태숲 자연체험학습원 습지생태원 주요시설: 가족마당...,수 목 : 소나무 섬잣나무 계수나무 외 95종 415795주 식물원 : 선인장 등 ...,http://parks.seoul.go.kr/template/common/img/p...,,지하철 분당선 서울숲역 3번출구 도보로 약5분 2호선 뚝섬역 8번출구 도보로 약 1...,http://parks.seoul.go.kr/file/info/view.do?fId...,성동구,서울특별시 성동구 뚝섬로 273 (성수동1가),서울숲 관리사무소,02-460-2905,203695.432,449290.726,127.041798,37.543072,http://parks.seoul.go.kr/template/sub/seoulfor...
4,5,월드컵공원,월드컵공원은 서울의 서쪽에 위치하여 1978년부터 1993년까지 15년간 서울시민이...,2284085㎡,2002.5.1,평화의 공원 월드컵공원전시관(879㎡) 유니세프광장(2400㎡) 평화광장(5217㎡...,,http://parks.seoul.go.kr/template/common/img/p...,지하철 6호선 월드컵경기장역 하차 → 1번 출구로 나온 후 직진 → 큰길(도로)이 ...,일반사항 공원을 깨끗하게 이용합니다. 대중교통을 이용해 주세요. 기념물 시설물 풀과...,http://parks.seoul.go.kr/file/info/view.do?fId...,마포구,서울특별시 마포구 하늘공원로 84(월드컵공원),월드컵공원,02-300-5500,190658.07,451598.831,126.878907,37.571805,http://parks.seoul.go.kr/template/sub/worldcup...


In [10]:
# 필요한 컬럼 추출
df_park = df_park.iloc[:, [1,12,18,17]]
df_park = df_park.rename(columns={'공원명':'공원명', '공원주소': '주소', 'Y좌표(WGS84)': 'lat', 'X좌표(WGS84)': 'lon'})
df_park

Unnamed: 0,공원명,주소,lat,lon
0,남산도시자연공원,서울특별시 중구 삼일대로 231(예장동),37.550140,126.990377
1,길동생태공원,서울특별시 강동구 천호대로 1291(길동생태공원),37.540394,127.154779
2,서울대공원,경기도 과천시 대공원광장로 102,37.426449,127.019846
3,서울숲,서울특별시 성동구 뚝섬로 273 (성수동1가),37.543072,127.041798
4,월드컵공원,서울특별시 마포구 하늘공원로 84(월드컵공원),37.571805,126.878907
...,...,...,...,...
127,용마도시자연공원(사가정공원),서울특별시 중랑구 면목7동 산50,37.579762,127.095997
128,문화비축기지,서울특별시 마포구 증산로 87,37.571718,126.893246
129,경춘선숲길,노원구 공릉2동 산 82-2,37.627077,127.076482
130,율현공원,서울특별시 강남구 율현동 밤고개로24길(율현동 56),37.472332,127.115594


In [11]:
df_park.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 132 entries, 0 to 131
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   공원명     132 non-null    object 
 1   주소      132 non-null    object 
 2   lat     131 non-null    float64
 3   lon     131 non-null    float64
dtypes: float64(2), object(2)
memory usage: 4.2+ KB


In [12]:
# chgidx = df_apt[df_apt.주소.isnull()].index    # 빈 주소란에 지번주소(시+구+동+번지) 입력
# for idx in chgidx:
#     faddr = df_apt.iloc[idx, 2] + ' ' + df_apt.iloc[idx, 3] + ' ' + df_apt.iloc[idx, 4] + ' ' + str(df_apt.iloc[idx, 5])
#     df_apt.iloc[idx, 1] = faddr
    
chgidx = df_park[df_park.lon.isnull()].index    # 빈 좌표란에 geocode함수 사용하여 좌표값 추출하여 입력
for idx in chgidx:
    info = gmap.geocode(df_park.iloc[idx, 1], language='ko')
    df_park.iloc[idx, 2] = info[0]['geometry']['location']['lat']
    df_park.iloc[idx, 3] = info[0]['geometry']['location']['lng']

df_park = df_park.iloc[:, [0, 1, 2, 3]]    # 최종 데이터 => 아파트명, 주소, lat, lon
df_park.info()  

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 132 entries, 0 to 131
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   공원명     132 non-null    object 
 1   주소      132 non-null    object 
 2   lat     132 non-null    float64
 3   lon     132 non-null    float64
dtypes: float64(2), object(2)
memory usage: 4.2+ KB


In [13]:
df_park.tail()

Unnamed: 0,공원명,주소,lat,lon
127,용마도시자연공원(사가정공원),서울특별시 중랑구 면목7동 산50,37.579762,127.095997
128,문화비축기지,서울특별시 마포구 증산로 87,37.571718,126.893246
129,경춘선숲길,노원구 공릉2동 산 82-2,37.627077,127.076482
130,율현공원,서울특별시 강남구 율현동 밤고개로24길(율현동 56),37.472332,127.115594
131,서울로7017,서울로7017,37.556661,126.970539


In [14]:
df_park.to_csv('서울_공원_좌표.csv', index=False)

## 3. data/전국도시철도역사정보표준데이터.csv
https://www.data.go.kr/data/15013205/standard.do
<div style='text-align:center'><img src='data/capture_data_subway.jpg' width='500'></div>

In [15]:
df_sw = pd.read_csv("data/전국도시철도역사정보표준데이터.csv", sep=",", encoding='euc-kr')
df_sw.tail()

Unnamed: 0,역번호,역사명,노선번호,노선명,영문역사명,한자역사명,환승역구분,환승노선번호,환승노선명,역위도,역경도,운영기관명,역사도로명주소,역사전화번호,데이터기준일자,제공기관코드,제공기관명
989,4134,송파나루,S1109,서울 도시철도 9호선,Songpanaru,松坡나루,일반역,,,37.51012,127.113123,서울교통공사,서울특별시 송파구 오금로 165,02-2656-0934,2021-04-09,B553766,서울교통공사
990,4135,한성백제,S1109,서울 도시철도 9호선,Hanseong Baekje,漢城百?,일반역,,,37.516865,127.118185,서울교통공사,서울특별시 송파구 위례성대로 51,02-2656-0935,2021-04-09,B553766,서울교통공사
991,4136,올림픽공원,S1109,서울 도시철도 9호선,Olympic Park,올림픽公園(韓國體大),환승역,S1105,서울 도시철도 5호선,37.516088,127.1306,서울교통공사,서울특별시 송파구 양재대로 1233,02-2656-0936,2021-04-09,B553766,서울교통공사
992,4137,둔촌오륜,S1109,서울 도시철도 9호선,Dunchon Oryun,遁村五輪,일반역,,,37.517975,127.14017,서울교통공사,서울특별시 송파구 강동대로 327,02-2656-0937,2021-04-09,B553766,서울교통공사
993,4138,중앙보훈병원,S1109,서울 도시철도 9호선,VHS Medical Center,中央報?病院,일반역,,,37.529614,127.142757,서울교통공사,서울특별시 강동구 명일로 117,02-2656-0938,2021-04-09,B553766,서울교통공사


In [16]:
# 필요한 컬럼 추출
df_sw = df_sw.iloc[:, [1,6,9,10]]

for x in range(len(df_sw)):                     # 역사명 뒤에 '역'자 추가하기
    if not df_sw.역사명[x].endswith('역'):
        df_sw.역사명[x] = df_sw.역사명[x] + '역'
        
df_sw = df_sw.rename(columns={'환승역구분': '구분', '역위도': 'lat', '역경도': 'lon'})    # 최종 데이터 => 역사명, 구분, lat, lon
df_sw.tail()

Unnamed: 0,역사명,구분,lat,lon
989,송파나루역,일반역,37.51012,127.113123
990,한성백제역,일반역,37.516865,127.118185
991,올림픽공원역,환승역,37.516088,127.1306
992,둔촌오륜역,일반역,37.517975,127.14017
993,중앙보훈병원역,일반역,37.529614,127.142757


In [17]:
df_sw.info()                            # 결측치 없음을 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 994 entries, 0 to 993
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   역사명     994 non-null    object 
 1   구분      994 non-null    object 
 2   lat     994 non-null    float64
 3   lon     994 non-null    float64
dtypes: float64(2), object(2)
memory usage: 31.2+ KB


In [18]:
df_sw.to_csv('전국_전철역_좌표.csv', index=False)

## 4. data/서울특별시 대규모점포 인허가 정보.csv
https://data.seoul.go.kr/dataList/OA-16096/S/1/datasetView.do
<div style='text-align:center'><img src='data/capture_data_shopping.jpg' width='500'></div>

In [19]:
# df_store = pd.read_csv('data/서울특별시 대규모점포 인허가 정보.csv', encoding='euc-kr')
# df_store

In [20]:
df_store = pd.read_csv("data/서울특별시 대규모점포 인허가 정보.csv", encoding = 'euc-kr')
df_store = df_store[['영업상태명', '사업장명', '좌표정보(X)', '좌표정보(Y)']]
df_store = df_store[df_store['영업상태명'] == '영업/정상']
df_store = df_store.dropna(axis=0)
df_store.head()

Unnamed: 0,영업상태명,사업장명,좌표정보(X),좌표정보(Y)
0,영업/정상,낙원상가,198838.912966,452214.210962
1,영업/정상,낙원상가,198838.912966,452214.210962
2,영업/정상,광장주식회사,199837.414267,451974.128468
3,영업/정상,홈플러스익스프레스 뚝섬2점,203841.225548,449475.540141
4,영업/정상,영풍문고,198351.818737,451921.603026


In [21]:
# # 필요한 컬럼 추출
# df_store = df_store.iloc[:, [18,16, 23,24]]
# # df_park = df_park.rename(columns={'공원명':'공원명', '공원주소': '주소', 'Y좌표(WGS84)': 'lat', 'X좌표(WGS84)': 'lon'})
# # df_park
# df_store

In [22]:
df_store.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 657 entries, 0 to 941
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   영업상태명    657 non-null    object 
 1   사업장명     657 non-null    object 
 2   좌표정보(X)  657 non-null    float64
 3   좌표정보(Y)  657 non-null    float64
dtypes: float64(2), object(2)
memory usage: 25.7+ KB


In [23]:
# Projection 정의
# 중부원점(Bessel): 서울 등 중부지역 EPSG:2097
proj_1 = Proj(init='epsg:2097')

# WGS84 경위도: GPS가 사용하는 좌표계 EPSG:4326
proj_2 = Proj(init='epsg:4326')

In [24]:
# 데이터 프레임 지정
DataFrame = df_store.copy()

x_list = []
y_list = []

for idx, row in DataFrame.iterrows():
    x, y = row['좌표정보(X)'], row['좌표정보(Y)']
    x_, y_ = transform(proj_1, proj_2, x, y)
    x_list.append(x_)
    y_list.append(y_)
    
df_store['lon'] = x_list
df_store['lat'] = y_list

In [25]:
df_store

Unnamed: 0,영업상태명,사업장명,좌표정보(X),좌표정보(Y),lon,lat
0,영업/정상,낙원상가,198838.912966,452214.210962,126.984755,37.572217
1,영업/정상,낙원상가,198838.912966,452214.210962,126.984755,37.572217
2,영업/정상,광장주식회사,199837.414267,451974.128468,126.996057,37.570055
3,영업/정상,홈플러스익스프레스 뚝섬2점,203841.225548,449475.540141,127.041366,37.547535
4,영업/정상,영풍문고,198351.818737,451921.603026,126.979241,37.569580
...,...,...,...,...,...,...
937,영업/정상,홈플러스(주)익스프레스 신정점,186934.147693,446336.680482,126.850101,37.519168
938,영업/정상,홈플러스(주)익스프레스 면목점,207708.364766,453525.741162,127.085168,37.584003
939,영업/정상,홈플러스(주)면목점,207089.216591,453074.476764,127.078154,37.579942
940,영업/정상,홈플러스 신내점,208208.786685,457054.793656,127.090873,37.615795


In [26]:
df_store = df_store.iloc[:,[0,1,4,5]]

In [27]:
df_store

Unnamed: 0,영업상태명,사업장명,lon,lat
0,영업/정상,낙원상가,126.984755,37.572217
1,영업/정상,낙원상가,126.984755,37.572217
2,영업/정상,광장주식회사,126.996057,37.570055
3,영업/정상,홈플러스익스프레스 뚝섬2점,127.041366,37.547535
4,영업/정상,영풍문고,126.979241,37.569580
...,...,...,...,...
937,영업/정상,홈플러스(주)익스프레스 신정점,126.850101,37.519168
938,영업/정상,홈플러스(주)익스프레스 면목점,127.085168,37.584003
939,영업/정상,홈플러스(주)면목점,127.078154,37.579942
940,영업/정상,홈플러스 신내점,127.090873,37.615795


In [28]:
df_store.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 657 entries, 0 to 941
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   영업상태명   657 non-null    object 
 1   사업장명    657 non-null    object 
 2   lon     657 non-null    float64
 3   lat     657 non-null    float64
dtypes: float64(2), object(2)
memory usage: 25.7+ KB


In [29]:
df_store.to_csv('서울_편의시설_좌표.csv', index=False)

## 5. data/경찰청_경찰관서 위치, 주소 현황_20210924.csv
https://www.data.go.kr/data/15054711/fileData.do
<div style='text-align:center'><img src='data/capture_data_police.jpg' width='500'></div>

In [30]:
df_police = pd.read_csv('data/경찰청_경찰관서 위치, 주소 현황_20210924.csv', encoding='euc-kr')
df_police

Unnamed: 0,지방청,경찰서,관서명,구분,주소
0,서울청,서울중부,을지,지구대,서울특별시 중구 을지로 234
1,서울청,서울중부,광희,지구대,서울특별시 중구 퇴계로 375-1
2,서울청,서울중부,약수,지구대,"서울특별시 중구 동호로 5길 15, 약수지구대"
3,서울청,서울중부,신당,파출소,"서울특별시 중구 다산로 248 (신당동, 신당파출소)"
4,서울청,서울중부,장충,파출소,서울특별시 중구 동호로 261
...,...,...,...,...,...
2026,제주청,서귀포,안덕,파출소,제주특별자치도 서귀포시 안덕면 화순로 116
2027,제주청,서귀포,대정,파출소,제주특별자치도 서귀포시 대정읍 상모로 310
2028,제주청,서귀포,중문,파출소,제주특별자치도 서귀포시 천제연로 165
2029,제주청,서귀포,대신,파출소,제주특별자치도 서귀포시 신서귀로51번길 18


In [31]:
df_police = df_police[df_police.지방청 == '서울청']
df_police

Unnamed: 0,지방청,경찰서,관서명,구분,주소
0,서울청,서울중부,을지,지구대,서울특별시 중구 을지로 234
1,서울청,서울중부,광희,지구대,서울특별시 중구 퇴계로 375-1
2,서울청,서울중부,약수,지구대,"서울특별시 중구 동호로 5길 15, 약수지구대"
3,서울청,서울중부,신당,파출소,"서울특별시 중구 다산로 248 (신당동, 신당파출소)"
4,서울청,서울중부,장충,파출소,서울특별시 중구 동호로 261
...,...,...,...,...,...
237,서울청,서울수서,대치,지구대,서울특별시 강남구 삼성로 203
238,서울청,서울수서,수서,파출소,서울특별시 강남구 밤고개로1길 48
239,서울청,서울수서,대왕,파출소,서울특별시 강남구 헌릉로 623
240,서울청,서울수서,일원,지구대,서울특별시 강남구 일원로3길 35 일원파출소


In [32]:
df_police['lat'] = None
df_police['lon'] = None

In [33]:
df_police.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 242 entries, 0 to 241
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   지방청     242 non-null    object
 1   경찰서     242 non-null    object
 2   관서명     242 non-null    object
 3   구분      242 non-null    object
 4   주소      242 non-null    object
 5   lat     0 non-null      object
 6   lon     0 non-null      object
dtypes: object(7)
memory usage: 15.1+ KB


In [34]:
df_police

Unnamed: 0,지방청,경찰서,관서명,구분,주소,lat,lon
0,서울청,서울중부,을지,지구대,서울특별시 중구 을지로 234,,
1,서울청,서울중부,광희,지구대,서울특별시 중구 퇴계로 375-1,,
2,서울청,서울중부,약수,지구대,"서울특별시 중구 동호로 5길 15, 약수지구대",,
3,서울청,서울중부,신당,파출소,"서울특별시 중구 다산로 248 (신당동, 신당파출소)",,
4,서울청,서울중부,장충,파출소,서울특별시 중구 동호로 261,,
...,...,...,...,...,...,...,...
237,서울청,서울수서,대치,지구대,서울특별시 강남구 삼성로 203,,
238,서울청,서울수서,수서,파출소,서울특별시 강남구 밤고개로1길 48,,
239,서울청,서울수서,대왕,파출소,서울특별시 강남구 헌릉로 623,,
240,서울청,서울수서,일원,지구대,서울특별시 강남구 일원로3길 35 일원파출소,,


In [35]:
chgidx = df_police[df_police.lon.isnull()].index    # 빈 좌표란에 geocode함수 사용하여 좌표값 추출하여 입력
for idx in chgidx:
    info = gmap.geocode(df_police.iloc[idx, 4], language='ko')
    df_police.iloc[idx, 5] = info[0]['geometry']['location']['lat']
    df_police.iloc[idx, 6] = info[0]['geometry']['location']['lng']

# df_police = df_police.iloc[:, [0, 1, 2, 3]]    # 최종 데이터 => 아파트명, 주소, lat, lon
df_police.info() 

<class 'pandas.core.frame.DataFrame'>
Int64Index: 242 entries, 0 to 241
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   지방청     242 non-null    object
 1   경찰서     242 non-null    object
 2   관서명     242 non-null    object
 3   구분      242 non-null    object
 4   주소      242 non-null    object
 5   lat     242 non-null    object
 6   lon     242 non-null    object
dtypes: object(7)
memory usage: 15.1+ KB


In [36]:
df_police

Unnamed: 0,지방청,경찰서,관서명,구분,주소,lat,lon
0,서울청,서울중부,을지,지구대,서울특별시 중구 을지로 234,37.566437,127.003929
1,서울청,서울중부,광희,지구대,서울특별시 중구 퇴계로 375-1,37.56523,127.013363
2,서울청,서울중부,약수,지구대,"서울특별시 중구 동호로 5길 15, 약수지구대",37.552148,127.012383
3,서울청,서울중부,신당,파출소,"서울특별시 중구 다산로 248 (신당동, 신당파출소)",37.565008,127.016383
4,서울청,서울중부,장충,파출소,서울특별시 중구 동호로 261,37.558744,127.004772
...,...,...,...,...,...,...,...
237,서울청,서울수서,대치,지구대,서울특별시 강남구 삼성로 203,37.5028,127.059072
238,서울청,서울수서,수서,파출소,서울특별시 강남구 밤고개로1길 48,37.489094,127.1048
239,서울청,서울수서,대왕,파출소,서울특별시 강남구 헌릉로 623,37.465092,127.107304
240,서울청,서울수서,일원,지구대,서울특별시 강남구 일원로3길 35 일원파출소,37.492379,127.083378


In [37]:
df_police.to_csv('서울_경찰서_좌표.csv', index=False)

## 6. data/병원정보서비스 2021.xlsx
https://www.data.go.kr/data/15051059/fileData.do
<div style='text-align:center'><img src='data/capture_data_hospital.jpg' width='500'></div>

In [38]:
df_hospital = pd.read_excel('data/병원정보서비스 2021.xlsx')
df_hospital

Unnamed: 0,요양기관명,종별코드명,시도코드명,시군구코드명,우편번호,주소,전화번호,총의사수,x좌표,y좌표
0,가톨릭대학교인천성모병원,상급종합,인천,인천부평구,21431,인천광역시 부평구 동수로 56 (부평동),032-1544-9004,324,126.724899,37.484831
1,강릉아산병원,상급종합,강원,강릉시,25440,강원도 강릉시 사천면 방동길 38 (),033-610-3114,203,128.857841,37.818433
2,강북삼성병원,상급종합,서울,종로구,3181,서울특별시 종로구 새문안로 29 (평동),02-2001-2001,403,126.967750,37.568408
3,건국대학교병원,상급종합,서울,광진구,5030,서울특별시 광진구 능동로 120-1 (화양동),1588-1533,442,127.071828,37.540376
4,경북대학교병원,상급종합,대구,대구중구,41944,"대구광역시 중구 동덕로 130 (삼덕동2가, 경북대학교병원)",053-200-5114,487,128.604125,35.866774
...,...,...,...,...,...,...,...,...,...,...
74359,힘내라한의원,한의원,서울,강서구,7526,서울특별시 강서구 화곡로 429 토피아 401호 (가양동),02-6952-8277,1,126.855061,37.561526
74360,힘찬걸음한의원,한의원,경기,고양덕양구,10500,경기도 고양시 덕양구 화신로260번길 64 삼진빌딩 4층 401호 (화정동),031-979-5077,1,126.833383,37.633475
74361,힘찬마디한의원,한의원,서울,강동구,5329,서울특별시 강동구 천호대로 1027 3층 (천호동),02-401-7713,1,127.126386,37.538123
74362,힘찬세상경희한의원,한의원,서울,용산구,4376,"서울특별시 용산구 한강대로 109 (한강로2가, 용성비즈텔)",02-793-2080,1,126.968167,37.530005


In [39]:
df_hospital = df_hospital[df_hospital['시도코드명'] == '서울']

con1 = df_hospital['종별코드명'] == '병원'
con2 = df_hospital['종별코드명'] == '요양병원'
con3 = df_hospital['종별코드명'] == '한방병원'
con4 = df_hospital['종별코드명'] == '치과병원'
con5 = df_hospital['종별코드명'] == '종합병원'
con6 = df_hospital['종별코드명'] == '보건소'
con7 = df_hospital['종별코드명'] == '상급종합'

In [40]:
df_hospital = df_hospital.loc[con1 | con2 | con3 | con4 | con5 | con6 | con7, :]
df_hospital

Unnamed: 0,요양기관명,종별코드명,시도코드명,시군구코드명,우편번호,주소,전화번호,총의사수,x좌표,y좌표
2,강북삼성병원,상급종합,서울,종로구,3181,서울특별시 종로구 새문안로 29 (평동),02-2001-2001,403,126.967750,37.568408
3,건국대학교병원,상급종합,서울,광진구,5030,서울특별시 광진구 능동로 120-1 (화양동),1588-1533,442,127.071828,37.540376
6,경희대학교병원,상급종합,서울,동대문구,2447,서울특별시 동대문구 경희대로 23 (회기동),02-958-8114,456,127.051852,37.594119
8,고려대학교의과대학부속구로병원,상급종합,서울,구로구,8308,서울특별시 구로구 구로동로 148 고려대부속구로병원 (구로동),02-2626-1114,530,126.884870,37.492052
15,삼성서울병원,상급종합,서울,강남구,6351,"서울특별시 강남구 일원로 81 (일원동, 삼성의료원)",02-3410-2114,1399,127.085151,37.488298
...,...,...,...,...,...,...,...,...,...,...
59719,학교법인혜화학원 대전대학교서울한방병원,한방병원,서울,송파구,5836,"서울특별시 송파구 법원로11길 32 지하2~1층, 지상5~11층,13층 (문정동)",02-2222-8100,13,127.115853,37.485501
59727,해달한방병원,한방병원,서울,구로구,8271,"서울특별시 구로구 경인로 176 501,502,601호 (오류동, 시티월드)",02-6741-1075,4,126.841061,37.494385
59733,혜당한방병원,한방병원,서울,마포구,4072,"서울특별시 마포구 독막로 32 지1,1,2,4,5,7층 (합정동)",02-335-1010,4,126.916783,37.548075
59743,힘찬큐한방병원,한방병원,서울,강남구,6109,서울특별시 강남구 봉은사로 213 센트럴타워 5-9층 (논현동),02-518-8599,4,127.035398,37.508047


In [41]:
df_hospital = df_hospital.rename(columns={'요양기관명': '병원명', 'y좌표': 'lat', 'x좌표': 'lon'})

df_hospital

Unnamed: 0,병원명,종별코드명,시도코드명,시군구코드명,우편번호,주소,전화번호,총의사수,lon,lat
2,강북삼성병원,상급종합,서울,종로구,3181,서울특별시 종로구 새문안로 29 (평동),02-2001-2001,403,126.967750,37.568408
3,건국대학교병원,상급종합,서울,광진구,5030,서울특별시 광진구 능동로 120-1 (화양동),1588-1533,442,127.071828,37.540376
6,경희대학교병원,상급종합,서울,동대문구,2447,서울특별시 동대문구 경희대로 23 (회기동),02-958-8114,456,127.051852,37.594119
8,고려대학교의과대학부속구로병원,상급종합,서울,구로구,8308,서울특별시 구로구 구로동로 148 고려대부속구로병원 (구로동),02-2626-1114,530,126.884870,37.492052
15,삼성서울병원,상급종합,서울,강남구,6351,"서울특별시 강남구 일원로 81 (일원동, 삼성의료원)",02-3410-2114,1399,127.085151,37.488298
...,...,...,...,...,...,...,...,...,...,...
59719,학교법인혜화학원 대전대학교서울한방병원,한방병원,서울,송파구,5836,"서울특별시 송파구 법원로11길 32 지하2~1층, 지상5~11층,13층 (문정동)",02-2222-8100,13,127.115853,37.485501
59727,해달한방병원,한방병원,서울,구로구,8271,"서울특별시 구로구 경인로 176 501,502,601호 (오류동, 시티월드)",02-6741-1075,4,126.841061,37.494385
59733,혜당한방병원,한방병원,서울,마포구,4072,"서울특별시 마포구 독막로 32 지1,1,2,4,5,7층 (합정동)",02-335-1010,4,126.916783,37.548075
59743,힘찬큐한방병원,한방병원,서울,강남구,6109,서울특별시 강남구 봉은사로 213 센트럴타워 5-9층 (논현동),02-518-8599,4,127.035398,37.508047


In [42]:
df_hospital = df_hospital.iloc[:, [0,5,9,8]]
df_hospital

Unnamed: 0,병원명,주소,lat,lon
2,강북삼성병원,서울특별시 종로구 새문안로 29 (평동),37.568408,126.967750
3,건국대학교병원,서울특별시 광진구 능동로 120-1 (화양동),37.540376,127.071828
6,경희대학교병원,서울특별시 동대문구 경희대로 23 (회기동),37.594119,127.051852
8,고려대학교의과대학부속구로병원,서울특별시 구로구 구로동로 148 고려대부속구로병원 (구로동),37.492052,126.884870
15,삼성서울병원,"서울특별시 강남구 일원로 81 (일원동, 삼성의료원)",37.488298,127.085151
...,...,...,...,...
59719,학교법인혜화학원 대전대학교서울한방병원,"서울특별시 송파구 법원로11길 32 지하2~1층, 지상5~11층,13층 (문정동)",37.485501,127.115853
59727,해달한방병원,"서울특별시 구로구 경인로 176 501,502,601호 (오류동, 시티월드)",37.494385,126.841061
59733,혜당한방병원,"서울특별시 마포구 독막로 32 지1,1,2,4,5,7층 (합정동)",37.548075,126.916783
59743,힘찬큐한방병원,서울특별시 강남구 봉은사로 213 센트럴타워 5-9층 (논현동),37.508047,127.035398


In [43]:
df_hospital

Unnamed: 0,병원명,주소,lat,lon
2,강북삼성병원,서울특별시 종로구 새문안로 29 (평동),37.568408,126.967750
3,건국대학교병원,서울특별시 광진구 능동로 120-1 (화양동),37.540376,127.071828
6,경희대학교병원,서울특별시 동대문구 경희대로 23 (회기동),37.594119,127.051852
8,고려대학교의과대학부속구로병원,서울특별시 구로구 구로동로 148 고려대부속구로병원 (구로동),37.492052,126.884870
15,삼성서울병원,"서울특별시 강남구 일원로 81 (일원동, 삼성의료원)",37.488298,127.085151
...,...,...,...,...
59719,학교법인혜화학원 대전대학교서울한방병원,"서울특별시 송파구 법원로11길 32 지하2~1층, 지상5~11층,13층 (문정동)",37.485501,127.115853
59727,해달한방병원,"서울특별시 구로구 경인로 176 501,502,601호 (오류동, 시티월드)",37.494385,126.841061
59733,혜당한방병원,"서울특별시 마포구 독막로 32 지1,1,2,4,5,7층 (합정동)",37.548075,126.916783
59743,힘찬큐한방병원,서울특별시 강남구 봉은사로 213 센트럴타워 5-9층 (논현동),37.508047,127.035398


In [44]:
df_hospital.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 556 entries, 2 to 59744
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   병원명     556 non-null    object 
 1   주소      556 non-null    object 
 2   lat     516 non-null    float64
 3   lon     516 non-null    float64
dtypes: float64(2), object(2)
memory usage: 21.7+ KB


In [45]:
df_hospital = df_hospital.dropna(axis=0)

In [46]:
df_hospital.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 516 entries, 2 to 59744
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   병원명     516 non-null    object 
 1   주소      516 non-null    object 
 2   lat     516 non-null    float64
 3   lon     516 non-null    float64
dtypes: float64(2), object(2)
memory usage: 20.2+ KB


In [47]:
df_hospital.to_csv('서울_병원_좌표.csv', index=False)