## 1. 시각화 라이브러리 사용(구글 colab 사용시)
### 1-1. 한글 폰트 설치

- 참고 1 : https://colab.research.google.com/github/nicewook/datascience_exercise/blob/master/korean_font_on_matplotlib.ipynb
- 참고 2 : https://teddylee777.github.io/colab/colab-korean

In [None]:
# !sudo apt-get install -y fonts-nanum
# !sudo fc-cache -fv
# !rm ~/.cache/matplotlib -rf

## 2. GoogleMaps 패키지 설치

- Google Cloud API 사용 절차 등록
- https://teddylee777.github.io/data_science/geocoding

In [None]:
# googlemaps 설치
%pip install googlemaps

In [None]:
# private_key = # Google Cloud API 키를 입력합니다.
# private_key = open('GOOGLE_MAP_API_KEY.txt', 'r')
# google_map_key = private_key.readline()

google_map_key = 'AIzaSyB3NpK2UuVus5_NLIoiZaYURJRQBckfkYE'
# Google Cloud API 키
google_map_key[:10]

`googlemaps` 패키지 import 

In [None]:
import googlemaps
import os

# maps 객체 생성
maps = googlemaps.Client(key=google_map_key)
maps

**지역 명칭**을 직접 입력하여 위/경도 좌표계를 구할 수 있습니다.

- 명칭 입력시 return은 `json` 리스트를 반환합니다.

In [None]:
# 코드입력
results = maps.geocode('학동역')
results

`results`로부터 위/경도 데이터를 추출합니다.

In [None]:
for result in results:
    print(result['geometry']['location'])
    break
    
lat, lng = result['geometry']['location']['lat'], result['geometry']['location']['lng']

## 3. Folium을 사용한 지도 시각화

In [None]:
!pip install folium

In [None]:
import folium


m = folium.Map(location=[lat, lng],
               zoom_start=17, 
               width=750, 
               height=500
              )

folium.Marker([lat, lng],
              popup="학동역",
              tooltip="학동역 입구").add_to(m)
m

위의 기능들을 하나로 묶어 함수를 생성합니다.

In [None]:
def viz_map(place):
    # 코드입력
    results = maps.geocode(place)
    
    lat, lng = None, None
    
    for result in results:
        lat, lng = result['geometry']['location']['lat'], result['geometry']['location']['lng']
        print(f'위도: {lat:.3f}, 경도: {lng:.3f}')
        break
    
    if lat is None:
        return '검색 결과를 찾을 수 없습니다.'

    # folium 시각화
    m = folium.Map(location=[lat, lng],
                   zoom_start=17, 
                   width=750, 
                   height=500
                  )

    folium.Marker([lat, lng],
                  popup=place).add_to(m)
    return m

In [None]:
viz_map('신논현역')

## 4. 공공데이터 다운로드 및 주소 데이터 전처리

In [None]:
import pandas as pd
import numpy as np
import os

DATA = 'data'

[서울교통공사 역주소 데이터 다운로드](http://data.seoul.go.kr/dataList/OA-12035/S/1/datasetView.do;jsessionid=7C7AC42AD377ADC8D042A39DAF162243.new_portal-svr-11)

In [None]:
%pip install teddynote -q

from teddynote import dataset

dataset.download('역주소전화번호')

In [None]:
filepath = os.path.join(DATA, '서울교통공사_역주소.xlsx')
filepath

In [None]:
# 현재 사용자 작업 디렉토리 확인하기
print(os.getcwd())

`서울교통공사_역주소.xlsx` 데이터셋을 로드합니다.

In [None]:
address = pd.read_excel(filepath)
address.head()

In [None]:
file = 'C:\\Users\\ctips\\myCode\\Day1\\code\\data\\서울교통공사_역주소.xlsx'
pd.read_excel(file)

**역명** 중복 값을 제거합니다.

In [None]:
# 코드입력
address = address.drop_duplicates('역명')
address

**역주소** 데이터를 `geocode`에 적용하여 위/경도 좌표계를 구합니다.

In [None]:
address['역주소'][0]

In [None]:
viz_map(address['역주소'][0])

역주소 끝에는 괄호안에 동이 같이 표기되어 있습니다.

In [None]:
station_list = list(address['역주소'])
station_list

## Regex 적용으로 주소 데이터 정제

참고 사이트

[Regexr.com](https://regexr.com/)

In [None]:
import re

# 코드입력
# Regular Expression 적용하여 ()괄호를 제거 후 추출
pattern_string = r'.+(?=\()'
pattern = re.compile(pattern_string)

In [None]:
pattern.match('서울특별시 중구 세종대로 지하 2 (남대문로 5가)').group().strip()

## 주소 데이터 클린징

In [None]:
def clean_address(x):
    # 코드입력
    location = pattern.match(x)
    if location:
        loc = location.group().strip()
    else:
        loc = x
    return loc   

`clean_address` 적용

In [None]:
# 코드입력
address['주소'] = address['역주소'].apply(clean_address)
address.head()

### geocode 변환 및 위/경도 데이터 생성

geocode 변환 함수화

In [None]:
def geocode(x):
    # 코드입력
    results = maps.geocode(x)
    if len(results) > 0:
        result = results[0]
        return result['geometry']['location']['lat'], result['geometry']['location']['lng']
    else:
        return np.nan        

샘플 데이터 변환

In [None]:
print(station_list[1])
geocode(station_list[1])

위경도 좌표계로 변환합니다. (tuple 형식으로 반환)

In [None]:
# 코드입력
address['위경도'] = address['주소'].apply(geocode)

위경도로 변환되지 않는 값 확인(결측치 확인)

In [None]:
address.loc[address['위경도'].isnull()]

In [None]:
address.info()

`lat`와 `lng` 컬럼 생성 후 위경도 데이터 분리하여 대입

In [None]:
# 코드입력
address['lat'] = address['위경도'].str[0]
address['lng'] = address['위경도'].str[1]

In [None]:
address.head()

In [None]:
address[['호선', '역명', 'lat', 'lng', '주소', '역번호']]

## 파일로 변환 (.csv로 내보내기)

In [None]:
address[['호선', '역명', 'lat', 'lng', '주소', '역번호']].to_csv('seoul_station_geocode.csv', index=False)

In [None]:
pd.read_csv('seoul_station_geocode.csv')