# LocEmb: Location Embedding

만든 이: 김선동 (http://seondong.github.io)

### 프로젝트 목표
* 전국 지역 단위별 embedding을 제공하고자 함
* 도로명, 상권, 사업자 등으로 확장 가능

### 사용 가능한 프로젝트
* 전염병 모델 개발시 pretrained된 지역별 embedding값을 covariate으로 활용
* 장소 추천/ 예측 모델에 pretrained된 embedding값을 활용

### 사용한 알고리즘
* [NeurIPS2017](https://papers.nips.cc/paper/7213-poincare-embeddings-for-learning-hierarchical-representations)을 기반으로 다양한 feature를 추가하였음

## Fine-grained Embedding: 법정동2vec

In [1]:
import pandas as pd
import numpy as np

pd.set_option('display.width', 1000)
pd.options.display.max_colwidth = 100

### Train된 vector 로드


In [2]:
emb_rslt = pd.read_csv("embedding+법정동명전체.csv",index_col=0)

In [13]:
emb_rslt.shape

(5005, 100)

In [4]:
emb_rslt.index

Index(['서울특별시 강남구 대치동', '서울특별시 강남구 역삼동', '서울특별시 금천구 독산동', '부산광역시 사상구 괘법동', '서울특별시 송파구 석촌동', '서울특별시 송파구 신천동', '서울특별시 광진구 구의동', '서울특별시 강서구 공항동', '서울특별시 중구 신당동', '서울특별시 강서구 화곡동',
       ...
       '전라북도 군산시 송창동', '전라남도 나주시 진포동', '경상북도 영천시 범어동', '경상남도 창원시 진해구 현동', '전라북도 익산시 은기동', '경상남도 창원시 진해구 대영동', '충청남도 홍성군 홍북읍', '전라북도 전주시 덕진구 중동', '경상남도 창원시 성산구 완암동', '경상북도 청송군 주왕산면'], dtype='object', length=5005)

In [14]:
emb_rslt.loc['대전광역시 유성구 도룡동']

0    -0.087874
1    -0.114864
2     0.004811
3     0.127094
4    -0.011671
        ...   
95   -0.036444
96    0.003220
97   -0.089285
98    0.101847
99    0.110275
Name: 대전광역시 유성구 도룡동, Length: 100, dtype: float64

### 법정동 임베딩간 유사도 체크

In [27]:
from scipy.spatial.distance import cosine
import operator

def print_top_n_similar(query, topn=10, emb_rslt=emb_rslt):
    dembs = {}
    for i in emb_rslt.index:
        dembs[i] = np.array(emb_rslt.loc[i])
    
    distance = {}
    for i in dembs:
        distance[i] = cosine(dembs[query], dembs[i])
    return sorted(distance.items(), key=operator.itemgetter(1))[:topn]

In [28]:
print_top_n_similar('대전광역시 유성구 도룡동', topn=10, emb_rslt=emb_rslt)

[('대전광역시 유성구 도룡동', 0.0),
 ('대전광역시 유성구 구성동', 7.756681658888098e-05),
 ('대전광역시 유성구 원촌동', 0.00016194637077715512),
 ('대전광역시 유성구 문지동', 0.00016923340027985567),
 ('대전광역시 유성구 어은동', 0.00018336129315243976),
 ('대전광역시 유성구 봉산동', 0.00023518063703176217),
 ('대전광역시 유성구 송강동', 0.0002522336446157958),
 ('대전광역시 유성구 가정동', 0.00025539198655544215),
 ('대전광역시 유성구 탑립동', 0.00025772888606900857),
 ('대전광역시 유성구 전민동', 0.0002632907703313814)]

In [29]:
print_top_n_similar('서울특별시 강남구 역삼동', topn=10)

[('서울특별시 강남구 역삼동', 0.0),
 ('서울특별시 강남구 도곡동', 5.553251200007825e-05),
 ('서울특별시 강남구 신사동', 0.0008411147702315214),
 ('서울특별시 강남구 압구정동', 0.0010364048284876581),
 ('서울특별시 강남구 청담동', 0.001512464828460125),
 ('서울특별시 강남구 개포동', 0.0016853575239820229),
 ('서울특별시 강남구 삼성동', 0.0017003316565548099),
 ('서울특별시 서초구 내곡동', 0.0022217665359263172),
 ('서울특별시 강남구 논현동', 0.002876682417759291),
 ('서울특별시 강남구 대치동', 0.0036542228856494274)]

In [30]:
print_top_n_similar('경기도 성남시 분당구 정자동')

[('경기도 성남시 분당구 정자동', 0.0),
 ('경기도 성남시 분당구 궁내동', 0.00015702315321608484),
 ('경기도 성남시 분당구 수내동', 0.00015757236968294563),
 ('경기도 성남시 분당구 하산운동', 0.00017317895930502036),
 ('경기도 성남시 분당구 백현동', 0.0003642213020209617),
 ('경기도 성남시 분당구 판교동', 0.00039670329685270733),
 ('경기도 성남시 분당구 이매동', 0.00041765609931143644),
 ('경기도 성남시 분당구 서현동', 0.0004946275471395811),
 ('경기도 성남시 분당구 운중동', 0.0007095301638749829),
 ('경기도 성남시 분당구 율동', 0.0010721668870529166)]

## Coarse-grained Embedding: 시군구2vec

In [17]:
emb_rslt2 = pd.read_csv("embedding+시군구명전체.csv",index_col=0)

In [34]:
emb_rslt2.shape

(251, 100)

In [35]:
emb_rslt2.index

Index(['서울특별시 강남구', '서울특별시 금천구', '부산광역시 사상구', '서울특별시 송파구', '서울특별시 광진구', '서울특별시 강서구', '서울특별시 중구', '서울특별시 서초구', '서울특별시 성북구', '서울특별시 구로구',
       ...
       '경상북도 고령군', '전라남도 장흥군', '전라남도 영암군', '전라남도 진도군', '전라북도 부안군', '충청남도 예산군', '경상북도 영양군', '전라북도 완주군', '전라북도 무주군', '충청남도 서천군'], dtype='object', length=251)

In [37]:
emb_rslt2.loc['대전광역시 유성구']

0    -0.083019
1    -0.110454
2     0.007679
3     0.120221
4    -0.008963
        ...   
95   -0.037189
96    0.009710
97   -0.083080
98    0.093279
99    0.104131
Name: 대전광역시 유성구, Length: 100, dtype: float64

In [18]:
dembs2 = {}
for i in emb_rslt2.index:
    dembs[i] = np.array(emb_rslt2.loc[i])

In [31]:
print_top_n_similar('대전광역시 유성구', topn=10, emb_rslt = emb_rslt2)

[('대전광역시 유성구', 0.0),
 ('대전광역시 대덕구', 0.024904823785029784),
 ('대전광역시 서구', 0.068827701199901),
 ('대전광역시 중구', 0.17328407544961344),
 ('충청남도 계룡시', 0.18790621239724115),
 ('대전광역시 동구', 0.2243100083384818),
 ('충청북도 청주시 서원구', 0.7348296177413318),
 ('충청북도 청주시 흥덕구', 0.7628048008170047),
 ('충청북도 청주시 청원구', 0.7910221685479752),
 ('충청북도 증평군', 0.8107256940997971)]

In [32]:
print_top_n_similar('서울특별시 강남구', topn=10, emb_rslt = emb_rslt2)

[('서울특별시 강남구', 0.0),
 ('서울특별시 서초구', 0.03052444575903346),
 ('서울특별시 송파구', 0.051624325710166175),
 ('서울특별시 광진구', 0.15303430043612476),
 ('서울특별시 용산구', 0.15885655262654885),
 ('서울특별시 강동구', 0.21117608924513642),
 ('서울특별시 성동구', 0.30381412009223274),
 ('경기도 하남시', 0.3395132863203064),
 ('경기도 성남시 수정구', 0.3792026696193651),
 ('서울특별시 동작구', 0.42026791692129506)]

In [33]:
print_top_n_similar('경기도 성남시 분당구', topn=10, emb_rslt = emb_rslt2)

[('경기도 성남시 분당구', 0.0),
 ('경기도 성남시 중원구', 0.03665964025984758),
 ('경기도 성남시 수정구', 0.06900948582533639),
 ('경기도 용인시 수지구', 0.18162362000910992),
 ('경기도 용인시 기흥구', 0.35328828849866556),
 ('경기도 수원시 영통구', 0.39220810664904826),
 ('경기도 광주시', 0.4654603527010488),
 ('경기도 과천시', 0.5456422870867258),
 ('경기도 의왕시', 0.5973966814197318),
 ('경기도 안양시 동안구', 0.6139764414551396)]