# LocEmb: Location Embedding 결과 분석

만든 이: 김선동 (http://seondong.github.io)

### 소개하는 임베딩
* 시군구2vec: (251개 시군구 Cover, 100 dimensions): embedding+시군구명.csv
* 법정동2vec: (5,005개 법정동 Cover, 100 dimensions): embedding+법정동명.csv
* 행정동2vec: (3,582개 행정동 Cover, 100 dimensions): embedding+행정동명.csv
* 도로명2vec: (110,722개 도로명 Cover, 100 dimensions): embedding+도로명.csv
* 상호명2vec: (1,482,860개 상호명 Cover, 100 dimensions): embedding+상호명.csv
* 이외 지번주소, 도로명주소, 상호지점명, 상권업종분류명 등

본 파일에서는 각 임베딩 파일별 결과물을 간략히 소개하고, 유사도 분석, 교차 분석를 통해 임베딩의 qualitative analysis를 진행한다.

In [1]:
import pandas as pd
import numpy as np

pd.set_option('display.width', 1000)
pd.options.display.max_colwidth = 100

## 1. Coarse-grained Embedding: 시군구2vec

In [2]:
emb_rslt = pd.read_csv("embedding+시군구명.csv",index_col=0)

In [3]:
emb_rslt.shape

(251, 100)

In [4]:
emb_rslt.index

Index(['서울특별시 강남구', '서울특별시 금천구', '부산광역시 사상구', '서울특별시 송파구', '서울특별시 광진구', '서울특별시 강서구', '서울특별시 중구', '서울특별시 서초구', '서울특별시 성북구', '서울특별시 구로구',
       ...
       '경상북도 고령군', '전라남도 장흥군', '전라남도 영암군', '전라남도 진도군', '전라북도 부안군', '충청남도 예산군', '경상북도 영양군', '전라북도 완주군', '전라북도 무주군', '충청남도 서천군'], dtype='object', length=251)

In [5]:
emb_rslt.loc['대전광역시 유성구']

0    -0.101524
1    -0.035251
2     0.008657
3    -0.016047
4    -0.126944
        ...   
95   -0.054820
96   -0.106948
97   -0.073350
98    0.022328
99   -0.020869
Name: 대전광역시 유성구, Length: 100, dtype: float64

### 시군구 임베딩간 유사도 체크

In [6]:
from scipy.spatial.distance import cosine
import operator

def print_top_n_similar(query, topn=10, emb_rslt=emb_rslt):
    dembs = {}
    for i in emb_rslt.index:
        dembs[i] = np.array(emb_rslt.loc[i])
    
    distance = {}
    for i in dembs:
        distance[i] = cosine(dembs[query], dembs[i])
    return sorted(distance.items(), key=operator.itemgetter(1))[:topn]

In [7]:
print_top_n_similar('대전광역시 서구', topn=10, emb_rslt = emb_rslt)

[('대전광역시 서구', 0.0),
 ('대전광역시 중구', 0.510441405675998),
 ('충청남도 계룡시', 0.5628531213747452),
 ('대전광역시 유성구', 0.594167026715532),
 ('대전광역시 동구', 0.7465664326316799),
 ('충청남도 부여군', 0.7576599703176585),
 ('강원도 원주시', 0.7847116624779111),
 ('충청남도 금산군', 0.8112763747982337),
 ('경상북도 군위군', 0.8267369947848027),
 ('충청남도 서산시', 0.8319413861702086)]

In [8]:
print_top_n_similar('서울특별시 강남구', topn=10, emb_rslt = emb_rslt)

[('서울특별시 강남구', 0.0),
 ('서울특별시 송파구', 0.34727637437385483),
 ('서울특별시 서초구', 0.3968795838441066),
 ('경기도 성남시 수정구', 0.7272891407496148),
 ('서울특별시 용산구', 0.7415661470418881),
 ('경기도 연천군', 0.7456407562652763),
 ('울산광역시 남구', 0.7550280635048319),
 ('서울특별시 광진구', 0.7626552906740318),
 ('서울특별시 강동구', 0.7681690860050584),
 ('경기도 안성시', 0.7939815713191984)]

In [9]:
print_top_n_similar('경기도 성남시 분당구', topn=10, emb_rslt = emb_rslt)

[('경기도 성남시 분당구', 0.0),
 ('경기도 성남시 중원구', 0.3115725510763928),
 ('경기도 성남시 수정구', 0.3215208121966362),
 ('경기도 용인시 수지구', 0.35598373786239224),
 ('경기도 의왕시', 0.6206607111626793),
 ('경기도 용인시 기흥구', 0.6246114448718667),
 ('경기도 과천시', 0.6270986873771853),
 ('경기도 안양시 동안구', 0.7132537258794605),
 ('경기도 광주시', 0.7581819952552701),
 ('서울특별시 도봉구', 0.7634899771925955)]

## 2. Fine-grained Embedding: 법정동2vec

### Train된 vector 로드


In [10]:
emb_rslt = pd.read_csv("embedding+법정동명.csv",index_col=0)

In [11]:
emb_rslt.shape

(5005, 100)

In [12]:
emb_rslt.index

Index(['서울특별시 강남구 대치동', '서울특별시 강남구 역삼동', '서울특별시 금천구 독산동', '부산광역시 사상구 괘법동', '서울특별시 송파구 석촌동', '서울특별시 송파구 신천동', '서울특별시 광진구 구의동', '서울특별시 강서구 공항동', '서울특별시 중구 신당동', '서울특별시 강서구 화곡동',
       ...
       '전라북도 군산시 송창동', '전라남도 나주시 진포동', '경상북도 영천시 범어동', '경상남도 창원시 진해구 현동', '전라북도 익산시 은기동', '경상남도 창원시 진해구 대영동', '충청남도 홍성군 홍북읍', '전라북도 전주시 덕진구 중동', '경상남도 창원시 성산구 완암동', '경상북도 청송군 주왕산면'], dtype='object', length=5005)

In [13]:
emb_rslt.loc['대전광역시 유성구 도룡동']

0    -0.096376
1    -0.044024
2     0.028136
3    -0.030516
4    -0.135996
        ...   
95   -0.046185
96   -0.120554
97   -0.104367
98    0.037933
99   -0.015635
Name: 대전광역시 유성구 도룡동, Length: 100, dtype: float64

### 법정동 임베딩간 유사도 체크

In [14]:
def print_top_n_similar(query, topn=10, emb_rslt=emb_rslt):
    dembs = {}
    for i in emb_rslt.index:
        dembs[i] = np.array(emb_rslt.loc[i])
    
    distance = {}
    for i in dembs:
        distance[i] = cosine(dembs[query], dembs[i])
    return sorted(distance.items(), key=operator.itemgetter(1))[:topn]

In [15]:
print_top_n_similar('대전광역시 유성구 도룡동', topn=10, emb_rslt=emb_rslt)

[('대전광역시 유성구 도룡동', 0.0),
 ('대전광역시 유성구 덕진동', 0.0019398629391893518),
 ('대전광역시 유성구 가정동', 0.0022349192154099695),
 ('대전광역시 유성구 화암동', 0.0029246080960703136),
 ('대전광역시 유성구 장동', 0.0038995779630458527),
 ('대전광역시 유성구 자운동', 0.006284349039152204),
 ('대전광역시 유성구 추목동', 0.006316472036420606),
 ('대전광역시 유성구 신성동', 0.008692643047363502),
 ('대전광역시 유성구 신봉동', 0.009264830529820522),
 ('대전광역시 유성구 관평동', 0.010451121048860479)]

In [16]:
print_top_n_similar('서울특별시 강남구 대치동', topn=10)

[('서울특별시 강남구 대치동', 0.0),
 ('서울특별시 강남구 도곡동', 0.33942109481263416),
 ('서울특별시 강남구 일원동', 0.36272846559854965),
 ('서울특별시 강남구 개포동', 0.3776008513229916),
 ('서울특별시 강남구 수서동', 0.38990768814516796),
 ('서울특별시 강남구 삼성동', 0.43657639860766606),
 ('서울특별시 강남구 자곡동', 0.43867943895040573),
 ('서울특별시 강남구 율현동', 0.4525105455660626),
 ('서울특별시 강남구 세곡동', 0.4778294420426522),
 ('서울특별시 강남구 압구정동', 0.5725527908802119)]

In [17]:
print_top_n_similar('경기도 성남시 분당구 정자동')

[('경기도 성남시 분당구 정자동', 0.0),
 ('경기도 성남시 분당구 수내동', 0.023481452584020124),
 ('경기도 성남시 분당구 궁내동', 0.050033377236807786),
 ('경기도 성남시 분당구 금곡동', 0.05297311944970606),
 ('경기도 성남시 분당구 백현동', 0.06589377485375347),
 ('경기도 성남시 분당구 삼평동', 0.08604240826666498),
 ('경기도 성남시 분당구 율동', 0.08927583007286533),
 ('경기도 성남시 분당구 판교동', 0.08967985528334133),
 ('경기도 성남시 분당구 이매동', 0.0920953954897944),
 ('경기도 성남시 분당구 하산운동', 0.0999612154688827)]

## 3. Fine-grained Embedding: 행정동2vec

### Train된 vector 로드


In [18]:
emb_rslt = pd.read_csv("embedding+행정동명.csv",index_col=0)

In [19]:
emb_rslt.shape

(3582, 100)

In [20]:
emb_rslt.index

Index(['서울특별시 강남구 대치1동 (행정동)', '서울특별시 강남구 역삼1동 (행정동)', '서울특별시 금천구 독산3동 (행정동)', '부산광역시 사상구 괘법동 (행정동)', '서울특별시 송파구 석촌동 (행정동)', '서울특별시 송파구 잠실6동 (행정동)', '서울특별시 광진구 구의2동 (행정동)', '서울특별시 강서구 공항동 (행정동)', '서울특별시 중구 약수동 (행정동)', '서울특별시 강서구 화곡1동 (행정동)',
       ...
       '충청남도 서천군 시초면 (행정동)', '경상남도 진주시 하대동 (행정동)', '경상남도 창원시 마산회원구 석전동 (행정동)', '경상남도 진주시 상대동 (행정동)', '경상남도 창원시 마산합포구 반월중앙동 (행정동)', '충청남도 홍성군 홍북읍 (행정동)', '전라북도 전주시 완산구 효자5동 (행정동)', '전라북도 전주시 덕진구 혁신동 (행정동)', '전라남도 나주시 송월동 (행정동)', '경상북도 청송군 주왕산면 (행정동)'], dtype='object', length=3582)

In [21]:
emb_rslt.loc['대전광역시 유성구 신성동 (행정동)']

0    -0.096121
1    -0.033550
2     0.030865
3    -0.036145
4    -0.123113
        ...   
95   -0.054902
96   -0.133306
97   -0.092315
98    0.036808
99   -0.016143
Name: 대전광역시 유성구 신성동 (행정동), Length: 100, dtype: float64

### 행정동 임베딩간 유사도 체크

In [22]:
def print_top_n_similar(query, topn=10, emb_rslt=emb_rslt):
    dembs = {}
    for i in emb_rslt.index:
        dembs[i] = np.array(emb_rslt.loc[i])
    
    distance = {}
    for i in dembs:
        distance[i] = cosine(dembs[query], dembs[i])
    return sorted(distance.items(), key=operator.itemgetter(1))[:topn]

In [23]:
print_top_n_similar('대전광역시 유성구 신성동 (행정동)', topn=10, emb_rslt=emb_rslt)

[('대전광역시 유성구 신성동 (행정동)', 0.0),
 ('대전광역시 유성구 관평동 (행정동)', 0.021876420210952152),
 ('대전광역시 유성구 전민동 (행정동)', 0.02665221205305013),
 ('대전광역시 유성구 구즉동 (행정동)', 0.03913206347886289),
 ('대전광역시 유성구 온천2동 (행정동)', 0.0505411066838366),
 ('대전광역시 서구 만년동 (행정동)', 0.06536609927745674),
 ('대전광역시 유성구 노은2동 (행정동)', 0.09147975441253464),
 ('대전광역시 유성구 노은1동 (행정동)', 0.09243195507761492),
 ('대전광역시 유성구 노은3동 (행정동)', 0.11486752536410283),
 ('대전광역시 유성구 온천1동 (행정동)', 0.18604340257623353)]

In [24]:
print_top_n_similar('경기도 성남시 수정구 신흥1동 (행정동)', topn=10)

[('경기도 성남시 수정구 신흥1동 (행정동)', 0.0),
 ('경기도 성남시 수정구 신흥3동 (행정동)', 0.0050421771603698096),
 ('경기도 성남시 수정구 신흥2동 (행정동)', 0.01880039589321747),
 ('경기도 성남시 수정구 산성동 (행정동)', 0.21619363682708947),
 ('경기도 성남시 수정구 단대동 (행정동)', 0.3215224612293076),
 ('경기도 성남시 수정구 양지동 (행정동)', 0.3431662429067742),
 ('경기도 성남시 중원구 중앙동 (행정동)', 0.3808286101928736),
 ('경기도 성남시 수정구 복정동 (행정동)', 0.4310022279868674),
 ('경기도 성남시 수정구 위례동 (행정동)', 0.43975654645503026),
 ('경기도 성남시 수정구 태평4동 (행정동)', 0.4398913106639405)]

In [25]:
print_top_n_similar('광주광역시 서구 상무1동 (행정동)', topn=10)

[('광주광역시 서구 상무1동 (행정동)', 0.0),
 ('광주광역시 서구 상무2동 (행정동)', 0.01772828709211771),
 ('광주광역시 서구 치평동 (행정동)', 0.07321158943015416),
 ('광주광역시 서구 유덕동 (행정동)', 0.08256232360853422),
 ('광주광역시 서구 화정1동 (행정동)', 0.1888402168884864),
 ('광주광역시 서구 동천동 (행정동)', 0.21308216198948593),
 ('광주광역시 서구 서창동 (행정동)', 0.23751348944146444),
 ('광주광역시 서구 금호1동 (행정동)', 0.28738024956084096),
 ('광주광역시 서구 금호2동 (행정동)', 0.3197941214617168),
 ('광주광역시 서구 광천동 (행정동)', 0.3271487901941138)]

## 4. Fine-grained Embedding: 도로명2vec

### Train된 vector 로드


In [26]:
emb_rslt = pd.read_csv("embedding+도로명.csv",index_col=0)

In [27]:
emb_rslt.shape

(110722, 100)

In [28]:
emb_rslt.index

Index(['서울특별시 강남구 남부순환로', '서울특별시 강남구 선릉로93길', '서울특별시 금천구 가산로', '부산광역시 사상구 괘감로', '서울특별시 송파구 가락로', '서울특별시 송파구 올림픽로', '서울특별시 광진구 자양로39길', '서울특별시 강서구 공항대로3길', '서울특별시 중구 동호로7길', '서울특별시 강서구 화곡로18길',
       ...
       '충청남도 서산시 학동10로', '전라북도 전주시 덕진구 가인로', '경상북도 포항시 북구 흥해읍 성곡서로18번길', '경상남도 합천군 율곡면 노양길', '경상남도 사천시 곤양면 고동포로', '전라남도 여수시 소라면 대곡해안길', '전라남도 여수시 문수북3길', '충청남도 당진시 송산면 서정6길', '충청남도 논산시 연산면 선비로646번길', '경상북도 예천군 호명면 새움1로'], dtype='object', length=110722)

In [29]:
emb_rslt.loc['대전광역시 유성구 엑스포로']

0    -0.098625
1    -0.054827
2     0.017174
3    -0.027535
4    -0.140265
        ...   
95   -0.034581
96   -0.096495
97   -0.116205
98    0.030405
99   -0.018321
Name: 대전광역시 유성구 엑스포로, Length: 100, dtype: float64

### 도로명 임베딩간 유사도 체크

In [30]:
def print_top_n_similar(query, topn=10, emb_rslt=emb_rslt):
    dembs = {}
    for i in emb_rslt.index:
        dembs[i] = np.array(emb_rslt.loc[i])
    
    distance = {}
    for i in dembs:
        distance[i] = cosine(dembs[query], dembs[i])
    return sorted(distance.items(), key=operator.itemgetter(1))[:topn]

In [31]:
print_top_n_similar('서울특별시 강남구 테헤란로', topn=10, emb_rslt=emb_rslt)

[('서울특별시 강남구 테헤란로', 0.0),
 ('서울특별시 강남구 테헤란로47길', 0.0275179391075574),
 ('서울특별시 강남구 선릉로91길', 0.03234538055216507),
 ('서울특별시 강남구 역삼로', 0.03452905659022287),
 ('서울특별시 강남구 선릉로99길', 0.04540327216576723),
 ('서울특별시 강남구 테헤란로55길', 0.05343564208291651),
 ('서울특별시 강남구 테헤란로51길', 0.06225098131465312),
 ('서울특별시 강남구 테헤란로57길', 0.06635382450599048),
 ('서울특별시 강남구 선릉로90길', 0.06962670096368229),
 ('서울특별시 강남구 봉은사로', 0.070340616899071)]

In [32]:
print_top_n_similar('부산광역시 사하구 낙동대로', topn=10, emb_rslt=emb_rslt)

[('부산광역시 사하구 낙동대로', 0.0),
 ('부산광역시 사하구 승학로', 0.015802638387265366),
 ('부산광역시 사하구 제석로18번길', 0.016558086339154565),
 ('부산광역시 사하구 동매로', 0.018345109001480786),
 ('부산광역시 사하구 괴정로', 0.02117502580314934),
 ('부산광역시 사하구 제석로', 0.02443476782111431),
 ('부산광역시 사하구 낙동대로436번길', 0.02894056484447638),
 ('부산광역시 사하구 낙동대로407번길', 0.032147635994370316),
 ('부산광역시 사하구 낙동대로410번길', 0.034144826206663814),
 ('부산광역시 사하구 승학로17번길', 0.038548895625728385)]

In [33]:
print_top_n_similar('대전광역시 유성구 엑스포로', topn=10)

[('대전광역시 유성구 엑스포로', 0.0),
 ('대전광역시 유성구 문지로', 0.0002718512383648175),
 ('대전광역시 유성구 전민로', 0.0003844291641329489),
 ('대전광역시 유성구 엑스포로540번길', 0.0007245344781847685),
 ('대전광역시 유성구 엑스포로466번길', 0.000832637142804793),
 ('대전광역시 유성구 엑스포로538번길', 0.0008356207778184022),
 ('대전광역시 유성구 유성대로1689번길', 0.000885434275087249),
 ('대전광역시 유성구 엑스포로446번길', 0.0008893497645806603),
 ('대전광역시 유성구 엑스포로295번길', 0.0009518560485280991),
 ('대전광역시 유성구 유성대로1628번길', 0.0014761716780355982)]

# 상호명과의 연동

## 5. Fine-grained Embedding: 상호명2vec

### Train된 vector 로드


In [34]:
emb_rslt = pd.read_csv("embedding+상호명.csv",index_col=0)

In [35]:
emb_rslt.shape

(1482860, 100)

In [36]:
emb_rslt.index

Index(['와라와라호프', '커피빈코리아선릉로93길점', '프로포즈', '싱싱커피&토스트', '가락사우나내스낵', '초밥왕', '석봉토스트', '허술한집', '피자마루', '홍능갈비',
       ...
       '뷰티첼리', '장수참한소', '호로록튤립불닭발', '청가람해물요리', '숑숑돈가스', '커피비치돈까스', '프렌치페이퍼A', '금한복', '조성엠알오', '사람휘트니스'], dtype='object', length=1482860)

In [37]:
emb_rslt.loc['삼부자부대찌개']

0    -0.018546
1     0.077381
2     0.019159
3    -0.002160
4     0.005968
        ...   
95   -0.162426
96   -0.071324
97    0.052973
98   -0.069674
99   -0.050890
Name: 삼부자부대찌개, Length: 100, dtype: float64

### 상호명 임베딩간 유사도 체크

In [38]:
def print_top_n_similar(query, topn=10, emb_rslt=emb_rslt):
    dembs = {}
    for i in emb_rslt.index:
        dembs[i] = np.array(emb_rslt.loc[i])
    
    distance = {}
    for i in dembs:
        distance[i] = cosine(dembs[query], dembs[i])
    return sorted(distance.items(), key=operator.itemgetter(1))[:topn]

In [44]:
print_top_n_similar('삼부자부대찌개', topn=10, emb_rslt=emb_rslt)

[('삼부자부대찌개', 0.0),
 ('해병이네', 0.004218627467283631),
 ('삼부자식당', 0.06307634934076811),
 ('기시맹', 0.08627871721139269),
 ('띵호와.서울뚝배기.설악칡냉면', 0.08940888211729558),
 ('달빛구름', 0.08947957361331094),
 ('111-7밀', 0.09016612095116328),
 ('111-7meal', 0.09036755667397378),
 ('우꼬돈찌', 0.0934539017998296),
 ('큰나무사천훠궈양꼬치', 0.09456590487535654)]

In [45]:
print_top_n_similar('플라스틱플랜트', topn=10, emb_rslt=emb_rslt)

[('플라스틱플랜트', 0.0),
 ('두메숯불바베큐', 0.004524935189668455),
 ('요시다', 0.004796733332717018),
 ('올리브가든수제파이전문점', 0.0055933445973804785),
 ('짜카밥', 0.006029311347718336),
 ('기시맹', 0.006093887037147971),
 ('뿌구리매운갈비찜', 0.006277022106937036),
 ('장돌뱅이족발보쌈전문점', 0.006324130033321773),
 ('베리신주꾸', 0.008574989478331352),
 ('청월식당', 0.013802146294538575)]

프렌차이즈라면?

In [47]:
emb_rslt.loc['세븐일레븐']

0     0.003517
1     0.003213
2    -0.007762
3     0.008976
4     0.009476
        ...   
95   -0.005282
96    0.006214
97    0.003962
98    0.002379
99   -0.014761
Name: 세븐일레븐, Length: 100, dtype: float64

우리의 데이터에 세븐일레븐이 6,670개나 있다, 그렇다면 위에서 보여준 세븐일레븐의 임베딩은 세븐일레븐이라는 프렌차이즈의 임베딩을 의미할 것이다. 그렇다면 세븐일레븐 카이스트점의 임베딩은 어떻게 될까? -> Solution: 상호지점명2vec

## 6. Fine-grained Embedding: 상호지점명2vec

### Train된 vector 로드


In [48]:
emb_rslt = pd.read_csv("embedding+상호지점명.csv",index_col=0)

In [49]:
emb_rslt.shape

(319757, 100)

In [50]:
emb_rslt.index

Index(['커피빈코리아선릉로93길점 코리아선릉로93길점', '피자마루 약수점', '커피빈 코리아교대점', '에브리돈 북가좌점', '크리스피크림 롯데청량리점', '파스쿠찌 디큐브아트센터2호점', '롯데리아 신림역점', '놀부숯불애장닭&부대찌개,철판구이 천호점', '하이 서울유스호스텔지점', '씨제이올리브영종각점 종각점',
       ...
       '고기사라 진평점', '본설전주 혁신점', '노걸대 위드유천안점', '종로맥가 경북도청점', '점프셈교실 JH학습연구소푸르넷', '텃밭 진주우리먹거리협동조합진주', '청가람해물요리 아중점', '숑숑돈가스 여수돌산점', '사람휘트니스 연동점', '나 네일빛'], dtype='object', length=319757)

In [51]:
emb_rslt.loc['고봉민김밥인 어은점']

0     0.080287
1     0.089100
2    -0.041700
3     0.018566
4    -0.004867
        ...   
95   -0.100885
96    0.034433
97    0.032493
98   -0.118475
99   -0.083523
Name: 고봉민김밥인 어은점, Length: 100, dtype: float64

In [55]:
emb_rslt.loc['세븐일레븐 카이스트점']

0    -0.010107
1     0.100903
2     0.023826
3     0.040165
4     0.005576
        ...   
95   -0.125569
96   -0.081574
97    0.080192
98   -0.054765
99   -0.049479
Name: 세븐일레븐 카이스트점, Length: 100, dtype: float64

## 7. 상권업종 임베딩: 상권업종소분류명2vec

해당 상호의 상권업종을 같은 스페이스에 함께 임베딩하였다. 

### Train된 vector 로드


In [56]:
emb_rslt = pd.read_csv("embedding+상권업종소분류명.csv",index_col=0)

In [57]:
emb_rslt.shape

(737, 100)

In [58]:
emb_rslt.index

Index(['호프/맥주', '커피전문점/카페/다방', '토스트전문', '사우나/증기탕/온천', '음식점-초밥전문', '라면김밥분식', '피자전문', '갈비/삼겹살', '한식/백반/한정식', '아구전문',
       ...
       '펜팔소개', '제대혈', '수상스키', '실내테니스장', '택견도장', '석궁용품판매', '학원-차트', '게이트볼장', '실외골프연습장', '스쿼시장'], dtype='object', length=737)

### 상호명 임베딩간 유사도 체크

In [59]:
def print_top_n_similar(query, topn=10, emb_rslt=emb_rslt):
    dembs = {}
    for i in emb_rslt.index:
        dembs[i] = np.array(emb_rslt.loc[i])
    
    distance = {}
    for i in dembs:
        distance[i] = cosine(dembs[query], dembs[i])
    return sorted(distance.items(), key=operator.itemgetter(1))[:topn]

In [60]:
print_top_n_similar('실외골프연습장', topn=10, emb_rslt=emb_rslt)

[('실외골프연습장', 0.0),
 ('체육관', 0.10426074918846728),
 ('쿵후도장', 0.1046527161806029),
 ('복싱도장', 0.1082697607545915),
 ('기타실내운동시설', 0.10833469970911014),
 ('스포츠센터', 0.11049489133319723),
 ('테니스장', 0.11052423644266829),
 ('기타경기후원업/경기단체', 0.11059689532911998),
 ('실내골프연습장', 0.11074257556060785),
 ('킥복싱', 0.11088417751909119)]

In [61]:
print_top_n_similar('족발/보쌈전문', topn=10, emb_rslt=emb_rslt)

[('족발/보쌈전문', 0.0),
 ('갈비/삼겹살', 0.0018667048413583132),
 ('설렁탕집', 0.002654282554316545),
 ('쌈밥전문', 0.0031534440998020052),
 ('기사식당', 0.0036656756913956423),
 ('냉면집', 0.004078516098055762),
 ('돌솥/비빕밥전문점', 0.004181284830792942),
 ('한정식전문', 0.004356089063629942),
 ('부대찌개/섞어찌개', 0.00443824136057136),
 ('한식/백반/한정식', 0.005451930880259859)]

In [62]:
print_top_n_similar('피아노/바이올린/기타', topn=10, emb_rslt=emb_rslt)

[('피아노/바이올린/기타', 0.0),
 ('서예/서화/미술', 0.00016853727498922222),
 ('합기도장', 0.0005442661655647996),
 ('어린이집', 0.000611113063410107),
 ('검도도장', 0.0006629770955132175),
 ('학원(종합)', 0.0007274648191920585),
 ('실내놀이터-유아', 0.0007556705473990011),
 ('학원-웅변', 0.0007636609767125435),
 ('학원-제과기술', 0.0007698276395181614),
 ('학습지보급', 0.0007854504513449267)]

In [63]:
print_top_n_similar('호프/맥주', topn=10, emb_rslt=emb_rslt)

[('호프/맥주', 0.0),
 ('룸살롱/단란주점', 0.0003272136969152406),
 ('꼬치구이전문점', 0.00042910920634664507),
 ('관광/유흥주점', 0.001849847373374014),
 ('로바다야끼', 0.0035705365207193696),
 ('빠/카페/스탠드빠', 0.0036933292257649297),
 ('락카페', 0.007033457284825628),
 ('소주방/포장마차', 0.009010893188902802),
 ('기타일반유흥주점', 0.016803931710011155),
 ('민속주점', 0.017786090546763278)]

# Cross Analysis

구역 임베딩과 상권 업종 임베딩을 함께 진행하면 단순히 similarity를 활용하여 교차 분석이 가능해진다.

In [101]:
emb_rslt = pd.read_csv("embedding+상권업종대분류명.csv",index_col=0)
emb_rslt2 = pd.read_csv("embedding+도로명.csv",index_col=0)

In [102]:
emb_rslt.index

Index(['음식', '생활서비스', '소매', '의료', '학문/교육', '관광/여가/오락', '부동산', '숙박', '스포츠'], dtype='object')

In [103]:
emb_rslt2.index

Index(['서울특별시 강남구 남부순환로', '서울특별시 강남구 선릉로93길', '서울특별시 금천구 가산로', '부산광역시 사상구 괘감로', '서울특별시 송파구 가락로', '서울특별시 송파구 올림픽로', '서울특별시 광진구 자양로39길', '서울특별시 강서구 공항대로3길', '서울특별시 중구 동호로7길', '서울특별시 강서구 화곡로18길',
       ...
       '충청남도 서산시 학동10로', '전라북도 전주시 덕진구 가인로', '경상북도 포항시 북구 흥해읍 성곡서로18번길', '경상남도 합천군 율곡면 노양길', '경상남도 사천시 곤양면 고동포로', '전라남도 여수시 소라면 대곡해안길', '전라남도 여수시 문수북3길', '충청남도 당진시 송산면 서정6길', '충청남도 논산시 연산면 선비로646번길', '경상북도 예천군 호명면 새움1로'], dtype='object', length=110722)

In [104]:
def print_top_n_cross(query, topn, emb_rslt, emb_rslt2):
    queryemb = np.array(emb_rslt.loc[query])
    
    dembs = {}
    for i in emb_rslt2.index:
        dembs[i] = np.array(emb_rslt2.loc[i])
    
    distance = {}
    for i in dembs:
        distance[i] = cosine(queryemb, dembs[i])
    return sorted(distance.items(), key=operator.itemgetter(1))[:topn]

### Case 1) 상권업종대분류명: '학문/교육'과 관련이 가장 큰 길 찾기

In [109]:
print_top_n_cross('학문/교육', 10, emb_rslt, emb_rslt2)

[('서울특별시 강남구 도곡로77길', 0.08686613032108814),
 ('서울특별시 강남구 삼성로63길', 0.08779786797438649),
 ('서울특별시 강남구 삼성로64길', 0.0961617427311483),
 ('서울특별시 강남구 삼성로57길', 0.0964748200874701),
 ('서울특별시 강남구 삼성로61길', 0.09793936383163804),
 ('경기도 고양시 일산서구 일산로', 0.1006600676250562),
 ('서울특별시 강남구 삼성로58길', 0.10068605802871555),
 ('서울특별시 강남구 삼성로67길', 0.10106316661807058),
 ('서울특별시 강남구 도곡로83길', 0.10808094307052263),
 ('서울특별시 강남구 역삼로90길', 0.10821120342141122)]

확인: 대분류명 '학문/교육'에 해당하는 임베딩과 가장 유사도가 높은 도로명 '도곡로 77번길'의 위치와 주변의 수많은 학원들

* 도곡로 77번길: ![image2](fig/dogok77-school.png)
* 해당 길 및 주변에 위치한 수많은 학원들: ![image](fig/dogok77.png)

### Case 2) 상권업종대분류명: '숙박'과 관련이 가장 큰 길 찾기

In [110]:
print_top_n_cross('숙박', 10, emb_rslt, emb_rslt2)

[('경기도 가평군 북면 백둔로133번길', 0.049935043288960146),
 ('충청남도 태안군 남면 진산1길', 0.05999175934441403),
 ('경기도 가평군 북면 백둔로', 0.06574396478895961),
 ('충청남도 태안군 남면 청포대길', 0.07163629268081273),
 ('경기도 가평군 북면 백둔로467번길', 0.0717571520892406),
 ('충청남도 태안군 남면 용궁길', 0.07395296115343841),
 ('경기도 가평군 북면 백둔로560번길', 0.07499517116121224),
 ('충청남도 태안군 남면 몽산포길', 0.07577697880360845),
 ('충청남도 태안군 안면읍 꽃지2길', 0.0767286238085596),
 ('경상남도 남해군 남면 빛담촌길', 0.07674396319733379)]

확인: 가평군 북면 백둔로133번길의 위치와 주변의 수많은 펜션들

* 백둔로 133번길: ![image2](fig/baekdun133.png)
* 해당 길 및 주변에 위치한 펜션들: ![image](fig/baekdun133-lodge.png)