# MongoDB, BM25

# kakao

In [46]:
import json
import pandas as pd
from typing import List,Dict
from tqdm import tqdm
from rank_bm25 import BM25Okapi
import pickle
import requests
from datetime import datetime
import re
import numpy as np

In [47]:
data = json.load(open('./output/seoul/카카오/강남구_output.json'))

In [48]:
def kakao_review(data:Dict):
    output = {}
    id = 0
    review_id = 0
    for key, value in tqdm(data.items()):
        name = value['name'].strip()
        score = value['score'].strip()
        reviews = value['reviews']
        doro_address = key.strip()
        post_processed_reviews = []
        if reviews:
            for review in reviews:
                if review is None:
                    continue
                review = review.split('\n')
                try:
                    date = datetime.strptime(review[5].strip(),'%Y.%m.%d.')#, print(review)
                    date = review[5].strip()
                    text = ' '.join(review[6:-2])
                except:
                    date = datetime.strptime(review[4].strip(),'%Y.%m.%d.')
                    date = review[4].strip()
                    text = ' '.join(review[5:-2])
                    #text = ''
                review_id+=1
                post_processed_reviews.append(dict(date=date, review=text, id=review_id))
        output[key.strip()]=dict(id=id,name=name, score=score, reviews=post_processed_reviews)
        id+=1
    return output

In [49]:
kakao=kakao_review(data)

100%|███████████████████████████████████████████████████████████████████████████| 3304/3304 [00:00<00:00, 36262.15it/s]


## 위 경도 변환

In [50]:
def get_long_lat(address):
    url_front = "http://api.vworld.kr/req/address?"
    url_params = "service=address&request=getcoord&version=2.0&crs=epsg:4326&refine=true&simple=false&format=json&type=road"
    url_address = "&address="
    url_key = "&key="
    auth_key = "7D0E01FD-4222-3E0D-AEB0-9630D650077F"
    url = url_front + url_params + url_address + address + url_key + auth_key
    result = requests.get(url)
    json_data = result.json()
    if json_data['response']['status'] == 'OK':
        x = json_data['response']['result']['point']['x']
        y = json_data['response']['result']['point']['y']
        return [x,y]
    else:
        return None

In [53]:
for i,j in tqdm(kakao.items()):
    long_lat = get_long_lat(i)
    j['geometry']=long_lat

check = []
for i,j in kakao.items():
    if j['geometry'] is None:
        check.append((i,j))

 36%|███████████████████████████▉                                                  | 1184/3304 [01:38<02:56, 12.00it/s]


ConnectionError: HTTPConnectionPool(host='api.vworld.kr', port=80): Max retries exceeded with url: /req/address?service=address&request=getcoord&version=2.0&crs=epsg:4326&refine=true&simple=false&format=json&type=road&address=%EC%84%9C%EC%9A%B8%20%EA%B0%95%EB%82%A8%EA%B5%AC%20%ED%85%8C%ED%97%A4%EB%9E%80%EB%A1%9C%20137%20%ED%98%84%EB%8C%80%ED%95%B4%EC%83%81%EB%B9%8C%EB%94%A9%2010%EC%B8%B5&key=7D0E01FD-4222-3E0D-AEB0-9630D650077F (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x0000028DD2480850>: Failed to establish a new connection: [WinError 10060] 연결된 구성원으로부터 응답이 없어 연결하지 못했거나, 호스트로부터 응답이 없어 연결이 끊어졌습니다'))

## 도로명 주소 > 지번 주소

In [57]:
def get_jibun_addr(data:Dict):
    locations = []
    c=0
    for addr,j in tqdm(data.items()):
        url = 'https://dapi.kakao.com/v2/local/search/address.json?query={}'.format(addr)
        headers = {
    ## 여러분의 카카오 API의 REST API키를 아래 예시와 같이 입력해주세요
    ## "Authorization": "KakaoAK REST API키 입력 gogo"}
    "Authorization": "KakaoAK 2bf374c5b32c92fb51365a34edc4f4c7"}
        try:
            place = requests.get(url, headers = headers).json()['documents']
            jibun = place[0]['address']['address_name']
        except:
            try:
                addr = ' '.join(addr.split()[:-1])
                url = 'https://dapi.kakao.com/v2/local/search/address.json?query={}'.format(addr)
                place = requests.get(url, headers = headers).json()['documents']
                jibun = place[0]['address']['address_name']
            except:
                jibun = None
                c+=1
        j['jibun_addr']=jibun
    print(f'there is no jibun address - {c}')
    return data

In [58]:
kakao = get_jibun_addr(kakao)

100%|██████████████████████████████████████████████████████████████████████████████| 3129/3129 [03:27<00:00, 15.05it/s]

there is no jibun address - 5





## 정합성 파악
1. null 값 : x
2. jibun 주소가 없는 경우 : 12 
3. geometry가 없는 경우 : 34

In [59]:
check_geo = []
check_jibun = []
for i,j in kakao.items():
    if not j['geometry']:
        check_geo.append(i)
    if not j['jibun_addr']:
        check_jibun.append(i)
    else:
        if j['jibun_addr'] is None:
            check_jibun.append(i)
print(f'no jibun - {len(check_jibun)}')
print(f'no geo - {len(check_geo)}')

no jibun - 5
no geo - 0


In [60]:
# 수기로 검색
for address in check_jibun:
    print(address)
    print(kakao[address])
    check = input()
    kakao[address]['jibun_addr']=check
    print()

서울 강남구 도곡로 516 151-1호, 2호
{'name': '깐부치킨 은마아파트점', 'score': '3.7', 'geometry': ['127.062973708', '37.499128424'], 'reviews': [{'date': '2022.07.02.', 'review': '치킨한마리 배달안해준다는게 말이되나요.. 배달비 준다는데 사이드매뉴를 따로 더 시켜야 배달해주는 양심불량업체', 'id': 2110}, {'date': '2022.03.09.', 'review': '방문했던 깐부치킨 지점 중 가장 맛있었던 곳.', 'id': 2111}, {'date': '2021.10.26.', 'review': '존.맛. 인테리어도 예쁘고, 가까이 있어서 좋아요.ᐟ', 'id': 2112}], 'id': 627, 'jibun_addr': None}


 서울 강남구 대치동 990



서울 강남구 압구정로28길 49 101, 102호
{'name': 'GS25 압구정유림점', 'score': '5.0', 'geometry': ['127.027711329', '37.523255791'], 'reviews': [{'date': '2022.12.12.', 'review': '추천포인트 친절 우산 없어서 급히 들어온 곳인데 사장님 진짜 친절합니다', 'id': 3514}, {'date': '2022.12.10.', 'review': '여기 사장님 너무 친절하시고 즐겁게 말걸어주셔서 이쪽들를일 있으면 꼭 여기로 갑니다 항상 행복하시고 번창하세요!', 'id': 3515}, {'date': '2022.05.24.', 'review': 'GS는 싫지만 여기 점주님은 항상 먼저 즐겁게 인사해주십니다. 늘 감사합니다', 'id': 3516}, {'date': '2021.11.22.', 'review': '사장님이 건네주시는 말 한마디 덕분에 그 날 기분이 좋아지는 곳이예요. 전국 편의점 들어서 제일 친절하신 듯 .. :D', 'id': 3517}, {'date': '2020.06.17.', 'review': '야외 테이블도 있고 주인분도 너무 친절하셔서 좋아요 :)   편의점 리뷰 남겨보기 처음이에요 ㅋㅋㅋ 압구정 오면 나중에 또 방문하려구요!', 'id': 3518}, {'date': '2020.04.16.', 'review': '하나를 사더라도 밝게 인사해주시고 진정성있게 대해주셔서 이 매장은 좋은 에너지가 가득합니다. 가게는 항상 흐트럼없이 정돈이 잘 되어 있고, 기분 나빠서 들어갔다가도 기분 좋아져서 나오게 되는 신비한 곳...^^', 'id': 3519}, {'date': '2020.03.26.', 'review': '주인 아주머니이신 것 같은데, 잠깐 왔다가는 손님들에게도 밝고 활기차게 대해주세요. 인사 끝에 좋은 하루 되시라고 말해 주시는데, 하루가 아름다워질 것 같아요. 감사합니다.', 'id': 3520}, {'date': '2019.11

 서울 강남구 신사동 584-1



서울 강남구 테헤란로27길 16 1, 2층
{'name': '투썸플레이스 역삼역점', 'score': '3.8', 'geometry': ['127.038054855', '37.502438821'], 'reviews': [{'date': '2021.10.01.', 'review': '1층은 좌석이 없는 거나 마찬가지로 생각하면 됨 (1층은 카운터 + 3팀 정도 가능한 좌석) 2층은 코로나 거리두기로 인해 10팀 정도 가능 와이파이 구린건 어느 투썸이나 비슷하니까 괜찮음.   다만 흡연실이 내부에 있는데,  관리가 전혀 이루어지지 않음. 담배냄새가 다 새어나옴.  더구나 마스크 관리는 아예 안함. 흡연실에 대놓고 6명,8명이 낑겨 있어도 테이블에 4인~6인이 모여서 마스크 벗고 있어도 올라와서 살펴보는 직원은 거의 없음. 이따금 올라와도 신경조차 안쓰더라.  위치상 4~6인 팀이 많이 오는 곳이기 때문에 코로나 걸리기 딱 좋은 곳이니 도망가라. 더보기', 'id': 9643}, {'date': '2021.09.30.', 'review': '친절하구 홀케익 사면 아아도 줘욤♡', 'id': 9644}, {'date': '2021.09.25.', 'review': '', 'id': 9645}, {'date': '2021.01.22.', 'review': '', 'id': 9646}], 'id': 2525, 'jibun_addr': None}


 서울 강남구 역삼동 678-10



서울 강남구 강남대로102길 28 1, 2, 지하 1층
{'name': '어퍼앤언더', 'score': '3.1', 'geometry': ['127.027720551', '37.502737230'], 'reviews': [{'date': '2022.12.30.', 'review': '저렇게 맛없는 얼그레이 파운드 처음임 심지어 8천원..? 제가 갔던 카페 중에 가성비도 맛도 하위', 'id': 10598}, {'date': '2022.12.24.', 'review': '', 'id': 10599}, {'date': '2022.12.19.', 'review': '추천포인트 맛 친절 근처에서 찍은 사진 근처에서 찍은 사진 근처에서 찍은 사진 자주 오는데 조금 비싸요', 'id': 10600}, {'date': '2022.12.09.', 'review': '테라스 자리 넘 좋았어요!', 'id': 10601}, {'date': '2022.12.06.', 'review': '추천포인트 맛 분위기 2층 풍경 넘 좋고 실내 분위기 좋고 커피 맛도 좋음! 사람 많아지면 시끄러워서 정신 없어지는 것 빼고 다 좋음 ㅎㅎ', 'id': 10602}, {'date': '2022.11.28.', 'review': '추천포인트 맛 근처에서 찍은 사진 근처에서 찍은 사진 근처에서 찍은 사진 휘낭시에 진짜 잘하시네여 근데 왜케 비싸죠? 휘낭시에 두 개에 6,500원이라닝 ㅠㅠ 비싼데 맛있어서 또 가긴할거예여ㅠㅠ 맛있어요', 'id': 10603}, {'date': '2022.11.18.', 'review': '테라스에서 본 골목풍경이 상당히 예뻤어요. 더 추워지기 전에 기분좋게 마시고 온듯', 'id': 10604}, {'date': '2022.11.07.', 'review': '휘낭시에', 'id': 10605}, {'date': '2022.10.08.', 'review': '추천포인트 분위기 근처에서 찍은 사진 분위기 좋아서 가는 카페입니다… 저거 초코 먹었다가 너무 너무.. 맛이

 서울 강남구 역삼동 618-17



서울 강남구 도곡로77길 8 102, 103호
{'name': '아마당 젤라또 크로플 츄러스', 'score': '5.0', 'geometry': ['127.058647960', '37.498915138'], 'reviews': [{'date': '2022.08.01.', 'review': '기분 좋아져요 . ^^', 'id': 11732}, {'date': '2022.02.05.', 'review': '사장님이 너무 친절하시고 아기자기한 소품이 있어 분위기가 좋아요. 아이스크림도 맛있어요:)', 'id': 11733}, {'date': '2021.12.11.', 'review': '젤라또랑 츄러스도 맛있고 사장님 너무친절하세용 처음왔다고 서비스도 주심ㅠ', 'id': 11734}], 'id': 2965, 'jibun_addr': None}


 서울 강남구 대치동 941





In [61]:
# delete
new_kakao = {}
for i,j in tqdm(kakao.items()):
    if j['jibun_addr']:
        new_kakao[i]=j

100%|█████████████████████████████████████████████████████████████████████████| 3129/3129 [00:00<00:00, 1557187.61it/s]


In [62]:
check_geo = []
check_jibun = []
for i,j in new_kakao.items():
    if not j['geometry']:
        check_geo.append(i)
    if not j['jibun_addr']:
        check_jibun.append(i)
print(f'no jibun - {len(check_jibun)}')
print(f'no geo - {len(check_geo)}')

no jibun - 0
no geo - 0


In [24]:
# geometry가 없는 경우 반대로 검색
# 즉, 지번 주소로 geometry 검색
for i in check_geo:
    print(i)
    print(new_kakao[i])
    check = input()
    geo = get_long_lat(check)
    new_kakao[i]['geometry']=geo

서울 강남구 일원동 717-1 일원역 구내 348-10호
{'id': 319, 'name': '더박스 일원역점', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 강남구 일원동 717-1'}


 


서울 강남구 테헤란로 322 한신인터밸리 24 상가 1층 103호
{'id': 374, 'name': '세븐일레븐 한신점', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 강남구 역삼동 707-34'}


 서울 강남구 테헤란로 322 한신인터밸리


서울 강남구 삼성로 150 미도종합상가(남부순환로 3032, 135)
{'id': 581, 'name': '대곡공인중개사사무소', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 강남구 대치동 511'}


 


서울 강남구 대치동 1011-8
{'id': 598, 'name': '은마아파트입구 사거리(1) 대여소', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 강남구 대치동 1011-8'}


 


서울 강남구 대치동 317-2
{'id': 600, 'name': '은마아파트 노상공영주차장', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 강남구 대치동 317-2'}


 


서울 강남구 대치동 398
{'id': 617, 'name': '학여울역사거리(은마아파트) 대여소', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 강남구 대치동 398'}


 


서울 서초구 서초동 1327-5
{'id': 887, 'name': '동아유료주차장', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 서초구 서초동 1327-5'}


 


서울 서초구 잠원동 103-2
{'id': 954, 'name': '공중전화 잠원 동아아파트 정문', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 서초구 잠원동 103-2'}


 


서울 강남구 개포동 1277
{'id': 1034, 'name': '구룡산 입구 (구룡산 서울둘레길 입구) 대여소', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 강남구 개포동 1277'}


 


서울 강남구 대치동 630
{'id': 1036, 'name': '대치늘벗길주차장', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 강남구 대치동 630'}


 


서울 강남구 도곡동 468
{'id': 1071, 'name': '양재천 벚꽃길', 'score': '5.0', 'reviews': [{'date': '2022.04.10.', 'review': '도곡-매봉-양재 까지 주변에 예쁜 카페도 많고 산책하기 좋아요', 'id': 2576}], 'geometry': None, 'jibun_addr': '서울 강남구 도곡동 468'}


 


서울 강남구 대치동 513-3
{'id': 1072, 'name': '양재천 은행나무길', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 강남구 대치동 513-3'}


 


서울 강남구 역삼동 765-22
{'id': 1078, 'name': '도곡로327공영주차장', 'score': '5.0', 'reviews': [{'date': '2021.04.20.', 'review': '', 'id': 2582}], 'geometry': None, 'jibun_addr': '서울 강남구 역삼동 765-22'}


 


서울 강남구 역삼동 640-10
{'id': 1152, 'name': '현대주차장', 'score': '5.0', 'reviews': [{'date': '2021.12.16.', 'review': '', 'id': 2896}], 'geometry': None, 'jibun_addr': '서울 강남구 역삼동 640-10'}


 


서울 강남구 역삼동 738-8
{'id': 1154, 'name': '현대주차장', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 강남구 역삼동 738-8'}


 


서울 강남구 역삼동 626-23
{'id': 1179, 'name': '현대주차장', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 강남구 역삼동 626-23'}


 


서울 강남구 언주로86길 12 지하주차장 진입 후 바로 좌측
{'id': 1211, 'name': '현대까르띠에710아파트 전기차충전소', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 강남구 역삼동 710'}


 


서울 서초구 반포동 1342
{'id': 1290, 'name': '서초현대4차아파트 201동 맞은편 대여소', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 서초구 반포동 1342'}


 


서울 서초구 서초동 1552-23
{'id': 1402, 'name': '서초현대 제1주차장', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 서초구 서초동 1552-23'}


 


서울 강남구 삼성동 143-37
{'id': 1426, 'name': '현대타워 주차장', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 강남구 삼성동 143-37'}


 


서울 강남구 삼성동 148-6
{'id': 1461, 'name': '현대백화점 무역점 별관주차장', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 강남구 삼성동 148-6'}


 


서울 강남구 학동로4길 15 동화히스토리 1층 103호
{'id': 1836, 'name': 'CU 논현동화점', 'score': '3.7', 'reviews': [{'date': '2022.03.17.', 'review': '최고', 'id': 5244}, {'date': '2020.12.14.', 'review': '사장님이 너무 친절하세요 짱짱', 'id': 5245}, {'date': '2020.02.12.', 'review': '야간에 일하시는분 포인트결제해달라니까 적립으로하고나서 하는말이 결제말고 적립으로해서 현금이나 카드로결제해야된다고 말함.  포인트결제방법을 찾아보는 노력도안하고 매너도없고 서비스 꽝이네요', 'id': 5246}], 'geometry': None, 'jibun_addr': '서울 강남구 논현동 122-8'}


 서울 강남구 학동로4길 15


서울 강남구 대치동 912-7
{'id': 2136, 'name': '토마토폴학원 주차장', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 강남구 대치동 912-7'}


 


서울 강남구 개포동 169-3
{'id': 2230, 'name': '개포까치공원', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 강남구 개포동 169-3'}


 


서울 강남구 도곡동 455
{'id': 2231, 'name': '도곡까치공원', 'score': '5.0', 'reviews': [{'date': '2022.08.28.', 'review': '근처에서 찍은 사진 근처에서 찍은 사진 그네는 없지만 미끄럼틀 있고 모래놀이도 가능해요', 'id': 7703}], 'geometry': None, 'jibun_addr': '서울 강남구 도곡동 455'}


 


서울 강남구 도곡동 455 운동기구옆(좌)
{'id': 2232, 'name': '도곡까치어린이공원 음수대2', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 강남구 도곡동 455'}


 


서울 강남구 도곡동 455 운동기구옆(우)
{'id': 2233, 'name': '도곡까치어린이공원 음수대1', 'score': '0.0', 'reviews': [], 'geometry': None, 'jibun_addr': '서울 강남구 도곡동 455'}


KeyboardInterrupt: Interrupted by user

In [67]:
# delete
final_kakao = {}
for i,j in tqdm(new_kakao.items()):
    if j['geometry']:
        final_kakao[i]=j

100%|█████████████████████████████████████████████████████████████████████████| 3129/3129 [00:00<00:00, 1042744.10it/s]


In [80]:
def check_format(data:Dict):
    #ids = []
    #review_ids = []
    new_data = {}
    for i,b in tqdm(data.items()):
        assert type(i)==str
        assert type(b['name'])==str
        assert type(b['score'])==str
        if '.' in b['score']:
            score = b['score']
        else:
            continue
        name = b['name']
        geometry = b['geometry']
        if b.get('jibun_addr'):
            jibun_addr = b['jibun_addr']
        else:
            continue
        new_data[i.strip()]=dict(name=name, score=score, geometry=geometry, jibun_addr=jibun_addr) 
        new_data[i.strip()]['reviews']=[]
        for rev in b['reviews']:
            assert type(rev['review'])==str
            review = rev['review']
            assert type(rev['date'])==str
            try:
                if rev['date'][4]=='.' and rev['date'][7]=='.':
                    date = rev['date']
                    new_data[i.strip()]['reviews'].append(dict(date=date, review=review))
                else:
                    continue
            except:
                continue
            #assert type(rev['id'])==int
            #review_ids.append(b['id'])
    print(f'{len(data)} ---> {len(new_data)}')
    return new_data

In [68]:
final_kakao = check_format(final_kakao)

100%|██████████████████████████████████████████████████████████████████████████| 3129/3129 [00:00<00:00, 164566.04it/s]

3129 ---> 3129





In [69]:
def make_ids(data):
    id = 0
    review_id = 0
    for i,j in data.items():
        j['id']=id
        id+=1
        for rev in j['reviews']:
            rev['id']=review_id
            review_id+=1
    return data

In [70]:
final_kakao = make_ids(final_kakao)

In [71]:
json.dump(final_kakao, open('final_kakao.json','w',encoding='utf-8'), ensure_ascii=False)

## BM25
### BM25 학습 - doro명 주소 

In [75]:
tokenized_corpus = [(i+' '+j['name']).split(' ') for i,j in final_kakao.items()]
tokenized_corpus += [(j['jibun_addr']+' '+j['name']).split(' ') for i,j in final_kakao.items()]
bm25_id_to_db_id = {}
c=0
for i,j in final_kakao.items():
    bm25_id_to_db_id[c]=j['id']
    c+=1
for i,j in final_kakao.items():
    bm25_id_to_db_id[c]=j['id']
    c+=1
bm25 = BM25Okapi(tokenized_corpus)

In [76]:
pickle.dump(bm25, open('kakao_bm25','wb'))
pickle.dump(bm25_id_to_db_id, open('kakao_bm25_id_to_db_id','wb'))

In [59]:
def retrieve(bm25, bm25_id_to_db_id, query):
    tokenized_query = query.split(' ')
    doc_scores = bm25.get_scores(tokenized_query)
    sorted_idx = np.argsort(-doc_scores)
    result = [i for i in sorted_idx]
    output = []
    for i in result:
        tmp = bm25_id_to_db_id[i]
        if tmp not in output:
            output.append(tmp)
    return output

# mango

In [63]:
mango_data = json.load(open('./output/seoul/mango/강남구_output_mango_score.json'))

In [64]:
def mango_review(data:Dict):
    output = {}
    id = 0
    review_id = 0
    for i,a in tqdm(data.items()):
        for j in a:
            if j is None:
                break
            name = j['score'].split('\n')[0]
            score = name.split()[-1]
            try:
                score = str(float(score))
                name = ' '.join(name.split()[:-1])
            except:
                score = '0.0'
            name = re.sub('[()]','', name).strip()
            tmp = j['detailed_info'].split('\n')
            doro_addr = None
            jibun_addr = None
            for tmp_i in tmp:
                if tmp_i.startswith('주소 '):
                    doro_addr = re.sub('주소 ', '', tmp_i).strip()
                elif tmp_i.startswith('지번 '):
                    jibun_addr = re.sub('지번 ','',tmp_i).strip()
            post_processed_reviews = []
            if j['review']:
                for review in j['review']:
                    tmp = review.split('\n')
                    date = tmp[-2]
                    date = re.sub('-','.',date)
                    text = ' '.join(tmp[3:-2])
                    post_processed_reviews.append(dict(id=review_id, review=text, date=date))
                    review_id+=1
            if doro_addr is not None:
                output[doro_addr]=dict(name=name, score = score, doro_addr=doro_addr, jibun_addr=jibun_addr, reviews = post_processed_reviews)
    return output

In [113]:
mango =  mango_review(mango_data)

100%|███████████████████████████████████████████████████████████████████████████| 1325/1325 [00:00<00:00, 15458.93it/s]


In [114]:
for i,j in tqdm(mango.items()):
    long_lat = get_long_lat(i)
    j['geometry']=long_lat

check = []
for i,j in mango.items():
    if j['geometry'] is None:
        check.append((i,j))

100%|████████████████████████████████████████████████████████████████████████████████| 408/408 [00:29<00:00, 13.99it/s]


In [115]:
mango = get_jibun_addr(mango)

100%|████████████████████████████████████████████████████████████████████████████████| 408/408 [00:32<00:00, 12.44it/s]

there is no jibun address - 67





In [125]:
check_jibun=[]
check_geo=[]
for i,j in mango.items():
    if not j['jibun_addr'] :
        check_jibun.append(i)
    else:
        if j['jibun_addr'] is None:
            check_jibun.append(i)
    if not j['geometry'] :
        check_geo.append(i)
print(f'no jibun - {len(check_jibun)}')
print(f'no geo - {len(check_geo)}')

no jibun - 42
no geo - 4


In [126]:
# 수기로 검색
for address in check_jibun:
    print(address)
    print(mango[address])
    check = input()
    mango[address]['jibun_addr']=check
    print()

서울특별시 강남구 논현로87길 41 104-2호
{'name': '죠샌드위치 역삼포스틸점', 'score': '0.0', 'doro_addr': '서울특별시 강남구 논현로87길 41 104-2호', 'jibun_addr': '', 'reviews': [{'id': 6370, 'review': '샌드위치는 실한편! 클럽샌드위치 추천받았어여 5300원이에요. 딱히 맛있지는 않아요. 그냥 엄마가 해준 정도의 맛.. 역삼에 서브웨이가 생겼으면 좋겠어요 차라리 2015-12-07', 'date': '+4'}], 'geometry': ['127.033517148', '37.498832393']}


 서울특별시 강남구 역삼동 735-11 1F



서울특별시 강남구 역삼로 136 1F
{'name': '죠샌드위치', 'score': '0.0', 'doro_addr': '서울특별시 강남구 역삼로 136 1F', 'jibun_addr': '', 'reviews': [], 'geometry': ['127.034510108', '37.494203641']}


 서울특별시 강남구 역삼동 834-44 1F



서울특별시 강남구 압구정로 162 1F
{'name': '에그드랍 압구정점', 'score': '3.3', 'doro_addr': '서울특별시 강남구 압구정로 162 1F', 'jibun_addr': '', 'reviews': [{'id': 24091, 'review': '에그드랍 별 생각없었는데 오랜만에 먹으니까 또 맛있네여? 이삭토스트랑은 또 다른 맛ㅇㅇ 왜 집에서 해먹으면 요런 맛이 안날까 빵 구울 때 버터도 잔뜩 발라주시고 만드시는거 직접 구경하다가 먹으니까 더 맛있는거 같았음 토스트 안에 재료가 다양하게 들어가서 그런지 하나 만드는 데 정성이 꽤 들어가더라구요. 맛있게 잘 먹었습니당ㅇㅇ', 'date': '2022.01.20'}, {'id': 24092, 'review': '달달한 계란샌드위치집 비슷한 가게(에그***)에 비해 달달합니다 아침이나 간식으로 먹기 좋습니다', 'date': '2020.10.04'}, {'id': 24093, 'review': '요기요로 맛집배달을 시켜보았다... 따뜻하고 부드럽고 고소하고 혼자 다했다 완전 맛있음 냠냠 또 시켜먹을꼬야 ', 'date': '2020.03.11'}, {'id': 24094, 'review': '빵이 촉촉하다. 먹기 불편하고 아래로 갈수록 빵밖에 안남아서 아쉽긴하다. 커피를 많이 먹으러 가는곳', 'date': '2019.12.31'}, {'id': 24095, 'review': '먹은 거: 베이컨더블치즈(3,900원) 맛 보통 가성비 좋음. 친절함 보통. 매장 깔끔함.  양은 좀 적은 편. 푹신한 스크램블 에그의 식감이 좋다. 아메리카노를 포함해도 4,800원이라는 훌륭한 가격.', 'date': '2019.10.12'}, {'id': 24096, 'review': '끼니 떼우기 좋은 토스트집! 생각보다 식사시간에 손님이 많아서 조금 기다리실 수 있습니다!! 베이컨이나 햄 무난하게 많이 먹었던 것 같은데 단짠단짠하니 맛있습니다!! 드실 때 소스나 계란 흐르지 않게 조심해서 드셔야할 듯해욯ㅎ

 서울특별시 강남구 신사동 579-3 1F



서울특별시 강남구 선릉로161길 17 1F
{'name': '고트델리', 'score': '4.3', 'doro_addr': '서울특별시 강남구 선릉로161길 17 1F', 'jibun_addr': None, 'reviews': [{'id': 2708, 'review': '*요약: 잠봉뵈르는 약하고, 파스트라미는 강하고, 피자는 아주 그냥 때려박는!!! 스프 맛집...  소금집델리를 필두로 사랑받고 있는 잠봉뵈르 맛집으로 익히 알고 있었다. 서촌이 본점인지 신사가 본점인지는 정확히 모르겠지만, 신사에 가끔 갈때마다 지나게 되어 벼르고 있던 방문.  어디까지나 개인적이지만 서촌과 신사의 매장분위기가 꽤 다른것이 서촌은 줄 이만큼 서는 집 두 곳(런던베이글뮤지움과 함께)이 마주선 느낌인데다 식당보다는 카페에 가까운 느낌을 주는 것 같고, 신사 쪽은 좀 한산한 레스토랑의 느낌이 강했다.  첫방문에서는 파스트라미 샌드위치와 오늘의 스프였던 버섯 크림스프를 주문했다. 파스트라미 샌드위치의 진한 육향과 살짝 리프레쉬해주는 정도의 머스타드, 피클이 상쾌했다. 뭔지 몰랐는데 향긋한 향이 딜이라고 했다. 밸런스가 굉장히 좋았다.  여기에 크림스프가 압권이었는데, 꾸덕한 버섯크림스프에 트러플오일까지 요즘 사람들이라면 싫어할 수 없는 맛.  두번째 방문에서는 잠봉뵈르, 피자, 그리고 오늘의 스프였던 호박스프를 시켰다.  잠봉뵈르는 소금집의 그것보다 감동이 덜했다. 맛있었지만 만약 잠봉뵈르만 먹는다면 아마도 소금집에 갈 것 같았다. 피자가 정말 강했다. 피자는 먹는 족족 너무 맛있다를 연발했는데, 안시켰으면 큰일나는 맛. 잠봉 자체의 시즈닝이 소금집에 비해 조금 약한 편이라, 버터보다는 짭짤한 치즈와 궁합이 더 맞았던 거 같다.  호박스프도 달달하니 크리미하고 기분좋은 외국 어딘가 외할머니가 끓여주실 거 같은 편안한 맛이었다. (우리 할머니는 중식을 하셨고, 외할머니는 소고깃국밖에 안끓이시지만)  신사에서 빠르게 맛난 걸 먹고싶다면 또또또 갈듯. 잘먹었습니다! 2022-11-17

 서울특별시 강남구 신사동 662-14 1F



서울특별시 강남구 테헤란로 231 조선팰리스 24F
{'name': '조선델리더부티크 조선팰리스점', 'score': '4.3', 'doro_addr': '서울특별시 강남구 테헤란로 231 조선팰리스 24F', 'jibun_addr': None, 'reviews': [{'id': 2744, 'review': '조 신하게 머리를 넘기며 선 이 고운 자태로 한껏 끼를 부리며 그녀는 말했다 델 리러올꺼지? (아니)  맛10 친절10 청결10 주문메뉴: 바나나케이크 (5만)  생일에 케이크가 빠지면 섭하지... 조선델리 쪽으로 전화로 주문해서 홍연으로 올려달라 하자 흔쾌히 도와주셨다. 레터링은 무료인데, 글씨가 무척 인간적이다. 모르는 사람이 보면 내가 썼다 생각할 그런 글씨.  조선델리더부티크는 조선팰리스 24층에 위치해있다. 1914라운지앤바도 24층에 함께있다. 심지어 바로 옆에 있으니 참고!  데코는 엄청 심플한데, 케이크를 가르면 바나나가 그득하다. 빵과 빵 사이에는 크림인데, 대부분 바나나라고 보시면 된다. 향도 진하고, 맛도 진하고, 초코나 딸기 케이크만 엄청 먹었는데, 바나나 케이크는 또 처음인데 만족스러웠다. 2022-12-08', 'date': '+6'}, {'id': 2745, 'review': '케이크 살 일 있을 땐 고민 없이 조팰 생크림 케이크!! 샤인머스켓도 딸기도 맛있는데 둘 중엔 딸기가 풍미가 좋아 더 취향임 크리스마스 케이크도 예약했는데 빨리 먹어보고 싶다앙', 'date': '2022.12.07'}, {'id': 2746, 'review': '쇼트케이크란 스펀지 위에 생크림을 바르고 간단한 과일을 얹은 아주 간단한 케이크다. 하지만 언젠가부터 이 간단한 케이크를 하이엔드급 케이크로 만든 곳이 있었으니 바로 신라와 조선호텔 계열의 베이커리들이다.  고급 밀가루를 활용해 스펀지(빵) 자체도 부드러우면서 고소한 맛을 내고 질 좋은 우유를 활용해 만든 생크림에서 은은하고 고급진 단맛이 퍼지는 꾸덕하면서도 부드러운 맛, 거기다 우리나라 최고

 서울특별시 강남구 역삼동 676 24F



서울특별시 강남구 남부순환로 2729 2F
{'name': '존쿡델리미트 시그니처점', 'score': '0.0', 'doro_addr': '서울특별시 강남구 남부순환로 2729 2F', 'jibun_addr': None, 'reviews': [{'id': 2776, 'review': '고기가 맛있다 상품들도 좀 있고 매장이깔끔', 'date': '2022.11.14'}, {'id': 2777, 'review': '레토르트맛이다 비비고 조리한 느낌', 'date': '2020.12.05'}], 'geometry': ['127.044569276', '37.486340960']}


 서울특별시 강남구 도곡동 180-14 2F



서울특별시 강남구 언주로 640 1F
{'name': '델리아마도르 임피리얼팰리스서울', 'score': '0.0', 'doro_addr': '서울특별시 강남구 언주로 640 1F', 'jibun_addr': None, 'reviews': [], 'geometry': ['127.035884313', '37.514081394']}


 서울특별시 강남구 논현동 248-7 1F



서울특별시 강남구 봉은사로 150 1F
{'name': '호텔삼정델리', 'score': '0.0', 'doro_addr': '서울특별시 강남구 봉은사로 150 1F', 'jibun_addr': None, 'reviews': [{'id': 2792, 'review': '먹어본 크림빵 중에서는 여기 크림빵이 제일 맛있다. 빵을 그다지 즐기는 편이 아님에도 불구하고 여기 크림빵은 인정! 풍부한 유지방이 입과 위장을 강타한다(ㅋㅋㅋ)', 'date': '2016.12.16'}], 'geometry': ['127.031156787', '37.505920539']}


 



서울특별시 강남구 도산대로 117 1F
{'name': '슈퍼막셰 커피앤델리 신사역점', 'score': '0.0', 'doro_addr': '서울특별시 강남구 도산대로 117 1F', 'jibun_addr': None, 'reviews': [], 'geometry': ['127.021238248', '37.517186152']}


 서울특별시 강남구 신사동 514-18 1F



서울특별시 강남구 논현로106길 54 1F
{'name': '델리또치킨24시', 'score': '0.0', 'doro_addr': '서울특별시 강남구 논현로106길 54 1F', 'jibun_addr': None, 'reviews': [], 'geometry': ['127.038748576', '37.507142384']}


 



서울특별시 강남구 논현로38길 22 2F
{'name': '리츠델리피자', 'score': '0.0', 'doro_addr': '서울특별시 강남구 논현로38길 22 2F', 'jibun_addr': None, 'reviews': [], 'geometry': ['127.043324174', '37.485222456']}


 서울특별시 강남구 역삼동 656-19 2F



서울특별시 강남구 압구정로 151 1F
{'name': '신전떡볶이 강남압구정점', 'score': '0.0', 'doro_addr': '서울특별시 강남구 압구정로 151 1F', 'jibun_addr': None, 'reviews': [{'id': 2808, 'review': '맛이 너무 들쭉날쭉', 'date': '2019.12.31'}], 'geometry': ['127.025327875', '37.526968228']}


 서울특별시 강남구 압구정동 426 1F



서울특별시 강남구 남부순환로359길 27 1F
{'name': '신전떡볶이', 'score': '0.0', 'doro_addr': '서울특별시 강남구 남부순환로359길 27 1F', 'jibun_addr': None, 'reviews': [{'id': 2812, 'review': '완전 맛있네요 매운거 못드시는 분들은 안 매운거 시켜서 드시고 같이간 친구들도 그렇고 저도 그렇고 김밥보단 참치마요덮밥이랑 국물이 비벼 먹는게 더 맛있었어요 ㅋ 좁으니까 포장이나 배달도 괜찮을듯..', 'date': '2016.03.30'}], 'geometry': ['127.035900454', '37.486508757']}


 서울특별시 강남구 도곡동 950-8 1F



서울특별시 강남구 선릉로111길 11 1F
{'name': '로칼커피 선정릉역점', 'score': '0.0', 'doro_addr': '서울특별시 강남구 선릉로111길 11 1F', 'jibun_addr': None, 'reviews': [{'id': 2815, 'review': '오 첫 리뷰인가...LOKAL커피 체인인듯 함. 이 자리 까페 왜 싼지 모르겠지만 쌈. 아메리카노 3000원, 라떼 3500원, 싱글오리진/아인슈패너 5000원, 로스팅을 직접 하셔서 커피가 맛난 듯한 느낌적인 느낌. 인스타 갬성이라 테이블 낮음, 평일에 사람 엄청 많음. 라떼 우유 비린 맛이 났는데 원래 우유 비리긴 하나 다시 생각해보니 일부러 안 섞어먹어서 그런 듯 하다. 에스프레소랑 우유 섞어마시면 얼음 녹으면서 점점 맛이 변한다며 섞어 마시지 말래서 안 섞어 먹었더니 그런거겠거니 (여기 말고 다른 바리스타피셜...)', 'date': '2019.05.11'}], 'geometry': ['127.042598154', '37.510601561']}


 서울특별시 강남구 논현동 278-2 1F



서울특별시 강남구 봉은사로 438 1F
{'name': '매머드익스프레스 봉은사로선정릉점', 'score': '0.0', 'doro_addr': '서울특별시 강남구 봉은사로 438 1F', 'jibun_addr': None, 'reviews': [{'id': 22804, 'review': '스시키에서 나와 근처에서 커피 한 잔을 마실까 싶던 차에 전에 지나치면서 보고 망플에 등록도 했던 여기 매머드 익스프레스 봉은사로 선정릉점에 들러봄.  매머드 익스프레스의 커피는 맛은 흔한 스벅 정도의 맛은 되면서 볼륨감과 가격이 좋아 좋아하는 가겐데 키오스크에서 콜드브루 라지 사이즈를 주문함.  금방 준비되서 받아 들고 가게를 나와 한 입 빨아 마시니 콜드브루는 물과 희석을 안 하는 줄 알았는데 뭔가 물과 희석한 듯 깔끔한 맛과는 별개로 비교적 밋밋한 맛이어서 오늘은 좀 별로네 함.  오늘 경험은 별로의 느낌에 가깝지만 그래도 보통은 좋고 가격이 좋아 괜찮다로.. 2022-07-04', 'date': '+3'}], 'geometry': ['127.047844122', '37.511200854']}


 서울특별시 강남구 삼성동 114-1 1F



서울특별시 강남구 강남대로94길 15 2F
{'name': '만랩커피 강남역점', 'score': '3.5', 'doro_addr': '서울특별시 강남구 강남대로94길 15 2F', 'jibun_addr': None, 'reviews': [{'id': 20679, 'review': '강남역에서 넓고 콘센트 많은 카페라고 해서 간건데 생각보다 규모가 작고 콘센트도 많지 않아 당황했어요.. 그래도 커피가 생각보다 저렴한게 장점인 듯. 스페셜티 원두를 쓰고 선택지도 많은 것까지도 좋아요. 근데 향이 너무 안 나서 원두 이름 적어놓은게 약간 민망쓰~', 'date': '2022.02.22'}, {'id': 20680, 'review': '강남에서 작업하기 좋은 카페:-)  한참 강남에서 일끝나고 학원다닐때 시간 때우려고 종종 갔었던 카페예요. 강남역 11번 출구 부근에 있는 카페입니다.  가게도 넓은 편이고 강남역 부근 치고 자리도 널널해서 눈치 안보고 작업하거나 공부하기 괜찮은 곳입니다. 빈브라더스는 가끔 만석일 때가 있는데 그럴때 가요 ㅋㅋ 저는 항상 아이스 아메리카노만 주문했었는데 사실 커피 맛은 그냥 무난합니당..ㅋㅋ  강남 주변에서 카페에 자리 없을 때 유용해요. 하지만 저는 요즘 강남역 자체를 잘 안가서.. 재방문의사△', 'date': '2021.08.24'}, {'id': 20681, 'review': '근처에 모임이있어서 가게 된 곳! 가격도 착하고 양도 많고!! 치즈케이크가 진짜 존맛탱!!!!!! 강력추천 하고싶습니다!!!!!!주말에 또 가서 치즈케이크 먹을꺼에요~~사장님 항상 밝으시고 넘 친절해요!!', 'date': '2020.10.23'}, {'id': 20682, 'review': '4/5  짤막히만 먼저 적자면 강남에서 저렴한 가격, 괜찮은 맛, 낮지않은 천장높이, 많은 콘센트. 부담없이 친구들이랑 혹은 혼자 작업할 때 오기 좋음 데이트로는 분위기로 오는게 아니라서 쏘쏘할듯? 강남역과 가까워서 좋음  자세히 적어보자면 커알못이다 보니 카페

 서울특별시 강남구 역삼동 818-11 2F



서울특별시 강남구 도곡로17길 29 1F
{'name': '커피플라이', 'score': '0.0', 'doro_addr': '서울특별시 강남구 도곡로17길 29 1F', 'jibun_addr': None, 'reviews': [{'id': 3101, 'review': '여긴 배민으로 시켜먹는거랑 가게에서 먹는거랑 가격 차이가 없어서(심지어 배민으로 주문하면 서비스도 있음 ㅋㅋ) 직접 가서 먹으면 손해보는 기분이 많이 들었다 ㅋㅋ', 'date': '2016.12.21'}, {'id': 3102, 'review': '복잡한 강남역이 싫다면 추천. 조용한 주택단지에 있어 책읽기 좋은 곳. 커피도 배달이 가능하고 가격도 저렴한데 양도 많다.', 'date': '2016.06.04'}], 'geometry': ['127.036654768', '37.493285467']}


 



서울특별시 강남구 봉은사로4길 23 2-3F
{'name': '까치양조장 강남점', 'score': '0.0', 'doro_addr': '서울특별시 강남구 봉은사로4길 23 2-3F', 'jibun_addr': None, 'reviews': [{'id': 4518, 'review': '떡볶이파스타가 진짜 너무 떡볶이소스다..^^ 나는 그저 매콤한 로제파스타 같은게 먹고샆엇는데 떡볶이국물에 떡빼고파스타 넣은 맛.. 과자중에 떡볶이과자가 잇는데 그거랑 똑같은 향이다 ㅠ ㅋㅋ 좀 싸구려파스타맛 같앗다', 'date': '2021.10.01'}, {'id': 4519, 'review': '모임하기 좋은 곳!!', 'date': '2020.05.03'}, {'id': 4520, 'review': '분위기 좋고 친절한데 음식은 그닥 맛있진 않았음...', 'date': '2019.12.25'}, {'id': 4521, 'review': '강남역에 분위기 좋은 와인바 찾기 은근 힘든데 여기는 안에가 예쁘더라구요! 워낙 꽃도 많고 예쁘게 꾸며놔서 cf같은 것도 종종 찍고 대관도 많이 한다고 해요. 플레이트 맛있었고 와인은 가격에 비해 (한 잔 5000-7000원 정도) 마실만 했어요 :)', 'date': '2019.12.15'}, {'id': 4522, 'review': '결론: 분위기 괜찮다. 글라스로 와인 시킨다면 가성비좋다. 그러나 영수증을 잘 확인하자.  처음 갔을때, 예쁘고 아늑한 분위기가 좋았어요~ 그리고 글라스와인이 저렴해서 가격에 놀랐고요. 하지만 글라스 와인은 맛이 좋지는 않았고, 안주류는 작고귀여운 크기였답니다. 딱 두명이서 저녁식사 후 앞에두고 먹기 좋을 정도. 병으로 시키면 맛이 조금 더 나았어요. 결정적으로 마지막에 주인으로 보이는 분이 계산실수를 했는데, 카드 들고 오면 취소해준다고 말하고 사과가 없어서 좀 의아했어요.', 'date': '2019.11.29'}, {'id': 4523, 'review': '저렴하게 와인한잔하기 좋아요', 'dat

 



서울특별시 강남구 압구정로4길 11 1F
{'name': '패티앤베지스', 'score': '4.6', 'doro_addr': '서울특별시 강남구 압구정로4길 11 1F', 'jibun_addr': None, 'reviews': [{'id': 4649, 'review': '망플 수제버거 맛집 1등(?)에 당당히 이름을 올리고 있는 패티앤베지스 드디어 방문을 하게 되었다!  패티앤베지스의 현재 대표메뉴이자 가장 유명한 메뉴는 더블딥블루치즈버거일 것이다. 패티앤베지스는 햄버거에서 패티의 중요성을 강조하며 이름은 패티와 야채의 균형을 잡겠다는 의미를 그리고 더블딥 버거는 이벤트성으로 한시적으로 우리 패티가 이토록 좋다!!!!를 주장하기 위해 만든 버거가 성공하며 만들어진 대표메뉴라고 한다.  방문 전에 사진으로 내부사진을 봤을 때는 되게 힙한 느낌이 강해보였는 대 실제로 방문하니 리모델링을 했는 지 그런 느낌을 찾기는 어려웠고 고급스러운 버거집의 느낌이 나는 식당이었다.  방문해서 당연히 대표메뉴인 더블딥 블루치즈버거와 베이컨치즈버거를 시켰다. 더블딥 치즈버거는 번에 무식하게…. 오직 패티 2장을 끼워둔 버거로 여기에 블루치즈를 뿌려서 먹는 버거다. 패티는 듣던 대로 고기를 너무 잘게 갈지 않아서 적당히 씹는 맛과 겉은 바삭하게 구우면서 속은 육즙이 살아있는 최고의 패티였다. 하지만 첫입 두입까지는 끝내주는 패티맛으로 최고였지만 갈수록 패티가 식고 또 과도한 지방으로 고지혈증…. 걸릴 것 같은 맛이었다. 그래도 뒤에도 못 먹을 맛은 아니었고 맛은 좋았다.  전체적으로 맛있는 최고의 수제버거 맛집이었지만 클래식한 버거를 먹어야 객관적인 비교가 가능할 것 같다. 현재로서는 아직 파이어벨의 레오버거를 능가하는 맛은 아니었다.', 'date': '2022.11.29'}, {'id': 4650, 'review': '매장이 클래식한 분위기로 너무 예쁘게 돼 있어서 놀랐어요! 테라스도 있어서 선선한 계절엔 더 좋을 것 같아요ㅎㅎ  버거는 야채 없이 오직 고기 패티만 있으면서,

 서울특별시 강남구 신사동 525-2 1F



서울특별시 강남구 테헤란로39길 51 1F 102호
{'name': '쏭타이', 'score': '4.4', 'doro_addr': '서울특별시 강남구 테헤란로39길 51 1F 102호', 'jibun_addr': None, 'reviews': [{'id': 4728, 'review': '— 저도 비건 지향이긴 한디, 속은 편한디 뭔가 심심해요 —  맛…있긴 하다! 아무래도 비건메뉴가 주류를 이루다 보니 고기가 들어있는 메뉴는 없고, 기름져봤자 푸팟퐁커리 정도임!  팟씨유와 삐여우완 주문. 삐여우완이 탕수육이라길래 태국식 탕슉은 어떤 맛일까 기대했으나 두부를 튀긴 것이었다……  팟씨유는 조금 매콤하면서 짜장맛이 좀 났는데, 두부와 버섯으러 중화! 색감 예쁜 삐여우완은 자그마한 조각들이 여럿 모이고, 야채가 모였지만 탕수육에서 기대했던, 기름지거도 잔여감이 남는 그런 맛은 아니었다. 왜냐하면 둘다 두부사용 비건이었기 때문…  맛있게 먹었고, 속도 편했지만! 비건/논비건 옵션을 둘다 넣는 것은 어떠한지 살포시 제안해 본다.  그 밖에 잘꾸며 놓은 인테리어와 조명. 음식 미감은 매우 좋았다 2022-11-22', 'date': '+7'}, {'id': 4729, 'review': '아담하지만 분위기 좋고 맛도 적당한 곳 똠얌꿍, 쏨땀은 특유의 쿰쿰함이 부족해 아쉬웠는데 뿌팟퐁커리는 게가 바삭해서 맛있게 먹었음', 'date': '2022.09.18'}, {'id': 4730, 'review': '쏭타이요? 제가 먹어본 똠얌꿍 중에 최고였어요,,, (태국에 가본 적은 없읍니다,,) 똠얌꿍국수+애피타이저(텃만꿍) 셋트에 음료 하나 주문했는데 정확히 이 순서대로 나오긴 했으나... 메인이 넘나 맛있는 관계로 모든 것이 ㅇㅋ', 'date': '2022.07.29'}, {'id': 4731, 'review': '역삼과 선릉 사이의 애매한(?) 위치의 태국 음식점. 비록 전 그냥 먹었지만 비건메뉴들이 있고 비건으로 선택할 수도 있는게 인상적이었어요. 그리고 서버분들이 엄청

 서울특별시 강남구 역삼동 664-32 1F



서울특별시 강남구 강남대로102길 30 1-3F
{'name': '썸띵어바웃커피', 'score': '4.1', 'doro_addr': '서울특별시 강남구 강남대로102길 30 1-3F', 'jibun_addr': None, 'reviews': [{'id': 4898, 'review': '두번째 방문하게 된 썸띵어바웃 커피. 솔직히 의견은 많이 변하진 않았어요.. ㅎㅎ  이번엔 평일 점심 시간에 가서 그런가 너무 한가해서 너무너무 좋았어요. 주말에는 진짜 폭탄이라 ㅠㅠ 그래서 그런지 여유를 가질 수 있어서 좋았어요.  디저트 종류도 바쁜 주말보다 선택이 많았어요.  바닐라 마들렌) 마들렌 중간에 바닐라 덩어리(?)같이 있었어요. 전체적으로 좀 더 부드러웠으면 좋았을텐데 살짝 뻑뻑했어요. 맛은 괜찮았어요.  카라멜 스콘) 딱딱한 스콘... 위에 카라멜이 강해서 살짝 탔나? 싶을 생각이 들었던거 같아요. 이거는 추천은 안해요,  전체적으로 조금 아쉬운 집이지만 주말 피해서 가면 낫배드 한것같아요! 2022-11-23', 'date': '+2'}, {'id': 4899, 'review': '커피 마시면서 친구와 수다떨기 좋은 곳. 오래 전에 오고 재방문함. 밥먹고 나와서 위치적으로 여기가 제일 자연스러워서 이쪽 카페들을 많이 찾게 되는듯 하다. 디저트 종류도 많아서 구경하는 재미, 고르는 재미가 있다.  공간도 넓은데 1층, 2층, 3층까지. 아무래도 메뉴주문을 2층에서 하고 계단으로 이동해야하는 게 좀 번거롭긴 하다. 아예 진동벨 음료 받아서 이동하는 것이 현명함. 3층에 쇼파자리도 있어서 장시간 수다떨기 최적화 되어있는데 창가자리가 좀 춥다.  평일 점심에는 많이 붐비지 않아서 시끄럽지 않고 더 좋네. 주문했던 무화과 치즈케이크는 느끼하지 않고 담백하면서 부드럽고 산뜻했다!!', 'date': '2022.10.15'}, {'id': 4900, 'review': '강남역 근처 카페를 가야하는 일이 생기면 여기만 오게된다 절때 저렴한 곳은 아니다 음료 하나에 7~

 서울특별시 강남구 역삼동 618-16 1-3F



서울특별시 강남구 도산대로25길 43 1F
{'name': '빵어니스타', 'score': '3.9', 'doro_addr': '서울특별시 강남구 도산대로25길 43 1F', 'jibun_addr': None, 'reviews': [{'id': 5243, 'review': '두부파운드는.. 집에서 해드세요…  그리고 빵어니스타에서는 타르트를 드시길 바랍니다… 마켓컬리에서 빵 이것저것 주문하는 김에 집에서 만드는 거랑 어떻게 다른지 궁금해서 한 번 사봤어요. 참고로 빵 어니스타의 빵들은 모두 비건입니다.  근데 크기가 아주 쟈그마하더라구요. 후기에서 양이 적다는 얘기를 보긴 봤는데 이정도일 줄은 몰랐네요. 비건 베이킹, 게다가 두부를 넣은 거라 잘 안부풀어서 그런지 일반 머핀의 1/3크기라고 보시면 될 것 같아요. 흑임자랑 단호박맛 각 하나씩 주문했었는데요. 달지 않고 두부로 만든 빵 특유의 단단하면서 뽀득거리는 신기한 식감 그대로더라구요. 맛에서도 두부맛이 그대로 느껴집니다.  집에서 만든 두부파운드랑 거의 차이가 없는데 두부 파운드 만드는 건 간단한 편이라서… 이 정도는 집에서 그냥 만드는 게 나을 것 같아요(두부 한모면 여기 파운드 여섯개는 만들 수 있어요). 대신 빵어니스타 타르트는 맛있어요. 여기 빵 드실거면 초코타르트 추천드립니다. 재구입의사X', 'date': '2022.06.22'}, {'id': 5244, 'review': '마켓컬리를 통해 먹어본 빵어니스타 v.2! 이번에는 타르트 4종 (세일 잘 안하는데 연말에 웬일로 하길래 겟) 과 단호박두부케이크를 주문했어요. 두부케이크 시리즈는 이전에 말차와 서리태 맛을 맛있게 먹었어서 이번에 단호박맛으로 재주문했어요. 타르트는 워낙 유툽과 인별그램에서 유명해서 구입!  #타르트 코코넛 밀크, 코코넛 오일 베이스의 타르트라서 타르트지와 필링에서 코코넛 향이 나요. 타르트지가 호불호가 갈리는데, 저는 호! 코코넛을 좋아해서 그런지 향이 거슬리지 않았고, 오히려 코코넛 맛이 은은하게 나서 저는 더 좋았어요

 서울특별시 강남구 신사동 553-25 1F



서울특별시 강남구 강남대로102길 46 1F
{'name': '정월', 'score': '3.8', 'doro_addr': '서울특별시 강남구 강남대로102길 46 1F', 'jibun_addr': None, 'reviews': [{'id': 5273, 'review': '밖에서 보기보다 들어가서 더 좋고 1층보다 2층이 더 좋은 카페  나무와 타일의 레트로한 감성과 미로같은 공간, 테라스와 루프탑까지 갖춘 카페다. 겉에서 보기엔 그냥 주택을 개조한 카페구나 했는데 들어가보니 더 좋다. 공간 구석구석을 다르게 구성해두어서 앉고싶은 자리를 고르는 재미가 있다.  아메리카노를 주문했다. 고소한 원두로 골랐는데 꽤 신선하고 좋았다 기분 좋은 정도의 쌉쌀함과 구운 옥수수같은 달달한 향이 느껴지는 원두였다.  너무 붐비지만 않는다면 다음에도 고민없이 가볼만한 카페다 2022-10-24', 'date': '+2'}, {'id': 5274, 'review': '강남역에 위치한 카페 흔히 알베르 카페거리에 위치한 카페로 주택을 개조한 카페이다! 이 카페의 강점은 3가지! 첫번째 커피 메뉴가 상당히 이쁘다는 것 말차 가루가 올려진 읷 시그니처 커피의 비쥬얼과 맛 모두 훌륭했다. 두번째로 매장 인테리어가 너무 멋지다는 것! 2층 규모로 이뤄져있고 주택 개조다 보니 방도 2-3곳 있다. 프라이빗하게 즐길 수 있는 공간도 있어 좋았다! 마지막으로 야외 테라스 자리가 넓다는 것! 테라스 자리가 매장 앞과 옆으로 이뤄져있는데 요즘 같은 날씨에 방문하기 딱인곳! 2022-10-07', 'date': '+5'}, {'id': 5275, 'review': '강남역에서 가장 예쁜 카페가 아닐까 싶다. 언덕 한참 위쪽인데 일본식 정원 느낌에 내부는 가배도와 비슷하지만 훨씬 트여있는 느낌. 말차 아인슈패너(8,)- 정월 검색하면 가장 많이 뜨는 사진. 진한 말차라떼 위에 생크림 층을 얹고 가장 위층 중앙은 건조딸기 파우더, 주변은 말차 초콜릿으로 마무리. 생크림이나 초콜릿은 특별하게 맛있지는 

 서울특별시 강남구 역삼동 618-21 1F



서울특별시 강남구 논현로95길 30 1F
{'name': '스파게티스토리', 'score': '0.0', 'doro_addr': '서울특별시 강남구 논현로95길 30 1F', 'jibun_addr': None, 'reviews': [{'id': 8734, 'review': '스파게티 스토리에요~ 가성비로 적당하게 먹을 수 있는 파스타 집이라 아시는분들은 다 아실거같아요 ㅎㅎ 스파게티가 4500~ 부터 시작하니 진짜 요즘같은 물가에 찾기어려운집이에요 ㅠㅠ저는 크림파스타를 시켰는뎅 맛도 나쁘지않고 양은 그렇게 많지는 않지만 적당했던거같아요 ㅎㅎ 은근 매장도 몇개있는거같은데 가성비 좋은 집 찾으시면 한번 들려보셔도 좋을거같아요!', 'date': '2022.06.12'}], 'geometry': ['127.033534587', '37.502014150']}


 서울특별시 강남구 역삼동 638-17 102호



서울특별시 강남구 압구정로 165 5F
{'name': '일치프리아니 현대백화점 압구정본점', 'score': '3.4', 'doro_addr': '서울특별시 강남구 압구정로 165 5F', 'jibun_addr': None, 'reviews': [{'id': 14311, 'review': '어란파스타는 굿굿 피자는 실망', 'date': '2022.02.12'}, {'id': 14312, 'review': '웨이팅하다가 아사할 뻔,,, 웨이팅 걸어두고 옆에 태극당가서 빵 한 잔하세요...  평일 점심에 넘 배고파서 방문. 웨이팅 4팀밖에 없길래 냉큼 걸어두고 옆에 태극당가서 빵 사 옴. ..? 왜 대기가 안 줄지..?  결국 40분을 기다렸담니다 회전률 극악이에요... 엄마랑 저랑 들어갈 때쯤 손 떨었습니다...  해산물 토마토 파스타, 루꼴라 올라간 마르게리따 피자 시켰는데 둘 다 맛있었어요 특히 마르게리따 위에 방토가 맛있더라고요 새콤하니..  근데 바빠서 그런지 직원분들 서비스가 좀.. 뭔가 부탁하면 빠르게만 처리하려는 느낌..? 안 친절해요  맛은 있는데 회전률과 서비스 때문에 괜춘타.', 'date': '2022.01.09'}, {'id': 14313, 'review': ">>> 집앞이라 여러번 방문. 제일 맛있게 먹었던 건 야채리조또. 일치도 그렇고 남양유업 계열 이태리식당은 두루두루 무난.  >>> 팬시하진 않아서 '쇼핑 후 엄마랑 좀 잘 먹고 싶을 때 들리는 곳' ㅋ", 'date': '2020.11.04'}, {'id': 14314, 'review': '무난하게 이탈리안을 먹을수 있는 곳. 피자 파스타 좋아하는 아이들과 가기 편해서 종종 가는데. 오븐에 구운 볼로네제 파스타 추천. 그외 다른 메뉴들은 다 비슷비슷 적당히 맛있음. 조용하고 웨이팅 별로 없음.', 'date': '2019.10.21'}, {'id': 14315, 'review': '라자냐와 어란파스타! 라자냐는 든든하지만 먹을 수록 피클이 필요하고 어란파스타는 오일 파스타지만 

 서울특별시 강남구 압구정동 429 5F



서울특별시 강남구 선릉로146길 5 1F
{'name': '현대정육식당', 'score': '3.5', 'doro_addr': '서울특별시 강남구 선릉로146길 5 1F', 'jibun_addr': None, 'reviews': [{'id': 6170, 'review': '새벽에.. 취해서.. 끌려온... 이곳... 어딘지도 모르게 맛있게 먹었다.... 사진 안 찍었으면 어쩔뻔', 'date': '2022.12.01'}, {'id': 6171, 'review': '김치찌개 맛집으로 알려진 곳인데 찌개는 평범하고 그보단 계란말이, 제육볶음이 더 맛있다. 밑반찬이 꽤 정갈하게 나오는 편이라 집밥 같은 백반이 먹고싶다면 추천하고 싶다. 지금은 코로나 덕분에 무뎌졌지만 24시간 영업이 큰 장점. 맨날 점심만 먹다가 저녁시간에 방문해 삼겹살, 찌개를 시도해봤다. 결론은 고기는 고기집에서 먹는걸로! ^^; 2021-12-20', 'date': '+1'}, {'id': 6172, 'review': '제육 김치찌개 계란말이 맛있다 하지만 맛집이라기보다는 걍 좀 잘나가는 동네 식당', 'date': '2019.01.08'}, {'id': 6173, 'review': '갈때마다 항상 똑같은 조합 = 차돌+김치찌개! 24시간 영업이었나 가물가물 기억은 안 나는데 대개 여기를 찾을때는 저녁을 건너뛰어서 밤에 답없이 배고픈 경우라 항상 아주 늦은 시간이었고... 김치찌개의 묵은지가 리얼루다가 밥도둑이당 흐흥 그리고 발렛됩니당', 'date': '2018.08.18'}, {'id': 6174, 'review': '한식이 생각날때 들리는 곳. 여기 김치찌개 정말 좋아해요', 'date': '2018.06.23'}, {'id': 6175, 'review': '김치찌개에 계란말이 굿굿', 'date': '2018.04.13'}, {'id': 6176, 'review': '김치찌개는 제 입맛에는 안맞았는데 끝까지 먹게되는 맛이었어요 목살김치볶음은 단맛이 강하고 매콤했구요 전체적으로 먹을만 

 



서울특별시 강남구 테헤란로78길 16 1F
{'name': '롤링핀 포스코사거리점', 'score': '0.0', 'doro_addr': '서울특별시 강남구 테헤란로78길 16 1F', 'jibun_addr': None, 'reviews': [{'id': 6187, 'review': '빵순이를 위한 롤링핀 집앞이라 자주 가는데 빵굽는 냄새가 너무 좋아여 오늘은 고구마식빵 픽해왔어요. 빵 종류가 은근많아서 매번 고르기힘들만 실패는 없었네요. 담백한 빵 가득하니 롤링핀식빵종류 드셔보세요. 추천합니다.', 'date': '2022.04.19'}, {'id': 6188, 'review': '시나몬롤. 버터프레첼.  버터프레첼은 짭쪼름하고 버터와 어우러지는 맛이 정말 맛남. 약간 앙버터느낌도 나지만 짠맛이 나서 좀 다른. 빵은 좀 딱딱하고 한입에 다 넣기도 애매하기도해서 조금 먹기 힘들었지만 그래도 맛났음. 시나몬롤은 시나몬향이 엄청 남. 그리고 달달해서 초등학생인 조카도 넘 잘 먹음ㅋㅋ 버터프레첼은 한입먹고 안먹더니 이건 계속 먹었음. 시나몬 향이 강해서 싫어할까 걱정했는데 엄청 좋아함.', 'date': '2019.05.18'}], 'geometry': ['127.055338352', '37.505062614']}


 



서울특별시 강남구 논현로4길 36 1F
{'name': '고다방', 'score': '0.0', 'doro_addr': '서울특별시 강남구 논현로4길 36 1F', 'jibun_addr': None, 'reviews': [{'id': 6269, 'review': '이름부터 인테리어까지 레트로 감성 가득. 컵도 큰데 가격도 괜찮다. 정말 좋은 카페인데 위치가 아쉬울 따름...', 'date': '2020.02.10'}], 'geometry': ['127.052931756', '37.473668092']}


 



서울특별시 강남구 압구정로12길 6
{'name': '커피빈 뉴가로수길점', 'score': '0.0', 'doro_addr': '서울특별시 강남구 압구정로12길 6', 'jibun_addr': None, 'reviews': [], 'geometry': None}


KeyboardInterrupt: Interrupted by user

In [128]:
new_mango = {}
# 수기로 검색
for address,j in mango.items():
    if j['jibun_addr'] is not None:
        if j['jibun_addr']:
            new_mango[address]=j

In [130]:
check_jibun=[]
check_geo=[]
for i,j in new_mango.items():
    if not j['jibun_addr'] :
        check_jibun.append(i)
    else:
        if j['jibun_addr'] is None:
            check_jibun.append(i)
    if not j['geometry'] :
        check_geo.append(i)
print(f'no jibun - {len(check_jibun)}')
print(f'no geo - {len(check_geo)}')

no jibun - 0
no geo - 2


In [134]:
# 수기로 검색
for address in check_geo:
    print(address)
    print(new_mango[address])
    check1 = input()
    check2 = get_long_lat(check1)
    print(check2)
    mango['geometry'] = check2     

서울특별시 강남구 압구정로46길 46 현대카드 쿠킹라이브러리 1F
{'name': '현대카드 쿠킹 라이브러리델리', 'score': '4.3', 'doro_addr': '서울특별시 강남구 압구정로46길 46 현대카드 쿠킹라이브러리 1F', 'jibun_addr': '서울 강남구 신사동 645-22', 'reviews': [{'id': 26209, 'review': '괜찮다. 간장달걀 +아보카도+명란. 아보카도와 명란은 각각 추가금 발생. 근데 이걸 먹으러 올 내용은 아닐듯', 'date': '2022.08.31'}, {'id': 26210, 'review': '<테라스 카페 맛집> 우리는 점심을 먹은터라 1층 카페 입성 현대카드로 결제시 10프로 할인 커피신선하고 산미적당 밸런스 굿 무엇보다 테라스가 좋았고 다양한 쿠킹북을 읽으며 좋은시간을 보냈다', 'date': '2022.06.02'}, {'id': 26211, 'review': "의외의 까눌레 맛집이라 쓰는 리뷰. 얼그레이 까눌레(3,000), 바스크 치즈케이크 (7,000), 카페라떼(6,000) 주문.  여기서 저녁도 먹고 바로 디저트도 먹었다. 현대카드로 결제 시 전 메뉴 10%할인되고, 1층 델리는 현대카드 비소지자도 이용 가능하다. 얼그레이를 그렇게 좋아하지 않는다는 걸 얼마 전에 알아서 까눌레는 조금 고민했는데 잘 시킨 것 같다.  자리로 가져다주는데 나이프 없이 포크만 두 개 준 건 조금 아쉬웠다. (많이 안 먹어봤지만) 지금까지 내 까눌레 원탑은 제주도 토투가였는데, 여기 까눌레를 먹으며 그곳이 생각났다. 겉면이 일정하게 얇고 과자처럼 바삭하며, 안은 촉촉했다. 좀만 두꺼우면 자르기 힘들고 바삭이 아니라 딱딱해지는데 그 선을 잘 지켰다. 또 얼그레이 향이 그렇게 강하지는 않아 거부감 없이 먹었다. 라떼는 폴바셋 원두를 쓴다. 온라인 메뉴판에는 싱글오리진도 있던데 그걸로 시켜본다는 걸 깜빡했다. 바스크 치즈케이크는 겉면은 잘 탔는데 빵 부분이 바스크치고 쫀쫀한 식감은 아니라 조금 아쉬웠다. 

 서울특별시 강남구 압구정로46길 46


['127.035660120', '37.525645966']
서울특별시 강남구 테헤란로 322 한신인터밸리 3F
{'name': '커피코트 선릉 한신인터밸리점', 'score': '0.0', 'doro_addr': '서울특별시 강남구 테헤란로 322 한신인터밸리 3F', 'jibun_addr': '서울 강남구 역삼동 707-34', 'reviews': [{'id': 7842, 'review': '지난 두 번의 방문에서 로스터즈 같은 가게만의 특별한 개성이 묻어나는 맛과 향의 커피는 아니더라도 특정 품종의 원두에서 기대하는 맛과 향을 충실히 내면서 가격도 좋고 미국 느낌으로 에어 포트에서 따라서 마시는 게 추억 뿜뿜이었던 게 좋았던지라 포인트 적립도 등록을 했었음.  가게 위치도 그렇고 이 가게만의 차별점인 에어 포트를 이용해 주변 직장인들을 상대로 대용량 테이크 아웃 서비스도 제공하길래 집에서 마시는 네스프레소는 좀 오버해서 거의 백여가지 맛을 돌아가면서 마시고 있지만 에디오피아 말고는 식상한 느낌이던 중 에어 포트 테이크 아웃 서비스가 궁금해서 이용해보기로 함.  토요일은 평일보단 짧게 영업하지만 그래도 혹시나 해서 영업중인 걸 확인도 하고 에어 포트 테이크 아웃 서비스 문의도 할 겸 전활해보니 늘 친절하신 젊은 사장님 내진 점장님이 받으셨고 원랜 토요일에도 영업을 했었는데 주말에 지방에서 올라오신 손님들이 마스크도 착용을 하지 않고 이용하다 보니 문제가 있었어서 이젠 토요일엔 영업을 하지 않는데 오늘은 단체 손님 주문 관계로 나와 계시다고 하심.  에어 포트 테이크 아웃 서비스 이용 방법을 문의를 하니 핫 드립 커피는 7천 원에, 아이스나 콜드 브루는 13천 원에 커피 2.2리터가 든 에어 포트를 준비해 드리고 가져가셨다가 2-3일 내 또는 사정에 따라 조금 더 지나서 가게에 반납해 주시면 된다고 하심.  핫 드립 커피는 준비하는데 시간이 조금 더 걸리는지라 최소 픽업 10분 전에 아이스나 콜드 브루는 더 빨리 준비가 가능하다고 하시고 12시까지 가게에 계

 서울특별시 강남구 테헤란로 322


['127.046582408', '37.503235582']


In [69]:
final_mango = {}
id = 0
review_id = 0
for i,j in new_mango.items():
    i = re.sub('서울특별시', '서울', i)
    i = re.sub('강남구', '강남', i)
    j['jibun_addr'] = re.sub('서울특별시', '서울', j['jibun_addr'])
    j['jibun_addr'] = re.sub('강남구', '강남', j['jibun_addr'])
    j['id']=id
    id+=1
    for rev in j['reviews']:
        rev['id']=review_id
        review_id+=1
    final_mango[i] = j

In [84]:
# save
json.dump(final_mango, open('final_mango.json','w',encoding='utf-8'), ensure_ascii=False)

In [85]:
tokenized_corpus = [(i+' '+j['name']).split(' ') for i,j in final_mango.items()]
tokenized_corpus += [(j['jibun_addr']+' '+j['name']).split(' ') for i,j in final_mango.items()]
bm25_id_to_db_id = {}
c=0
for i,j in final_mango.items():
    bm25_id_to_db_id[c]=j['id']
    c+=1
for i,j in final_mango.items():
    bm25_id_to_db_id[c]=j['id']
    c+=1
bm25 = BM25Okapi(tokenized_corpus)

In [86]:
pickle.dump(bm25, open('mango_bm25','wb'))
pickle.dump(bm25_id_to_db_id, open('mango_bm25_id_to_db_id','wb'))

In [81]:
final_mango=json.load(open('final_mango.json','r',encoding='utf-8'))

In [83]:
final_mango = check_format(final_mango)
final_mango = make_ids(final_mango)

100%|████████████████████████████████████████████████████████████████████████████| 387/387 [00:00<00:00, 193629.45it/s]

387 ---> 387



