In [1]:
import os
import urllib

import certifi
from pymongo.server_api import ServerApi
from pymongo import MongoClient
from dotenv import load_dotenv
load_dotenv()

username = urllib.parse.quote_plus(os.environ['MONGODB_USERNAME'])
password = urllib.parse.quote_plus(os.environ['MONGODB_PASSWORD'])
uri = f"mongodb+srv://{username}:{password}@cluster0.dul5xz0.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"
client = MongoClient(uri, server_api=ServerApi('1'), tlsCAFile=certifi.where())
db = client.restaurant_db
collection = db.restaurant_info

# restaurants_info = list(collection.find({}, {'_id': False}))
restaurants_info = list(collection.find({}))
restaurants_info

[{'_id': '1363980',
  'restaurant': 'BHC-금호동점',
  'reviews': [{'menus': '뿌링클 콤보/1(음료선택 (서비스음료 미제공))',
    'review_text': '맛잇어요!!!!!!'},
   {'menus': '레드킹순살/1(음료선택 (서비스음료 미제공))', 'review_text': '매번 맛있게 잘 먹고 있어요.^^'},
   {'menus': '맛초킹순살/1(음료선택 (서비스음료 미제공))',
    'review_text': '요즘 치킨 체인들이 이런저런 이유로 가격을 올리고 서비스도 점점 줄어 드네요 교촌도 그래서 소비자들이 외면하는데 BHC는 안그랬으면 하네요 매장에서 먹을때보다 못한거 같네요 맛은 좋지만요'},
   {'menus': '쏘마치/1(음료선택 (콜라 1.25L))',
    'review_text': '넘 맛있어요~~ 적당히 맵고 달달하니 ㅎㅎ'},
   {'menus': '맛초킹/1(음료선택 (서비스음료 미제공))', 'review_text': '너무 짜요. ㅠㅠㅠㅠ'},
   {'menus': '맛초킹순살/1(음료선택 (콜라 1.25L),요청사항(미체크 시 기본제공) (치킨무 X),요청사항(미체크 시 기본제공) (기본제공 소스 X),디저트 (빨간소떡))',
    'review_text': '치맥 땡길 때 시켜 먹슴다..'},
   {'menus': '콰삭킹/1(음료선택 (서비스음료 미제공),요청사항(미체크 시 기본제공) (치킨무 X)),스윗하바네로소스(40g)/2',
    'review_text': '넘넘넘넘맛있어용!!'},
   {'menus': '콰삭킹 콤보/1(음료선택 (서비스음료 미제공)),뿌링클 콤보/1(음료선택 (서비스음료 미제공))',
    'review_text': '콰삭킹은 진짜 콰사삭합니다 짱맛~'},
   {'menus': '맛초킹/1(음료선택 (콜라 245ml)),소주/1', 'review_text': '맛있게 잘 먹었습니다'},
   {'menu

In [2]:
KEYWORDS_BLACKLIST = ['리뷰', 'zㅣ쀼', 'ZI쀼', 'Zl쀼', '리쀼', '찜', '이벤트', '추가', '소스']
KEYWORDS_CONTEXT = [
    '해장', '숙취',
    '다이어트'
]

In [3]:
def is_valid_menu(menu_name):
    return True if not any(keyword in menu_name for keyword in KEYWORDS_BLACKLIST) else False

is_valid_menu('[리쀼] 수박 추가')

False

In [4]:
def extract_keywords(review_text):
    keywords = []

    for word in review_text.split():
        if any(keyword in word for keyword in KEYWORDS_CONTEXT):
            keywords.append(word)
    return keywords

extract_keywords('완전 맛있었어요. 역시 해장에는 수박주스가 답이네요.')

['해장에는']

In [5]:
KEYWORDS_BLACKLIST = ['리뷰', 'zㅣ쀼', 'ZI쀼', 'Zl쀼', '찜', '이벤트', '추가']
KEYWORDS_CONTEXT = [
    '해장', '숙취',
    '다이어트'
]

menu_name2id = {}
menu_db = {}

unique_menus = set()
for index, restaurant in enumerate(restaurants_info):
    menu_name2id = {}
    for reviews in restaurant['reviews']:
        menus = reviews["menus"].split(',')
        review_text = reviews["review_text"]

        # 리뷰에 컨텍스트 관련 키워드 있는 지 확인
        keywords = extract_keywords(review_text)

        # 리뷰에 컨텍스트 관련 키워드 없으면 해당 리뷰 스킵
        if keywords == []:
            continue

        for menu in menus:
            menu_name = menu.split('/')[0]
            # 리뷰 이벤트 관련 메뉴 필터링
            if is_valid_menu(menu_name):
                if not menu_name in menu_name2id:
                    menu_idx = len(menu_name2id)
                    menu_id = '_'.join([restaurant['_id'], str(menu_idx)])
                    menu_name2id[menu_name] = menu_id

                    # Menu DB instances format
                    menu_db[menu_id] = {
                        "restaurant": restaurant["restaurant"],
                        "menu": menu_name,
                        "url": restaurant["url"],
                        "keywords": menu_name.split(),
                        "embeddings": None
                    }
                else:
                    menu_id = menu_name2id[menu_name]

                menu_db[menu_id]["keywords"].extend(keywords)

In [6]:
len(menu_db)

2

In [7]:
menu_db['1363980_0']

{'restaurant': 'BHC-금호동점',
 'menu': '뿌링클 스틱',
 'url': 'https://www.yogiyo.co.kr/mobile/#/1363980/',
 'keywords': ['뿌링클', '스틱', '다이어트중인데'],
 'embeddings': None}

In [8]:
import sys
sys.path.insert(0, "..")

from utils import get_embedding

for menu_id in menu_db:
    keywords = menu_db[menu_id]["keywords"] + [menu_db[menu_id]["menu"]]
    embedding = get_embedding(" ".join(keywords), model='text-embedding-3-large')
    menu_db[menu_id]["embeddings"] = embedding

In [9]:
db = client.menu_db
collection = db.menu_info

In [10]:
for menu_id in menu_db:
    result = collection.update_one({"_id": menu_id}, {"$set": menu_db[menu_id]}, upsert=True)