## 1. 크롤링 이후 리뷰 데이터에서 불용어, 특수문자 등 전처리
## 2. 전처리 된 리뷰 데이터에서 형태소 추출
## 3. 형태소 추출된 데이터에서 TF-IDF, KrWordRank로 키워드 20개 추출
## 4. 형태소 추출된 데이터에서 Gemini 이용 키워드 20개 추출

#### Keyword Extraction by TF-IDF 

In [1]:
import pandas as pd
import re
from konlpy.tag import Okt
from tqdm import tqdm
from sklearn.feature_extraction.text import TfidfVectorizer

#### 팀원들의 리뷰 데이터 병합

In [2]:
import json
with open('./review.json', 'r') as f:
    review = json.load(f)


In [5]:
import json
with open('keywords_yj.json', 'r', encoding='utf-8') as file:
    review_yj = json.load(file)
with open('mct_keyword_ms.json', 'r', encoding='utf-8') as file:
    review_ms = json.load(file)
with open('gemini_keywords_colab.json', 'r', encoding='utf-8') as file:
    review_yj2 = json.load(file)
review_ms = pd.DataFrame(columns=['MCT_NM', 'keyword'], data=review_ms.items())
review_yj = pd.DataFrame(columns=['MCT_NM', 'keyword'], data=review_yj.items())
review_yj2 = pd.DataFrame(columns=['MCT_NM', 'keyword'], data=review_yj2.items())
review = pd.concat([review_ms, review_yj, review_yj2])
review.reset_index(drop=True, inplace=True)

In [6]:
df = review.copy()

In [7]:
df.dropna(subset=['visit_mean'], inplace=True)

In [10]:
df.reset_index(drop=True, inplace=True)
df

Unnamed: 0,MCT_NM,review,visit_mean
0,탕탕이2호점,"[맛있어요, 맛있어요, 비싸지만 아주 맛있게 먹었습니다!!!, 재료가 신선하고 푸짐...",1.047619
1,뚱돼지,"[이런글 쓰고 싶진 않은데, 죄송하지만 살면서 먹은 고기중에 제일 별로였습니다......",1.064516
2,송이축산정육식당,[점심시간 메뉴를 고민하다가 최근 신메뉴가 나왔다고해서 먹으러 왔습니다. 원래 돼기...,1.960000
3,24시뼈다귀탕 신서귀점,[오랫만에 다시 찾은 곳💗\n여전히 맛있고 친절하시고~\n술맛도 너무 좋아요...!...,1.633333
4,명당양과노형점,"[옛 기억의 동네 빵집, 동네 빵집이에요, 맛있어요, 좋아요, 맛있어요, 좋아요, ...",2.680000
...,...,...,...
165,큰가름본점,"[ㅇㅇ, 감자탕 야채가 좀 부족한듯했어요., 맛있어서 가는곳인데 새해들어 볶음밥가격...",1.250000
166,뚜레쥬르 제주아라아이파크점,"[직원분이 친절하셨어요 빵 잘 구입했습니다, 아르바이트 하시는 직원분이 정말 친절하...",2.580000
167,마라힐링,[3번째방문인데 리뷰는 첨쓰네용\n넘맛있어요ㅎ\n꿔바로우소스는많이셔서 주의해야하지만...,1.407407
168,곽지해녀의집,[1년전인가 2년전인가 우연히 방문했다가 그동안 먹어봤던 물회와는 전혀다른 담백깔끔...,1.020000


In [7]:
okt = Okt()

def remove_non_korean(text):
    """리뷰에서 한글을 제외한 모든 문자 제거"""
    return re.sub(r"[^ㄱ-ㅎㅏ-ㅣ가-힣\s]", "", text)


def load_stopwords(filepath="k_stopword.txt"):
    """불용어 txt 파일을 읽어 불용어 리스트 반환"""
    with open(filepath, "r", encoding="utf-8") as f:
        stopwords = f.read().splitlines()
    return stopwords

stopwords = load_stopwords()


def okt_tokenize(text):
    """Okt를 이용한 형태소 분석 및 불필요 품사 제거"""
    # 형태소 분석 및 품사 태깅
    words = okt.pos(text, stem=True)  # 어간 추출
    
    # 필요한 품사만 필터링 (명사, 동사, 형용사, 부사)
    selected_words = [
        word for word, pos in words if pos in ['Noun', 'Verb', 'Adjective', 'Adverb']
    ]
    
    # 불용어 제거
    filtered_words = [word for word in selected_words if word not in stopwords]
    
    # 최종 단어들을 문자열로 반환
    return " ".join(filtered_words)


def preprocess_review(text):
    """리뷰 텍스트를 전처리하고 형태소 분석한 최종 결과 반환"""
    text = remove_non_korean(text)
    processed_text = okt_tokenize(text)
    
    return processed_text

def preprocess_review_list(text_list):
    """리뷰 텍스트를 전처리하고 형태소 분석한 최종 결과 반환"""
    preprocessed_text_list = []
    for text in text_list:
        text = remove_non_korean(text)
        processed_text = okt_tokenize(text)
        preprocessed_text_list.append(processed_text) 

    #text = remove_non_korean(text)
    #processed_text = okt_tokenize(text)

    preprocessed_text = " ".join(preprocessed_text_list)
    
    return preprocessed_text

In [8]:
# TF-IDF 키워드 추출 함수
def extract_keywords_tfidf(corpus, top_n):
    """TF-IDF를 사용해 각 문서의 상위 N개 키워드 추출"""
    vectorizer = TfidfVectorizer()
    X = vectorizer.fit_transform(corpus)
    features = vectorizer.get_feature_names_out()
    
    keywords = []
    for i in tqdm(range(X.shape[0])):
        row = X[i].toarray().flatten()
        top_indices = row.argsort()[-top_n:][::-1]
        top_keywords = [features[idx] for idx in top_indices]
        keywords.append(top_keywords)
    return keywords

In [11]:
df['pos_tag'] = df['keyword'].apply(preprocess_review_list)

In [39]:
# 이모티콘만 있는 경우 pos tag 값이 비어있으므로 제거

df = df[df['pos_tag'].apply(lambda x: len(x)>=10)]
df.reset_index(drop=True, inplace=True)

In [40]:
# pos_tag 열에서 키워드 추출
df['tf_idf_keywords'] = extract_keywords_tfidf(df['pos_tag'].tolist(),20)

100%|██████████| 169/169 [00:00<00:00, 8400.84it/s]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['tf_idf_keywords'] = extract_keywords_tfidf(df['pos_tag'].tolist(),20)


### kr wordrank 키워드 추출

In [None]:
#!pip install krwordrank

In [18]:
from krwordrank.word import KRWordRank

def krword(texts):
    #for texts in text_list:
    min_count = 1   # 단어의 최소 출현 빈도수 (그래프 생성 시)
    max_length = 10 # 단어의 최대 길이
    wordrank_extractor = KRWordRank(min_count=min_count, max_length=max_length)
    beta = 0.85    # PageRank의 decaying factor beta
    max_iter = 20
    t_list = []
    for text in texts:
          kr_text = remove_non_korean(text)
          processed_text = okt_tokenize(kr_text)
          t_list.append(processed_text)
    #texts = split_noun_sentences(text)
    keywords, rank, graph = wordrank_extractor.extract(t_list, beta, max_iter)
    output = []
    num = 0
    for word, r in sorted(keywords.items(), key=lambda x:x[1], reverse=True):
            #print('%8s:\\t%.4f' % (word, r))
            output.append(word)
            num += 1
            if num == 21:
                  break
    
    return output


In [41]:
df['krword_rank'] = df['review'].apply(krword)

 31%|███       | 20/65 [00:00<00:00, 466033.78it/s]
  8%|▊         | 20/258 [00:00<00:00, 555536.95it/s]
 11%|█         | 20/190 [00:00<00:00, 762600.73it/s]
  9%|▊         | 20/231 [00:00<00:00, 687590.82it/s]
 34%|███▍      | 20/58 [00:00<00:00, 397564.36it/s]
  9%|▉         | 20/221 [00:00<00:00, 621378.37it/s]
  4%|▍         | 20/478 [00:00<00:00, 607870.14it/s]
100%|██████████| 15/15 [00:00<00:00, 655360.00it/s]
 80%|████████  | 20/25 [00:00<00:00, 716975.04it/s]
  7%|▋         | 20/271 [00:00<00:00, 570653.61it/s]
  9%|▊         | 20/234 [00:00<00:00, 527585.41it/s]
  8%|▊         | 20/253 [00:00<00:00, 762600.73it/s]
 11%|█▏        | 20/177 [00:00<00:00, 693273.39it/s]
  5%|▍         | 20/431 [00:00<00:00, 645277.54it/s]
  6%|▋         | 20/314 [00:00<00:00, 273244.56it/s]
  6%|▌         | 20/339 [00:00<00:00, 687590.82it/s]
  8%|▊         | 20/236 [00:00<00:00, 693273.39it/s]
  7%|▋         | 20/272 [00:00<00:00, 660520.31it/s]
 26%|██▌       | 20/77 [00:00<00:00, 693273.39it/s

### GEMINI 키워드 추출

In [46]:
import google.generativeai as genai
import time
api_key = ###
genai.configure(api_key = api_key)
mct_keyword = {}
llm = genai.GenerativeModel("gemini-1.5-flash")

num = 1
for place, pos_tag in tqdm(df[['MCT_NM','pos_tag']].values):

        context = pos_tag
    
                        
        question = """
        MBTI 별 맛집 성향에 따른 음식점 추천을 하려고 해. 주어진 제주도 맛집에 대한 리뷰 명사 및 동사 텍스트 기반해 주요 20개의 키워드를 추출해줘. 설명 없이 키워드만 나열해줘.
        키워드를 통해 맛, 만족도, 서비스, 분위기, 음식량 등을 파악할 수 있도록 추출해줘.

        """

        messages = f"""
            주어진 리뷰 명사 및 동사 텍스트를 기반으로 사용자의 질문에 답변하세요.
            답변은 한국어로 작성하세요.

            리뷰 명사 및 동사 텍스트: {context}

            사용자 질문: {question}
            
            답변 예시 : 음식점1 : [키워드1, 키워드2, 키워드3, 키워드4, 키워드5, 키워드6, 키워드7, 키워드8, 키워드9, 키워드10, 키워드11, 키워드12, 키워드13, 키워드14, 키워드15, 키워드16, 키워드17, 키워드18, 키워드19, 키워드20]

            """

        try:
                response = llm.generate_content(
                                messages,
                                #safety_settings="BLOCK_NONE",
                        
                        )
                time.sleep(3)
                mct_keyword[place] = response.text
                num += 1
        except Exception as e:
                time.sleep(5)
                print(e)
                num += 1
                llm = genai.GenerativeModel("gemini-1.5-flash")
                response = llm.generate_content(
                                messages,
                                #safety_settings="BLOCK_NONE",
                        
                        )
                if response.text != '':
                        mct_keyword[place] = response.text
                        num += 1
                else:
                        pass

        if num % 10 == 0:
                # print(f'{num}번째 키워드 추출 완료')
                time.sleep(3)
                llm = genai.GenerativeModel("gemini-1.5-flash")


  from .autonotebook import tqdm as notebook_tqdm
  5%|▍         | 8/169 [00:30<10:06,  3.76s/it]

10번째 키워드 추출 완료


 11%|█         | 18/169 [01:12<09:42,  3.86s/it]

20번째 키워드 추출 완료


 17%|█▋        | 28/169 [01:53<08:59,  3.83s/it]

30번째 키워드 추출 완료


 22%|██▏       | 38/169 [02:34<08:25,  3.86s/it]

40번째 키워드 추출 완료


 28%|██▊       | 48/169 [03:15<07:50,  3.89s/it]

50번째 키워드 추출 완료


 34%|███▍      | 58/169 [04:21<09:25,  5.10s/it]

60번째 키워드 추출 완료


 40%|████      | 68/169 [05:03<06:36,  3.93s/it]

70번째 키워드 추출 완료


 46%|████▌     | 78/169 [05:45<05:58,  3.94s/it]

80번째 키워드 추출 완료


 49%|████▊     | 82/169 [06:04<06:16,  4.33s/it]

500 An internal error has occurred. Please retry or report in https://developers.generativeai.google/guide/troubleshooting


 51%|█████▏    | 87/169 [06:26<05:33,  4.07s/it]

90번째 키워드 추출 완료


 52%|█████▏    | 88/169 [06:32<06:35,  4.89s/it]

500 An internal error has occurred. Please retry or report in https://developers.generativeai.google/guide/troubleshooting


 57%|█████▋    | 96/169 [07:07<04:59,  4.10s/it]

100번째 키워드 추출 완료


 63%|██████▎   | 106/169 [07:50<04:14,  4.04s/it]

110번째 키워드 추출 완료


 69%|██████▊   | 116/169 [08:32<03:27,  3.92s/it]

120번째 키워드 추출 완료


 75%|███████▍  | 126/169 [09:14<02:48,  3.91s/it]

130번째 키워드 추출 완료


 80%|████████  | 136/169 [09:55<02:08,  3.90s/it]

140번째 키워드 추출 완료


 86%|████████▋ | 146/169 [10:37<01:30,  3.93s/it]

150번째 키워드 추출 완료


 92%|█████████▏| 156/169 [11:18<00:50,  3.89s/it]

160번째 키워드 추출 완료


 98%|█████████▊| 166/169 [12:02<00:11,  3.89s/it]

170번째 키워드 추출 완료


100%|██████████| 169/169 [12:16<00:00,  4.36s/it]


In [None]:
llm_df = pd.DataFrame(mct_keyword.items(), columns=['MCT_NM', 'LLM_keywords'])
pd.merge(df, llm_df, on='MCT_NM', how='left').to_csv('review_keyword.csv', index=False)
review_df = pd.read_csv('review_keyword.csv')