In [1]:
import langchain

In [3]:
import os
import pandas as pd
from typing import List

# LangChain 및 Pydantic 관련 라이브러리 임포트
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import JsonOutputParser
from langchain_core.pydantic_v1 import BaseModel, Field


For example, replace imports like: `from langchain_core.pydantic_v1 import BaseModel`
with: `from pydantic import BaseModel`
or the v1 compatibility namespace if you are working in a code base that has not been fully upgraded to pydantic 2 yet. 	from pydantic.v1 import BaseModel

  exec(code_obj, self.user_global_ns, self.user_ns)


In [4]:
os.environ["GOOGLE_API_KEY"] = "AIzaSyDcjIqdkJlPyBehWkIMA84ifrW0RJJ0GqU"

In [13]:


# --- 1. 데이터 구조 정의 (Pydantic 모델) ---
# LLM이 반환할 JSON의 형식을 미리 정의합니다.
class RestaurantLabels(BaseModel):
    """국밥 가게의 특징을 나타내는 데이터 모델"""
    A_1_가게_분위기: str = Field(description="가게의 전반적인 분위기. [노포/전통, 동네 맛집, 관광/대형, 모던/체인] 중 하나. 정보 없으면 '정보 없음'")
    A_2_주차: str = Field(description="주차 편의성. [전용주차장, 주차지원, 인근공영, 주차어려움] 중 하나. 정보 없으면 '정보 없음'")
    A_3_좌석: List[str] = Field(description="좌석의 특징. [입식 위주, 좌식 있음, 혼밥 용이] 중에서 해당하는 모든 것을 리스트로 포함. 정보 없으면 빈 리스트 []")

    B_1_국물_스타일: str = Field(description="국물의 대표적인 스타일. [맑은/깔끔형, 뽀얀/진한형] 중 하나. 정보 없으면 '정보 없음'")
    B_2_잡내_유무: str = Field(description="돼지고기 잡내에 대한 평가. [잡내 없음, 구수한 편, 잡내 약간 있음] 중 하나. 정보 없으면 '정보 없음'")
    B_3_밥_제공_방식: str = Field(description="밥이 제공되는 방식. [따로국밥, 토렴식] 중 하나. 정보 없으면 '정보 없음'")
    B_4_주요_고기_부위_특징: List[str] = Field(description="사용되는 고기의 주요 부위나 특징. [항정살, 삼겹/오겹, 살코기 위주, 머릿고기 위주, 부드러운 식감, 푸짐한 고기 양] 중에서 해당하는 모든 것을 리스트로 포함. 정보 없으면 빈 리스트 []")
    B_5_순대_종류: str = Field(description="순대국밥의 순대 종류. [찰순대, 고기/피순대, 순대 없음] 중 하나. 정보 없으면 '정보 없음'")
    B_6_내장_유무: str = Field(description="내장을 취급하는지 여부. [내장 취급, 내장 없음] 중 하나. 정보 없으면 '정보 없음'")

    C_1_김치_특징: str = Field(description="김치의 스타일. [겉절이 스타일, 익은 김치 스타일] 중 하나. 정보 없으면 '정보 없음'")
    C_2_깍두기_특징: str = Field(description="깍두기의 맛 특징. [달달한 맛, 새콤한 맛] 중 하나. 정보 없으면 '정보 없음'")
    C_3_특색_반찬: List[str] = Field(description="기본 반찬 외 특색있는 반찬. [소면 제공, 양파절임 제공, 쌈채소 제공] 중에서 해당하는 모든 것을 리스트로 포함. 정보 없으면 빈 리스트 []")

    D_1_대표_추천_메뉴: str = Field(description="리뷰에서 가장 많이 추천되는 메뉴. [기본 돼지국밥, 수육백반, 섞어/모듬국밥] 중 하나. 정보 없으면 '정보 없음'")
    D_2_리필_정책: List[str] = Field(description="리필 가능 항목. [국물 리필, 밥 리필, 반찬 셀프바] 중에서 해당하는 모든 것을 리스트로 포함. 정보 없으면 빈 리스트 []")
    D_3_가격대: str = Field(description="기본 국밥의 가격대. [가성비(~9000원), 평균(10000원), 고가(11000원~)] 중 하나. 정보 없으면 '정보 없음'")

# --- 2. LangChain 체인 설정 ---
def create_labeling_chain():
    """LLM, 프롬프트, 파서를 연결하여 체인을 생성하는 함수"""
    # Gemini 모델 설정
    # temperature=0으로 설정하여 일관성 있는 결과 도출
    llm = ChatGoogleGenerativeAI(model="models/gemini-1.5-flash-latest", temperature=0.2)

    # JSON 파서 설정
    parser = JsonOutputParser(pydantic_object=RestaurantLabels)

    # 프롬프트 템플릿 설정
    prompt = ChatPromptTemplate.from_messages([
        ("system", """당신은 음식점 리뷰를 분석하여 데이터를 추출하는 전문 분석가입니다. 
         주어진 여러 개의 리뷰 텍스트를 종합적으로 분석하여, 아래의 JSON 형식에 맞춰 가게의 특징을 라벨링해주세요.
         리뷰에서 정보를 찾을 수 없는 항목은 지시사항에 따라 '정보 없음' 또는 빈 리스트 []로 채워주세요.
         추측하지 말고 반드시 리뷰에 있는 내용만을 기반으로 답해야 합니다.
         \n{format_instructions}"""),
        ("human", "다음은 '{restaurant_name}' 가게의 리뷰 모음입니다. 분석해주세요.\n\n---\n{reviews_text}\n---")
    ])

    # 체인 생성
    chain = prompt | llm | parser
    return chain

# --- 3. 리뷰 파일 처리 및 라벨 추출 함수 ---
def extract_labels_from_file(file_path, chain):
    """CSV 파일에서 리뷰를 읽고, LLM 체인을 통해 라벨을 추출하는 함수"""
    try:
        # 파일명에서 가게 이름 추출 (예: '가야공원돼지국밥_블로그리뷰.csv' -> '가야공원돼지국밥')
        restaurant_name = os.path.basename(file_path).split('_')[0]
        print(f"[{restaurant_name}] 리뷰 파일 처리 중...")

        # CSV 파일 읽기
        df = pd.read_csv(file_path)

        # '리뷰' 컬럼의 모든 내용을 하나의 텍스트로 합치기
        # 각 리뷰는 "---"로 구분하여 LLM이 개별 리뷰로 인식하도록 돕습니다.
        reviews_text = "\n---\n".join(df['리뷰'].dropna().astype(str))

        if not reviews_text:
            print(f"[{restaurant_name}] 리뷰 내용이 없어 건너뜁니다.")
            return None

        # LLM 체인 호출하여 라벨 추출
        response = chain.invoke({
            "restaurant_name": restaurant_name,
            "reviews_text": reviews_text,
            "format_instructions": JsonOutputParser(pydantic_object=RestaurantLabels).get_format_instructions()
        })
        
        # 결과에 가게 이름 추가
        response['가게명'] = restaurant_name
        
        print(f"[{restaurant_name}] 라벨 추출 완료.")
        return response

    except FileNotFoundError:
        print(f"오류: 파일 '{file_path}'을(를) 찾을 수 없습니다.")
        return None
    except Exception as e:
        print(f"'{file_path}' 처리 중 오류 발생: {e}")
        return None

In [49]:
len(all_results)

49

In [198]:
file_root = './data/유명가게_리뷰/'
files_to_process = os.listdir(file_root)

# LangChain 체인 생성
labeling_chain = create_labeling_chain()

all_results = []

In [222]:
all_results = all_results[:-1]

In [232]:
all_results[-1]

{'A_1_가게_분위기': '동네 맛집',
 'A_2_주차': '전용주차장',
 'A_3_좌석': ['입식 위주', '좌식 있음'],
 'B_1_국물_스타일': '뽀얀/진한형',
 'B_2_잡내_유무': '잡내 없음',
 'B_3_밥_제공_방식': '따로국밥',
 'B_4_주요_고기_부위_특징': ['삼겹/오겹', '살코기 위주', '푸짐한 고기 양'],
 'B_5_순대_종류': '찰순대',
 'B_6_내장_유무': '내장 취급',
 'C_1_김치_특징': '겉절이 스타일',
 'C_2_깍두기_특징': ['달달한 맛', '새콤한 맛'],
 'C_3_특색_반찬': ['양파절임 제공'],
 'D_1_대표_추천_메뉴': '기본 돼지국밥',
 'D_2_리필_정책': ['밥 리필', '반찬 셀프바'],
 'D_3_가격대': '평균(10000원)',
 '가게명': '합천일류돼지국밥'}

In [233]:
for file in files_to_process[len(all_results):]:
    file = file_root + file
    result = extract_labels_from_file(file, labeling_chain)
    if result:
        all_results.append(result)

[형제돼지국밥] 리뷰 파일 처리 중...
[형제돼지국밥] 라벨 추출 완료.


In [268]:
# 추출된 결과를 데이터프레임으로 변환
if all_results:
    final_df = pd.DataFrame(all_results)
    
    # 컬럼 순서 재정렬 (가게명을 맨 앞으로)
    cols = ['가게명'] + [col for col in final_df.columns if col != '가게명']
    final_df = final_df[cols]
    
    print("\n--- 최종 추출 결과 데이터프레임 ---")
    pd.set_option('display.max_columns', None) # 모든 컬럼 보이게 설정
    pd.set_option('display.width', 1000) # 너비 설정
    
    # 결과를 CSV 파일로 저장
    final_df = final_df.rename(columns={'가게명': '식당명'})
    output_filename = './data/유명가게_라벨링.csv'
    final_df.to_csv(output_filename, index=False)
    print(f"\n결과가 '{output_filename}' 파일로 저장되었습니다.")
else:
    print("\n처리된 결과가 없습니다.")


--- 최종 추출 결과 데이터프레임 ---

결과가 './data/유명가게_라벨링.csv' 파일로 저장되었습니다.


In [270]:
final_df.head()

Unnamed: 0,식당명,A_1_가게_분위기,A_2_주차,A_3_좌석,B_1_국물_스타일,B_2_잡내_유무,B_3_밥_제공_방식,B_4_주요_고기_부위_특징,B_5_순대_종류,B_6_내장_유무,C_1_김치_특징,C_2_깍두기_특징,C_3_특색_반찬,D_1_대표_추천_메뉴,D_2_리필_정책,D_3_가격대
0,60년 전통 할매국밥,노포/전통,주차지원,[입식 위주],맑은/깔끔형,잡내 없음,토렴식,"[부드러운 식감, 푸짐한 고기 양]",정보 없음,내장 취급,정보 없음,정보 없음,[부추무침 제공],기본 돼지국밥,"[국물 리필, 반찬 셀프바]",가성비(~9000원)
1,경주박가국밥,동네 맛집,주차어려움,[입식 위주],뽀얀/진한형,"[잡내 없음, 잡내 약간 있음]",따로국밥,"[푸짐한 고기 양, 부드러운 식감]",찰순대,내장 취급,익은 김치 스타일,"[달달한 맛, 새콤한 맛]",[소면 제공],기본 돼지국밥,"[밥 리필, 반찬 셀프바]",가성비(~9000원)
2,경주전통돼지국밥,노포/전통,주차지원,"[입식 위주, 좌식 있음]",뽀얀/진한형,잡내 없음,따로국밥,"[푸짐한 고기 양, 부드러운 식감]",찰순대,내장 취급,익은 김치 스타일,새콤한 맛,[소면 제공],기본 돼지국밥,[],가성비(~9000원)
3,교통부돼지국밥,동네 맛집,주차어려움,"[입식 위주, 좌식 있음]",맑은/깔끔형,잡내 없음,"[따로국밥, 토렴식]","[삼겹/오겹, 부드러운 식감, 푸짐한 고기 양]","[찰순대, 고기/피순대]",내장 취급,"[겉절이 스타일, 익은 김치 스타일]","[달달한 맛, 새콤한 맛]",[양파절임 제공],기본 돼지국밥,"[국물 리필, 밥 리필]",가성비(~9000원)
4,남해돼지국밥,동네 맛집,주차지원,"[입식 위주, 좌식 있음]",뽀얀/진한형,잡내 없음,따로국밥,"[부드러운 식감, 푸짐한 고기 양]",찰순대,내장 취급,겉절이 스타일,달달한 맛,[소면 제공],기본 돼지국밥,"[국물 리필, 밥 리필]",가성비(~9000원)


In [271]:
final_df.shape

(49, 16)

In [273]:
famous_df = pd.read_csv('./data/유명가게_수집현황.csv')
final_df = pd.merge(final_df, famous_df[['식당명', '주소']], on = '식당명', how = 'left')
output_filename = './data/유명가게_라벨링.csv'
final_df.to_csv(output_filename, index=False)
final_df.shape

(50, 17)

In [292]:
output_filename = './data/유명가게_라벨링.csv'
final_df.to_csv(output_filename, index=False)
final_df.shape

(49, 17)

In [295]:
file_root = './data/전체가게_리뷰/'
files_to_process = os.listdir(file_root)

# LangChain 체인 생성
labeling_chain = create_labeling_chain()

all_results = []

In [310]:
len(all_results)

55

In [309]:
for file in files_to_process[len(all_results):]:
    file = file_root + file
    result = extract_labels_from_file(file, labeling_chain)
    if result:
        all_results.append(result)

[흥부돼지국밥] 리뷰 파일 처리 중...
[흥부돼지국밥] 라벨 추출 완료.


In [311]:
# 추출된 결과를 데이터프레임으로 변환
if all_results:
    final_df = pd.DataFrame(all_results)
    
    # 컬럼 순서 재정렬 (가게명을 맨 앞으로)
    cols = ['가게명'] + [col for col in final_df.columns if col != '가게명']
    final_df = final_df[cols]
    
    print("\n--- 최종 추출 결과 데이터프레임 ---")
    pd.set_option('display.max_columns', None) # 모든 컬럼 보이게 설정
    pd.set_option('display.width', 1000) # 너비 설정
    
    # 결과를 CSV 파일로 저장
    final_df = final_df.rename(columns={'가게명': '식당명'})
    output_filename = './data/전체가게_라벨링.csv'
    final_df.to_csv(output_filename, index=False)
    print(f"\n결과가 '{output_filename}' 파일로 저장되었습니다.")
else:
    print("\n처리된 결과가 없습니다.")


--- 최종 추출 결과 데이터프레임 ---

결과가 './data/전체가게_라벨링.csv' 파일로 저장되었습니다.


In [312]:
final_df.head()

Unnamed: 0,식당명,A_1_가게_분위기,A_2_주차,A_3_좌석,B_1_국물_스타일,B_2_잡내_유무,B_3_밥_제공_방식,B_4_주요_고기_부위_특징,B_5_순대_종류,B_6_내장_유무,C_1_김치_특징,C_2_깍두기_특징,C_3_특색_반찬,D_1_대표_추천_메뉴,D_2_리필_정책,D_3_가격대
0,가야공원돼지국밥,동네 맛집,주차지원,[입식 위주],뽀얀/진한형,잡내 없음,따로국밥,"[항정살, 부드러운 식감, 푸짐한 고기 양]",정보 없음,내장 취급,익은 김치 스타일,달달한 맛,[소면 제공],수육백반,"[밥 리필, 반찬 셀프바]",가성비(~9000원)
1,가야돼지국밥,동네 맛집,주차어려움,"[입식 위주, 혼밥 용이]",뽀얀/진한형,잡내 없음,따로국밥,"[항정살, 부드러운 식감, 푸짐한 고기 양]",찰순대,내장 취급,익은 김치 스타일,"[달달한 맛, 새콤한 맛]",[소면 제공],기본 돼지국밥,"[국물 리필, 밥 리필]",평균(10000원)
2,고려돼지국밥,정보 없음,정보 없음,[입식 위주],맑은/깔끔형,잡내 없음,따로국밥,"[살코기 위주, 부드러운 식감]",정보 없음,정보 없음,정보 없음,정보 없음,[소면 제공],기본 돼지국밥,[],가성비(~9000원)
3,금문돼지국밥,노포/전통,주차공간,"[입식 위주, 좌식 있음]",맑은/깔끔형,잡내 없음,따로국밥,"[살코기 위주, 부드러운 식감, 푸짐한 고기 양]",찰순대,내장 취급,익은 김치 스타일,"[달달한 맛, 새콤한 맛]",[소면 제공],섞어/모듬국밥,[],가성비(~9000원)
4,늘찬돼지국밥,동네 맛집,주차어려움,[입식 위주],맑은/깔끔형,잡내 없음,따로국밥,"[살코기 위주, 푸짐한 고기 양]",찰순대,내장 취급,겉절이 스타일,달달한 맛,[소면 제공],돼지국밥,"[국물 리필, 밥 리필]",가성비(~9000원)


In [313]:
final_df.shape

(55, 16)

In [314]:
total_df = pd.read_csv('./data/전체가게_수집현황.csv')
total_df = total_df.drop(index = [3, 56, 60, 22])
total_df = total_df[total_df['수집여부'] == True]
final_df = pd.merge(final_df, total_df[['식당명', '주소']], on = '식당명', how = 'left' )
output_filename = './data/전체가게_라벨링.csv'
final_df.to_csv(output_filename, index=False)
final_df.shape

(55, 17)

In [317]:
final_df['식당명'].duplicated().sum()

0

In [318]:
famous_label_df = pd.read_csv('./data/유명가게_라벨링.csv')
total_label_df = pd.read_csv('./data/전체가게_라벨링.csv')
famous_label_df['유명'] = 1
total_label_df['유명'] = 0
total = pd.concat([famous_label_df, total_label_df])
total.reset_index(drop=True, inplace=True)
total

Unnamed: 0,식당명,A_1_가게_분위기,A_2_주차,A_3_좌석,B_1_국물_스타일,B_2_잡내_유무,B_3_밥_제공_방식,B_4_주요_고기_부위_특징,B_5_순대_종류,B_6_내장_유무,C_1_김치_특징,C_2_깍두기_특징,C_3_특색_반찬,D_1_대표_추천_메뉴,D_2_리필_정책,D_3_가격대,주소,유명
0,60년 전통 할매국밥,노포/전통,주차지원,['입식 위주'],맑은/깔끔형,잡내 없음,토렴식,"['부드러운 식감', '푸짐한 고기 양']",정보 없음,내장 취급,정보 없음,정보 없음,['부추무침 제공'],기본 돼지국밥,"['국물 리필', '반찬 셀프바']",가성비(~9000원),동구 중앙대로533번길 4,1
1,경주박가국밥,동네 맛집,주차어려움,['입식 위주'],뽀얀/진한형,"['잡내 없음', '잡내 약간 있음']",따로국밥,"['푸짐한 고기 양', '부드러운 식감']",찰순대,내장 취급,익은 김치 스타일,"['달달한 맛', '새콤한 맛']",['소면 제공'],기본 돼지국밥,"['밥 리필', '반찬 셀프바']",가성비(~9000원),부산광역시 동래구 사직북로13번길 12,1
2,경주전통돼지국밥,노포/전통,주차지원,"['입식 위주', '좌식 있음']",뽀얀/진한형,잡내 없음,따로국밥,"['푸짐한 고기 양', '부드러운 식감']",찰순대,내장 취급,익은 김치 스타일,새콤한 맛,['소면 제공'],기본 돼지국밥,[],가성비(~9000원),부산시 북구 만덕2로44번길43,1
3,교통부돼지국밥,동네 맛집,주차어려움,"['입식 위주', '좌식 있음']",맑은/깔끔형,잡내 없음,"['따로국밥', '토렴식']","['삼겹/오겹', '부드러운 식감', '푸짐한 고기 양']","['찰순대', '고기/피순대']",내장 취급,"['겉절이 스타일', '익은 김치 스타일']","['달달한 맛', '새콤한 맛']",['양파절임 제공'],기본 돼지국밥,"['국물 리필', '밥 리필']",가성비(~9000원),부산광역시 부산진구 연지로 12-1 1층,1
4,남해돼지국밥,동네 맛집,주차지원,"['입식 위주', '좌식 있음']",뽀얀/진한형,잡내 없음,따로국밥,"['부드러운 식감', '푸짐한 고기 양']",찰순대,내장 취급,겉절이 스타일,달달한 맛,['소면 제공'],기본 돼지국밥,"['국물 리필', '밥 리필']",가성비(~9000원),부산광역시 해운대구 선수촌로 184,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99,행복돼지국밥,동네 맛집,주차어려움,"['입식 위주', '좌식 있음']",뽀얀/진한형,잡내 없음,정보 없음,"['부드러운 식감', '푸짐한 고기 양']","['찰순대', '고기/피순대']",내장 취급,익은 김치 스타일,정보 없음,['소면 제공'],"['기본 돼지국밥', '수육백반', '섞어/모듬국밥']","['밥 리필', '반찬 셀프바']",가성비(~9000원),부산광역시 금정구 금샘로 567-1,0
100,현대보쌈돼지국밥,정보 없음,인근공영,['입식 위주'],맑은/깔끔형,잡내 없음,정보 없음,['부드러운 식감'],정보 없음,내장 취급,정보 없음,정보 없음,[],보쌈정식,[],가성비(~9000원),부산광역시 금정구 부곡로 45,0
101,화남정돼지국밥,모던/체인,주차어려움,"['입식 위주', '혼밥 용이']",뽀얀/진한형,잡내 없음,따로국밥,"['항정살', '부드러운 식감', '푸짐한 고기 양']",야채순대,내장 취급,겉절이 스타일,정보 없음,"['소면 제공', '쌈채소 제공']",항정살 돼지국밥,"['밥 리필', '반찬 셀프바']",평균(10000원),"부산광역시 부산진구 성지로 50, 1층",0
102,화로돼지국밥,동네 맛집,주차어려움,['입식 위주'],정보 없음,잡내 없음,정보 없음,"['부드러운 식감', '푸짐한 고기 양']",찰순대,정보 없음,정보 없음,달달한 맛,['부추'],기본 돼지국밥,['반찬 셀프바'],가성비(~9000원),부산광역시 금정구 수림로19번길 25,0


In [320]:
total.drop(index=[60, 83], inplace=True)
total.reset_index(inplace=True, drop=True)

In [322]:
total.to_csv('./data/가게합본.csv')

In [17]:
import pandas as pd
df = pd.read_csv('./data/가게합본_사진수집현황.csv')
df = df[df['식당명'].isin(['영진돼지국밥 본점', '합천국밥집'])][['식당명', 'A_1_가게_분위기', 'A_2_주차', 'A_3_좌석', 'B_1_국물_스타일', 'B_2_잡내_유무',
       'B_3_밥_제공_방식', 'B_4_주요_고기_부위_특징', 'B_5_순대_종류', 'B_6_내장_유무', 'C_1_김치_특징',
       'C_2_깍두기_특징', 'C_3_특색_반찬', 'D_2_리필_정책']]
df.columns = ['식당명', 'A_1_가게_분위기', 'A_2_주차', 'A_3_좌석', 'B_1_국물_스타일', 'B_2_잡내_유무',
       'B_3_밥_제공_방식', 'B_4_주요_고기_부위_특징', 'B_5_순대_종류', 'B_6_내장_유무', 'C_1_김치_특징',
       'C_2_깍두기_특징', 'C_3_특색_반찬', 'D_1_리필_정책']
df['B_5_순대_종류'] = '고기/피순대'
df['D_1_리필_정책'] = "['국물 리필']"
df

Unnamed: 0,식당명,A_1_가게_분위기,A_2_주차,A_3_좌석,B_1_국물_스타일,B_2_잡내_유무,B_3_밥_제공_방식,B_4_주요_고기_부위_특징,B_5_순대_종류,B_6_내장_유무,C_1_김치_특징,C_2_깍두기_특징,C_3_특색_반찬,D_1_리필_정책
24,영진돼지국밥 본점,동네 맛집,전용주차장,['입식 위주'],뽀얀/진한형,잡내 없음,따로국밥,"['항정살', '부드러운 식감', '푸짐한 고기 양']",고기/피순대,내장 취급,익은 김치 스타일,정보 없음,"['쌈채소 제공', '두부 제공', '볶음김치 제공']",['국물 리필']
42,합천국밥집,동네 맛집,주차지원,['입식 위주'],맑은/깔끔형,잡내 없음,따로국밥,"['부드러운 식감', '푸짐한 고기 양']",고기/피순대,내장 취급,겉절이 스타일,정보 없음,['양파절임 제공'],['국물 리필']
