In [17]:
import os
from openai import OpenAI
from dotenv import load_dotenv
# 절대경로나 정확한 상대경로 지정
load_dotenv('C:/Users/Admin/kpmg_future_lab/LLM_ex/yanolja_summary/.env', override=True)
# 환경 변수에서 API 키 가져오기
OPENAI_API_KEY = os.environ.get("OPENAI_API_KEY")
print(f"API Key loaded: {OPENAI_API_KEY[:10]}...")  # 앞 10글자만 출력 (확인용)
# OpenAI 클라이언트 생성
client = OpenAI(api_key=OPENAI_API_KEY)

API Key loaded: sk-proj-vm...


In [18]:
import json
import pandas as pd
# df 로딩
def load_data(data_path, h_id):
    with open(f'{data_path}', 'r', encoding='utf-8') as file:
        json_data = json.load(file)
        
        # pandas DataFrame으로 변환
        df = pd.DataFrame(json_data)
        
        # # accommodation_id 컬럼 설정
        df['accommodation_id'] = h_id
        
        # 날짜 형식 변환 (YYYY.MM.DD -> YYYY-MM-DD)
        df['date'] = df['date'].str.replace('.', '-')


        print(f"로딩된 데이터: {len(df)}개 리뷰")
        print("원본 데이터:")

        # print(df.head(5))
        return df

In [19]:
from dotenv import load_dotenv
import os
import pandas as pd
from sqlalchemy import create_engine


# mysql 환경변수 로딩
load_dotenv('.env', override=True)

# 메모리에 로딩된 값을 api_key 변수에 대입
USER = os.environ.get("USER")
PASSWORD = os.environ.get("PASSWORD")
HOST = os.environ.get("HOST")
DB_NAME = os.environ.get("DB_NAME")

# mysql 연결 시
# "mysql+pymysql://user_ID:password@host_IP:3306/DB_name"
db_url = f"mysql+pymysql://{USER}:{PASSWORD}@{HOST}:3306/{DB_NAME}?charset=utf8mb4"

In [20]:
# df -> db save
def save_to_db(df, table_name):
    try:
        # SQLAlchemy 엔진 생성
        engine = create_engine(db_url)

        # DataFrame을 MySQL 테이블에 저장
        df.to_sql(
            name = table_name,
            con=engine,
            if_exists='append',  # 기존 데이터에 추가
            index=False,         # 인덱스는 저장하지 않음
            method='multi'       # 성능 향상을 위한 bulk insert
        )

        print(f"SQLAlchemy를 통해 {len(df)}개의 리뷰가 성공적으로 저장되었습니다.")

    except Exception as e:
        print(f"SQLAlchemy 저장 중 오류 발생: {e}")

In [21]:
import pandas as pd
df = pd.read_csv("./res/accommodation_info.csv", encoding='utf-8')
# 숙소정보 DB 저장
table_name = 'accommodation_info'

df.head()
save_to_db(df, table_name)
# print(f"{table_name}에 데이터 저장 완료")

SQLAlchemy를 통해 4개의 리뷰가 성공적으로 저장되었습니다.


In [22]:
MAPPING = {
    1: './res/1.gangneung_mare.json',
    2: './res/2.insadong_ninetree.json',
    3: './res/3.kyongpo_the_hongc.json',
    4: './res/4.hongcheon_vivaldi.json'
}

table_name='accommodation_review'
for id, data_file in MAPPING.items():
    save_to_db(load_data(data_file, h_id=id), table_name)
    print(f"{data_file} 데이터 저장 완료")

로딩된 데이터: 420개 리뷰
원본 데이터:
SQLAlchemy를 통해 420개의 리뷰가 성공적으로 저장되었습니다.
./res/1.gangneung_mare.json 데이터 저장 완료
로딩된 데이터: 420개 리뷰
원본 데이터:
SQLAlchemy를 통해 420개의 리뷰가 성공적으로 저장되었습니다.
./res/2.insadong_ninetree.json 데이터 저장 완료
로딩된 데이터: 420개 리뷰
원본 데이터:
SQLAlchemy를 통해 420개의 리뷰가 성공적으로 저장되었습니다.
./res/3.kyongpo_the_hongc.json 데이터 저장 완료
로딩된 데이터: 420개 리뷰
원본 데이터:
SQLAlchemy를 통해 420개의 리뷰가 성공적으로 저장되었습니다.
./res/4.hongcheon_vivaldi.json 데이터 저장 완료


In [23]:
# models.py 모듈을 인식하기 위해 경로 추가
import sys
sys.path.append('G:/future_lab_2025/llm_ex/yanolja-summarization/data_prepare')  # 실제 경로로 변경

In [24]:
import os
from modules import preprocess_reviews, summarize, load_prompt

OPENAI_API_KEY = os.environ['OPENAI_API_KEY']

# 1shot 프롬프트 로드
PROMPT = load_prompt()

# 리뷰 데이터 전처리
MAPPING = {
    1: './res/1.gangneung_mare.json',
    2: './res/2.insadong_ninetree.json',
    3: './res/3.kyongpo_the_hongc.json',
    4: './res/4.hongcheon_vivaldi.json'
}
table_name='review_summary'

# 리뷰 전처리
for id, path in MAPPING.items():
    reviews_good, reviews_bad = preprocess_reviews(path)

    if reviews_good:
        summary_good = summarize(reviews_good).choices[0].message.content
        # print(summary_good)
    else:
        summary_good = "분석할 높은 평점 리뷰가 없습니다."
    # 나쁜 리뷰 요약
    if reviews_bad:
        summary_bad = summarize(reviews_bad).choices[0].message.content
        # print(summary_bad)
    else:
        summary_bad = "분석할 낮은 평점 리뷰가 없습니다."

    # 처리결과 데이터 프레임으로 만들어서 저장하기
    df = pd.DataFrame({
        'accommodation_id': [id],
        'summary_good': [summary_good],
        'summary_bad': [summary_bad],
        'date': [pd.Timestamp.now().strftime('%Y-%m-%d')]
    })
    print(df)

    # # MySQL에 저장    
    save_to_db(df, table_name)
    print(f"{path} 숙소의 리뷰 요약이 완료되었습니다.")

   accommodation_id                                       summary_good  \
0                 1  바닷가 바로 앞에 위치한 숙소로, 객실은 깨끗하고 샤워기 수압이 좋아서 만족스러웠습...   

                                         summary_bad        date  
0  바람이 불어 예정보다 30분 빨리 숙소 입실을 허락해줬지만 오션뷰가 기대에 못 미치...  2025-06-05  
SQLAlchemy를 통해 1개의 리뷰가 성공적으로 저장되었습니다.
./res/1.gangneung_mare.json 숙소의 리뷰 요약이 완료되었습니다.
   accommodation_id                                       summary_good  \
0                 2  도심지에 위치한 숙소로 인사동이나 근처를 구경하기에 좋았습니다. 객실은 깨끗하고 안...   

                                         summary_bad        date  
0  요약 결과:\n1. 컨디션 양호하고 직원분들 친절하지만 방음이 잘 안돼서 패밀리객실...  2025-06-05  
SQLAlchemy를 통해 1개의 리뷰가 성공적으로 저장되었습니다.
./res/2.insadong_ninetree.json 숙소의 리뷰 요약이 완료되었습니다.
   accommodation_id                                       summary_good  \
0                 3  강릉 여행길에 들렀을 때 아주 예약을 잘한 호텔이었습니다. 주인의 품격이 느껴지며 ...   

                                         summary_bad        date  
0  예약할 때부터 공사 중이라는 안내가 있었으면 좋겠고, 체크인 시에도 공사

# summary 한 결과 db 저장하기
- 리뷰 데이터 로딩 
- 프롬프트를 사용해 LLM을 통한 리뷰 요약 
- 요약한 결과 DB에 저장하기 

In [25]:
from summary_modules import summarize , preprocess_reviews , load_prompt

In [26]:
data_path = "res/prompt_1shotv1.pickle"

prompt = load_prompt(data_path)
prompt

'당신은 요약 전문가입니다. 사용자 숙소 리뷰들이 주어졌을 때 요약하는 것이 당신의 목표입니다. 다음은 리뷰들과 요약 예시입니다.\n예시 리뷰들:\n[REVIEW_START]강릉 여행길에  들럿는데  아주 예약을 잘했어요\n호텔이  주인의 품격이 느껴지더군요  \n조용하고 좋습니다[REVIEW_END]\n[REVIEW_START]로비도 고급지고 객실도 깔끔하니 너무나 만족스런1박 했습니다.\n침구가 너무 좋아서 잘 잘수있었어요.\n다음에 여행가면 여기에 다시 묵을겁니다[REVIEW_END]\n[REVIEW_START]친절한 안내와 정리정돈도 잘 되어 있어 편안하게 잘수있었어요[REVIEW_END]\n[REVIEW_START]부모님 여행 숙소 예약해드렸는데 너무 만족하셨어요! 굿![REVIEW_END]\n[REVIEW_START]자주 갔던곳인데 너무 깨끗하고 아늑하고 좋아요\n침구류 냄새 하도 안나서 좋았습니다[REVIEW_END]\n[REVIEW_START]밖에 나와서 주치 안내해 준 직원분에게 감사인사를 전합니다.  직원분들 모두 친절하시네요[REVIEW_END]\n[REVIEW_START]객실 깨끗하고 편하고 다 좋은데\n패스트푸드제외\n배달음식 못시켜먹는것이 아쉽습니다\n직원분들 너무친절하시고 좋아요!![REVIEW_END]\n[REVIEW_START]시설 깔끔하고 택지지구에 있어 주변 인프라가 좋습니다 다만 외부 음식 관련 안내는 사전 안내가 필요할 것 같습니다[REVIEW_END]\n[REVIEW_START]프론트분들도 친절하고 방도 깨꿋하고 업무차 강룽가서 처음이용했는데 너무 편하고 좋았어요[REVIEW_END]\n[REVIEW_START]부모님 예약해드렸는데 편안하게 잘 쉬었다고 하시네요! 다만 윗층에 아이들 소리 들린다는 거 보면 방음은 조금 아쉬운 편인거 같아요ㅠㅠ[REVIEW_END]\n[REVIEW_START]편하게 잘 보냈습니다. 조식 샌드위치 진짜 맛있어요!![REVIEW_END]\n[REVIEW_START]직원분들 너무 친절하시고 조식

In [27]:
#전처리 
data_path = "res/1.gangneung_mare.json"
reviews_good , reviews_bad = preprocess_reviews(data_path)



In [28]:
reviews_good

'[REVIEW_START]바닷가 바로앞이라 너무좋아요.\n객실도 깨끗하고, 샤워기 수압좋고 따뜻한물 잘 나오는것도 좋았어요~ 친구들이랑 왔다가 다들 만족하고 갑니다ㅎ[REVIEW_END]'

In [29]:
summary_good = summarize(reviews_good , prompt)
summary_bad = summarize(reviews_bad , prompt)

In [30]:
summary_good
summary_bad

'강릉 여행길에 들렀을 때 아주 예약을 잘한 호텔이었습니다. 주인의 품격이 느껴지며 조용하고 좋은 숙소였습니다. 로비도 고급스럽고 객실도 깔끔하여 너무 만족스러운 1박을 했습니다. 침구가 훌륭해서 편안하게 잠을 잘 수 있었고, 다음에 여행을 가면 다시 묵을 의향이 있습니다. 친절한 안내와 정리정돈이 잘 되어 있어 편안하게 머물렀습니다. 부모님도 만족하셨고, 깨끗하고 아늑한 숙소에서 편안한 시간을 보냈습니다. 객실은 깨끗하고 편안하며, 직원분들도 친절하셨습니다. 전체적으로 좋은 경험이었고, 다음에도 이용할 의향이 있습니다.'

# 모든 리뷰 요약 데이터 일괄 처리 
- 전처리, 요약하기, df 만들기, mysql에 저장

In [31]:
import pandas as pd
# 리뷰 데이터 전처리
MAPPING = {
    1: './res/1.gangneung_mare.json',
    2: './res/2.insadong_ninetree.json',
    3: './res/3.kyongpo_the_hongc.json',
}

table_name='review_summary'

# 리뷰 전처리
for id, path in MAPPING.items():
    reviews_good, reviews_bad = preprocess_reviews(path)

    if reviews_good:
        summary_good = summarize(reviews_good, prompt)
        # print(summary_good)
    else:
        summary_good = "분석할 높은 평점 리뷰가 없습니다."
    # 나쁜 리뷰 요약
    if reviews_bad:
        summary_bad = summarize(reviews_bad, prompt)
        # print(summary_bad)
    else:
        summary_bad = "분석할 낮은 평점 리뷰가 없습니다."

    # 처리결과 데이터 프레임으로 만들어서 저장하기
    df = pd.DataFrame({
        'accommodation_id': [id],
        'summary_good': [summary_good],
        'summary_bad': [summary_bad],
        'date': [pd.Timestamp.now().strftime('%Y-%m-%d')]
    })
    print(df)

    # # MySQL에 저장    
    save_to_db(df, table_name)
    print(f"{path} 숙소의 리뷰 요약이 완료되었습니다.")


   accommodation_id                                       summary_good  \
0                 1  바닷가 바로 앞에 위치한 숙소로, 객실이 깨끗하고 샤워기 수압이 좋아 따뜻한 물이 ...   

           summary_bad        date  
0  분석할 낮은 평점 리뷰가 없습니다.  2025-06-05  
SQLAlchemy를 통해 1개의 리뷰가 성공적으로 저장되었습니다.
./res/1.gangneung_mare.json 숙소의 리뷰 요약이 완료되었습니다.
   accommodation_id         summary_good  \
0                 2  분석할 높은 평점 리뷰가 없습니다.   

                                         summary_bad        date  
0  컨디션 양호하고 직원분들이 친절하며, 패밀리객실 주변은 방음이 잘 안되어 조용한 휴...  2025-06-05  
SQLAlchemy를 통해 1개의 리뷰가 성공적으로 저장되었습니다.
./res/2.insadong_ninetree.json 숙소의 리뷰 요약이 완료되었습니다.
   accommodation_id                                       summary_good  \
0                 3  강릉 여행길에 들렀을 때 아주 예약을 잘한 호텔이었습니다. 주인의 품격이 느껴지며 ...   

           summary_bad        date  
0  분석할 낮은 평점 리뷰가 없습니다.  2025-06-05  
SQLAlchemy를 통해 1개의 리뷰가 성공적으로 저장되었습니다.
./res/3.kyongpo_the_hongc.json 숙소의 리뷰 요약이 완료되었습니다.
