In [None]:
from konlpy.tag import Okt
from gensim.models.fasttext import FastText, load_facebook_vectors
import os
import pandas as pd
import re
from gensim.test.utils import datapath

def preprocess_korean_text(text, stop_words=[]):
    okt = Okt()
    
    # 형태소 분석을 통한 토큰화
    words = okt.morphs(text, norm=True) # 정규화 처리
    
    # 불용어 제거
    words = [word for word in words if word not in stop_words]
    
    return words

def process_csv_file(csv_path, stop_words=[]):
    new_data = []
    
    df = pd.read_csv(csv_path, encoding='utf-8')
    if 'reviews' in df.columns:
        for text in df['reviews']:
            # 추가적인 전처리 작업 (예: 특수 문자 제거, 숫자 제거 등)
            text = re.sub(r'[^가-힣ㄱ-ㅎㅏ-ㅣa-zA-Z\s]', '', text)
            
            # 전처리된 문장을 추가 데이터에 포함
            tokens = preprocess_korean_text(text, stop_words)
            new_data.append(tokens)
    
    return new_data


# 기존 pre-trained 모델 경로
pretrained_model_path = '../Model/Embedding/wiki.ko.bin'

# 새로운 데이터 파일 경로
csv_file_path = '../ReviewData/reviews_only.csv'

# 불용어 리스트 (필요에 따라 추가)
stop_words = ['의','가', '에','들','는','잘','걍','과','도','를','으로','한','하다','!','?','<','>','(',')','[',']','|','#','.', '이','은','는','을','에','에서','로']

# 모델 로드
model = load_facebook_vectors(pretrained_model_path)

# CSV 파일 처리 및 전처리
new_data = process_csv_file(csv_file_path, stop_words)

# 모델 업데이트
model.build_vocab(sentences=new_data, update=True)
model.train(sentences=new_data, total_examples=len(new_data), epochs=model.epochs)

# 업데이트된 모델 저장
updated_model_path = 'updated_model.bin'
model.save(updated_model_path)

# 저장된 모델 경로 출력
print(f"모델이 성공적으로 업데이트되었습니다. 업데이트된 모델 경로: {os.path.abspath(updated_model_path)}")