In [2]:
import pandas as pd
from sentence_transformers import SentenceTransformer

def create_embeddings(dataframe, text_column):
    """
    DataFrame의 특정 텍스트 컬럼을 임베딩하여 새로운 컬럼에 추가합니다.
    """
    try:
        # 한국어에 특화된 임베딩 모델을 로드합니다.
        # 이 모델은 huggingface에서 자동으로 다운로드되며, GPU를 사용합니다.
        model = SentenceTransformer('jhgan/ko-sroberta-multitask')
        print("임베딩 모델 로드 완료. (GPU 사용 가능)")

        # 텍스트 컬럼의 데이터를 리스트로 변환합니다.미
        sentences = dataframe[text_column].tolist()
        
        # 문장들을 벡터로 변환 (임베딩)합니다.
        print("텍스트 임베딩을 시작합니다...")
        embeddings = model.encode(sentences)
        print("텍스트 임베딩 완료.")

        # 생성된 임베딩을 DataFrame의 새로운 컬럼에 추가합니다.
        dataframe['embeddings'] = embeddings.tolist()

        return dataframe
    
    except Exception as e:
        print(f"임베딩 과정에서 오류가 발생했습니다: {e}")
        return None

# 실행 코드
if __name__ == "__main__":
    keyword = input("임베딩할 데이터의 키워드를 입력하세요: ").strip()
    filename = f"./data/{keyword}_naver_news.csv"
    
    try:
        # 이전에 크롤링한 CSV 파일을 불러옵니다.
        df = pd.read_csv(filename)
        
        # 'title' 컬럼의 텍스트를 임베딩합니다.
        df_with_embeddings = create_embeddings(df, 'title')
        
        if df_with_embeddings is not None:
            print("\n임베딩된 데이터프레임의 첫 5개 행:")
            print(df_with_embeddings.head())

            # 이 코드를 통해 임베딩된 데이터가 DataFrame에 잘 추가되었는지 확인합니다.
            # 데이터는 아직 파일로 저장되지 않았습니다.
            print(f"\n'embeddings' 컬럼의 첫 번째 벡터 길이: {len(df_with_embeddings['embeddings'].iloc[0])}")
            
    except FileNotFoundError:
        print(f"오류: '{filename}' 파일을 찾을 수 없습니다. 파일 경로를 확인해주세요.")

임베딩할 데이터의 키워드를 입력하세요:  미국


임베딩 모델 로드 완료. (GPU 사용 가능)
텍스트 임베딩을 시작합니다...
텍스트 임베딩 완료.

임베딩된 데이터프레임의 첫 5개 행:
   Unnamed: 0                                    title  \
0           0            [칼럼] 미등록특허 소송 전원합의체 회부에 대한 소고   
1           1        도시유전, 사우디 페드코사와 폐플라스틱 분해처리 기술 MOU   
2           2                    기후위기 시대, 감염병은 끝나지 않았다   
3           3  이광형 KAIST 총장, ‘레지옹 도뇌르’ 프랑스 권위 학술 훈장 수훈   
4           4           [시사칼럼] 분열된 아시아는 쇠사슬에서 벗어날 수 없다   

                                        originallink  \
0  http://www.joseilbo.com/news/news_read.php?uid...   
1  http://www.edaily.co.kr/news/newspath.asp?news...   
2           https://www.kyeongin.com/article/1751349   
3  http://digitalchosun.dizzo.com/site/data/html_...   
4  https://www.newscj.com/news/articleView.html?i...   

                                                link  \
0  https://n.news.naver.com/mnews/article/123/000...   
1  https://n.news.naver.com/mnews/article/018/000...   
2           https://www.kyeongin.com/article/1751349   
3  http://di