In [1]:
import pandas as pd
from sentence_transformers import SentenceTransformer

def create_embeddings(dataframe, text_column):
    """
    DataFrame의 특정 텍스트 컬럼을 임베딩하여 새로운 컬럼에 추가합니다.
    """
    try:
        # 한국어에 특화된 임베딩 모델을 로드합니다.
        # 이 모델은 huggingface에서 자동으로 다운로드되며, GPU를 사용합니다.
        model = SentenceTransformer('jhgan/ko-sroberta-multitask')
        print("임베딩 모델 로드 완료. (GPU 사용 가능)")

        # 텍스트 컬럼의 데이터를 리스트로 변환합니다.미
        sentences = dataframe[text_column].tolist()
        
        # 문장들을 벡터로 변환 (임베딩)합니다.
        print("텍스트 임베딩을 시작합니다...")
        embeddings = model.encode(sentences)
        print("텍스트 임베딩 완료.")

        # 생성된 임베딩을 DataFrame의 새로운 컬럼에 추가합니다.
        dataframe['embeddings'] = embeddings.tolist()

        return dataframe
    
    except Exception as e:
        print(f"임베딩 과정에서 오류가 발생했습니다: {e}")
        return None

# 실행 코드
if __name__ == "__main__":
    keyword = input("임베딩할 데이터의 키워드를 입력하세요: ").strip()
    filename = f"./data/{keyword}_naver_news.csv"
    
    try:
        # 이전에 크롤링한 CSV 파일을 불러옵니다.
        df = pd.read_csv(filename)
        
        # 'title' 컬럼의 텍스트를 임베딩합니다.
        df_with_embeddings = create_embeddings(df, 'title')
        
        if df_with_embeddings is not None:
            print("\n임베딩된 데이터프레임의 첫 5개 행:")
            print(df_with_embeddings.head())

            # 이 코드를 통해 임베딩된 데이터가 DataFrame에 잘 추가되었는지 확인합니다.
            # 데이터는 아직 파일로 저장되지 않았습니다.
            print(f"\n'embeddings' 컬럼의 첫 번째 벡터 길이: {len(df_with_embeddings['embeddings'].iloc[0])}")
            
    except FileNotFoundError:
        print(f"오류: '{filename}' 파일을 찾을 수 없습니다. 파일 경로를 확인해주세요.")

임베딩할 데이터의 키워드를 입력하세요:  AI


임베딩 모델 로드 완료. (GPU 사용 가능)
텍스트 임베딩을 시작합니다...
텍스트 임베딩 완료.

임베딩된 데이터프레임의 첫 5개 행:
   Unnamed: 0                                              title  \
0           0                    최교진 교육부 장관 취임…“공교육 회복 위해 교권 보호”   
1           1                  코레일, 추석 예매 앞두고 주요 철도역서 '디지털스쿨' 운영   
2           2  SK에코플랜트, <b>AI</b>·로봇·반도체 혁신기술 공모전 ‘2025 콘테크 미...   
3           3                  SK하이닉스, 세계 최초 HBM4 개발 완료…양산 체제 구축   
4           4       쿠도커뮤니케이션, '몽고DB 닷로컬 서울 2025'서 분산 빅데이터 어플라...   

                                        originallink  \
0  http://www.edaily.co.kr/news/newspath.asp?news...   
1  https://www.redaily.co.kr/news/articleView.htm...   
2  https://www.seoultimes.news/news/article.html?...   
3  https://www.donga.com/news/Economy/article/all...   
4              https://www.etnews.com/20250912000161   

                                                link  \
0  https://n.news.naver.com/mnews/article/018/000...   
1  https://www.redaily.co.kr/news/articleView.htm...   
2  https