In [4]:
import pandas as pd

In [5]:
dt = pd.read_csv('data/parsed_genres_with_embeddings.csv')

In [6]:
dt.shape

(12839, 10)

In [10]:
import os
import pandas as pd
from openai import OpenAI
from dotenv import load_dotenv
from tqdm import tqdm
import time

# 환경 변수 로드 및 OpenAI 클라이언트 설정
load_dotenv()
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
client = OpenAI(api_key=OPENAI_API_KEY)

# 진행률 표시 설정
tqdm.pandas()

# 텍스트 임베딩 함수
def embed_text(text):
    response = client.embeddings.create(
        model="text-embedding-3-large",  # 임베딩 모델
        input=text
    )
    return response.data[0].embedding




In [11]:
# 임베딩 적용 함수
def apply_embedding(text):
    if pd.notnull(text) and text.strip() != "":
        return embed_text(text)
    return None



In [15]:
# 처리 범위 설정
start_idx = 0     # 시작 인덱스 (수동 입력)
end_idx = len(dt)    # 끝 인덱스 (수동 입력)



# 데이터프레임 슬라이싱 (범위에 맞게 분할)
dt_chunk = dt.iloc[start_idx:end_idx].copy()

print(f"\nProcessing rows {start_idx} ~ {end_idx}...")

# Summarized Plot Summary 컬럼에 임베딩 추가
dt_chunk['Summarized Plot Embedding'] = dt_chunk['Summarized Plot Summary'].progress_apply(apply_embedding)
# 결과 저장
save_path = f'data/booksummaries_embeddings_{start_idx}_{end_idx}.csv'
dt_chunk.to_csv(save_path, index=False, encoding='utf-8')
print(f"임베딩 완료! 파일 저장 경로: {save_path}")



Processing rows 0 ~ 12839...


  0%|          | 0/12839 [00:00<?, ?it/s]

100%|██████████| 12839/12839 [2:10:01<00:00,  1.65it/s]  


임베딩 완료! 파일 저장 경로: data/booksummaries_embeddings_0_12839.csv
