In [None]:
import json
import os
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.schema import Document

# OpenAI 임베딩 설정
embedding_model = OpenAIEmbeddings(model="text-embedding-3-small")

# 벡터 스토어 저장 경로
VECTOR_STORE_DIR = "vector_store"

# JSON 데이터를 벡터 스토어에 저장하는 함수
def json_to_vector_store(json_filename, store_name):
    with open(json_filename, "r", encoding="utf-8") as f:
        total = json.load(f)

    documents = []
    for idx in range(len(total)):
        content = total[idx]
        merged_text = f"{content['title']}({content['platform']})-{content['description']}, genre:{content['genre']}, keywords: {content['keywords']}"
        if isinstance(content['keywords'], str):
            keywords = content['keywords']
        else:
            keywords = ", ".join(content['keywords'])
        documents.append(
            Document(
                page_content=merged_text,
                metadata={
                    "title": content["title"],
                    "type": content["type"],
                    "platform": content["platform"],
                    "status": content["status"],
                    "genre": content["genre"],
                    "views": content["views"],
                    "age_rating": content["age_rating"],
                    "price": content["price_price"],
                    "url": content["url"],
                    "episode": content["episode"],
                },
            )
        )  

    # 벡터 저장소 생성 및 저장
    store_path = os.path.join(VECTOR_STORE_DIR, store_name)
    vector_store = Chroma.from_documents(documents=documents, embedding=embedding_model, persist_directory=store_path)
    vector_store.persist()

# 각 JSON 파일을 벡터로 변환하여 저장
json_to_vector_store("C:/Project/Final_test/data/Raw_DB/total_webtoon.json", "webtoon_vector_store")
json_to_vector_store("C:/Project/Final_test/data/Raw_DB/total_webnovel.json", "webnovel_vector_store")

print("JSON 파일들을 벡터로 변환하여 저장 완료.")