In [10]:
import pandas as pd
from langchain.docstore.document import Document
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# 📌 저장할 디렉토리 (공통으로 사용)
persist_directory = "./chroma_db_10"

# 📌 OpenAI 임베딩 모델
embedding_model = OpenAIEmbeddings(model="text-embedding-3-large")

# 📌 ChromaDB 초기화 (이미 있는 경우 로드, 없으면 생성)
db = Chroma(persist_directory=persist_directory, embedding_function=embedding_model)

# 📌 처리할 CSV 파일 리스트
csv_files = [
    "./data/mancity_goalkeeping.csv",
    "./data/mancity_passing.csv",
    "./data/mancity_shooting.csv",
    "./data/mancity_pass_types.csv",
    "./data/mancity_scores_fixtures.csv",
    "./data/Advanced Goalkeeping.csv",
    "./data/Defensive Actions.csv",
    "./data/Goal and Shot Creation.csv",
    "./data/Goalkeeper_summary.csv",
    "./data/Goalkeeping.csv",
    "./data/Miscellaneous_Stats.csv",
    "./data/Pass Types.csv",
    "./data/Passing.csv",
    "./data/Player_summary.csv",
    "./data/Playing_Time.csv",
    "./data/Possetion.csv",
    "./data/Shooting.csv",
    "./data/Standard Stats.csv",
    "./data/mancity_defensive_actions.csv",
    "./data/mancity_goal_and_shot_creation.csv",
    "./data/mancity_goal_logs.csv",
    "./data/mancity_miscellaneous_stats.csv",
    "./data/mancity_player_wages.csv",
    "./data/mancity_possession.csv"
]



# 📌 각 CSV 파일을 로드하여 벡터DB에 추가
for file in csv_files:
    df = pd.read_csv(file)

    # 각 행(row)을 Document 객체로 변환
    documents = [
        Document(
            page_content=row.to_json(),  # 전체 row를 JSON 문자열로 저장
            metadata={"source": file, "row_index": i}  # 메타데이터 추가
        )
        for i, row in df.iterrows()
    ]

    # 텍스트 분할 (필요한 경우 사용)
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
    split_docs = text_splitter.split_documents(documents)

    # 📌 기존 DB에 추가 (from_documents 대신 add_documents 사용)
    db.add_documents(split_docs)

print("✅ 모든 CSV 데이터를 하나의 ChromaDB에 저장 완료!")


✅ 모든 CSV 데이터를 하나의 ChromaDB에 저장 완료!
