In [2]:
import chromadb
from chromadb.utils.embedding_functions import OpenAIEmbeddingFunction # 임베딩 함수가 필요할 경우

# 병합된 DB 파일의 정확한 경로를 지정합니다.
# 예: C:/Users/mojih/OneDrive/바탕 화면/Project4/SKN13-4th-4Team/ai_influencer_agent/merged_rehabilitation_chroma.sqlite3
MERGED_DB_PATH = "C:/Users/mojih/OneDrive/바탕 화면/Project4/SKN13-4th-4Team/crawling/merged_rehabilitation/merged_rehabilitation_chroma.sqlite3"

# PersistentClient를 사용하여 DB 파일 경로를 지정합니다.
# ChromaDB는 이 경로에 있는 파일을 사용하여 데이터를 로드합니다.
client = chromadb.PersistentClient(path=MERGED_DB_PATH)

# 만약 쿼리 시 임베딩이 필요하다면, 임베딩 함수도 다시 정의해야 합니다.
# OpenAI API 키가 환경 변수에 설정되어 있어야 합니다.
# from dotenv import load_dotenv
# load_dotenv()
# OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
# embedding_function = OpenAIEmbeddingFunction(api_key=OPENAI_API_KEY, model_name="text-embedding-3-large")

InternalError: 파일이 이미 있으므로 만들 수 없습니다. (os error 183)

In [None]:
import os
import chromadb
from chromadb.utils.embedding_functions import OpenAIEmbeddingFunction
from dotenv import load_dotenv

# 환경 변수 로드 (OpenAI API 키를 위해)
load_dotenv()
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")

# --- 설정 ---
# 병합된 ChromaDB 파일이 위치한 '디렉토리'의 경로를 지정합니다.
# 이 디렉토리 안에 'chroma.sqlite3' 파일이 있어야 합니다.
# 예: C:\Users\mojih\OneDrive\바탕 화면\Project4\SKN13-4th-4Team\crawling\merged_rehabilitation\merged_rehabilitation_chroma_data
MERGED_DB_DIRECTORY = r"C:\Users\mojih\OneDrive\바탕 화면\Project4\SKN13-4th-4Team\crawling\merged_rehabilitation"

# ChromaDB 컬렉션 이름 (병합된 DB 내에 존재하는 컬렉션 이름)
# 이전 수집 스크립트에서 사용했던 이름과 동일해야 합니다.
COLLECTION_NAME = "rehabilitation_articles_openai"

# 임베딩 함수 정의 (쿼리 시 필요)
# OpenAI API 키가 환경 변수에 설정되어 있어야 합니다.
embedding_function = OpenAIEmbeddingFunction(api_key=OPENAI_API_KEY, model_name="text-embedding-3-large")

# --- ChromaDB 클라이언트 초기화 ---
print(f"ChromaDB 클라이언트를 '{MERGED_DB_DIRECTORY}' 경로로 초기화 중...")
try:
    # PersistentClient는 지정된 경로를 데이터 저장 디렉토리로 사용합니다.
    client = chromadb.PersistentClient(path=MERGED_DB_DIRECTORY)
    print("ChromaDB 클라이언트 초기화 성공.")
except Exception as e:
    print(f"ChromaDB 클라이언트 초기화 오류: {e}")
    exit()

# --- 컬렉션 가져오기 ---
print(f"컬렉션 '{COLLECTION_NAME}' 가져오는 중...")
try:
    # get_collection을 사용하여 이미 존재하는 컬렉션을 가져옵니다.
    # 쿼리 시 임베딩이 필요하므로 embedding_function을 전달합니다.
    collection = client.get_collection(name=COLLECTION_NAME, embedding_function=embedding_function)
    print(f"컬렉션 '{COLLECTION_NAME}' 가져오기 성공.")
    print(f"컬렉션의 총 문서 수: {collection.count()}개")
except Exception as e:
    print(f"컬렉션 '{COLLECTION_NAME}' 가져오기 오류: {e}")
    print("컬렉션 이름이 정확한지, 또는 해당 컬렉션이 병합된 DB에 존재하는지 확인해주세요.")
    exit()

# --- 데이터 사용 예시 (쿼리) ---
print("\n--- 데이터 쿼리 예시 ---")
query_text = "필라테스가 허리 통증 완화에 미치는 영향"
print(f"쿼리: '{query_text}'")

try:
    results = collection.query(
        query_texts=[query_text],
        n_results=5, # 상위 5개 결과
        # where={"title": {"$contains": "필라테스"}} # 메타데이터 필터링 예시 (필요시 주석 해제)
    )

    if results and results['documents'] and results['documents'][0]:
        print(f"'{query_text}'에 대한 검색 결과:")
        for i, doc in enumerate(results['documents'][0]):
            print(f"--- 결과 {i+1} ---")
            print(f"ID: {results['ids'][0][i]}")
            # 메타데이터가 없는 경우를 대비하여 .get() 사용
            print(f"제목: {results['metadatas'][0][i].get('title', '제목 없음')}")
            print(f"초록: {doc[:200]}...") # 초록의 일부만 출력
            print("-" * 20)
    else:
        print("검색 결과가 없습니다.")

except Exception as e:
    print(f"데이터 쿼리 중 오류 발생: {e}")
    print("OpenAI API 키가 유효한지, 또는 임베딩 함수 설정이 올바른지 확인해주세요.")

print("\n--- ChromaDB 사용 완료 ---")



NameError: name 'collection' is not defined