In [1]:
import sys, os
import numpy as np 
import pandas as pd
import json
import shutil
from pathlib import Path
import time
from py_files.vector_db import LawVectorDB

In [None]:
def create_vectordb():
    """
    임베딩 결과 불러오고 
    VectorDB 생성하기
    """
# 1. 문서들 불러오기
print("=== 문서들 로드 중 ===")
doc_start_time = time.time()
documents_path = "DATA/laws_parsed.json"
with open(documents_path, "r", encoding = "utf-8") as f:
    documents = json.load(f)
doc_loading_time = time.time() - doc_start_time
print(f"=== 문서들 로드 완료!({doc_loading_time}) ===")

# 2. 임베딩 결과 불러오기
print("=== 임베딩 결과 로드 중 ===")
emb_start_time = time.time()
embeddings_path = "DATA/laws_embedded.npy"
embeddings = np.load(embeddings_path)
emb_loading_time = time.time() - emb_start_time
print(f"=== 임베딩 결과 로드 완료!({emb_loading_time}) ===")

# 3. 벡터 DB 삭제 후 생성
print("=== Vector DB 업데이트 중 ===")
vectordb_start_time = time.time()
vector_db_path = Path("DATA/vector_db")
if vector_db_path.exists():
    shutil.rmtree(vector_db_path)
    print("=== 기존 VectorDB 삭제 완료! ===")

# 새로운 벡터 DB 생성
law_vectordb = LawVectorDB()
law_vectordb.initialize_db()
law_vectordb.add_documents(documents[:20], embeddings)
vector_db_time = time.time() - vectordb_start_time
print(f"=== Vector DB 생성 완료!({vector_db_time}) ===")

=== 문서들 로드 중 ===
=== 문서들 로드 완료!(0.397381067276001) ===
=== 임베딩 결과 로드 중 ===
=== 임베딩 결과 로드 완료!(0.06548762321472168) ===
=== Vector DB 업데이트 중 ===
=== 기존 VectorDB 삭제 완료! ===


: 