## 저장된 벡터 db 다운 링크 : https://drive.google.com/drive/folders/1i6RymMjAWqmAkOd3o2JhikI6sQ5JxKPj?usp=sharing

In [1]:
import os
import glob
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_chroma import Chroma
from langchain.docstore.document import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from pathlib import Path

# BGE-M3 모델 로드 (BAAI/bge-m3 사용)
embedding_model = HuggingFaceEmbeddings(model_name="BAAI/bge-m3")

# 지정된 폴더 경로 설정
folder_path = './COMPANY_DATA2/data_ai'  # 처리할 폴더 경로

# Chroma 벡터 DB 초기화
db_dir = './data_ai_chroma_db'
vectorstore = Chroma(persist_directory=db_dir, embedding_function=embedding_model)

# 청킹을 위한 텍스트 분할기 설정
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)

# 폴더 내의 텍스트 파일 처리
def process_files_in_folder(folder_path: str, role: str):
    # 지정된 폴더 내의 모든 텍스트 파일 찾기
    txt_files = glob.glob(os.path.join(folder_path, "*.txt"))

    for txt_file in txt_files:
        print(f"Processing file: {txt_file}")
        with open(txt_file, 'r', encoding='utf-8') as f:
            text = f.read()

        # 문서 청킹
        chunks = text_splitter.split_text(text)

        # 청크를 Document 객체로 변환
        documents = []
        for chunk in chunks:
            doc = Document(
                page_content=chunk,
                metadata={
                    "sourcefile": os.path.basename(txt_file),  # 파일명
                    "role": role,  # 직급 권한 (폴더 이름)
                    "last_edit": "2025-08-19"  # 마지막 수정일 고정
                }
            )
            documents.append(doc)

        # 배치로 문서들 추가 (올바른 메서드 사용)
        if documents:
            vectorstore.add_documents(documents)
            print(f"Added {len(documents)} chunks from {os.path.basename(txt_file)}")

# 데이터 처리 시작
if __name__ == "__main__":
    try:
        # role은 폴더 이름으로 설정
        role = os.path.basename(folder_path)  # 폴더 이름을 role로 사용
        process_files_in_folder(folder_path, role)
        print("모든 문서가 성공적으로 벡터 데이터베이스에 저장되었습니다.")
    except Exception as e:
        print(f"오류 발생: {e}")


Processing file: ./COMPANY_DATA2/data_ai\01_데이터_관리_&_보안__데이터_파이프라인_설계_문서.txt
Added 4 chunks from 01_데이터_관리_&_보안__데이터_파이프라인_설계_문서.txt
Processing file: ./COMPANY_DATA2/data_ai\02_데이터_관리_&_보안__데이터_접근_보안_정책.txt
Added 4 chunks from 02_데이터_관리_&_보안__데이터_접근_보안_정책.txt
Processing file: ./COMPANY_DATA2/data_ai\03_데이터_관리_&_보안__데이터_거버넌스_정책.txt
Added 4 chunks from 03_데이터_관리_&_보안__데이터_거버넌스_정책.txt
Processing file: ./COMPANY_DATA2/data_ai\04_데이터_관리_&_보안__데이터_보존_및_폐기_정책.txt
Added 4 chunks from 04_데이터_관리_&_보안__데이터_보존_및_폐기_정책.txt
Processing file: ./COMPANY_DATA2/data_ai\05_데이터_관리_&_보안__수집된_데이터_및_전처리_기록서.txt
Added 4 chunks from 05_데이터_관리_&_보안__수집된_데이터_및_전처리_기록서.txt
Processing file: ./COMPANY_DATA2/data_ai\06_모델_개발_&_성능__모델_성능_평가_보고서.txt
Added 4 chunks from 06_모델_개발_&_성능__모델_성능_평가_보고서.txt
Processing file: ./COMPANY_DATA2/data_ai\07_모델_개발_&_성능__모델_학습_결과서.txt
Added 4 chunks from 07_모델_개발_&_성능__모델_학습_결과서.txt
Processing file: ./COMPANY_DATA2/data_ai\08_모델_개발_&_성능__성능_비교표.txt
Added 4 chunks from 08_모델_개발_&_성능__성

In [2]:
from langchain.vectorstores import Chroma
from langchain.embeddings import HuggingFaceEmbeddings

# BGE-M3 모델 로드 (BAAI/bge-m3 사용)
embedding_model = HuggingFaceEmbeddings(model_name="BAAI/bge-m3")

# Chroma 벡터 DB 로드
db_dir = './data_ai_chroma_db'
vectorstore = Chroma(persist_directory=db_dir, embedding_function=embedding_model)

# 검색할 쿼리
query = "코드노바의 캐시 만료 시간은 어떤 기준으로 설정해야 하나요?"

# 벡터 DB에서 유사한 문서 검색
results = vectorstore.similarity_search(query, k=3)  # k는 검색할 상위 결과의 수 (예: 3)

# 검색된 결과 출력
for i, result in enumerate(results):
    print(f"Result {i+1}:")
    print(f"Content: {result.page_content}")
    print(f"Metadata: {result.metadata}")
    print("=" * 50)


  embedding_model = HuggingFaceEmbeddings(model_name="BAAI/bge-m3")
  vectorstore = Chroma(persist_directory=db_dir, embedding_function=embedding_model)


Result 1:
Content: # 데이터 관리 & 보안 | 데이터 보존 및 폐기 정책

작성일: 2025-08-29
회사: CodeNova | 대상: 데이터/AI팀

---
# 데이터 보존 및 폐기 정책
(분류: 데이터 관리 & 보안) | 회사: CodeNova | 버전: v1.0 | 작성일: 2025-08-29

---

## 1. 개요 및 목적
데이터 보존 및 폐기 정책은 CodeNova의 데이터 관리 및 보안 강화를 목표로 하며, 데이터의 수명 주기를 관리하고, 불필요한 데이터의 폐기를 통해 보안 리스크를 최소화하는 것을 목적으로 한다. 이 정책은 데이터의 보존 기간, 폐기 방법 및 책임을 명확히 하여 데이터 관리의 일관성을 확보한다.

## 2. 적용 범위/대상
이 정책은 CodeNova의 모든 데이터 및 정보 시스템에 적용되며, 데이터/AI팀을 포함한 모든 직원이 준수해야 한다. 적용되는 데이터의 유형은 다음과 같다:
- 고객 데이터
- 연구 및 개발 데이터
- 운영 데이터
- 로그 및 기록 데이터
Metadata: {'last_edit': '2025-08-19', 'role': 'data_ai', 'sourcefile': '04_데이터_관리_&_보안__데이터_보존_및_폐기_정책.txt'}
Result 2:
Content: # 팀 운영 문서 | 회의록(정기회의) #2

작성일: 2025-08-29
회사: CodeNova | 대상: 데이터/AI팀

---
# 회의록(정기회의) #2
(분류: 팀 운영 문서) | 회사: CodeNova | 버전: v1.0 | 작성일: 2025-08-29

---

## 1. 회의 개요
- **일시**: 2025년 8월 28일, 오후 2시
- **참석자**: 데이터/AI팀 전원
- **의제**:
  - 프로젝트 진행 현황 점검
  - 데이터 품질 개선 방안 논의
  - AI 모델 성능 평가 및 개선 계획

## 2. 논의된 주요 사항
### 2.1 프로젝트 진행 현황
- 각 팀원이 현재 진행 중인 프로젝트에 대한 업데이트