In [None]:
# 인덱싱 전략
# 1. 청킹은.. 하지 말까? 할까? 의미 단위 청킹?
# => 정책의 범위 바깥에서 청킹된 각 정보는 유의미할까? 정책이라는 틀이 없이 지원 조건, 정책 설명 내용 등이 유의미한가?
# 2. page_content는 벡터 서칭용으로만 사용하고, context로는 metadata 섹션을 활용하여 원문을 전달한다.
# 3. 이때, 원문 중 필요한 정보만 선별하여 metadata에 적재한다.



In [None]:
# 1. 벡터 서칭용 컬럼을 추가한 csv 로드.
import pandas as pd

data = pd.read_csv('./policies_with_documents.csv')
data.head()

In [None]:
# 2. metadata로 적재할 컬럼 지정
# 온통 청년 API 제공 목록 페이지를 참고.

In [None]:
# 도큐먼트로 만들기

import csv
from langchain_core.documents import Document

def create_documents_from_csv(csv_file_path: str) -> list[Document]:
    """
    CSV 파일에서 정책 정보를 읽어와
    LangChain의 Document 객체 리스트로 변환합니다.

    - 각 row는 하나의 정책 데이터를 나타냅니다.
    - 서술형 정보는 page_content로 조합합니다.
    - 정형 정보는 metadata로 저장합니다.
    """
    
    documents = []
    
    try:
        # UTF-8 인코딩으로 CSV 파일을 엽니다.
        with open(csv_file_path, mode='r', encoding='utf-8-sig') as csvfile:
            # 각 row를 딕셔너리 형태로 읽어옵니다.
            reader = csv.DictReader(csvfile)
            
            for row in reader:
                # 1. page_content 구성: 검색의 대상이 될 자연어 텍스트
                page_content = row.get('document')

                # 2. metadata 구성: 필터링 및 출처 표시에 사용할 정형 데이터
                # 항상 원본값 그대로
                metadata = {
                    # 정책 기본 정보
                    "plcyNo": row.get('plcyNo', '정보 없음'),
                    "plcyNm": row.get('plcyNm', '정보 없음'),
                    "plcyKywdNm": row.get('plcyKywdNm', '정보 없음'),
                    "plcyExplnCn": row.get('plcyExplnCn', '정보 없음'),
                    "lclsfNm": row.get('lclsfNm', '정보 없음'),
                    "mclsfNm": row.get('mclsfNm', '정보 없음'),
                    "plcySprtCn": row.get('plcySprtCn', '정보 없음'),
                    "plcyPvsnMthdCd": row.get('plcyPvsnMthdCd', '정보 없음'),

                    # 기관 정보
                    "sprvsnInstCdNm": row.get('sprvsnInstCdNm', '정보 없음'),
                    "operInstCdNm": row.get('operInstCdNm', '정보 없음'),

                    # 기간 정보
                    "aplyPrdSeCd": row.get('aplyPrdSeCd', '정보 없음'),
                    "bizPrdSeCd": row.get('bizPrdSeCd', '정보 없음'),
                    "bizPrdBgngYmd": row.get('bizPrdBgngYmd', '정보 없음'),
                    "bizPrdEndYmd": row.get('bizPrdEndYmd', '정보 없음'),
                    "bizPrdEtcCn": row.get('bizPrdEtcCn', '정보 없음'),
                    "aplyYmd": row.get('aplyYmd', '정보 없음'),
                    "frstRegDt": row.get('frstRegDt', '정보 없음'),
                    "lastMdfcnDt": row.get('lastMdfcnDt', '정보 없음'),

                    # 신청 및 방법
                    "plcyAplyMthdCn": row.get('plcyAplyMthdCn', '정보 없음'),
                    "srngMthdCn": row.get('srngMthdCn', '정보 없음'),
                    "sbmsnDcmntCn": row.get('sbmsnDcmntCn', '정보 없음'),
                    "aplyUrlAddr": row.get('aplyUrlAddr', '정보 없음'),

                    # 지원 조건
                    "sprtSclLmtYn": row.get('sprtSclLmtYn', '정보 없음'),
                    "sprtTrgtMinAge": row.get('sprtTrgtMinAge', '정보 없음'),
                    "sprtTrgtMaxAge": row.get('sprtTrgtMaxAge', '정보 없음'),
                    "sprtTrgtAgeLmtYn": row.get('sprtTrgtAgeLmtYn', '정보 없음'),
                    "mrgSttsCd": row.get('mrgSttsCd', '정보 없음'),
                    "earnMinAmt": row.get('earnMinAmt', '정보 없음'),
                    "earnMaxAmt": row.get('earnMaxAmt', '정보 없음'),
                    "earnEtcCn": row.get('earnEtcCn', '정보 없음'),
                    "addAplyQlfcCndCn": row.get('addAplyQlfcCndCn', '정보 없음'),
                    "ptcpPrpTrgtCn": row.get('ptcpPrpTrgtCn', '정보 없음'),

                    # 요건 코드(target, 대상)
                    "zipCd": row.get('zipCd', '정보 없음'),
                    "plcyMajorCd": row.get('plcyMajorCd', '정보 없음'),
                    "jobCd": row.get('jobCd', '정보 없음'),
                    "schoolCd": row.get('schoolCd', '정보 없음'),
                    "sbizCd": row.get('sbizCd', '정보 없음'),

                    # 기타
                    "etcMttrCn": row.get('etcMttrCn', '정보 없음'),
                    "refUrlAddr1": row.get('refUrlAddr1', '정보 없음'),
                    "refUrlAddr2": row.get('refUrlAddr2', '정보 없음'),
                    
                    # 필
                }

                
                documents.append(Document(page_content=page_content.strip(), metadata=metadata))
                
    except FileNotFoundError:
        print(f"오류: '{csv_file_path}' 파일을 찾을 수 없습니다.")
    except Exception as e:
        print(f"파일을 읽는 중 오류가 발생했습니다: {e}")
        
    return documents


In [None]:
docs = create_documents_from_csv('./policies_with_documents.csv')

In [None]:
def summ_docs_info(docs: list, num: int=5):
    print(f'document의 총 개수 : {len(docs)}')
    for i in docs[:num]:
        print(f"---Document ---")
        print("Page Content:")
        print(i.page_content)
        print("\nMetadata:")
        print(i.metadata)

summ_docs_info(docs)

In [None]:
docs[:3]

In [None]:
# 청킹은 하지 않음. 

In [None]:
import pandas as pd
d = pd.read_csv('./policies_with_documents.csv')
print(d['plcyNo'])

In [None]:
# 임베딩
import os 
from langchain_openai import OpenAIEmbeddings
from dotenv import load_dotenv
from langchain_chroma import Chroma
load_dotenv()

# 임베딩 모델 및 Chroma DB 준비
# embedding_model = OpenAIEmbeddings(model="text-embedding-3-small", openai_api_key=os.getenv("OPENAI_API_KEY"))
embedding_model = OpenAIEmbeddings(model="text-embedding-3-large", openai_api_key=os.getenv("OPENAI_API_KEY"))

# Chroma DB 준비
vectorstore = Chroma(
    collection_name="policy_collection_summary_added_openai_large",
    embedding_function=embedding_model,
    persist_directory="./chroma_db_policy"
)


In [None]:
# 데이터 처리
def add_to_chroma_in_batches(docs: list[Document], batch_size: int = 100):
    """문서 리스트를 배치로 나누어 ChromaDB에 추가합니다."""
    
    # 전체 문서 리스트를 batch_size만큼 건너뛰며 반복
    for i in range(0, len(docs), batch_size):
        # 현재 처리할 배치 슬라이싱
        batch = docs[i:i + batch_size]
        
        # 현재 배치만 DB에 추가
        vectorstore.add_documents(documents=batch)
        
        # 진행 상황 출력
        print(f"Batch {i//batch_size + 1}/{(len(docs) - 1)//batch_size + 1} 처리 완료 ({len(batch)}개 문서 추가)")



In [None]:

# 함수 호출로 배치 처리 실행
add_to_chroma_in_batches(docs, batch_size=200) # 배치 사이즈는 조절 가능

print("\n모든 문서의 배치 처리가 완료되었습니다.")


In [None]:
import tiktoken
from langchain_core.documents import Document

def count_tokens(text, model="text-embedding-3-large"):
    # OpenAI 임베딩 모델들은 cl100k_base 인코딩 사용
    encoding = tiktoken.get_encoding("cl100k_base")
    return len(encoding.encode(text))


avg = 0;
for i in docs:
    token_count = count_tokens(i.page_content)
    avg += token_count
    if token_count >= 1000:
        print(f"토큰 수: {token_count}")
print(f"총 토큰 수: {avg}")

