In [None]:
import sys
print(sys.executable)

In [None]:
import sys
print(sys.version)

In [1]:
!pip install fitz frontend pymupdf pypdf dotenv langchain torch langchain_community transformers datasets
!pip install "numpy<2"
!pip install --upgrade pybind11
!pip install faiss-gpu

Collecting fitz
  Downloading fitz-0.0.1.dev2-py2.py3-none-any.whl.metadata (816 bytes)
Collecting frontend
  Downloading frontend-0.0.3-py3-none-any.whl.metadata (847 bytes)
Collecting pymupdf
  Downloading pymupdf-1.25.4-cp39-abi3-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (3.4 kB)
Collecting pypdf
  Downloading pypdf-5.4.0-py3-none-any.whl.metadata (7.3 kB)
Collecting dotenv
  Downloading dotenv-0.9.9-py2.py3-none-any.whl.metadata (279 bytes)
Collecting langchain
  Downloading langchain-0.3.21-py3-none-any.whl.metadata (7.8 kB)
Collecting langchain_community
  Downloading langchain_community-0.3.20-py3-none-any.whl.metadata (2.4 kB)
Collecting transformers
  Downloading transformers-4.50.3-py3-none-any.whl.metadata (39 kB)
Collecting datasets
  Downloading datasets-3.5.0-py3-none-any.whl.metadata (19 kB)
Collecting configobj (from fitz)
  Downloading configobj-5.0.9-py2.py3-none-any.whl.metadata (3.2 kB)
Collecting configparser (from fitz)
  Downloading configparser-7.2

In [2]:
import numpy as np
print(np.__version__)

1.26.4


In [2]:
from huggingface_hub import login
 
login(token="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")

In [3]:
import faiss
import pickle
import numpy as np
import torch
from langchain.vectorstores import FAISS
from langchain.schema import Document
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from transformers import AutoModel, AutoTokenizer
# import fitz  # PyMuPDF
import re
import os

# 1️⃣ GPU 사용 여부 확인
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

Using device: cuda


자동차 보험

In [None]:
path = "pdf_folder_kb/자동차보험"
file_list = os.listdir(path)
car_list = os.listdir("pdf_folder_kb/자동차보험")
# 2️⃣ 모델 및 토크나이저 로드 (GPU로 이동)
model_name = "kakaocorp/kanana-nano-2.1b-embedding"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, trust_remote_code=True).to(device)

# 3️⃣ 임베딩 생성 함수
def get_embeddings(texts):
    inputs = tokenizer(texts, padding=True, truncation=True, max_length=512, return_tensors="pt")
    inputs = {key: val.to(device) for key, val in inputs.items()}
    pool_mask = torch.ones(inputs["input_ids"].shape, dtype=torch.long).to(device)

    with torch.no_grad():
        outputs = model(**inputs, pool_mask=pool_mask)

    return outputs.embedding.cpu().numpy()

# 텍스트 정제 함수
def clean_text(text):
    text = re.sub(r"p\.\d+", "", text)  # 페이지 번호 제거
    text = re.sub(r"(제작일|주소|QR코드|MEMO).*?(\n|$)", "", text, flags=re.DOTALL)  # 목차 제거
    text = re.sub(r"금소법|법령", "", text)  # 법적 공지사항 제거
    text = re.sub(r"\s{2,}", " ", text)  # 공백 정리
    return text.strip()

# 4️⃣ 저장 경로 설정
faiss_index_path = "./faiss_index_kb_car.bin"
metadata_path = "./documents_kb_car.pkl"

# 6️⃣ FAISS GPU 인덱스 생성
res = faiss.StandardGpuResources()  # GPU 리소스 할당
index = None

all_documents = []
for file in car_list:
    all_texts = []
    file_path = os.path.join(path, file)
    
    loader = PyPDFLoader(file_path)
    documents = loader.load()
    for doc in documents:
        doc.page_content = clean_text(doc.page_content)
        doc.metadata["source"] = file
        all_texts.append(doc.page_content)  # ✅ 전체 텍스트 리스트에 저장

    # 7️⃣ 텍스트 병합 후 중복 제거
    total_text = "\n".join(all_texts)  # ✅ 하나의 문자열로 병합
    unique_texts = list(dict.fromkeys(total_text.split("\n")))  # ✅ 중복 제거 후 리스트 변환

    # 8️⃣ 새로운 페이지 번호 추가하며 Document 형식 변환
    new_documents = []
    for i, text in enumerate(unique_texts):
        new_doc = Document(page_content=text, metadata={"page": i + 1})
        new_documents.append(new_doc)

    # 9️⃣ 문서 스플리팅
    splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=500)
    split_documents = splitter.split_documents(new_documents)  # ✅ 중복 제거된 문서 사용

    # 🔟 텍스트 추출 및 임베딩 생성
    texts = [doc.page_content for doc in split_documents]

    embeddings = []  # ✅ 리스트 초기화
    batch_size = 16
    for i in range(0, len(texts), batch_size):
        batch = texts[i : i + batch_size]
        batch_embeddings = get_embeddings(batch)
        embeddings.append(batch_embeddings)  # ✅ 리스트에 추가

    embeddings = np.vstack(embeddings).astype(np.float32)  # ✅ 배열 변환

    # 1️⃣1️⃣ FAISS GPU 인덱스 생성 (처음이면 초기화)
    if index is None:
        embedding_dim = embeddings.shape[1]
        cpu_index = faiss.IndexFlatL2(embedding_dim)  # CPU 인덱스
        index = faiss.index_cpu_to_gpu(res, 0, cpu_index)  # GPU로 변환

    # 1️⃣2️⃣ FAISS 인덱스에 데이터 추가
    index.add(embeddings)
    all_documents.extend(split_documents)
    
    print(f"✅ {file} 처리 완료")

faiss.write_index(faiss.index_gpu_to_cpu(index), faiss_index_path)

# 1️⃣4️⃣ 문서 저장
with open(metadata_path, "wb") as f:
    pickle.dump(all_documents, f)

print("🎉 모든 문서 처리 및 저장 완료!")

tokenizer_config.json:   0%|          | 0.00/51.0k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/444 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/861 [00:00<?, ?B/s]

configuration_kanana2vec.py:   0%|          | 0.00/10.8k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/kakaocorp/kanana-nano-2.1b-embedding:
- configuration_kanana2vec.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


modeling_kanana2vec.py:   0%|          | 0.00/9.50k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/kakaocorp/kanana-nano-2.1b-embedding:
- modeling_kanana2vec.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


model.safetensors:   0%|          | 0.00/4.17G [00:00<?, ?B/s]

✅ 4_250228_privatePM.pdf 처리 완료
✅ 4_250228_privateCM.pdf 처리 완료
✅ 10_250228_businessCM.pdf 처리 완료
✅ 4_250228_privateTM[0].pdf 처리 완료
✅ 10_250228_businessTM.pdf 처리 완료
✅ 15_250306_commercialCM.pdf 처리 완료
✅ 23_240418_Driver-ServiceCM[0].pdf 처리 완료
✅ 13_240906_comprehensive.pdf 처리 완료
✅ 14_240906_comprehensiveTM.pdf 처리 완료
✅ 4_250228_private.pdf 처리 완료
✅ 공동약관_개인용_250101[1].pdf 처리 완료
✅ 공동약관_업무용_240906.pdf 처리 완료
✅ 공동약관_영업용_240906.pdf 처리 완료
✅ 공동약관_이륜차_230401[0].pdf 처리 완료
✅ 10_250228_business.pdf 처리 완료
✅ 25_240131_PlatformDelivery.pdf 처리 완료
✅ 17_230401_Two-WheelⅡ.pdf 처리 완료
✅ 19_250221_Two-WheelCM.pdf 처리 완료
✅ 34_241201_KB배달라이더이륜자동차보험.pdf 처리 완료
✅ 29_231115_Electromobile.pdf 처리 완료
✅ 26_231115_Crackdown.pdf 처리 완료
✅ 15_250306_commercial.pdf 처리 완료
✅ 15_250306_commercialTM.pdf 처리 완료
✅ 19_231115_Handle.pdf 처리 완료
✅ 20_250221_Two-WheelTM.pdf 처리 완료
✅ 27_231115_License.pdf 처리 완료
✅ 22_240418_Driver-Service.pdf 처리 완료
✅ 22_231115_Haru.pdf 처리 완료
✅ 18-250221_Two-Wheel.pdf 처리 완료
✅ 30.231115_단기이륜차운전자.pdf 처리 완료
✅ 24_23111

일반 보험

In [4]:
short_list = os.listdir("pdf_folder_kb/일반보험") + os.listdir("pdf_folder_kb/운전자보험")
len(short_list)

59

In [5]:
# short_list = os.listdir("pdf_folder_kb/일반보험") + os.listdir("pdf_folder_kb/운전자보험")

# 2️⃣ 모델 및 토크나이저 로드 (GPU로 이동)
model_name = "kakaocorp/kanana-nano-2.1b-embedding"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, trust_remote_code=True).to(device)

# 3️⃣ 임베딩 생성 함수
def get_embeddings(texts):
    inputs = tokenizer(texts, padding=True, truncation=True, max_length=512, return_tensors="pt")
    inputs = {key: val.to(device) for key, val in inputs.items()}
    pool_mask = torch.ones(inputs["input_ids"].shape, dtype=torch.long).to(device)

    with torch.no_grad():
        outputs = model(**inputs, pool_mask=pool_mask)

    return outputs.embedding.cpu().numpy()

# 텍스트 정제 함수
def clean_text(text):
    text = re.sub(r"p\.\d+", "", text)  # 페이지 번호 제거
    text = re.sub(r"(제작일|주소|QR코드|MEMO).*?(\n|$)", "", text, flags=re.DOTALL)  # 목차 제거
    text = re.sub(r"금소법|법령", "", text)  # 법적 공지사항 제거
    text = re.sub(r"\s{2,}", " ", text)  # 공백 정리
    return text.strip()

# 4️⃣ 저장 경로 설정
faiss_index_path = "./faiss_index_kb_short.bin"
metadata_path = "./documents_kb_short.pkl"

# 6️⃣ FAISS GPU 인덱스 생성
res = faiss.StandardGpuResources()  # GPU 리소스 할당
index = None

all_documents = []
for file in short_list:
    all_texts = []
    if file in os.listdir("pdf_folder_kb/일반보험"):
        path = "pdf_folder_kb/일반보험"
    elif file in os.listdir("pdf_folder_kb/운전자보험"):
        path = "pdf_folder_kb/운전자보험"

    file_path = os.path.join(path, file)
    
    loader = PyPDFLoader(file_path)
    documents = loader.load()
        
    for doc in documents:
        doc.page_content = clean_text(doc.page_content)
        doc.metadata["source"] = file
        all_texts.append(doc.page_content)  # ✅ 전체 텍스트 리스트에 저장

    # 7️⃣ 텍스트 병합 후 중복 제거
    total_text = "\n".join(all_texts)  # ✅ 하나의 문자열로 병합
    unique_texts = list(dict.fromkeys(total_text.split("\n")))  # ✅ 중복 제거 후 리스트 변환

    # 8️⃣ 새로운 페이지 번호 추가하며 Document 형식 변환
    new_documents = []
    for i, text in enumerate(unique_texts):
        new_doc = Document(page_content=text, metadata={"page": i + 1})
        new_documents.append(new_doc)

    # 9️⃣ 문서 스플리팅
    splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=500)
    split_documents = splitter.split_documents(new_documents)  # ✅ 중복 제거된 문서 사용

    # 🔟 텍스트 추출 및 임베딩 생성
    texts = [doc.page_content for doc in split_documents]

    embeddings = []  # ✅ 리스트 초기화
    batch_size = 16
    for i in range(0, len(texts), batch_size):
        batch = texts[i : i + batch_size]
        batch_embeddings = get_embeddings(batch)
        embeddings.append(batch_embeddings)  # ✅ 리스트에 추가

    embeddings = np.vstack(embeddings).astype(np.float32)  # ✅ 배열 변환

    # 1️⃣1️⃣ FAISS GPU 인덱스 생성 (처음이면 초기화)
    if index is None:
        embedding_dim = embeddings.shape[1]
        cpu_index = faiss.IndexFlatL2(embedding_dim)  # CPU 인덱스
        index = faiss.index_cpu_to_gpu(res, 0, cpu_index)  # GPU로 변환

    # 1️⃣2️⃣ FAISS 인덱스에 데이터 추가
    index.add(embeddings)
    all_documents.extend(split_documents)
    print(f"✅ {file} 처리 완료")

# 1️⃣3️⃣ FAISS 인덱스 저장
faiss.write_index(faiss.index_gpu_to_cpu(index), faiss_index_path)

# 1️⃣4️⃣ 문서 저장
with open(metadata_path, "wb") as f:
    pickle.dump(all_documents, f)
print("🎉 모든 문서 처리 및 저장 완료!")

tokenizer_config.json:   0%|          | 0.00/51.0k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/444 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/861 [00:00<?, ?B/s]

configuration_kanana2vec.py:   0%|          | 0.00/10.8k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/kakaocorp/kanana-nano-2.1b-embedding:
- configuration_kanana2vec.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


modeling_kanana2vec.py:   0%|          | 0.00/9.50k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/kakaocorp/kanana-nano-2.1b-embedding:
- modeling_kanana2vec.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


model.safetensors:   0%|          | 0.00/4.17G [00:00<?, ?B/s]

✅ 20250101_17363_1.pdf 처리 완료
✅ 20250101_17385_1.pdf 처리 완료
✅ 20250101_17421_1.pdf 처리 완료
✅ 20240401_17328_1.pdf 처리 완료
✅ 20250101_17388_1.pdf 처리 완료
✅ 20250101_17365_1.pdf 처리 완료
✅ 20250101_17101_1.pdf 처리 완료
✅ 20240401_17396_1.pdf 처리 완료
✅ 20250101_17364_1.pdf 처리 완료
✅ 20240401_17401_1.pdf 처리 완료
✅ 20250101_16121_1.pdf 처리 완료
✅ 20250101_16240_1.pdf 처리 완료
✅ 20240531_17305_1.pdf 처리 완료
✅ 20250101_10105_1.pdf 처리 완료
✅ 20250101_15317_1.pdf 처리 완료
✅ 20250101_15336_1.pdf 처리 완료
✅ 20250101_15125_1.pdf 처리 완료
✅ 20250101_15325_1.pdf 처리 완료
✅ 20240401_17391_1.pdf 처리 완료
✅ 20250101_17390_1.pdf 처리 완료
✅ 20250101_10101_1.pdf 처리 완료
✅ 20250101_17309_1.pdf 처리 완료
✅ 20250101_15506_1.pdf 처리 완료
✅ 20250101_10106_1.pdf 처리 완료
✅ 20250101_10102_1.pdf 처리 완료
✅ 20250101_10108_1.pdf 처리 완료
✅ 20250101_15105_1.pdf 처리 완료
✅ 20250101_15332_1.pdf 처리 완료
✅ 20250101_16119_1.pdf 처리 완료
✅ 20250101_15116_1.pdf 처리 완료
✅ 20250101_15337_1.pdf 처리 완료
✅ 20250101_15235_1.pdf 처리 완료
✅ 20250101_15104_1.pdf 처리 완료
✅ 20250101_16101_1.pdf 처리 완료
✅ 20250101_151

장기 - 상해, 질병

In [4]:
long_hurt = os.listdir("pdf_folder_kb/상해보험") + os.listdir("pdf_folder_kb/질병보험") + os.listdir("pdf_folder_kb/방카슈랑스")

# 2️⃣ 모델 및 토크나이저 로드 (GPU로 이동)
model_name = "kakaocorp/kanana-nano-2.1b-embedding"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, trust_remote_code=True).to(device)

# 3️⃣ 임베딩 생성 함수
def get_embeddings(texts):
    inputs = tokenizer(texts, padding=True, truncation=True, max_length=512, return_tensors="pt")
    inputs = {key: val.to(device) for key, val in inputs.items()}
    pool_mask = torch.ones(inputs["input_ids"].shape, dtype=torch.long).to(device)

    with torch.no_grad():
        outputs = model(**inputs, pool_mask=pool_mask)

    return outputs.embedding.cpu().numpy()

# 텍스트 정제 함수
def clean_text(text):
    text = re.sub(r"p\.\d+", "", text)  # 페이지 번호 제거
    text = re.sub(r"(제작일|주소|QR코드|MEMO).*?(\n|$)", "", text, flags=re.DOTALL)  # 목차 제거
    text = re.sub(r"금소법|법령", "", text)  # 법적 공지사항 제거
    text = re.sub(r"\s{2,}", " ", text)  # 공백 정리
    return text.strip()

# 4️⃣ 저장 경로 설정
faiss_index_path = "./faiss_index_kb_long_hurt.bin"
metadata_path = "./documents_kb_long_hurt.pkl"

# 6️⃣ FAISS GPU 인덱스 생성
res = faiss.StandardGpuResources()  # GPU 리소스 할당
index = None

all_documents = []
for file in long_hurt:
    all_texts = []
    if file in os.listdir("pdf_folder_kb/상해보험"):
        path = "pdf_folder_kb/상해보험"
    elif file in os.listdir("pdf_folder_kb/질병보험"):
        path = "pdf_folder_kb/질병보험"
    elif file in os.listdir("pdf_folder_kb/방카슈랑스"):
        path = "pdf_folder_kb/방카슈랑스"

    file_path = os.path.join(path, file)
    
    loader = PyPDFLoader(file_path)
    documents = loader.load()
        
    for doc in documents:
        doc.page_content = clean_text(doc.page_content)
        doc.metadata["source"] = file
        all_texts.append(doc.page_content)  # ✅ 전체 텍스트 리스트에 저장

    # 7️⃣ 텍스트 병합 후 중복 제거
    total_text = "\n".join(all_texts)  # ✅ 하나의 문자열로 병합
    unique_texts = list(dict.fromkeys(total_text.split("\n")))  # ✅ 중복 제거 후 리스트 변환

    # 8️⃣ 새로운 페이지 번호 추가하며 Document 형식 변환
    new_documents = []
    for i, text in enumerate(unique_texts):
        new_doc = Document(page_content=text, metadata={"page": i + 1})
        new_documents.append(new_doc)

    # 9️⃣ 문서 스플리팅
    splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=500)
    split_documents = splitter.split_documents(new_documents)  # ✅ 중복 제거된 문서 사용

    # 🔟 텍스트 추출 및 임베딩 생성
    texts = [doc.page_content for doc in split_documents]

    embeddings = []  # ✅ 리스트 초기화
    batch_size = 16
    for i in range(0, len(texts), batch_size):
        batch = texts[i : i + batch_size]
        batch_embeddings = get_embeddings(batch)
        embeddings.append(batch_embeddings)  # ✅ 리스트에 추가

    embeddings = np.vstack(embeddings).astype(np.float32)  # ✅ 배열 변환

    # 1️⃣1️⃣ FAISS GPU 인덱스 생성 (처음이면 초기화)
    if index is None:
        embedding_dim = embeddings.shape[1]
        cpu_index = faiss.IndexFlatL2(embedding_dim)  # CPU 인덱스
        index = faiss.index_cpu_to_gpu(res, 0, cpu_index)  # GPU로 변환

    # 1️⃣2️⃣ FAISS 인덱스에 데이터 추가
    index.add(embeddings)
    all_documents.extend(split_documents)
        
    print(f"✅ {file} 처리 완료")

faiss.write_index(faiss.index_gpu_to_cpu(index), faiss_index_path)

# 1️⃣4️⃣ 문서 저장
with open(metadata_path, "wb") as f:
    pickle.dump(all_documents, f)

print("🎉 모든 문서 처리 및 저장 완료!")

tokenizer_config.json:   0%|          | 0.00/51.0k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/444 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/861 [00:00<?, ?B/s]

configuration_kanana2vec.py:   0%|          | 0.00/10.8k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/kakaocorp/kanana-nano-2.1b-embedding:
- configuration_kanana2vec.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


modeling_kanana2vec.py:   0%|          | 0.00/9.50k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/kakaocorp/kanana-nano-2.1b-embedding:
- modeling_kanana2vec.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


model.safetensors:   0%|          | 0.00/4.17G [00:00<?, ?B/s]

✅ 24611_3_1(일반).pdf 처리 완료
✅ 24609_3_1.pdf 처리 완료
✅ 24608_3_1.pdf 처리 완료
✅ 24605_3_1.pdf 처리 완료
✅ 24606_3_1.pdf 처리 완료
✅ 24603_3_1.pdf 처리 완료
✅ 24602_3_1.pdf 처리 완료
✅ 24600_3_1.pdf 처리 완료
✅ 24599_3_1[0].pdf 처리 완료
✅ 24661_1_1.pdf 처리 완료
✅ 24662_1_1.pdf 처리 완료
✅ 24660_1_1.Pdf 처리 완료
✅ 24666_1_1.pdf 처리 완료
✅ 24629_1_1(일반).pdf 처리 완료
✅ 24685_1_1.pdf 처리 완료
✅ 24665_1_1.pdf 처리 완료
✅ 24629_1_1(간편)[0].pdf 처리 완료
✅ 24639_1_1.pdf 처리 완료
✅ 24640_1_1.pdf 처리 완료
✅ 24635_1_1.pdf 처리 완료
🎉 모든 문서 처리 및 저장 완료!


장기 - 연금, 저축

In [4]:
long_save = os.listdir("pdf_folder_kb/저축성보험") + os.listdir("pdf_folder_kb/개인연금") + os.listdir("pdf_folder_kb/퇴직연금")

# 2️⃣ 모델 및 토크나이저 로드 (GPU로 이동)
model_name = "kakaocorp/kanana-nano-2.1b-embedding"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, trust_remote_code=True).to(device)

# 3️⃣ 임베딩 생성 함수
def get_embeddings(texts):
    inputs = tokenizer(texts, padding=True, truncation=True, max_length=512, return_tensors="pt")
    inputs = {key: val.to(device) for key, val in inputs.items()}
    pool_mask = torch.ones(inputs["input_ids"].shape, dtype=torch.long).to(device)

    with torch.no_grad():
        outputs = model(**inputs, pool_mask=pool_mask)

    return outputs.embedding.cpu().numpy()

# 텍스트 정제 함수
def clean_text(text):
    text = re.sub(r"p\.\d+", "", text)  # 페이지 번호 제거
    text = re.sub(r"(제작일|주소|QR코드|MEMO).*?(\n|$)", "", text, flags=re.DOTALL)  # 목차 제거
    text = re.sub(r"금소법|법령", "", text)  # 법적 공지사항 제거
    text = re.sub(r"\s{2,}", " ", text)  # 공백 정리
    return text.strip()

# 4️⃣ 저장 경로 설정
faiss_index_path = "./faiss_index_kb_long_save.bin"
metadata_path = "./documents_kb_long_save.pkl"

# 6️⃣ FAISS GPU 인덱스 생성
res = faiss.StandardGpuResources()  # GPU 리소스 할당
index = None

all_documents = []
for file in long_save:
    all_texts = []
    if file in os.listdir("pdf_folder_kb/저축성보험"):
        path = "pdf_folder_kb/저축성보험"
    elif file in os.listdir("pdf_folder_kb/개인연금"):
        path = "pdf_folder_kb/개인연금"
    elif file in os.listdir("pdf_folder_kb/퇴직연금"):
        path = "pdf_folder_kb/퇴직연금"

    file_path = os.path.join(path, file)
   
    loader = PyPDFLoader(file_path)
    documents = loader.load()
    
    for doc in documents:
        doc.page_content = clean_text(doc.page_content)
        doc.metadata["source"] = file
        all_texts.append(doc.page_content)  # ✅ 전체 텍스트 리스트에 저장

    # 7️⃣ 텍스트 병합 후 중복 제거
    total_text = "\n".join(all_texts)  # ✅ 하나의 문자열로 병합
    unique_texts = list(dict.fromkeys(total_text.split("\n")))  # ✅ 중복 제거 후 리스트 변환

    # 8️⃣ 새로운 페이지 번호 추가하며 Document 형식 변환
    new_documents = []
    for i, text in enumerate(unique_texts):
        new_doc = Document(page_content=text, metadata={"page": i + 1})
        new_documents.append(new_doc)

    # 9️⃣ 문서 스플리팅
    splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=500)
    split_documents = splitter.split_documents(new_documents)  # ✅ 중복 제거된 문서 사용

    # 🔟 텍스트 추출 및 임베딩 생성
    texts = [doc.page_content for doc in split_documents]

    embeddings = []  # ✅ 리스트 초기화
    batch_size = 16
    for i in range(0, len(texts), batch_size):
        batch = texts[i : i + batch_size]
        batch_embeddings = get_embeddings(batch)
        embeddings.append(batch_embeddings)  # ✅ 리스트에 추가

    embeddings = np.vstack(embeddings).astype(np.float32)  # ✅ 배열 변환

    # 1️⃣1️⃣ FAISS GPU 인덱스 생성 (처음이면 초기화)
    if index is None:
        embedding_dim = embeddings.shape[1]
        cpu_index = faiss.IndexFlatL2(embedding_dim)  # CPU 인덱스
        index = faiss.index_cpu_to_gpu(res, 0, cpu_index)  # GPU로 변환

    # 1️⃣2️⃣ FAISS 인덱스에 데이터 추가
    index.add(embeddings)
    all_documents.extend(split_documents)    
    print(f"✅ {file} 처리 완료")

faiss.write_index(faiss.index_gpu_to_cpu(index), faiss_index_path)

# 1️⃣4️⃣ 문서 저장
with open(metadata_path, "wb") as f:
    pickle.dump(all_documents, f)

print("🎉 모든 문서 처리 및 저장 완료!")

tokenizer_config.json:   0%|          | 0.00/51.0k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/444 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/861 [00:00<?, ?B/s]

configuration_kanana2vec.py:   0%|          | 0.00/10.8k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/kakaocorp/kanana-nano-2.1b-embedding:
- configuration_kanana2vec.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


modeling_kanana2vec.py:   0%|          | 0.00/9.50k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/kakaocorp/kanana-nano-2.1b-embedding:
- modeling_kanana2vec.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


model.safetensors:   0%|          | 0.00/4.17G [00:00<?, ?B/s]

✅ 24632_1_1.pdf 처리 완료
✅ 24633_1_1.pdf 처리 완료
✅ 24634_1_1.pdf 처리 완료
✅ dc-pension(241213).pdf 처리 완료
✅ irp(p)-terms(241213).pdf 처리 완료
✅ irp(c)-pension(241213).pdf 처리 완료
✅ db-pension(241213).pdf 처리 완료
✅ irp(c)-terms(241213).pdf 처리 완료
✅ db-terms(241213).pdf 처리 완료
✅ irp(p)-pension(241213).pdf 처리 완료
✅ gic-terms(241213).pdf 처리 완료
✅ dc-terms(241213).pdf 처리 완료
✅ yct-terms(241213).pdf 처리 완료
🎉 모든 문서 처리 및 저장 완료!


장기 - 기타

In [8]:
long_etc = os.listdir("pdf_folder_kb/제휴") + os.listdir("pdf_folder_kb/제도성 특별약관") + os.listdir("pdf_folder_kb/기타") + os.listdir("pdf_folder_kb/화재보험")

# 2️⃣ 모델 및 토크나이저 로드 (GPU로 이동)
model_name = "kakaocorp/kanana-nano-2.1b-embedding"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, trust_remote_code=True).to(device)

# 3️⃣ 임베딩 생성 함수
def get_embeddings(texts):
    inputs = tokenizer(texts, padding=True, truncation=True, max_length=512, return_tensors="pt")
    inputs = {key: val.to(device) for key, val in inputs.items()}
    pool_mask = torch.ones(inputs["input_ids"].shape, dtype=torch.long).to(device)

    with torch.no_grad():
        outputs = model(**inputs, pool_mask=pool_mask)

    return outputs.embedding.cpu().numpy()

# 텍스트 정제 함수
def clean_text(text):
    text = re.sub(r"p\.\d+", "", text)  # 페이지 번호 제거
    text = re.sub(r"(제작일|주소|QR코드|MEMO).*?(\n|$)", "", text, flags=re.DOTALL)  # 목차 제거
    text = re.sub(r"금소법|법령", "", text)  # 법적 공지사항 제거
    text = re.sub(r"\s{2,}", " ", text)  # 공백 정리
    return text.strip()

# 4️⃣ 저장 경로 설정
faiss_index_path = "./faiss_index_kb_long_etc.bin"
metadata_path = "./documents_kb_long_etc.pkl"

# 6️⃣ FAISS GPU 인덱스 생성
res = faiss.StandardGpuResources()  # GPU 리소스 할당
index = None

all_documents = []
for file in long_etc:
    all_texts = []
    if file in os.listdir("pdf_folder_kb/제휴"):
        path = "pdf_folder_kb/제휴"
    elif file in os.listdir("pdf_folder_kb/제도성 특별약관"):
        path = "pdf_folder_kb/제도성 특별약관"
    elif file in os.listdir("pdf_folder_kb/기타"):
        path = "pdf_folder_kb/기타"
    elif file in os.listdir("pdf_folder_kb/화재보험"):
        path = "pdf_folder_kb/화재보험"

    file_path = os.path.join(path, file)

    loader = PyPDFLoader(file_path)
    documents = loader.load()
    
    for doc in documents:
        doc.page_content = clean_text(doc.page_content)
        doc.metadata["source"] = file
        all_texts.append(doc.page_content)  # ✅ 전체 텍스트 리스트에 저장

    # 7️⃣ 텍스트 병합 후 중복 제거
    total_text = "\n".join(all_texts)  # ✅ 하나의 문자열로 병합
    unique_texts = list(dict.fromkeys(total_text.split("\n")))  # ✅ 중복 제거 후 리스트 변환

    # 8️⃣ 새로운 페이지 번호 추가하며 Document 형식 변환
    new_documents = []
    for i, text in enumerate(unique_texts):
        new_doc = Document(page_content=text, metadata={"page": i + 1})
        new_documents.append(new_doc)

    # 9️⃣ 문서 스플리팅
    splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=500)
    split_documents = splitter.split_documents(new_documents)  # ✅ 중복 제거된 문서 사용

    # 🔟 텍스트 추출 및 임베딩 생성
    texts = [doc.page_content for doc in split_documents]

    embeddings = []  # ✅ 리스트 초기화
    batch_size = 16
    for i in range(0, len(texts), batch_size):
        batch = texts[i : i + batch_size]
        batch_embeddings = get_embeddings(batch)
        embeddings.append(batch_embeddings)  # ✅ 리스트에 추가

    embeddings = np.vstack(embeddings).astype(np.float32)  # ✅ 배열 변환

    # 1️⃣1️⃣ FAISS GPU 인덱스 생성 (처음이면 초기화)
    if index is None:
        embedding_dim = embeddings.shape[1]
        cpu_index = faiss.IndexFlatL2(embedding_dim)  # CPU 인덱스
        index = faiss.index_cpu_to_gpu(res, 0, cpu_index)  # GPU로 변환

    # 1️⃣2️⃣ FAISS 인덱스에 데이터 추가
    index.add(embeddings)
    all_documents.extend(split_documents)    
    print(f"✅ {file} 처리 완료")

faiss.write_index(faiss.index_gpu_to_cpu(index), faiss_index_path)

# 1️⃣4️⃣ 문서 저장
with open(metadata_path, "wb") as f:
    pickle.dump(all_documents, f)

print("🎉 모든 문서 처리 및 저장 완료!")

tokenizer_config.json:   0%|          | 0.00/51.0k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/444 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/861 [00:00<?, ?B/s]

configuration_kanana2vec.py:   0%|          | 0.00/10.8k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/kakaocorp/kanana-nano-2.1b-embedding:
- configuration_kanana2vec.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


modeling_kanana2vec.py:   0%|          | 0.00/9.50k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/kakaocorp/kanana-nano-2.1b-embedding:
- modeling_kanana2vec.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


model.safetensors:   0%|          | 0.00/4.17G [00:00<?, ?B/s]

✅ 24693_1_1.pdf 처리 완료
✅ 24664_1_1.pdf 처리 완료
✅ 24663_1_1.pdf 처리 완료
✅ 24657_1_1.pdf 처리 완료
✅ 24655_1_1.pdf 처리 완료
✅ 24650_1_1.pdf 처리 완료
✅ 24656_1_1.pdf 처리 완료
✅ 24628_1_1[0].pdf 처리 완료
✅ 24625_3_1(일반).pdf 처리 완료
✅ 24471_2_1.pdf 처리 완료
✅ 24649_1_1.pdf 처리 완료
✅ 24648_1_1.pdf 처리 완료
✅ 24626_3_1(일반).pdf 처리 완료
✅ 24622_3_1(일반).pdf 처리 완료
✅ 24621_3_1(일반).pdf 처리 완료
✅ 24618_1_1(일반).pdf 처리 완료
✅ 24613_3_1(일반).pdf 처리 완료
✅ 24690_1_1.pdf 처리 완료
✅ 24607_3_1.pdf 처리 완료
✅ 24698_1_1.pdf 처리 완료
✅ 24675_1_1.pdf 처리 완료
✅ 24674_1_1.pdf 처리 완료
✅ 24687_1_1.Pdf 처리 완료
✅ 24688_1_1.pdf 처리 완료
✅ 24712_1_1.pdf 처리 완료
✅ 24689_1_1.pdf 처리 완료
✅ 24601_3_1.pdf 처리 완료
✅ 24708_1_1.pdf 처리 완료
✅ 24684_1_1.pdf 처리 완료
✅ 24638_1_1.pdf 처리 완료
✅ 24691_1_1.pdf 처리 완료
✅ 24709_1_1.pdf 처리 완료
✅ 24696_1_1.pdf 처리 완료
✅ 24678_1_1.pdf 처리 완료
✅ 24697_1_1.pdf 처리 완료
✅ 24699_1_1.pdf 처리 완료
✅ 24682_1_1.pdf 처리 완료
✅ 24671_1_1.pdf 처리 완료
✅ 24647_1_1.pdf 처리 완료
✅ 24478_1_1.pdf 처리 완료
✅ 24604_3_1.pdf 처리 완료
✅ 24704_1_1.pdf 처리 완료
✅ 24680_1_1.pdf 처리 완료
✅ 24692_1_1.pdf 처리 완료
✅ 247

In [7]:
long_etc = os.listdir("pdf_folder_kb/제휴") + os.listdir("pdf_folder_kb/제도성 특별약관") + os.listdir("pdf_folder_kb/기타") + os.listdir("pdf_folder_kb/화재보험")
len(long_etc), len(os.listdir("pdf_folder_kb/제휴")), len(os.listdir("pdf_folder_kb/제도성 특별약관")), len(os.listdir("pdf_folder_kb/기타")), len(os.listdir("pdf_folder_kb/화재보험"))

(91, 48, 36, 6, 1)

In [None]:
# 1️⃣ 저장된 FAISS 인덱스 로드
index = faiss.read_index("./faiss_index.bin")

# 2️⃣ 문서 정보 로드
with open("./documents.pkl", "rb") as f:
    documents = pickle.load(f)

# 3️⃣ 검색 수행
# query = " 보험금의 종류 및 한도에 대해 설명해줘?"
query = "자동차 의무보험 미가입에 따른 불이익을 알려줘"
query_embedding = get_embeddings([query])[0]  # 쿼리 임베딩
query_embedding = np.array([query_embedding], dtype=np.float32)

D, I = index.search(query_embedding, k=10)  # 가장 유사한 5개 검색
context = []

# 4️⃣ 검색 결과 출력
for idx in I[0]:
    context.append(documents[idx].page_content)
    print(f"🔹 문서 {idx}: {documents[idx].page_content[:200]}")


[]