In [4]:
from langchain_community.vectorstores import FAISS
# from langchain.embeddings import HuggingFaceEmbeddings
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.document_loaders.csv_loader import CSVLoader

# CSV 로더 생성

LLM_MODEL_PATH = "../ai_models/llama-3.2-Korean-Bllossom-3B-gguf-Q4_K_M/llama-3.2-Korean-Bllossom-3B-gguf-Q4_K_M.gguf"
EMBEDDING_MODEL_PATH = "../ai_models/intfloat/multilingual-e5-large-instruct"  # 또는 로컬 모델 경로
VECTORSTORE_PATH = "../vectorstore/faiss_index" 


path = "../data/한국인터넷진흥원_개인정보포털 상황별 FAQ정보_20240731.csv"
loader = CSVLoader(file_path=path, encoding="utf-8")


In [5]:
embedding = HuggingFaceEmbeddings(
    model_name=EMBEDDING_MODEL_PATH,
    model_kwargs={"device": "cpu"},                    # GPU 사용 안함
    encode_kwargs={"normalize_embeddings": True}       # 임베딩 정규화 (권장)
)
vectorstore = FAISS.load_local(VECTORSTORE_PATH, embedding, allow_dangerous_deserialization=True)
retriever = vectorstore.as_retriever(search_kwargs={"k": 2})  # top-3 문서 검색

In [6]:
retriever.get_relevant_documents("개인정보")

  retriever.get_relevant_documents("개인정보")


[Document(id='a3c459a1-5428-4b7d-b684-3564fc56d2c3', metadata={}, page_content='\ufeff처리상황단계내용: 수집·이용\n적용분야내용: 공통분야\n개인정보유형내용: 일반정보\n코드제목: 법인이나 개인사업자 정보도 개인정보로 보호되어야 한다?\n주제내용: 법인 및 개인사업자 정보가 개인정보보호법상 개인정보에 해당 여부\n문제상황내용: 우리 회사는 업무 효율성을 높이기 위해 협력사 및 거래처에 대한 정보를 체계적으로 관리하려고 합니다. 회사에서 관리하고자 하는 정보는 법인 및 개인사업자의 사업자등록번호, 사업장 주소, 사업장 전화번호, 대표자 성명입니다.\n질문: 개인정보보호법에 따르면 개인정보는 살아 있는 개인에 대한 정보라고 정의 되어 있는데, 이러한 정보들이 개인정보에 해당되나요?\n해결방법내용: 개인정보보호법은 생존하고 있는 자연인에 대한 개인정보를 보호 대상으로 하고 있습니다. 자연인이 아닌 법인이나 사업체(개인사업자 포함)의 정보는 원칙적으로 개인정보보호법상 보호대상인 개인정보에 해당하지 않습니다.그러나 대표자의 성명이 법인이나 사업체의 정보로서가 아니라 자연인으로서의 개인정보로 처리되는 경우 또는 마케팅 목적으로 이용되는 경우에는 개인정보보호법에 따른 개인정보에 포함될 수 있습니다.\n결론내용: 법인이나 사업체의 정보인 사업장주소, 사업장전화번호, 대표자성명은 자연인으로서의 개인정보에 해당하지 않습니다\n유사사례내용: FAQ_0000000000000770\nfaq식별자: FAQ_0000000000000784\n최종수정년월일시: 2013-10-07 10:45:47\n조회수: 11934\n임시: 수집·이용'),
 Document(id='93bafc82-46e5-4713-b415-59e9913ccad8', metadata={}, page_content='\ufeff처리상황단계내용: 안전성확보조치\n적용분야내용: 시스템 분야\n개인정보유형내용: 일반정보\n코드제목: 홈페이지 방문객이 게시판에 스스

In [None]:
# 예시 문서 및 임베딩 생성
# docs = ["LangChain is cool", "FAISS is fast"]
# CSV 파일에서 문서 로드
csv_docs = loader.load()

# 임베딩 모델 생성
embedding_model = HuggingFaceEmbeddings(model_name=EMBEDDING_MODEL_PATH)

# 문서 텍스트 추출 (Document 객체라면 .page_content 사용)
texts = [doc.page_content for doc in csv_docs]

# FAISS 인덱스 생성
vectorstore = FAISS.from_texts(texts, embedding_model)

# 인덱스 저장
vectorstore.save_local("./faiss_index")


In [9]:
retriever = vectorstore.as_retriever()

NameError: name 'vectorstore' is not defined

In [3]:
retriever.get_relevant_documents("개인정보 유출이란?")  # 검색어에 대한 관련 문서 검색

NameError: name 'retriever' is not defined

In [7]:
# 검색 쿼리 입력
query = "LangChain이 뭐하는 라이브러리야?"

# top-k 유사 문서 검색
docs = vectorstore.similarity_search(query, k=3)

# 결과 출력
for i, doc in enumerate(docs):
    print(f"결과 {i+1}:\n{doc.page_content}\n")


결과 1:
﻿처리상황단계내용: CCTV
적용분야내용: 공통분야
개인정보유형내용: 영상정보
코드제목: 건물 내 영상정보처리기기 안내판 부착은 어떻게?
주제내용: 건물 내에 영상정보처리기기 대표 안내판 부착 가능 여부
문제상황내용: 현재 건물 2개 층을 임대 사용 중이며 각 층 출입구에 영상정보처리기기 안내판을 부착하고 안내판에는 설치 목적과 장소, 촬영 범위와 시간, 설치 대수 및 책임자의 성명, 연락처 등을 명시하였습니다. 그러나 영상정보처리기기가 설치된 곳마다 영상정보처리기기 안내판을 부착해야 한다는 얘기를 들었습니다.
질문: 영상정보처리기기 한 대당 안내판을 각각 부착해야 하는 것인지요?
해결방법내용: 안내판은 촬영범위 내에서 정보주체가 알아보기 쉬운 장소에 설치하며, 안내판의 크기나 위치는 그 범위 내에서 자율적으로 정할 수 있습니다. 안내판에는 설치 목적 및 장소, 촬영범위 및 시간, 관리책임자의 성명 또는 직책 및 연락처 등을 기재하여야 합니다.이 경우 건물 안에 여러 개의 영상정보처리기기를 설치하는 경우에는 출입구 등 잘 보이는 곳에 해당 시설 또는 장소 전체가 영상정보처리기기 설치지역임을 표시하는 안내판을 설치할 수 있습니다.
결론내용: 백화점, 역사 등 규모가 큰 건물 안에 여러 개의 영상정보처리기기를 설치하는 경우에는 각각의 기기에 대해 개별적으로 안내판을 설치하지 않아도 되며, 출입구 등 잘 보이는 곳에 해당 시설 또는 장소 전체가 영상정보처리기기 설치지역임을 표시하는 안내판을 설치할 수 있습니다.
유사사례내용: FAQ_0000000000000766
faq식별자: FAQ_0000000000000739
최종수정년월일시: 2013-10-14 17:22:24
조회수: 2525
임시: CCTV

결과 2:
﻿처리상황단계내용: 위탁
적용분야내용: 금융 분야
개인정보유형내용: 일반정보
코드제목: 금융회사는 모든 위탁업체 정보를 공개해야 한다?
주제내용: 개인정보처리를 위탁하는 경우 공개하는 방법
문제상황내용: 00금융회사는 A사에게 고객관리시스템 개발업