In [3]:
from langchain_community.vectorstores import FAISS
# from langchain.embeddings import HuggingFaceEmbeddings
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.document_loaders.csv_loader import CSVLoader

# CSV 로더 생성
path = "../data/한국인터넷진흥원_개인정보포털 상황별 FAQ정보_20240731.csv"
loader = CSVLoader(file_path=path, encoding="utf-8")


In [4]:
# 예시 문서 및 임베딩 생성
# docs = ["LangChain is cool", "FAISS is fast"]
# CSV 파일에서 문서 로드
csv_docs = loader.load()

# 임베딩 모델 생성

embedding_path = "../ai_models/intfloat/multilingual-e5-large-instruct"
embedding_model = HuggingFaceEmbeddings(model_name=embedding_path)

# 문서 텍스트 추출 (Document 객체라면 .page_content 사용)
texts = [doc.page_content for doc in csv_docs]

# FAISS 인덱스 생성
vectorstore = FAISS.from_texts(texts, embedding_model)

# 인덱스 저장
vectorstore.save_local("./faiss_index")


In [9]:
retriever = vectorstore.as_retriever()

In [10]:
retriever.get_relevant_documents("개인정보 유출이란?")  # 검색어에 대한 관련 문서 검색

  retriever.get_relevant_documents("개인정보 유출이란?")  # 검색어에 대한 관련 문서 검색


[Document(id='93bafc82-46e5-4713-b415-59e9913ccad8', metadata={}, page_content='\ufeff처리상황단계내용: 안전성확보조치\n적용분야내용: 시스템 분야\n개인정보유형내용: 일반정보\n코드제목: 홈페이지 방문객이 게시판에 스스로 본인의 개인정보를 게시했다면?\n주제내용: 정보주체가 자신의 개인정보를 인터넷 게시판에 게재하는 경우 조치 방법\n문제상황내용: 협회에서는 홈페이지를 운영하고 있으나 별도의 회원가입 없이 누구나 자유롭게 게시판을 이용할 수 있도록 자유게시판을 운영하고 있습니다. 그런데 일부 홈페이지 이용자가 게시물에 자신의 성명, 전화번호, 이메일주소 등의 개인정보를 공개하는 경우가 있습니다. 이런 경우 개인정보가 유출되는 것은 아닌지 우려가 되고, 개인정보가 포함된 게시글을 삭제해야 하는지 고민이 됩니다.\n질문: 개인이 본인의 개인정보가 포함된 게시물을 작성하여 게시판에 올린 경우 어떻게 처리해야 하나요?\n해결방법내용: 홈페이지 운영자는 이용자가 작성한 게시물에 개인정보가 포함되어 있는 경우 개인정보의 추가적인 노출 및 타인에 의한 도용 등 2차적 피해를 예방하기 위하여  게시판 안내문을 통해 게시글에 개인정보가 포함되어 있는지 여부를 작성자가 확인하도록 하고, 개인정보 유출로 인한 피해가 있음을 알려줄 수 있습니다. 또한 고객이 부주의하게 게재한 개인정보는 고객의 의사를 확인하여 일부 마스킹 처리하거나 개인정보 입력을 사전에 차단할 수 있도록 ‘필터링 시스템’을 적용할 수 있습니다. 이와 같이 홈페이지 운영자는 최대한 개인정보 유출 방지를 위한 안전성 확보조치를 취하는 것이 바람직합니다.\n결론내용: 홈페이지 이용자가 인터넷 게시판을 이용하면서 부주의로 자신의 개인정보를 게재하지 않도록 피해가능성 등에 대한 경고문을 사전에 안내하고, 개인정보 유출 방지를 위한 안전조치를 하여야 할 것입니다.\n유사사례내용: FAQ_0000000000000748\nfaq식별자: FAQ_000000000

In [7]:
# 검색 쿼리 입력
query = "LangChain이 뭐하는 라이브러리야?"

# top-k 유사 문서 검색
docs = vectorstore.similarity_search(query, k=3)

# 결과 출력
for i, doc in enumerate(docs):
    print(f"결과 {i+1}:\n{doc.page_content}\n")


결과 1:
﻿처리상황단계내용: CCTV
적용분야내용: 공통분야
개인정보유형내용: 영상정보
코드제목: 건물 내 영상정보처리기기 안내판 부착은 어떻게?
주제내용: 건물 내에 영상정보처리기기 대표 안내판 부착 가능 여부
문제상황내용: 현재 건물 2개 층을 임대 사용 중이며 각 층 출입구에 영상정보처리기기 안내판을 부착하고 안내판에는 설치 목적과 장소, 촬영 범위와 시간, 설치 대수 및 책임자의 성명, 연락처 등을 명시하였습니다. 그러나 영상정보처리기기가 설치된 곳마다 영상정보처리기기 안내판을 부착해야 한다는 얘기를 들었습니다.
질문: 영상정보처리기기 한 대당 안내판을 각각 부착해야 하는 것인지요?
해결방법내용: 안내판은 촬영범위 내에서 정보주체가 알아보기 쉬운 장소에 설치하며, 안내판의 크기나 위치는 그 범위 내에서 자율적으로 정할 수 있습니다. 안내판에는 설치 목적 및 장소, 촬영범위 및 시간, 관리책임자의 성명 또는 직책 및 연락처 등을 기재하여야 합니다.이 경우 건물 안에 여러 개의 영상정보처리기기를 설치하는 경우에는 출입구 등 잘 보이는 곳에 해당 시설 또는 장소 전체가 영상정보처리기기 설치지역임을 표시하는 안내판을 설치할 수 있습니다.
결론내용: 백화점, 역사 등 규모가 큰 건물 안에 여러 개의 영상정보처리기기를 설치하는 경우에는 각각의 기기에 대해 개별적으로 안내판을 설치하지 않아도 되며, 출입구 등 잘 보이는 곳에 해당 시설 또는 장소 전체가 영상정보처리기기 설치지역임을 표시하는 안내판을 설치할 수 있습니다.
유사사례내용: FAQ_0000000000000766
faq식별자: FAQ_0000000000000739
최종수정년월일시: 2013-10-14 17:22:24
조회수: 2525
임시: CCTV

결과 2:
﻿처리상황단계내용: 위탁
적용분야내용: 금융 분야
개인정보유형내용: 일반정보
코드제목: 금융회사는 모든 위탁업체 정보를 공개해야 한다?
주제내용: 개인정보처리를 위탁하는 경우 공개하는 방법
문제상황내용: 00금융회사는 A사에게 고객관리시스템 개발업