# 벡터 저장소 (Vector Store)

- 개념:
    - 벡터화된 데이터를 효율적으로 저장하고 검색하기 위한 특수 데이터베이스 시스템
    - 텍스트나 이미지 등의 비정형 데이터를 고차원 벡터 공간에 매핑하여 저장
    - 유사도 기반 검색을 통해 의미적으로 가까운 데이터를 빠르게 검색 가능 

- LangChain의 벡터 저장소 종류:
    - **Chroma**: 경량화된 임베딩 데이터베이스로 로컬 개발에 적합
    - **FAISS**: Facebook AI가 개발한 고성능 유사도 검색 라이브러리
    - **Pinecone**: 완전 관리형 벡터 데이터베이스 서비스
    - **PostgreSQL**: pgvector 확장을 통해 벡터 저장 및 검색 기능을 제공
    - **Milvus**: 분산 벡터 데이터베이스로 대규모 데이터 처리에 적합

- 주요 기능:
    - 벡터 색인화: 효율적인 검색을 위한 데이터 구조화를 수행
    - 근접 이웃 검색: 주어진 쿼리와 가장 유사한 벡터들을 검색 
    - 메타데이터 관리: 벡터와 관련된 부가 정보를 함께 저장하고 검색

- 사용 사례:
    - 시맨틱 문서 검색: 문서의 의미를 이해하여 검색
    - 추천 시스템: 유사한 아이템을 추천
    - 중복 데이터 감지: 유사한 콘텐츠를 검색 
    - 질의응답 시스템: 관련 문서에서 답변을 생성하는데 필요한 근거를 검색 

In [15]:
pip install langchain_chroma psycopg_binary psycopg2

Note: you may need to restart the kernel to use updated packages.


In [16]:
from langchain_community.document_loaders import PyPDFLoader
loader = PyPDFLoader("data/bc_platinum.pdf")
documents = loader.load()
documents[0].page_content
documents[1].metadata

{'producer': 'Adobe PDF Library 16.0.7',
 'creator': 'Adobe InDesign 17.4 (Macintosh)',
 'creationdate': '2023-08-28T16:51:08+09:00',
 'moddate': '2023-08-28T16:51:13+09:00',
 'trapped': '/False',
 'source': 'data/bc_platinum.pdf',
 'total_pages': 19,
 'page': 1,
 'page_label': '2'}

In [17]:
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings
# .env 파일 로드
from dotenv import load_dotenv
import os

# .env 파일 로드
load_dotenv()

# API 키 확인 (선택사항)
print("OpenAI API Key 설정됨:", bool(os.getenv("OPENAI_API_KEY")))

embeddings_openai = OpenAIEmbeddings()
# 저장된 벡터 저장소를 가져오기
chroma_db = Chroma.from_documents(
    documents=documents,
    collection_name="bc-platinum",  # 컬렉션 이름
    embedding=embeddings_openai,
    persist_directory="./chroma_db",)

OpenAI API Key 설정됨: True


In [18]:
# 문서 개수 확인
chroma_db._collection.count()

38

- 유사도 검색
    - 주어진 쿼리와 가장 유사한 문서를 반환
    -  k=5는 상위 5개의 결과를 반환하도록 지정
    - filter를 사용하여 특정 출처의 문서만 검색 가능

In [19]:
query = "제주도 렌터카"
results = chroma_db.similarity_search(
    query,
    k=2,  # 검색할 문서의 개수
)

print("유사도 검색 결과:")
for doc in results:
    print(f"- {doc.page_content} [출처: {doc.metadata['source']}]")
    print("=" * 100)

유사도 검색 결과:
- 08 09
BC PLATINUM 
SERVICE
여행지원 
서비스
문화  
서비스
골프  
서비스
기본  
서비스
서비스 유지 및  
변경 안내
카드 이용 시
유의사항
긴급
서비스
연회비 및 국내·외 
이용안내
국내 특급호텔 무료숙박권 제공
· 발급 은행별 최초 신규가입 또는 최초 신규가입 5년후 갱신되는 회원님께 가입  
   축하 국내 특급호텔 무료숙박권을 제공합니다.
· 2일 이상 숙박 시 사용 가능하며 , 1일차 숙박요금은 BC 플래티늄 카드로 결제  
  하시고 2일차 숙박요금(2인 조식 포함)은 무료숙박권을 제출하시면 됩니다. 단,  
   취소나 변경으로 1박만 이용시에는 무료숙박권을 이용하실 수 없습니다.
프리미엄 공항 리무진 & 밴 의전
프리미엄 공항 리무진 & 밴 의전 서비스는 국내에서 개최되는 국제 Convention  
행사에 참석하는 해외 VIP 인사의 의전 업무를 담당하는 전문 의전요원과  
전문 의전기사가 제공하는 품격 높은 서비스입니다.
서비스 내용
유의사항 · 객실예약은 사전에 충분한 여유를 가지고 하시기 바라며, 예약  
   후 취소시에는 호텔이용 약관에 의하여 취소 수수료가 부과될 수  
   있습니다. 
· 숙박권은 타인에게 양도할 수 없고, 분실 및 파손시 재발행 되지  
   않습니다. 
· 최초 신규가입이후 5년이내 탈회후 재가입시 최초 신규가입일  
    기준 5년후 부터 특급호텔 숙박권이 제공됩니다.
서비스
이용방법
· 서비스 이용 3일 전(영업일 기준)까지 사전 예약하셔야 서비스  
   이용이 가능합니다. 
· 서비스 이용 1일 전(영업일기준)에 담당자 확정 후, 담당자  
   통보를 위한 서비스 이용확인 전화를 드립니다. 
· 결제는 서비스 이용 당일 공항에서 플래티늄카드로 결제  
   하시면 됩니다.
유의사항 · 예약 취소는 1일 전(영업일 기준)까지 가능하며, 당일 취소 및  
   이용요금 환불은 되지 않습니다. 
· 기본 구역 이외의 지역에서 이용하실 경우 추가 요금이 발생

In [20]:
chroma_db.get(where={"source": "data/bc_platinum.pdf"})

{'ids': ['ceff8b0a-1a25-47c5-a2e1-0301bbba81eb',
  'e24eb6f3-91c7-4680-a371-35812d8644ca',
  '349a85d0-3d3a-49d5-9e29-5eec30d0b873',
  '75813147-6c35-4c76-bee4-59e3c1801aeb',
  'c63b8880-d807-4fa0-a620-28e225db5e38',
  '25097da9-f9df-4597-967b-d8d95df53cc7',
  '3be3f348-76ee-4de0-bee5-e643100409fc',
  '91c12e4e-0c36-437e-b444-4197c0d1cce8',
  'cca65dfd-f6f1-4f24-8465-8f3d2007238f',
  'abed9f35-d7f5-4166-8178-3814201d1880',
  '51b1fcbf-795e-4484-811f-7d3639ec4c74',
  '09cfcfe0-acdd-487b-9609-5cb8c7787743',
  '0d8909b8-7a14-46a4-8b98-c6c504ab829f',
  '5a5ce6ff-7f11-43cc-865b-8d8b4f8813ea',
  '672e7f1e-5664-4def-94b7-5f54337344d5',
  '4f38972b-74af-46e4-a2d2-e5d324c7f150',
  '747b9612-0165-44ec-a340-f1842f078046',
  '8e20ec60-389d-406a-807f-5e6eee143074',
  'a42b9a6d-325c-4683-987f-87f37a39e0ab',
  'f7de96d7-04e3-4499-80fa-2b0365e97cb8',
  'aea0406c-7f72-4bc4-a771-c7cd7d807c48',
  '2338246e-2ea2-44c6-b3ce-53d3561704b5',
  '1176a95b-e35e-4eeb-8904-7878996fd0ff',
  'f1723057-98c6-46ae-81b8-

In [21]:
chroma_db.get(['e797f69f-3399-453c-b71b-f5a9d7f0101b'])

{'ids': [],
 'embeddings': None,
 'documents': [],
 'uris': None,
 'included': ['metadatas', 'documents'],
 'data': None,
 'metadatas': []}

```python
    db.get(where={"source":"data/finance-keywords.txt"})
    db.get(['1','2'])
    db.delete(ids=["1"])
    db.reset_collection()
```

In [22]:
retriever = chroma_db.as_retriever(
    search_type="similarity_score_threshold",
    search_kwargs={
        "k" : 2,
        "score_threshold" : 0.7,
    }
)
docs = retriever.invoke("개인회원 연회비")

def format_docs(docs):
    return "\n\n".join([f"문서내용:{doc.page_content}, 출처:{doc.metadata['source']} 페이지번호:{doc.metadata['page_label']}" for doc in docs])


from IPython.display import Markdown
display(Markdown(format_docs(docs)))

문서내용:28 29
BC PLATINUM 
SERVICE
제휴카드 서비스
연회비 : 기본 연회비(120,000원) 외에 
              별도 연회비 20,000원 추가 
· 카드 이용실적 1,500원당 1마일리지로 제공
· 2012년 10월 1일부터 무이자 할부 이용실적은 마일리지 미적립 
· 자동차 구입 시 3개월 무이자(건당 5백만원 이하)
· 전국 주요 놀이공원 무료입장 및 자유이용권 할인(20~50%)  
   단, 3개월(이용 시점 기준 3개월 전 1일~전월 말일) 국내  
  신판 30만원 이상인 회원에 한해 서비스 제공, 월 1회에  
   한하여 서비스 제공(놀이공원 전체 1회)
· 전 주유소 1,000원당 20원 할인(ℓ당 25원과 동일), 월간  
   6회 이내(1일 2회, 1일 최대 10만원), 3개월(이용 시점 기준  
   3개월 전 1일~전월 말일), 국내 신판 30만원 이상인 회원에  
   한해 서비스 제공
· 전국 모든 백화점, 면세점, 여행/레포츠점 3개월 무이자  
   할부
연회비 : 기본 연회비(120,000원) 외에  
              별도 연회비 10,000원 추가 
· 카드 이용실적 1,500원당 1마일 제공
   ※ 단, 법인회원인 경우
        · 카드 이용 실적 3,000원당 1마일 제공
· 카드 이용 후 매출 취소 시 해당 마일리지는 차감
· 2012년 10월 1일부터 무이자 할부 이용 실적은 마일리지  
   미적립
· 가족카드의 카드 이용 마일리지는 본인회원에 합산 관리
· 기업지정 카드의 경우 연간 3만 마일리지까지만 적립 가능
· 마일리지 유효기한 : 적립일로부터 10년 (2008년 7월 1일 
   부터 적용)
· 문의전화 : 대한항공 SKYPASS 데스크 1588-2001
BC SKYPASS 
카드
BC 노블스
(Nobles) 카드
연회비 : 기본 연회비(120,000원) 
 
아시아나 클럽 아시아나 이코노미
연회비 1만원 특별연회비 없음
카드이용실적  
1,000원당 1마일
카드이용실적 
5,000원당 1마일
※ 단, 법인회원인 경우
     · 카드 이용 실적 2,500원당 1마일 제공
· 카드 이용 후 매출 취소 시 해당 마일리지는 차감
· 2012년 10월 1일부터 무이자 할부 이용실적은 마일리지  
   미적립
· 가족카드의 카드 이용 마일리지는 본인회원에 합산 관리
· 기업 지정 카드의 경우 연간 3만 마일리지까지만 적립 가능
· 마일리지 유효기한 : 적립일로부터 10년 (2008년 10월 1일 
   부터 적용)
· 문의전화 : 아시아나 클럽 서비스센터 1588-8000
주유 할인
· SK주유소(충전소 포함), 이용액 ℓ당 25원 할인 (이용대금 
   명세서에 가맹점 및 할인금액 표시, 1일 2회, 월 6회, 1회  
   최대 20만원까지 적용)
BC SK 카드
BC 아시아나 
카드
다이닝  
서비스
문화  
서비스
호텔 
서비스
생활편의 
서비스
제휴카드 
서비스
브랜드 
서비스
보험 
서비스
가족카드 
특별 서비스
포인트 
서비스, 출처:data/bc_platinum.pdf 페이지번호:16

문서내용:28 29
BC PLATINUM 
SERVICE
제휴카드 서비스
연회비 : 기본 연회비(120,000원) 외에 
              별도 연회비 20,000원 추가 
· 카드 이용실적 1,500원당 1마일리지로 제공
· 2012년 10월 1일부터 무이자 할부 이용실적은 마일리지 미적립 
· 자동차 구입 시 3개월 무이자(건당 5백만원 이하)
· 전국 주요 놀이공원 무료입장 및 자유이용권 할인(20~50%)  
   단, 3개월(이용 시점 기준 3개월 전 1일~전월 말일) 국내  
  신판 30만원 이상인 회원에 한해 서비스 제공, 월 1회에  
   한하여 서비스 제공(놀이공원 전체 1회)
· 전 주유소 1,000원당 20원 할인(ℓ당 25원과 동일), 월간  
   6회 이내(1일 2회, 1일 최대 10만원), 3개월(이용 시점 기준  
   3개월 전 1일~전월 말일), 국내 신판 30만원 이상인 회원에  
   한해 서비스 제공
· 전국 모든 백화점, 면세점, 여행/레포츠점 3개월 무이자  
   할부
연회비 : 기본 연회비(120,000원) 외에  
              별도 연회비 10,000원 추가 
· 카드 이용실적 1,500원당 1마일 제공
   ※ 단, 법인회원인 경우
        · 카드 이용 실적 3,000원당 1마일 제공
· 카드 이용 후 매출 취소 시 해당 마일리지는 차감
· 2012년 10월 1일부터 무이자 할부 이용 실적은 마일리지  
   미적립
· 가족카드의 카드 이용 마일리지는 본인회원에 합산 관리
· 기업지정 카드의 경우 연간 3만 마일리지까지만 적립 가능
· 마일리지 유효기한 : 적립일로부터 10년 (2008년 7월 1일 
   부터 적용)
· 문의전화 : 대한항공 SKYPASS 데스크 1588-2001
BC SKYPASS 
카드
BC 노블스
(Nobles) 카드
연회비 : 기본 연회비(120,000원) 
 
아시아나 클럽 아시아나 이코노미
연회비 1만원 특별연회비 없음
카드이용실적  
1,000원당 1마일
카드이용실적 
5,000원당 1마일
※ 단, 법인회원인 경우
     · 카드 이용 실적 2,500원당 1마일 제공
· 카드 이용 후 매출 취소 시 해당 마일리지는 차감
· 2012년 10월 1일부터 무이자 할부 이용실적은 마일리지  
   미적립
· 가족카드의 카드 이용 마일리지는 본인회원에 합산 관리
· 기업 지정 카드의 경우 연간 3만 마일리지까지만 적립 가능
· 마일리지 유효기한 : 적립일로부터 10년 (2008년 10월 1일 
   부터 적용)
· 문의전화 : 아시아나 클럽 서비스센터 1588-8000
주유 할인
· SK주유소(충전소 포함), 이용액 ℓ당 25원 할인 (이용대금 
   명세서에 가맹점 및 할인금액 표시, 1일 2회, 월 6회, 1회  
   최대 20만원까지 적용)
BC SK 카드
BC 아시아나 
카드
다이닝  
서비스
문화  
서비스
호텔 
서비스
생활편의 
서비스
제휴카드 
서비스
브랜드 
서비스
보험 
서비스
가족카드 
특별 서비스
포인트 
서비스, 출처:data/bc_platinum.pdf 페이지번호:16

In [23]:
from langchain_core.runnables import RunnablePassthrough
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI
from langchain_core.output_parsers import StrOutputParser

prompt = ChatPromptTemplate.from_messages([
    ('system', '당신은 친절한 AI 어시스턴트 입니다. 주어진 문서의 내용에 따라 충실히 답변하세요.'),
    ('system', '답변 시 출처 정보도 알려주세요. Example) 답변 (출처:~~, 페이지번호:~~)'),
    ('system', '주어진 문서 : {documents}'),
    ('user', '질문 : {question}')
])

llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)

chain = ({ 'documents' : retriever | format_docs , "question" : RunnablePassthrough() }
    | prompt 
    | llm
    | StrOutputParser()
)


In [24]:
chain.invoke("VIP 콜센터 전화번호")

'VIP 콜센터 전화번호는 1566-7890입니다. (출처: data/bc_platinum.pdf, 페이지번호: 19)'

chain.invoke("개인회원 연회비 금액")

In [25]:
chroma_db.get()

{'ids': ['ceff8b0a-1a25-47c5-a2e1-0301bbba81eb',
  'e24eb6f3-91c7-4680-a371-35812d8644ca',
  '349a85d0-3d3a-49d5-9e29-5eec30d0b873',
  '75813147-6c35-4c76-bee4-59e3c1801aeb',
  'c63b8880-d807-4fa0-a620-28e225db5e38',
  '25097da9-f9df-4597-967b-d8d95df53cc7',
  '3be3f348-76ee-4de0-bee5-e643100409fc',
  '91c12e4e-0c36-437e-b444-4197c0d1cce8',
  'cca65dfd-f6f1-4f24-8465-8f3d2007238f',
  'abed9f35-d7f5-4166-8178-3814201d1880',
  '51b1fcbf-795e-4484-811f-7d3639ec4c74',
  '09cfcfe0-acdd-487b-9609-5cb8c7787743',
  '0d8909b8-7a14-46a4-8b98-c6c504ab829f',
  '5a5ce6ff-7f11-43cc-865b-8d8b4f8813ea',
  '672e7f1e-5664-4def-94b7-5f54337344d5',
  '4f38972b-74af-46e4-a2d2-e5d324c7f150',
  '747b9612-0165-44ec-a340-f1842f078046',
  '8e20ec60-389d-406a-807f-5e6eee143074',
  'a42b9a6d-325c-4683-987f-87f37a39e0ab',
  'f7de96d7-04e3-4499-80fa-2b0365e97cb8',
  'aea0406c-7f72-4bc4-a771-c7cd7d807c48',
  '2338246e-2ea2-44c6-b3ce-53d3561704b5',
  '1176a95b-e35e-4eeb-8904-7878996fd0ff',
  'f1723057-98c6-46ae-81b8-

In [26]:
## Pgvector


In [32]:
from langchain_postgres import PGVector
from langchain_openai import OpenAIEmbeddings
embeddings_openai = OpenAIEmbeddings(model="text-embedding-3-small")
vectorstore = PGVector(
    connection="postgresql+psycopg://postgres:123456789@localhost:5432/postgres",
    embeddings=embeddings_openai,
    collection_name="bc-card",
)

In [33]:
vectorstore.add_documents(documents)

['663f5376-dff2-4c34-9d63-52b096799ea9',
 'c2beaddf-9ba1-48d3-b700-f5d0e98372db',
 '2affbabf-9426-43a9-a510-801cbb0d972e',
 '77d384a6-19b0-4d77-9c93-9628cac154a3',
 '090f6341-71ac-4bc6-a91d-c0e9a120f099',
 '50113afd-f6af-4290-b73c-4bac8d8558da',
 'aa02b4ca-8977-49fa-a070-1dbb6cd09550',
 'f692fe11-790c-4f47-8290-5ca2c1aee152',
 'c9de6e47-a862-4616-ba20-c84b9e2a52b1',
 '4bb6fd73-6c05-457b-8820-8e013e50f4fd',
 '3bdeaa2b-9c1e-40d6-85ca-ec8b82fd5f03',
 '267c47dd-3cd3-4d4b-8ba9-74c97e11e36e',
 'cb5902b1-0da6-492a-9009-410254da30d5',
 '22e69dda-c139-41fd-a13c-aef41a091d74',
 'a988660f-55e6-4e54-a91b-ab9ace104047',
 'a9be21bf-d809-4583-8826-79390c7929ef',
 'fe6aed7d-7c9e-4ee5-8d56-67bbdc60a12d',
 '9085408f-2bb4-4e01-b256-c3b4a35eff35',
 '5d8d2a62-1aa9-4355-b728-530f3cd9351c']

In [34]:
# 검색기(Retriever) 생성
retriever = vectorstore.as_retriever()

# 프롬프트 생성
prompt = ChatPromptTemplate.from_messages([
    ('system', '당신은 친절한 AI 어시스턴트 입니다. 주어진 문서의 내용에 따라 충실히 답변하세요.'),
    ('system', '주어진 문서 : {documents}'),
    ('user', '질문 : {question}')
])

# LLM 및 Chain 생성

llm = ChatOpenAI(model="gpt-4o-mini")

chain = ({ 'documents' : retriever | format_docs , "question" : RunnablePassthrough() }
    | prompt 
    | llm
    | StrOutputParser()
)


In [35]:
chain.invoke("비씨카드 플래티늄 카드 연회비 금액")

'비씨카드 플래티늄 카드의 연회비는 12만원입니다.'