# Pinecone

Pinecone은 고성능 벡터 데이터베이스로, AI 및 머신러닝 애플리케이션을 위한 효율적인 벡터 저장 및 검색 솔루션입니다.

Pinecone, Chroma, Faiss와 같은 벡터 데이터베이스들을 비교해보겠습니다.

**Pinecone의 장점**

1. 확장성: 대규모 데이터셋에 대해 뛰어난 확장성을 제공합니다.
   
2. 관리 용이성: 완전 관리형 서비스로, 인프라 관리 부담이 적습니다.
   
3. 실시간 업데이트: 데이터의 실시간 삽입, 업데이트, 삭제가 가능합니다.
   
4. 고가용성: 클라우드 기반으로 높은 가용성과 내구성을 제공합니다.
   
5. API 친화적: RESTful/Python API를 통해 쉽게 통합할 수 있습니다.

**Pinecone의 단점**

1. 비용: Chroma나 Faiss에 비해 상대적으로 비용이 높을 수 있습니다.
   
2. 커스터마이징 제한: 완전 관리형 서비스이기 때문에 세부적인 커스터마이징에 제한이 있을 수 있습니다.
   
3. 데이터 위치: 클라우드에 데이터를 저장해야 하므로, 데이터 주권 문제가 있을 수 있습니다.

Chroma나 Faiss와 비교했을 때:

- Chroma/FAISS 오픈소스이며 로컬에서 실행 가능하여 초기 비용이 낮고 데이터 제어가 용이합니다. 커스터마이징의 자유도가 높습니다. 하지만 대규모 확장성 면에서는 Pinecone에 비해 제한적일 수 있습니다.

선택은 프로젝트의 규모, 요구사항, 예산 등을 고려하여 결정해야 합니다. 대규모 프로덕션 환경에서는 Pinecone이 유리할 수 있지만, 소규모 프로젝트나 실험적인 환경에서는 Chroma나 Faiss가 더 적합할 수 있습니다.

**참고**

- [Pinecone 공식 홈페이지](https://docs.pinecone.io/integrations/langchain)
- [Pinecone 랭체인](https://python.langchain.com/v0.2/docs/integrations/vectorstores/pinecone/)

In [1]:
import os

os.environ["OPENAI_API_KEY"] = ""

os.environ["LANGCHAIN_API_KEY"] = ""
os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_ENDPOINT"] = "https://api.smith.langchain.com"
os.environ["LANGCHAIN_PROJECT"] = "09-03"

## 업데이트 안내

아래의 기능은 커스텀 구현한 내용이므로 아래의 라이브러리를 반드시 업데이트 후 진행해야 합니다.

In [2]:
# 업데이트 명령어
!pip install -qU langchain-teddynote

  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m34.7/34.7 MB[0m [31m6.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m51.1/51.1 kB[0m [31m281.7 kB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m208.2/208.2 kB[0m [31m11.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m81.3/81.3 kB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.6/3.6 MB[0m [31m13.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m142.6/142.6 kB[0m [31m9.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m114.6/114.6 kB[0m [31m7.9 MB/s[0m eta [36m0:00:00[0m

## 한글 처리를 위한 불용어 사전

한글 불용어 사전 가져오기 (추후 토크나이저에 사용)

In [3]:
from langchain_teddynote.korean import stopwords

# 한글 불용어 사전 불러오기 (불용어 사전 출처: https://www.ranks.nl/stopwords/korean)
stopword = stopwords()
stopword[:20]

['아',
 '휴',
 '아이구',
 '아이쿠',
 '아이고',
 '어',
 '나',
 '우리',
 '저희',
 '따라',
 '의해',
 '을',
 '를',
 '에',
 '의',
 '가',
 '으로',
 '로',
 '에게',
 '뿐이다']

## 데이터 전처리

아래는 일반 문서의 전처리 과정입니다. `ROOT_DIR` 하위에 있는 모든 `.pdf` 파일을 읽어와 `document_lsit` 에 저장합니다.

In [4]:
len(stopword)

675

In [5]:
!pip install -qU langchain_community

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/2.5 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m2.5/2.5 MB[0m [31m114.6 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.5/2.5 MB[0m [31m56.2 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.0 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.0/1.0 MB[0m [31m45.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m411.9/411.9 kB[0m [31m26.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m49.6/49.6 kB[0m [31m3.0 MB/s[0m eta [36m0:00:00[0m
[?25h

In [12]:
!pip install -qU PyMuPDF

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m20.0/20.0 MB[0m [31m47.5 MB/s[0m eta [36m0:00:00[0m
[?25h

In [13]:
from langchain_community.document_loaders import PyMuPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
import glob

# 텍스트 분할
text_splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=50)

split_docs = []

# 텍스트 파일을 load -> List[Document] 형태로 변환
files = sorted(glob.glob("data/*.pdf"))

for file in files:
    loader = PyMuPDFLoader(file)
    split_docs.extend(loader.load_and_split(text_splitter))

# 문서 개수 확인
len(split_docs)

446

In [14]:
len(files)

1

In [15]:
split_docs[0].page_content

'목                 차\n투 자 설 명 서............................................................................................................................................1'

Pinecone 에 DB 저장하기 위한 문서 전처리를 수행합니다. 이 과정에서 `metadata_keys` 를 지정할 수 있습니다.

추가로 metadata 를 태깅하고 싶은 경우 사전 처리 작업에서 미리 metadata 를 추가한 뒤 진행합니다.

- `split_docs`: 문서 분할 결과를 담은 List[Document] 입니다.
- `metadata_keys`: 문서에 추가할 metadata 키를 담은 List 입니다.
- `min_length`: 문서의 최소 길이를 지정합니다. 이 길이보다 짧은 문서는 제외합니다.
- `use_basename`: 소스 경로를 기준으로 파일명을 사용할지 여부를 지정합니다. 기본값은 `False` 입니다.

In [16]:
# metadata 를 확인합니다.
split_docs[0].metadata

{'source': 'data/[현대차증권]투자설명서(일괄신고)(2024.12.13).pdf',
 'file_path': 'data/[현대차증권]투자설명서(일괄신고)(2024.12.13).pdf',
 'page': 0,
 'total_pages': 100,
 'format': 'PDF 1.4',
 'title': '',
 'author': '',
 'subject': '',
 'keywords': '',
 'creator': '',
 'producer': 'iText® 5.4.0 ©2000-2012 1T3XT BVBA (AGPL-version)',
 'creationDate': "D:20241213171257+09'00'",
 'modDate': "D:20241213171257+09'00'",
 'trapped': ''}

### 문서의 전처리

- 필요한 `metadata` 정보를 추출합니다.
- 최소 길이 이상의 데이만 필터링 합니다.
  
- 문서의 `basename` 을 사용할지 여부를 지정합니다. 기본값은 `False` 입니다.
  - 여기서 `basename` 이란 파일 경로의 가장 마지막 부분을 의미합니다.
  - 예를 들어, `/Users/teddy/data/document.pdf` 의 경우 `document.pdf` 가 됩니다.

In [17]:
split_docs[0].metadata

{'source': 'data/[현대차증권]투자설명서(일괄신고)(2024.12.13).pdf',
 'file_path': 'data/[현대차증권]투자설명서(일괄신고)(2024.12.13).pdf',
 'page': 0,
 'total_pages': 100,
 'format': 'PDF 1.4',
 'title': '',
 'author': '',
 'subject': '',
 'keywords': '',
 'creator': '',
 'producer': 'iText® 5.4.0 ©2000-2012 1T3XT BVBA (AGPL-version)',
 'creationDate': "D:20241213171257+09'00'",
 'modDate': "D:20241213171257+09'00'",
 'trapped': ''}

In [18]:
split_docs[0].page_content

'목                 차\n투 자 설 명 서............................................................................................................................................1'

In [19]:
from langchain_teddynote.community.pinecone import preprocess_documents

contents, metadatas = preprocess_documents(
    split_docs=split_docs,
    metadata_keys=["source", "page", "author"],
    min_length=5,
    use_basename=True,
)

  0%|          | 0/446 [00:00<?, ?it/s]

In [20]:
# use_basename=True 일 때, source 키에 파일명만 저장됩니다.(디렉토리를 제외됩니다.)
metadatas["source"][:5]

['[현대차증권]투자설명서(일괄신고)(2024.12.13).pdf',
 '[현대차증권]투자설명서(일괄신고)(2024.12.13).pdf',
 '[현대차증권]투자설명서(일괄신고)(2024.12.13).pdf',
 '[현대차증권]투자설명서(일괄신고)(2024.12.13).pdf',
 '[현대차증권]투자설명서(일괄신고)(2024.12.13).pdf']

In [21]:
# VectorStore 에 저장할 문서 확인
contents[:5]

['목                 차\n투 자 설 명 서............................................................................................................................................1',
 '【 본    문 】.............................................................................................................................................4',
 '투 자 설 명 서\n \n \n \n2024년 12월 13일\n현대차증권 주식회사\n현대차증권 제384회 기타파생결합사채(낮은위험)\n현대차증권 제385회 기타파생결합사채(보통위험)\n현대차증권 제386회 기타파생결합사채(보통위험)\n금 48,579,897,500 원\n1. 증권신고의 효력발생일 :\n2024년 12월 13일\n2. 모집가액  :\n금 48,579,897,500 원\n3. 청약기간  :\n2024년 12월 23일\n4. 납입기일 :\n2024년 12월 23일\n5. 증권신고서 및 투자설명서의 열람장소\n가. 증권신고서 :',
 '2024년 12월 23일\n5. 증권신고서 및 투자설명서의 열람장소\n가. 증권신고서 :\n전자문서 : 금융위(금감원) 전자공시시스템 →\nhttp://dart.fss.or.kr\n나. 일괄신고 추가서류 :\n전자문서 : 금융위(금감원) 전자공시시스템 →\nhttp://dart.fss.or.kr\n다. 투자설명서 :\n전자문서 : 금융위(금감원) 전자공시시스템 →\nhttp://dart.fss.or.kr\n6. 안정조작 또는 시장조성에 관한 사항\n- 해당사항 없음\n이 투자설명서에 대한 증권신고의 효력발생은 정부가 증권신고서의 기재사항이 진실',
 '이 투자설명서에 대한 증권신고의 효력발생은 정부가 증권신고서의 기재사항이 진실\n

In [22]:
# VectorStore 에 저장할 metadata 확인
metadatas.keys()

dict_keys(['source', 'page', 'author'])

In [23]:
# metadata 에서 source 를 확인합니다.
metadatas["source"][:5]

['[현대차증권]투자설명서(일괄신고)(2024.12.13).pdf',
 '[현대차증권]투자설명서(일괄신고)(2024.12.13).pdf',
 '[현대차증권]투자설명서(일괄신고)(2024.12.13).pdf',
 '[현대차증권]투자설명서(일괄신고)(2024.12.13).pdf',
 '[현대차증권]투자설명서(일괄신고)(2024.12.13).pdf']

In [24]:
# 문서 개수 확인, 소스 개수 확인, 페이지 개수 확인
len(contents), len(metadatas["source"]), len(metadatas["page"])

(446, 446, 446)

### API 키 발급

- [링크](https://app.pinecone.io/)
- 프로필 - Account - Projects - Starter - API keys - 발급

`.env` 파일에 아래와 같이 추가합니다.

```
PINECONE_API_KEY="YOUR_PINECONE_API_KEY"
```

## 새로운 VectorStore 인덱스 생성

Pinecone 의 새로운 인덱스를 생성합니다.

![pinecone-01.png](./images/pinecone-01.png)

pinecone 인덱스를 생성합니다.

**주의사항**
- `metric` 은 유사도 측정 방법을 지정합니다. 만약 HybridSearch 를 고려하고 있다면 `metric` 은 `dotproduct` 로 지정합니다.

In [25]:
os.environ["PINECONE_API_KEY"] = 'ac866e57-516a-45ef-91bf-ca28b198553b'

In [26]:
import os
from langchain_teddynote.community.pinecone import create_index

# Pinecone 인덱스 생성
pc_index = create_index(
    api_key=os.environ["PINECONE_API_KEY"],
    index_name="teddynote-db-index",  # 인덱스 이름을 지정합니다.
    dimension=4096,  # Embedding 차원과 맞춥니다. (OpenAIEmbeddings: 1536, UpstageEmbeddings: 4096)
    metric="dotproduct",  # 유사도 측정 방법을 지정합니다. (dotproduct, euclidean, cosine)
)

[create_index]
{'dimension': 4096,
 'index_fullness': 0.0,
 'namespaces': {'': {'vector_count': 0}},
 'total_vector_count': 0}


아래는 **유료 Pod** 를 사용하는 예시입니다. **유료 Pod** 는 무료 Serverless Pod 대비 더 확장된 기능을 제공합니다.

- 참고: https://docs.pinecone.io/guides/indexes/choose-a-pod-type-and-size

In [28]:
import os
from langchain_teddynote.community.pinecone import create_index
from pinecone import PodSpec

# Pinecone 인덱스 생성
pc_index = create_index(
    api_key=os.environ["PINECONE_API_KEY"],
    index_name="teddynote-db-index",  # 인덱스 이름을 지정합니다.
    dimension=4096,  # Embedding 차원과 맞춥니다. (OpenAIEmbeddings: 1536, UpstageEmbeddings: 4096)
    metric="dotproduct",  # 유사도 측정 방법을 지정합니다. (dotproduct, euclidean, cosine)
    pod_spec=PodSpec(
        environment="us-west1-gcp", pod_type="p1.x1", pods=1
    ),  # 유료 Pod 사용
)

[create_index]
{'dimension': 4096,
 'index_fullness': 0.0,
 'namespaces': {'': {'vector_count': 0}},
 'total_vector_count': 0}


## Sparse Encoder 생성

- Sparse Encoder 를 생성합니다.
- `Kiwi Tokenizer` 와 한글 불용어(stopwords) 처리를 수행합니다.
- Sparse Encoder 를 활용하여 contents 를 학습합니다. 여기서 학습한 인코드는 VectorStore 에 문서를 저장할 때 Sparse Vector 를 생성할 때 활용합니다.

In [29]:
from langchain_teddynote.community.pinecone import (
    create_sparse_encoder,
    fit_sparse_encoder,
)

# 한글 불용어 사전 + Kiwi 형태소 분석기를 사용합니다.
sparse_encoder = create_sparse_encoder(stopwords(), mode="kiwi")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


Sparse Encoder 에 Corpus 를 학습합니다.

- `save_path`: Sparse Encoder 를 저장할 경로입니다. 추후에 `pickle` 형식으로 저장한 Sparse Encoder 를 불러와 Query 임베딩할 때 사용합니다. 따라서, 이를 저장할 경로를 지정합니다.

In [30]:
# Sparse Encoder 를 사용하여 contents 를 학습
saved_path = fit_sparse_encoder(
    sparse_encoder=sparse_encoder, contents=contents, save_path="./sparse_encoder.pkl"
)

  0%|          | 0/446 [00:00<?, ?it/s]

[fit_sparse_encoder]
Saved Sparse Encoder to: ./sparse_encoder.pkl


[선택사항] 아래는 나중에 학습하고 저장한 Sparse Encoder 를 다시 불러와야 할 때 사용하는 코드입니다.    

In [31]:
from langchain_teddynote.community.pinecone import load_sparse_encoder

# 추후에 학습된 sparse encoder 를 불러올 때 사용합니다.
sparse_encoder = load_sparse_encoder("./sparse_encoder.pkl")

[load_sparse_encoder]
Loaded Sparse Encoder from: ./sparse_encoder.pkl


### Pinecone: DB Index에 추가 (Upsert)

![](./images/pinecone-02.png)

- `context`: 문서의 내용입니다.
- `page`: 문서의 페이지 번호입니다.
- `source`: 문서의 출처입니다.
- `values`: Embedder 를 통해 얻은 문서의 임베딩입니다.
- `sparse values`: Sparse Encoder 를 통해 얻은 문서의 임베딩입니다.

In [33]:
!pip install -qU langchain_upstage langchain_openai

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/54.2 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m54.2/54.2 kB[0m [31m4.0 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/455.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m455.6/455.6 kB[0m [31m19.0 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/295.8 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m295.8/295.8 kB[0m [31m19.9 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/3.6 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m3.6/3.6 MB[0m [31m176.5 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [35]:
os.environ["UPSTAGE_API_KEY"] = "up_17QFJKhVHmRAuHsirr1rC8nwJJ5ms"

In [36]:
from langchain_openai import OpenAIEmbeddings
from langchain_upstage import UpstageEmbeddings

# 임베딩 모델 생성
openai_embeddings = OpenAIEmbeddings(model="text-embedding-3-large")
upstage_embeddings = UpstageEmbeddings(model="solar-embedding-1-large-passage")

분산 처리를 하지 않고 배치 단위로 문서를 Upsert 합니다. 문서의 양이 많지 않다면 아래의 방식을 사용하세요.

In [37]:
%%time
from langchain_teddynote.community.pinecone import upsert_documents
from langchain_upstage import UpstageEmbeddings

upsert_documents(
    index=pc_index,  # Pinecone 인덱스
    namespace="teddynote-namespace-01",  # Pinecone namespace
    contents=contents,  # 이전에 전처리한 문서 내용
    metadatas=metadatas,  # 이전에 전처리한 문서 메타데이터
    sparse_encoder=sparse_encoder,  # Sparse encoder
    embedder=upstage_embeddings,
    batch_size=32,
)

  0%|          | 0/14 [00:00<?, ?it/s]

[upsert_documents]
{'dimension': 4096,
 'index_fullness': 0.0,
 'namespaces': {'teddynote-namespace-01': {'vector_count': 446}},
 'total_vector_count': 446}
CPU times: user 27.3 s, sys: 350 ms, total: 27.6 s
Wall time: 1min 42s


아래는 분산처리를 수행하여 대용량 문서를 빠르게 Upsert 합니다. 대용량 업로드시 활용하세요.

In [38]:
%%time
from langchain_teddynote.community.pinecone import upsert_documents_parallel

upsert_documents_parallel(
    index=pc_index,  # Pinecone 인덱스
    namespace="teddynote-namespace-02",  # Pinecone namespace
    contents=contents,  # 이전에 전처리한 문서 내용
    metadatas=metadatas,  # 이전에 전처리한 문서 메타데이터
    sparse_encoder=sparse_encoder,  # Sparse encoder
    embedder=upstage_embeddings,
    batch_size=64,
    max_workers=30,
)

문서 Upsert 중:   0%|          | 0/7 [00:00<?, ?it/s]

총 446개의 Vector 가 Upsert 되었습니다.
{'dimension': 4096,
 'index_fullness': 0.0,
 'namespaces': {'teddynote-namespace-01': {'vector_count': 446},
                'teddynote-namespace-02': {'vector_count': 0}},
 'total_vector_count': 446}
CPU times: user 24 s, sys: 599 ms, total: 24.6 s
Wall time: 28.6 s


## 인덱스 조회/삭제

`describe_index_stats` 메서드는 인덱스의 내용에 대한 통계 정보를 제공합니다. 이 메서드를 통해 네임스페이스별 벡터 수와 차원 수 등의 정보를 얻을 수 있습니다.

**매개변수**
* `filter` (Optional[Dict[str, Union[str, float, int, bool, List, dict]]]): 특정 조건에 맞는 벡터들에 대한 통계만 반환하도록 하는 필터. 기본값은 None
* `**kwargs`: 추가 키워드 인자

**반환값**
* `DescribeIndexStatsResponse`: 인덱스에 대한 통계 정보를 담고 있는 객체

**사용 예시**
* 기본 사용: `index.describe_index_stats()`
* 필터 적용: `index.describe_index_stats(filter={'key': 'value'})`

**참고**
- metadata 필터링은 유료 사용자에 한하여 가능합니다.

In [39]:
# 인덱스 조회
pc_index.describe_index_stats()

{'dimension': 4096,
 'index_fullness': 0.0,
 'namespaces': {'teddynote-namespace-01': {'vector_count': 446},
                'teddynote-namespace-02': {'vector_count': 0}},
 'total_vector_count': 446}

### 네임스페이스(namespace) 삭제

In [40]:
from langchain_teddynote.community.pinecone import delete_namespace

delete_namespace(
    pinecone_index=pc_index,
    namespace="teddynote-namespace-01",
)

네임스페이스 'teddynote-namespace-01'의 모든 데이터가 삭제되었습니다.


In [41]:
pc_index.describe_index_stats()

{'dimension': 4096,
 'index_fullness': 0.0,
 'namespaces': {'teddynote-namespace-02': {'vector_count': 0}},
 'total_vector_count': 0}

아래는 유료 사용자 전용 기능입니다. 유료 사용자는 metadata 필터링을 사용할 수 있습니다.

In [42]:
from langchain_teddynote.community.pinecone import delete_by_filter

# metadata 필터링(유료 기능) 으로 삭제
delete_by_filter(
    pinecone_index=pc_index,
    namespace="teddynote-namespace-02",
    filter={"source": {"$eq": "SPRi AI Brief_8월호_산업동향.pdf"}},
)
pc_index.describe_index_stats()

필터를 사용한 삭제 중 오류 발생:
UNKNOWN:Error received from peer  {grpc_message:"Invalid request.", grpc_status:3, created_time:"2025-01-18T07:14:31.268082819+00:00"}


{'dimension': 4096,
 'index_fullness': 0.0,
 'namespaces': {'teddynote-namespace-02': {'vector_count': 446}},
 'total_vector_count': 446}

## 검색기(Retriever) 생성

### PineconeKiwiHybridRetriever 초기화 파라미터 설정

`init_pinecone_index` 함수와 `PineconeKiwiHybridRetriever` 클래스는 Pinecone을 사용한 하이브리드 검색 시스템을 구현합니다. 이 시스템은 밀집 벡터와 희소 벡터를 결합하여 효과적인 문서 검색을 수행합니다.

**Pinecone 인덱스 초기화**

`init_pinecone_index` 함수는 Pinecone 인덱스를 초기화하고 필요한 구성 요소를 설정합니다.

**매개변수**
* `index_name` (str): Pinecone 인덱스 이름
* `namespace` (str): 사용할 네임스페이스
* `api_key` (str): Pinecone API 키
* `sparse_encoder_pkl_path` (str): 희소 인코더 피클 파일 경로
* `stopwords` (List[str]): 불용어 리스트
* `tokenizer` (str): 사용할 토크나이저 (기본값: "kiwi")
* `embeddings` (Embeddings): 임베딩 모델
* `top_k` (int): 반환할 최대 문서 수 (기본값: 10)
* `alpha` (float): 밀집 벡터와 희소 벡터의 가중치 조절 파라미터 (기본값: 0.5)

**주요 기능**
1. Pinecone 인덱스 초기화 및 통계 정보 출력
2. 희소 인코더(BM25) 로딩 및 토크나이저 설정
3. 네임스페이스 지정

In [None]:
# !pip install -U pinecone langchain-teddynote

In [43]:
import os
from langchain_teddynote.korean import stopwords
from langchain_teddynote.community.pinecone import init_pinecone_index
from langchain_upstage import UpstageEmbeddings

pinecone_params = init_pinecone_index(
    index_name="teddynote-db-index",  # Pinecone 인덱스 이름
    namespace="teddynote-namespace-02",  # Pinecone Namespace
    api_key=os.environ["PINECONE_API_KEY"],  # Pinecone API Key
    sparse_encoder_path="./sparse_encoder.pkl",  # Sparse Encoder 저장경로(save_path)
    stopwords=stopwords(),  # 불용어 사전
    tokenizer="kiwi",
    embeddings=UpstageEmbeddings(
        model="solar-embedding-1-large-query"
    ),  # Dense Embedder
    top_k=5,  # Top-K 문서 반환 개수
    alpha=0.5,  # alpha=0.75로 설정한 경우, (0.75: Dense Embedding, 0.25: Sparse Embedding)
)

[init_pinecone_index]
{'dimension': 4096,
 'index_fullness': 0.0,
 'namespaces': {'teddynote-namespace-02': {'vector_count': 446}},
 'total_vector_count': 446}


### PineconeKiwiHybridRetriever

`PineconeKiwiHybridRetriever` 클래스는 Pinecone과 Kiwi를 결합한 하이브리드 검색기를 구현합니다.

**주요 속성**
* `embeddings`: 밀집 벡터 변환용 임베딩 모델
* `sparse_encoder`: 희소 벡터 변환용 인코더
* `index`: Pinecone 인덱스 객체
* `top_k`: 반환할 최대 문서 수
* `alpha`: 밀집 벡터와 희소 벡터의 가중치 조절 파라미터
* `namespace`: Pinecone 인덱스 내 네임스페이스

**특징**
* 밀집 벡터와 희소 벡터를 결합한 HybridSearch Retriever
* 가중치 조절을 통한 검색 전략 최적화 가능
* 다양한 동적 metadata 필터링 적용 가능(`search_kwargs` 사용: `filter`, `k`, `rerank`, `rerank_model`, `top_n` 등)

**사용 예시**
1. `init_pinecone_index` 함수로 필요한 구성 요소 초기화
2. 초기화된 구성 요소로 `PineconeKiwiHybridRetriever` 인스턴스 생성
3. 생성된 검색기를 사용하여 하이브리드 검색 수행

`PineconeKiwiHybridRetriever` 를 생성합니다.

In [44]:
from langchain_teddynote.community.pinecone import PineconeKiwiHybridRetriever

# 검색기 생성
pinecone_retriever = PineconeKiwiHybridRetriever(**pinecone_params)

일반 검색

In [45]:
# 실행 결과
search_results = pinecone_retriever.invoke("gpt-4o 미니 출시 관련 정보에 대해서 알려줘")
for result in search_results:
    print(result.page_content)
    print(result.metadata)
    print("\n====================\n")

항에 대해서는 대한민국 법률에 따르며 관련 법률에 명시되지 않은 사항에 대해서는 상관례
에 따라 해결합니다.
 
나. 본 증권으로부터 또는 이와 관련하여 발생하는 모든 소송 또는 절차에 대해서는 대한민
국 법원을 관할 법원으로 합니다.
 
전자공시시스템 dart.fss.or.kr
Page 54
{'context': '항에 대해서는 대한민국 법률에 따르며 관련 법률에 명시되지 않은 사항에 대해서는 상관례\n에 따라 해결합니다.\n \n나. 본 증권으로부터 또는 이와 관련하여 발생하는 모든 소송 또는 절차에 대해서는 대한민\n국 법원을 관할 법원으로 합니다.\n \n전자공시시스템 dart.fss.or.kr\nPage 54', 'page': 54.0, 'author': '', 'source': '[현대차증권]투자설명서(일괄신고)(2024.12.13).pdf'}


항에 대해서는 대한민국 법률에 따르며 관련 법률에 명시되지 않은 사항에 대해서는 상관례
에 따라 해결합니다.
 
나. 본 증권으로부터 또는 이와 관련하여 발생하는 모든 소송 또는 절차에 대해서는 대한민
국 법원을 관할 법원으로 합니다.
 
전자공시시스템 dart.fss.or.kr
Page 86
{'context': '항에 대해서는 대한민국 법률에 따르며 관련 법률에 명시되지 않은 사항에 대해서는 상관례\n에 따라 해결합니다.\n \n나. 본 증권으로부터 또는 이와 관련하여 발생하는 모든 소송 또는 절차에 대해서는 대한민\n국 법원을 관할 법원으로 합니다.\n \n전자공시시스템 dart.fss.or.kr\nPage 86', 'page': 86.0, 'author': '', 'source': '[현대차증권]투자설명서(일괄신고)(2024.12.13).pdf'}


(소수점 넷째자리에서 버림)하여 평균수익률을 산정하며, 한국금융투자협회는 위와 같이 산
정된 시가평가기준수익률을 매 영업일 발표합니다.
  
3. 지수산출기관 및 구성종목 

동적 `search_kwargs` 사용
- `k`: 반환할 최대 문서 수 지정

In [46]:
# 실행 결과
search_results = pinecone_retriever.invoke(
    "gpt-4o 미니 출시 관련 정보에 대해서 알려줘", search_kwargs={"k": 1}
)
for result in search_results:
    print(result.page_content)
    print(result.metadata)
    print("\n====================\n")

항에 대해서는 대한민국 법률에 따르며 관련 법률에 명시되지 않은 사항에 대해서는 상관례
에 따라 해결합니다.
 
나. 본 증권으로부터 또는 이와 관련하여 발생하는 모든 소송 또는 절차에 대해서는 대한민
국 법원을 관할 법원으로 합니다.
 
전자공시시스템 dart.fss.or.kr
Page 54
{'context': '항에 대해서는 대한민국 법률에 따르며 관련 법률에 명시되지 않은 사항에 대해서는 상관례\n에 따라 해결합니다.\n \n나. 본 증권으로부터 또는 이와 관련하여 발생하는 모든 소송 또는 절차에 대해서는 대한민\n국 법원을 관할 법원으로 합니다.\n \n전자공시시스템 dart.fss.or.kr\nPage 54', 'page': 54.0, 'author': '', 'source': '[현대차증권]투자설명서(일괄신고)(2024.12.13).pdf'}




동적 `search_kwargs` 사용
- `alpha`: 밀집 벡터와 희소 벡터의 가중치 조절 파라미터. 0과 1 사이의 값을 지정합니다. `0.5` 가 기본값이고, 1에 가까울수록 dense 벡터의 가중치가 높아집니다.

In [47]:
# 실행 결과
search_results = pinecone_retriever.invoke(
    "앤스로픽", search_kwargs={"alpha": 1, "k": 1}
)
for result in search_results:
    print(result.page_content)
    print(result.metadata)
    print("\n====================\n")

(3) 기초자산의 과거 데이터를 이용한 수익률 모의실험
 
*2004년 01월 02일 모든 기초자산의 기준가격을 100이라 가정하였을 경우  
 
주1) 위 그래프와 표는 투자시점이 2004년 01월 02일부터 2024년 09월 12일인 경우로 가정
하여 분석한 결과입니다.
 
주2) 분석시작일(2004년 01월 02일)로부터 분석기간동안 매 거래소영업일에 동일한 상품이
신규발행되어 투자자가 이를 반복해서 매입하는 것을 가정하였으며 이 경우 각각의 만기수
익률을 표본으로 추출하였습니다. (총 5,119회)
{'context': '(3) 기초자산의 과거 데이터를 이용한 수익률 모의실험\n \n*2004년 01월 02일 모든 기초자산의 기준가격을 100이라 가정하였을 경우  \n \n주1) 위 그래프와 표는 투자시점이 2004년 01월 02일부터 2024년 09월 12일인 경우로 가정\n하여 분석한 결과입니다.\n \n주2) 분석시작일(2004년 01월 02일)로부터 분석기간동안 매 거래소영업일에 동일한 상품이\n신규발행되어 투자자가 이를 반복해서 매입하는 것을 가정하였으며 이 경우 각각의 만기수\n익률을 표본으로 추출하였습니다. (총 5,119회)', 'page': 43.0, 'author': '', 'source': '[현대차증권]투자설명서(일괄신고)(2024.12.13).pdf'}




In [48]:
# 실행 결과
search_results = pinecone_retriever.invoke(
    "앤스로픽", search_kwargs={"alpha": 0, "k": 1}
)
for result in search_results:
    print(result.page_content)
    print(result.metadata)
    print("\n====================\n")

등을 통하여 확인하시기 바랍니다.
청약기간
2024년 12월 23일
(청약기간 이후 청약취소 불가)
청약단위
최소 청약금액 미화 일천 달러(USD 1,000)으로 하되 그 이상은 미화
일천 달러(USD 1,000) 단위로 합니다.
청약한도
USD 9,980,000
청약증거금
- 청약시 청약금액의 100%를 청약증거금으로 징구합니다.
단, 청약증거금은 납입기일에 증권납입금으로 대체충당하며 청약증거
금에 대하여는 예탁금 이용료를 지급하지 않습니다.
- 초과청약금은 환불일에 해당 청약계좌로 반환합니다.
배정일 및 환불일
{'context': '등을 통하여 확인하시기 바랍니다.\n청약기간\n2024년 12월 23일\n(청약기간 이후 청약취소 불가)\n청약단위\n최소 청약금액 미화 일천 달러(USD 1,000)으로 하되 그 이상은 미화\n일천 달러(USD 1,000) 단위로 합니다.\n청약한도\nUSD 9,980,000\n청약증거금\n- 청약시 청약금액의 100%를 청약증거금으로 징구합니다.\n단, 청약증거금은 납입기일에 증권납입금으로 대체충당하며 청약증거\n금에 대하여는 예탁금 이용료를 지급하지 않습니다.\n- 초과청약금은 환불일에 해당 청약계좌로 반환합니다.\n배정일 및 환불일', 'page': 71.0, 'author': '', 'source': '[현대차증권]투자설명서(일괄신고)(2024.12.13).pdf'}




**Metadata 필터링**

![](./images/pinecone-metadata.png)

동적 `search_kwargs` 사용
- `filter`: metadata 필터링 적용

(예시) `page` 가 5보다 작은 문서만 검색합니다.

In [49]:
# 실행 결과
search_results = pinecone_retriever.invoke(
    "앤스로픽의 claude 출시 관련 내용을 알려줘",
    search_kwargs={"filter": {"page": {"$lt": 5}}, "k": 2},
)
for result in search_results:
    print(result.page_content)
    print(result.metadata)
    print("\n====================\n")

【 본    문 】
 
               [ 모집 또는 매출의 개요 ] 
 
 
Ⅰ. 모집 또는 매출에 관한 일반사항 
 
1. 공모개요 
 
(1) 용어의 정의 
[종목명 :
현대차증권 제384회 기타파생결합사채(낮은위험)
]
※ 본 증권은기타파생결합사채이며,예금자보호법에 따라 보호되지 않음을 알려드리니 투자에 유의
바랍니다.
항    목
내    용
1) 거래소
각 기초자산과 관련된 아래 각 거래소
- 국고채권 3개월 금리 : 한국금융투자협회 또는 그 승계기관
2) 관련 거래소
{'context': '【 본    문 】\n \n               [ 모집 또는 매출의 개요 ] \n \n \nⅠ. 모집 또는 매출에 관한 일반사항 \n \n1. 공모개요 \n \n(1) 용어의 정의 \n[종목명 :\n현대차증권 제384회 기타파생결합사채(낮은위험)\n]\n※ 본 증권은기타파생결합사채이며,예금자보호법에 따라 보호되지 않음을 알려드리니 투자에 유의\n바랍니다.\n항    목\n내    용\n1) 거래소\n각 기초자산과 관련된 아래 각 거래소\n- 국고채권 3개월 금리 : 한국금융투자협회 또는 그 승계기관\n2) 관련 거래소', 'page': 4.0, 'author': '', 'source': '[현대차증권]투자설명서(일괄신고)(2024.12.13).pdf'}


래 포함)을 하는 날
6) 기초자산 산출기관
- 국고채권 3개월 금리: 한국금융투자협회
7) 계산대리인
발행인인 현대차증권 주식회사
8) 교란일
예정거래일 중 거래소 또는 관련 거래소가 개장하지 못하거나 시장교란사
유가 발생한 날
전자공시시스템 dart.fss.or.kr
Page 4
{'context': '래 포함)을 하는 날\n6) 기초자산 산출기관\n- 국고채권 3개월 금리: 한국금융투자협회\n7) 계산대리인\n발행인인 현대차증권 주식회사\n8) 교란일\n예정거래일 중 거래소 또는 관련 거래소가 개장하지 못하거나 시장교란사\n유가 발생한 날\n전자공

동적 `search_kwargs` 사용
- `filter`: metadata 필터링 적용

(예시) `source` 가 `SPRi AI Brief_8월호_산업동향.pdf` 문서내 검색합니다.

In [50]:
# 실행 결과
search_results = pinecone_retriever.invoke(
    "앤스로픽의 claude 3.5 출시 관련 내용을 알려줘",
    search_kwargs={
        "filter": {"source": {"$eq": "SPRi AI Brief_8월호_산업동향.pdf"}},
        "k": 3,
    },
)
for result in search_results:
    print(result.page_content)
    print(result.metadata)
    print("\n====================\n")

## Reranking 적용

- 동적 reranking 기능을 구현해 놓았지만, pinecone 라이브러리 의존성에 문제가 있을 수 있습니다.
- 따라서, 아래 코드는 향후 의존성 해결 후 원활하게 동작할 수 있습니다.

참고 문서: https://docs.pinecone.io/guides/inference/rerank

In [51]:
# reranker 미사용
retrieval_results = pinecone_retriever.invoke(
    "앤스로픽의 클로드 소넷",
)

# BGE-reranker-v2-m3 모델 사용
reranked_results = pinecone_retriever.invoke(
    "앤스로픽의 클로드 소넷",
    search_kwargs={"rerank": True, "rerank_model": "bge-reranker-v2-m3", "top_n": 3},
)

In [52]:
# retrieval_results 와 reranked_results 를 비교합니다.
for res1, res2 in zip(retrieval_results, reranked_results):
    print("[Retrieval]")
    print(res1.page_content)
    print("\n------------------\n")
    print("[Reranked] rerank_score: ", res2.metadata["rerank_score"])
    print(res2.page_content)
    print("\n====================\n")

[Retrieval]
(소수점 넷째자리에서 버림)하여 평균수익률을 산정하며, 한국금융투자협회는 위와 같이 산
정된 시가평가기준수익률을 매 영업일 발표합니다.
  
3. 지수산출기관 및 구성종목 거래소
 
(1) 국고채권 3개월 금리
 
기초자산의 고시 담당자: 한국금융투자협회
-홈페이지: 한국금융투자협회 채권정보센터(https://kofiabond.or.kr)
 
4. 기초자산 가격 및 기초자산에 대한 제반정보 취득방법
 
(1) 기초자산(국고채권 3개월 금리)의 가격정보

------------------

[Reranked] rerank_score:  6.108855e-05
(소수점 넷째자리에서 버림)하여 평균수익률을 산정하며, 한국금융투자협회는 위와 같이 산
정된 시가평가기준수익률을 매 영업일 발표합니다.
  
3. 지수산출기관 및 구성종목 거래소
 
(1) 국고채권 3개월 금리
 
기초자산의 고시 담당자: 한국금융투자협회
-홈페이지: 한국금융투자협회 채권정보센터(https://kofiabond.or.kr)
 
4. 기초자산 가격 및 기초자산에 대한 제반정보 취득방법
 
(1) 기초자산(국고채권 3개월 금리)의 가격정보


[Retrieval]
(소수점 넷째자리에서 버림)하여 평균수익률을 산정하며, 한국금융투자협회는 위와 같이 산
정된 시가평가기준수익률을 매 영업일 발표합니다.
  
3. 지수산출기관 및 구성종목 거래소
 
(1) 국고채권 3개월 금리
 
기초자산의 고시 담당자: 한국금융투자협회
-홈페이지: 한국금융투자협회 채권정보센터(https://kofiabond.or.kr)
 
4. 기초자산 가격 및 기초자산에 대한 제반정보 취득방법
 
(1) 기초자산(국고채권 3개월 금리)의 가격정보

------------------

[Reranked] rerank_score:  6.108855e-05
(소수점 넷째자리에서 버림)하여 평균수익률을 산정하며, 한국금융투자협회는 위와 같이 산
정된 시가평가기준수익률을 매 영업일 발표합니다.
  
3. 지수산출기관 