# Pinecone

Pinecone은 고성능 벡터 데이터베이스로, AI 및 머신러닝 애플리케이션을 위한 효율적인 벡터 저장 및 검색 솔루션입니다. 

Pinecone, Chroma, Faiss와 같은 벡터 데이터베이스들을 비교해보겠습니다. 

**Pinecone의 장점**

1. 확장성: 대규모 데이터셋에 대해 뛰어난 확장성을 제공합니다.
   
2. 관리 용이성: 완전 관리형 서비스로, 인프라 관리 부담이 적습니다.
   
3. 실시간 업데이트: 데이터의 실시간 삽입, 업데이트, 삭제가 가능합니다.
   
4. 고가용성: 클라우드 기반으로 높은 가용성과 내구성을 제공합니다.
   
5. API 친화적: RESTful/Python API를 통해 쉽게 통합할 수 있습니다.

**Pinecone의 단점**

1. 비용: Chroma나 Faiss에 비해 상대적으로 비용이 높을 수 있습니다.
   
2. 커스터마이징 제한: 완전 관리형 서비스이기 때문에 세부적인 커스터마이징에 제한이 있을 수 있습니다.
   
3. 데이터 위치: 클라우드에 데이터를 저장해야 하므로, 데이터 주권 문제가 있을 수 있습니다.

Chroma나 Faiss와 비교했을 때:

- Chroma/FAISS 오픈소스이며 로컬에서 실행 가능하여 초기 비용이 낮고 데이터 제어가 용이합니다. 커스터마이징의 자유도가 높습니다. 하지만 대규모 확장성 면에서는 Pinecone에 비해 제한적일 수 있습니다.

선택은 프로젝트의 규모, 요구사항, 예산 등을 고려하여 결정해야 합니다. 대규모 프로덕션 환경에서는 Pinecone이 유리할 수 있지만, 소규모 프로젝트나 실험적인 환경에서는 Chroma나 Faiss가 더 적합할 수 있습니다.

**참고**

- [Pinecone 공식 홈페이지](https://docs.pinecone.io/integrations/langchain)
- [Pinecone 랭체인](https://python.langchain.com/v0.2/docs/integrations/vectorstores/pinecone/)

In [1]:
# API 키를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API 키 정보 로드
load_dotenv()

True

In [None]:
# LangSmith 추적을 설정합니다. https://smith.langchain.com
# !pip install langchain-teddynote
from langchain_teddynote import logging

# 프로젝트 이름을 입력합니다.
logging.langsmith("CH09-VectorStores")

## 업데이트 안내

아래의 기능은 커스텀 구현한 내용이므로 아래의 라이브러리를 반드시 업데이트 후 진행해야 합니다.

In [None]:
# 업데이트 명령어
# !pip install -U langchain-teddynote

## 한글 처리를 위한 불용어 사전

한글 불용어 사전 가져오기 (추후 토크나이저에 사용)

In [5]:
from langchain_teddynote.korean import stopwords

# 한글 불용어 사전 불러오기 (불용어 사전 출처: https://www.ranks.nl/stopwords/korean)
stopword = stopwords()
stopword

['아',
 '휴',
 '아이구',
 '아이쿠',
 '아이고',
 '어',
 '나',
 '우리',
 '저희',
 '따라',
 '의해',
 '을',
 '를',
 '에',
 '의',
 '가',
 '으로',
 '로',
 '에게',
 '뿐이다',
 '의거하여',
 '근거하여',
 '입각하여',
 '기준으로',
 '예하면',
 '예를 들면',
 '예를 들자면',
 '저',
 '소인',
 '소생',
 '저희',
 '지말고',
 '하지마',
 '하지마라',
 '다른',
 '물론',
 '또한',
 '그리고',
 '비길수 없다',
 '해서는 안된다',
 '뿐만 아니라',
 '만이 아니다',
 '만은 아니다',
 '막론하고',
 '관계없이',
 '그치지 않다',
 '그러나',
 '그런데',
 '하지만',
 '든간에',
 '논하지 않다',
 '따지지 않다',
 '설사',
 '비록',
 '더라도',
 '아니면',
 '만 못하다',
 '하는 편이 낫다',
 '불문하고',
 '향하여',
 '향해서',
 '향하다',
 '쪽으로',
 '틈타',
 '이용하여',
 '타다',
 '오르다',
 '제외하고',
 '이 외에',
 '이 밖에',
 '하여야',
 '비로소',
 '한다면 몰라도',
 '외에도',
 '이곳',
 '여기',
 '부터',
 '기점으로',
 '따라서',
 '할 생각이다',
 '하려고하다',
 '이리하여',
 '그리하여',
 '그렇게 함으로써',
 '하지만',
 '일때',
 '할때',
 '앞에서',
 '중에서',
 '보는데서',
 '으로써',
 '로써',
 '까지',
 '해야한다',
 '일것이다',
 '반드시',
 '할줄알다',
 '할수있다',
 '할수있어',
 '임에 틀림없다',
 '한다면',
 '등',
 '등등',
 '제',
 '겨우',
 '단지',
 '다만',
 '할뿐',
 '딩동',
 '댕그',
 '대해서',
 '대하여',
 '대하면',
 '훨씬',
 '얼마나',
 '얼마만큼',
 '얼마큼',
 '남짓',
 '여',
 '얼마간',
 '약간',
 '다소',
 '좀',
 '조

## 데이터 전처리

아래는 일반 문서의 전처리 과정입니다. `ROOT_DIR` 하위에 있는 모든 `.pdf` 파일을 읽어와 `document_lsit` 에 저장합니다.

In [6]:
!pwd

/home/jun/my_project/Law_RAG_PJ/test


In [3]:
from langchain_community.document_loaders import DirectoryLoader
from langchain_community.document_loaders import PDFPlumberLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
import glob

# 텍스트 분할
text_splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=50)

split_docs = []

# 텍스트 파일을 load -> List[Document] 형태로 변환
loader = DirectoryLoader("../data", glob="**/*.pdf",loader_cls=PDFPlumberLoader, show_progress=True)
split_docs = loader.load_and_split(text_splitter)

# 문서 개수 확인
len(split_docs)

100%|██████████| 10/10 [00:16<00:00,  1.66s/it]


2139

In [9]:
print(split_docs[0].page_content)

부동산등기법
부동산등기법
[시행 2020. 8. 5.] [법률 제16912호, 2020. 2. 4., 일부개정]
법무부 (법무심의관실) 02-2110-3164
제1장 총칙
제1조(목적) 이 법은 부동산등기(不動産登記)에 관한 사항을 규정함을 목적으로 한다.
제2조(정의) 이 법에서 사용하는 용어의 뜻은 다음과 같다.
1. “등기부”란 전산정보처리조직에 의하여 입력ㆍ처리된 등기정보자료를 대법원규칙으로 정하는 바에 따라 편성한
것을 말한다.


Pinecone 에 DB 저장하기 위한 문서 전처리를 수행합니다. 이 과정에서 `metadata_keys` 를 지정할 수 있습니다.

추가로 metadata 를 태깅하고 싶은 경우 사전 처리 작업에서 미리 metadata 를 추가한 뒤 진행합니다.

- `split_docs`: 문서 분할 결과를 담은 List[Document] 입니다.
- `metadata_keys`: 문서에 추가할 metadata 키를 담은 List 입니다.
- `min_length`: 문서의 최소 길이를 지정합니다. 이 길이보다 짧은 문서는 제외합니다.
- `use_basename`: 소스 경로를 기준으로 파일명을 사용할지 여부를 지정합니다. 기본값은 `False` 입니다.

In [12]:
# metadata 를 확인합니다.
split_docs[0].metadata

{'source': '../data/부동산등기법(법률)(제16912호)(20200805).pdf',
 'file_path': '../data/부동산등기법(법률)(제16912호)(20200805).pdf',
 'page': 0,
 'total_pages': 23,
 'Producer': 'iText 2.1.7 by 1T3XT',
 'ModDate': "D:20241006132433+09'00'",
 'CreationDate': "D:20241006132433+09'00'"}

### 문서의 전처리

- 필요한 `metadata` 정보를 추출합니다.
- 최소 길이 이상의 데이만 필터링 합니다.
  
- 문서의 `basename` 을 사용할지 여부를 지정합니다. 기본값은 `False` 입니다.
  - 여기서 `basename` 이란 파일 경로의 가장 마지막 부분을 의미합니다. 
  - 예를 들어, `/Users/teddy/data/document.pdf` 의 경우 `document.pdf` 가 됩니다.

In [11]:
split_docs[0].metadata

{'source': '../data/부동산등기법(법률)(제16912호)(20200805).pdf',
 'file_path': '../data/부동산등기법(법률)(제16912호)(20200805).pdf',
 'page': 0,
 'total_pages': 23,
 'Producer': 'iText 2.1.7 by 1T3XT',
 'ModDate': "D:20241006132433+09'00'",
 'CreationDate': "D:20241006132433+09'00'"}

In [13]:
split_docs[0].page_content

'부동산등기법\n부동산등기법\n[시행 2020. 8. 5.] [법률 제16912호, 2020. 2. 4., 일부개정]\n법무부 (법무심의관실) 02-2110-3164\n제1장 총칙\n제1조(목적) 이 법은 부동산등기(不動産登記)에 관한 사항을 규정함을 목적으로 한다.\n제2조(정의) 이 법에서 사용하는 용어의 뜻은 다음과 같다.\n1. “등기부”란 전산정보처리조직에 의하여 입력ㆍ처리된 등기정보자료를 대법원규칙으로 정하는 바에 따라 편성한\n것을 말한다.'

In [4]:
from langchain_teddynote.community.pinecone import preprocess_documents

contents, metadatas = preprocess_documents(
    split_docs=split_docs,
    metadata_keys=["source", "page", "total_pages","CreationDate"],
    min_length=5,
    use_basename=True,
)

  0%|          | 0/2139 [00:00<?, ?it/s]

In [19]:
# VectorStore 에 저장할 문서 확인
contents[:5]

['부동산등기법\n부동산등기법\n[시행 2020. 8. 5.] [법률 제16912호, 2020. 2. 4., 일부개정]\n법무부 (법무심의관실) 02-2110-3164\n제1장 총칙\n제1조(목적) 이 법은 부동산등기(不動産登記)에 관한 사항을 규정함을 목적으로 한다.\n제2조(정의) 이 법에서 사용하는 용어의 뜻은 다음과 같다.\n1. “등기부”란 전산정보처리조직에 의하여 입력ㆍ처리된 등기정보자료를 대법원규칙으로 정하는 바에 따라 편성한\n것을 말한다.',
 '것을 말한다.\n2. “등기부부본자료”(登記簿副本資料)란 등기부와 동일한 내용으로 보조기억장치에 기록된 자료를 말한다.\n3. “등기기록”이란 1필의 토지 또는 1개의 건물에 관한 등기정보자료를 말한다.\n4. “등기필정보”(登記畢情報)란 등기부에 새로운 권리자가 기록되는 경우에 그 권리자를 확인하기 위하여 제11조제\n1항에 따른 등기관이 작성한 정보를 말한다.\n제3조(등기할 수 있는 권리 등) 등기는 부동산의 표시(表示)와 다음 각 호의 어느 하나에 해당하는 권리의 보존, 이전,\n설정, 변경, 처분의 제한 또는 소멸에 대하여 한다.',
 '설정, 변경, 처분의 제한 또는 소멸에 대하여 한다.\n1. 소유권(所有權)\n2. 지상권(地上權)\n3. 지역권(地役權)\n4. 전세권(傳貰權)\n5. 저당권(抵當權)\n6. 권리질권(權利質權)\n7. 채권담보권(債權擔保權)\n8. 임차권(賃借權)\n제4조(권리의 순위) ① 같은 부동산에 관하여 등기한 권리의 순위는 법률에 다른 규정이 없으면 등기한 순서에 따른다.\n② 등기의 순서는 등기기록 중 같은 구(區)에서 한 등기 상호간에는 순위번호에 따르고, 다른 구에서 한 등기 상호간\n에는 접수번호에 따른다.',
 '에는 접수번호에 따른다.\n제5조(부기등기의 순위) 부기등기(附記登記)의 순위는 주등기(主登記)의 순위에 따른다. 다만, 같은 주등기에 관한 부기\n등기 상호간의 순위는 그 등기 순서에 따른다.\n제6조(등기신청의 접수시기 및 등기의 효력발생시기)

In [None]:
# VectorStore 에 저장할 metadata 확인
metadatas.keys()

In [None]:
# metadata 에서 source 를 확인합니다.
metadatas["source"][:5]

In [None]:
# 문서 개수 확인, 소스 개수 확인, 페이지 개수 확인
len(contents), len(metadatas["source"]), len(metadatas["page"])

### API 키 발급

- [링크](https://app.pinecone.io/)
- 프로필 - Account - Projects - Starter - API keys - 발급

`.env` 파일에 아래와 같이 추가합니다.

```
PINECONE_API_KEY="YOUR_PINECONE_API_KEY"
```

## 새로운 VectorStore 인덱스 생성

Pinecone 의 새로운 인덱스를 생성합니다.

![pinecone-01.png](./images/pinecone-01.png)

pinecone 인덱스를 생성합니다.

**주의사항**
- `metric` 은 유사도 측정 방법을 지정합니다. 만약 HybridSearch 를 고려하고 있다면 `metric` 은 `dotproduct` 로 지정합니다.

In [9]:
import os
from langchain_teddynote.community.pinecone import create_index

# Pinecone 인덱스 생성
pc_index = create_index(
    api_key=os.environ["PINECONE_API_KEY"],
    index_name="law-db-index",  # 인덱스 이름을 지정합니다.
    dimension=1024,  # Embedding 차원과 맞춥니다. (OpenAIEmbeddings: 1536, UpstageEmbeddings: 4096)
    metric="dotproduct",  # 유사도 측정 방법을 지정합니다. (dotproduct, euclidean, cosine)
)

[create_index]
{'dimension': 1024,
 'index_fullness': 0.0,
 'namespaces': {'': {'vector_count': 0}},
 'total_vector_count': 0}


아래는 **유료 Pod** 를 사용하는 예시입니다. **유료 Pod** 는 무료 Serverless Pod 대비 더 확장된 기능을 제공합니다.

- 참고: https://docs.pinecone.io/guides/indexes/choose-a-pod-type-and-size

In [None]:
# import os
# from langchain_teddynote.community.pinecone import create_index
# from pinecone import PodSpec

# # Pinecone 인덱스 생성
# pc_index = create_index(
#     api_key=os.environ["PINECONE_API_KEY"],
#     index_name="teddynote-db-index2",  # 인덱스 이름을 지정합니다.
#     dimension=4096,  # Embedding 차원과 맞춥니다. (OpenAIEmbeddings: 1536, UpstageEmbeddings: 4096)
#     metric="dotproduct",  # 유사도 측정 방법을 지정합니다. (dotproduct, euclidean, cosine)
#     pod_spec=PodSpec(
#         environment="us-west1-gcp", pod_type="p1.x1", pods=1
#     ),  # 유료 Pod 사용
# )

## Sparse Encoder 생성

- Sparse Encoder 를 생성합니다. 
- `Kiwi Tokenizer` 와 한글 불용어(stopwords) 처리를 수행합니다.
- Sparse Encoder 를 활용하여 contents 를 학습합니다. 여기서 학습한 인코드는 VectorStore 에 문서를 저장할 때 Sparse Vector 를 생성할 때 활용합니다.

In [10]:
from langchain_teddynote.community.pinecone import (
    create_sparse_encoder,
    fit_sparse_encoder,
)

# 한글 불용어 사전 + Kiwi 형태소 분석기를 사용합니다.
sparse_encoder = create_sparse_encoder(stopwords(), mode="kiwi")

Sparse Encoder 에 Corpus 를 학습합니다.

- `save_path`: Sparse Encoder 를 저장할 경로입니다. 추후에 `pickle` 형식으로 저장한 Sparse Encoder 를 불러와 Query 임베딩할 때 사용합니다. 따라서, 이를 저장할 경로를 지정합니다.

In [11]:
# Sparse Encoder 를 사용하여 contents 를 학습
saved_path = fit_sparse_encoder(
    sparse_encoder=sparse_encoder, contents=contents, save_path="./sparse_encoder.pkl"
)

  0%|          | 0/2139 [00:00<?, ?it/s]

KeyboardInterrupt: 

[선택사항] 아래는 나중에 학습하고 저장한 Sparse Encoder 를 다시 불러와야 할 때 사용하는 코드입니다.    

In [12]:
from langchain_teddynote.community.pinecone import load_sparse_encoder

# 추후에 학습된 sparse encoder 를 불러올 때 사용합니다.
sparse_encoder = load_sparse_encoder("./sparse_encoder.pkl")

[load_sparse_encoder]
Loaded Sparse Encoder from: ./sparse_encoder.pkl


### Pinecone: DB Index에 추가 (Upsert)

![](./images/pinecone-02.png)

- `context`: 문서의 내용입니다.
- `page`: 문서의 페이지 번호입니다.
- `source`: 문서의 출처입니다.
- `values`: Embedder 를 통해 얻은 문서의 임베딩입니다.
- `sparse values`: Sparse Encoder 를 통해 얻은 문서의 임베딩입니다.

In [2]:
# from langchain_openai import OpenAIEmbeddings
# from langchain_upstage import UpstageEmbeddings
# openai_embeddings = OpenAIEmbeddings(model="text-embedding-3-large")
# upstage_embeddings = UpstageEmbeddings(model="solar-embedding-1-large-passage")


from langchain_community.embeddings import HuggingFaceBgeEmbeddings

model_name = "BAAI/bge-m3"
model_kwargs = {"device":"cpu"}
encode_kwargs = {"normalize_embeddings":True}

embeddings = HuggingFaceBgeEmbeddings(
    model_name=model_name, model_kwargs=model_kwargs,encode_kwargs=encode_kwargs)

  from tqdm.autonotebook import tqdm, trange


분산 처리를 하지 않고 배치 단위로 문서를 Upsert 합니다. 문서의 양이 많지 않다면 아래의 방식을 사용하세요.

In [13]:
%%time
from langchain_teddynote.community.pinecone import upsert_documents
from langchain_upstage import UpstageEmbeddings

upsert_documents(
    index=pc_index,  # Pinecone 인덱스
    namespace="law-pdf-hypersearch_rag",  # Pinecone namespace
    contents=contents,  # 이전에 전처리한 문서 내용
    metadatas=metadatas,  # 이전에 전처리한 문서 메타데이터
    sparse_encoder=sparse_encoder,  # Sparse encoder
    embedder=embeddings,
    batch_size=32,
)

  0%|          | 0/67 [00:00<?, ?it/s]

[upsert_documents]
{'dimension': 1024,
 'index_fullness': 0.0,
 'namespaces': {'law-pdf-hypersearch_rag': {'vector_count': 2139}},
 'total_vector_count': 2139}
CPU times: user 1h 16min 16s, sys: 12min 58s, total: 1h 29min 14s
Wall time: 16min 31s


아래는 분산처리를 수행하여 대용량 문서를 빠르게 Upsert 합니다. 대용량 업로드시 활용하세요.

In [24]:
%%time
from langchain_teddynote.community.pinecone import upsert_documents_parallel

upsert_documents_parallel(
    index=pc_index,  # Pinecone 인덱스
    namespace="law-pdf-hypersearch_rag",  # Pinecone namespace
    contents=contents,  # 이전에 전처리한 문서 내용
    metadatas=metadatas,  # 이전에 전처리한 문서 메타데이터
    sparse_encoder=sparse_encoder,  # Sparse encoder
    embedder=embeddings,
    batch_size=64,
    max_workers=30,
)

문서 Upsert 중:   0%|          | 0/34 [00:00<?, ?it/s]

: 

## 인덱스 조회/삭제

`describe_index_stats` 메서드는 인덱스의 내용에 대한 통계 정보를 제공합니다. 이 메서드를 통해 네임스페이스별 벡터 수와 차원 수 등의 정보를 얻을 수 있습니다.

**매개변수**
* `filter` (Optional[Dict[str, Union[str, float, int, bool, List, dict]]]): 특정 조건에 맞는 벡터들에 대한 통계만 반환하도록 하는 필터. 기본값은 None
* `**kwargs`: 추가 키워드 인자

**반환값**
* `DescribeIndexStatsResponse`: 인덱스에 대한 통계 정보를 담고 있는 객체

**사용 예시**
* 기본 사용: `index.describe_index_stats()`
* 필터 적용: `index.describe_index_stats(filter={'key': 'value'})`

**참고**
- metadata 필터링은 유료 사용자에 한하여 가능합니다.

In [None]:
# 인덱스 조회
pc_index.describe_index_stats()

### 네임스페이스(namespace) 삭제

In [None]:
from langchain_teddynote.community.pinecone import delete_namespace

delete_namespace(
    pinecone_index=pc_index,
    namespace="teddynote-namespace-01",
)

In [None]:
pc_index.describe_index_stats()

아래는 유료 사용자 전용 기능입니다. 유료 사용자는 metadata 필터링을 사용할 수 있습니다.

In [None]:
# from langchain_teddynote.community.pinecone import delete_by_filter

# # metadata 필터링(유료 기능) 으로 삭제
# delete_by_filter(
#     pinecone_index=pc_index,
#     namespace="teddynote-namespace-02",
#     filter={"source": {"$eq": "SPRi AI Brief_8월호_산업동향.pdf"}},
# )
# pc_index.describe_index_stats()

## 검색기(Retriever) 생성

### PineconeKiwiHybridRetriever 초기화 파라미터 설정

`init_pinecone_index` 함수와 `PineconeKiwiHybridRetriever` 클래스는 Pinecone을 사용한 하이브리드 검색 시스템을 구현합니다. 이 시스템은 밀집 벡터와 희소 벡터를 결합하여 효과적인 문서 검색을 수행합니다.

**Pinecone 인덱스 초기화**

`init_pinecone_index` 함수는 Pinecone 인덱스를 초기화하고 필요한 구성 요소를 설정합니다.

**매개변수**
* `index_name` (str): Pinecone 인덱스 이름
* `namespace` (str): 사용할 네임스페이스
* `api_key` (str): Pinecone API 키
* `sparse_encoder_pkl_path` (str): 희소 인코더 피클 파일 경로
* `stopwords` (List[str]): 불용어 리스트
* `tokenizer` (str): 사용할 토크나이저 (기본값: "kiwi")
* `embeddings` (Embeddings): 임베딩 모델
* `top_k` (int): 반환할 최대 문서 수 (기본값: 10)
* `alpha` (float): 밀집 벡터와 희소 벡터의 가중치 조절 파라미터 (기본값: 0.5)

**주요 기능**
1. Pinecone 인덱스 초기화 및 통계 정보 출력
2. 희소 인코더(BM25) 로딩 및 토크나이저 설정
3. 네임스페이스 지정

In [6]:
from langchain_teddynote.community.pinecone import init_pinecone_index
import os

pinecone_params = init_pinecone_index(
    index_name="law-db-index",  # Pinecone 인덱스 이름
    namespace="law-pdf-hypersearch_rag",  # Pinecone Namespace
    api_key=os.environ["PINECONE_API_KEY"],  # Pinecone API Key
    sparse_encoder_path="./sparse_encoder.pkl",  # Sparse Encoder 저장경로(save_path)
    stopwords=stopwords(),  # 불용어 사전
    tokenizer="kiwi",
    embeddings=embeddings,  # Dense Embedder
    top_k=5,  # Top-K 문서 반환 개수
    alpha=0.5,  # alpha=0.75로 설정한 경우, (0.75: Dense Embedding, 0.25: Sparse Embedding)
)

[init_pinecone_index]
{'dimension': 1024,
 'index_fullness': 0.0,
 'namespaces': {'law-pdf-hypersearch_rag': {'vector_count': 2139}},
 'total_vector_count': 2139}


### PineconeKiwiHybridRetriever

`PineconeKiwiHybridRetriever` 클래스는 Pinecone과 Kiwi를 결합한 하이브리드 검색기를 구현합니다.

**주요 속성**
* `embeddings`: 밀집 벡터 변환용 임베딩 모델
* `sparse_encoder`: 희소 벡터 변환용 인코더
* `index`: Pinecone 인덱스 객체
* `top_k`: 반환할 최대 문서 수
* `alpha`: 밀집 벡터와 희소 벡터의 가중치 조절 파라미터
* `namespace`: Pinecone 인덱스 내 네임스페이스

**특징**
* 밀집 벡터와 희소 벡터를 결합한 HybridSearch Retriever
* 가중치 조절을 통한 검색 전략 최적화 가능
* 다양한 동적 metadata 필터링 적용 가능(`search_kwargs` 사용: `filter`, `k`, `rerank`, `rerank_model`, `top_n` 등)

**사용 예시**
1. `init_pinecone_index` 함수로 필요한 구성 요소 초기화
2. 초기화된 구성 요소로 `PineconeKiwiHybridRetriever` 인스턴스 생성
3. 생성된 검색기를 사용하여 하이브리드 검색 수행

`PineconeKiwiHybridRetriever` 를 생성합니다.

In [7]:
from langchain_teddynote.community.pinecone import PineconeKiwiHybridRetriever

# 검색기 생성
pinecone_retriever = PineconeKiwiHybridRetriever(**pinecone_params)

일반 검색

In [8]:
# 실행 결과
search_results = pinecone_retriever.invoke("임차한 집에 거주하던 중 제 돈으로 집수리를 했습니다. 나중에 돌려받을 수 있나요?")
for result in search_results:
    print(result.page_content)
    print(result.metadata)
    print("\n====================\n")

인이 이로 인하여 임차의 목적을 달성할 수 없는 때에는 계약을 해지할 수 있다.
제626조(임차인의 상환청구권) ①임차인이 임차물의 보존에 관한 필요비를 지출한 때에는 임대인에 대하여 그 상환을
청구할 수 있다.
②임차인이 유익비를 지출한 경우에는 임대인은 임대차종료시에 그 가액의 증가가 현존한 때에 한하여 임차인의
지출한 금액이나 그 증가액을 상환하여야 한다. 이 경우에 법원은 임대인의 청구에 의하여 상당한 상환기간을 허여
할 수 있다.
{'page': 52.0, 'source': '민법(법률)(제19409호)(20240517).pdf', 'score': 0.32982236}


다.
1. 임차인이 2기의 차임액에 해당하는 금액에 이르도록 차임을 연체한 사실이 있는 경우
2. 임차인이 거짓이나 그 밖의 부정한 방법으로 임차한 경우
3. 서로 합의하여 임대인이 임차인에게 상당한 보상을 제공한 경우
4. 임차인이 임대인의 동의 없이 목적 주택의 전부 또는 일부를 전대(轉貸)한 경우
5. 임차인이 임차한 주택의 전부 또는 일부를 고의나 중대한 과실로 파손한 경우
6. 임차한 주택의 전부 또는 일부가 멸실되어 임대차의 목적을 달성하지 못할 경우
{'page': 3.0, 'source': '주택임대차보호법(법률)(제19356호)(20230719).pdf', 'score': 0.31786713}


할 수 있다.
제627조(일부멸실 등과 감액청구, 해지권) ①임차물의 일부가 임차인의 과실없이 멸실 기타 사유로 인하여 사용, 수익
할 수 없는 때에는 임차인은 그 부분의 비율에 의한 차임의 감액을 청구할 수 있다.
②전항의 경우에 그 잔존부분으로 임차의 목적을 달성할 수 없는 때에는 임차인은 계약을 해지할 수 있다.
제628조(차임증감청구권) 임대물에 대한 공과부담의 증감 기타 경제사정의 변동으로 인하여 약정한 차임이 상당하지
아니하게 된 때에는 당사자는 장래에 대한 차임의 증감을 청구할 수 있다.
{'page': 52.0, 'source': '민법(법률)(제19409호)

동적 `search_kwargs` 사용
- `k`: 반환할 최대 문서 수 지정

In [19]:
# 실행 결과
search_results = pinecone_retriever.invoke(
    "임차한 집에 거주하던 중 제 돈으로 집수리를 했습니다. 나중에 돌려받을 수 있나요?", search_kwargs={"k": 2}
)
for result in search_results:
    print(result.page_content)
    print(result.metadata)
    print("\n====================\n")

인이 이로 인하여 임차의 목적을 달성할 수 없는 때에는 계약을 해지할 수 있다.
제626조(임차인의 상환청구권) ①임차인이 임차물의 보존에 관한 필요비를 지출한 때에는 임대인에 대하여 그 상환을
청구할 수 있다.
②임차인이 유익비를 지출한 경우에는 임대인은 임대차종료시에 그 가액의 증가가 현존한 때에 한하여 임차인의
지출한 금액이나 그 증가액을 상환하여야 한다. 이 경우에 법원은 임대인의 청구에 의하여 상당한 상환기간을 허여
할 수 있다.
{'page': 52.0, 'source': '민법(법률)(제19409호)(20240517).pdf', 'score': 0.32982236}


다.
1. 임차인이 2기의 차임액에 해당하는 금액에 이르도록 차임을 연체한 사실이 있는 경우
2. 임차인이 거짓이나 그 밖의 부정한 방법으로 임차한 경우
3. 서로 합의하여 임대인이 임차인에게 상당한 보상을 제공한 경우
4. 임차인이 임대인의 동의 없이 목적 주택의 전부 또는 일부를 전대(轉貸)한 경우
5. 임차인이 임차한 주택의 전부 또는 일부를 고의나 중대한 과실로 파손한 경우
6. 임차한 주택의 전부 또는 일부가 멸실되어 임대차의 목적을 달성하지 못할 경우
{'page': 3.0, 'source': '주택임대차보호법(법률)(제19356호)(20230719).pdf', 'score': 0.3177754}




동적 `search_kwargs` 사용
- `alpha`: 밀집 벡터와 희소 벡터의 가중치 조절 파라미터. 0과 1 사이의 값을 지정합니다. `0.5` 가 기본값이고, 1에 가까울수록 dense 벡터의 가중치가 높아집니다.

In [20]:
# 실행 결과
search_results = pinecone_retriever.invoke(
    "임차한 집에 거주하던 중 제 돈으로 집수리를 했습니다. 나중에 돌려받을 수 있나요?", search_kwargs={"alpha": 1, "k": 2}
)
for result in search_results:
    print(result.page_content)
    print(result.metadata)
    print("\n====================\n")

인이 이로 인하여 임차의 목적을 달성할 수 없는 때에는 계약을 해지할 수 있다.
제626조(임차인의 상환청구권) ①임차인이 임차물의 보존에 관한 필요비를 지출한 때에는 임대인에 대하여 그 상환을
청구할 수 있다.
②임차인이 유익비를 지출한 경우에는 임대인은 임대차종료시에 그 가액의 증가가 현존한 때에 한하여 임차인의
지출한 금액이나 그 증가액을 상환하여야 한다. 이 경우에 법원은 임대인의 청구에 의하여 상당한 상환기간을 허여
할 수 있다.
{'page': 52.0, 'source': '민법(법률)(제19409호)(20240517).pdf', 'score': 0.60619396}


[전문개정 2008. 3. 21.]
제10조의2(초과 차임 등의 반환청구) 임차인이 제7조에 따른 증액비율을 초과하여 차임 또는 보증금을 지급하거나 제
7조의2에 따른 월차임 산정률을 초과하여 차임을 지급한 경우에는 초과 지급된 차임 또는 보증금 상당금액의 반환
을 청구할 수 있다.
[본조신설 2013. 8. 13.]
제11조(일시사용을 위한 임대차) 이 법은 일시사용하기 위한 임대차임이 명백한 경우에는 적용하지 아니한다.
[전문개정 2008. 3. 21.]
{'page': 5.0, 'source': '주택임대차보호법(법률)(제19356호)(20230719).pdf', 'score': 0.6046234}




In [21]:
# 실행 결과
search_results = pinecone_retriever.invoke(
    "임차한 집에 거주하던 중 제 돈으로 집수리를 했습니다. 나중에 돌려받을 수 있나요?", search_kwargs={"alpha": 0, "k": 2}
)
for result in search_results:
    print(result.page_content)
    print(result.metadata)
    print("\n====================\n")

로 한다. <개정 2014. 1. 21.>
1. 거주자: 거주지가 분명한 사람(제3호의 재외국민은 제외한다)
2. 거주불명자: 제20조제6항에 따라 거주불명으로 등록된 사람
3. 재외국민: 「재외동포의 출입국과 법적 지위에 관한 법률」 제2조제1호에 따른 국민으로서 「해외이주법」 제12조
에 따른 영주귀국의 신고를 하지 아니한 사람 중 다음 각 목의 어느 하나의 경우
가. 주민등록이 말소되었던 사람이 귀국 후 재등록 신고를 하는 경우
나. 주민등록이 없었던 사람이 귀국 후 최초로 주민등록 신고를 하는 경우
{'page': 0.0, 'source': '주민등록법(법률)(제19841호)(20240627).pdf', 'score': 0.12417811}


용할 때에는 공무원으로 본다.
[본조신설 2009. 2. 6.]
제41조(벌칙) ① 조정위원 또는 조정위원이었던 사람이 정당한 이유 없이 합의의 과정이나 조정장 또는 조정위원의 의
견 및 그 의견별 조정위원의 수(數)를 누설한 경우에는 30만원 이하의 벌금에 처한다.
② 조정위원 또는 조정위원이었던 사람이 정당한 이유 없이 그 직무수행 중에 알게 된 타인의 비밀을 누설한 경우
에는 2년 이하의 징역 또는 100만원 이하의 벌금에 처한다.
③ 제2항의 죄는 고소가 있어야 공소(公訴)를 제기할 수 있다.
{'page': 6.0, 'source': '민사조정법(법률)(제16910호)(20200305).pdf', 'score': 0.0863897}




**Metadata 필터링**

![](./images/pinecone-metadata.png)

동적 `search_kwargs` 사용
- `filter`: metadata 필터링 적용

(예시) `page` 가 5보다 작은 문서만 검색합니다.

In [None]:
# 실행 결과
search_results = pinecone_retriever.invoke(
    "앤스로픽의 claude 출시 관련 내용을 알려줘",
    search_kwargs={"filter": {"page": {"$lt": 5}}, "k": 2},
)
for result in search_results:
    print(result.page_content)
    print(result.metadata)
    print("\n====================\n")

동적 `search_kwargs` 사용
- `filter`: metadata 필터링 적용

(예시) `source` 가 `SPRi AI Brief_8월호_산업동향.pdf` 문서내 검색합니다.

In [None]:
# 실행 결과
search_results = pinecone_retriever.invoke(
    "앤스로픽의 claude 3.5 출시 관련 내용을 알려줘",
    search_kwargs={
        "filter": {"source": {"$eq": "SPRi AI Brief_7월호_산업동향.pdf"}},
        "k": 3,
    },
)
for result in search_results:
    print(result.page_content)
    print(result.metadata)
    print("\n====================\n")

### Reranking 적용

아직은 `pre` 기능입니다.

- 동적 reranking 기능을 구현해 놓았지만, pinecone 라이브러리 의존성에 문제가 있을 수 있습니다.
- 따라서, 아래 코드는 향후 의존성 해결 후 원활하게 동작할 수 있습니다.

참고 문서: https://docs.pinecone.io/guides/inference/rerank

In [23]:
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import CrossEncoderReranker
from langchain_community.cross_encoders import HuggingFaceCrossEncoder

# 모델 초기화
model = HuggingFaceCrossEncoder(model_name="BAAI/bge-reranker-v2-m3")

config.json:   0%|          | 0.00/795 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.27G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.17k [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

In [25]:
# 상위 3개의 문서 선택
compressor = CrossEncoderReranker(model=model, top_n=4)

# 문서 압축 검색기 초기화
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor, base_retriever=pinecone_retriever
)

# 압축된 문서 검색
compressed_docs = compression_retriever.invoke("임차한 집에 거주하던 중 제 돈으로 집수리를 했습니다. 나중에 돌려받을 수 있나요?")

# 문서 출력
print(compressed_docs)

[Document(metadata={'page': 52.0, 'source': '민법(법률)(제19409호)(20240517).pdf', 'score': 0.3168774}, page_content='할 수 있다.\n제627조(일부멸실 등과 감액청구, 해지권) ①임차물의 일부가 임차인의 과실없이 멸실 기타 사유로 인하여 사용, 수익\n할 수 없는 때에는 임차인은 그 부분의 비율에 의한 차임의 감액을 청구할 수 있다.\n②전항의 경우에 그 잔존부분으로 임차의 목적을 달성할 수 없는 때에는 임차인은 계약을 해지할 수 있다.\n제628조(차임증감청구권) 임대물에 대한 공과부담의 증감 기타 경제사정의 변동으로 인하여 약정한 차임이 상당하지\n아니하게 된 때에는 당사자는 장래에 대한 차임의 증감을 청구할 수 있다.'), Document(metadata={'page': 3.0, 'source': '주택임대차보호법(법률)(제19356호)(20230719).pdf', 'score': 0.31786713}, page_content='다.\n1. 임차인이 2기의 차임액에 해당하는 금액에 이르도록 차임을 연체한 사실이 있는 경우\n2. 임차인이 거짓이나 그 밖의 부정한 방법으로 임차한 경우\n3. 서로 합의하여 임대인이 임차인에게 상당한 보상을 제공한 경우\n4. 임차인이 임대인의 동의 없이 목적 주택의 전부 또는 일부를 전대(轉貸)한 경우\n5. 임차인이 임차한 주택의 전부 또는 일부를 고의나 중대한 과실로 파손한 경우\n6. 임차한 주택의 전부 또는 일부가 멸실되어 임대차의 목적을 달성하지 못할 경우'), Document(metadata={'page': 3.0, 'source': '주택임대차보호법(법률)(제19356호)(20230719).pdf', 'score': 0.31368464}, page_content='6. 임차한 주택의 전부 또는 일부가 멸실되어 임대차의 목적을 달성하지 못할 경우\n7. 임대인이 다음 각 목의 어느 하나에 해당하는 사유로 목적 주택의 전부 또는 대

In [29]:
for doc in compressed_docs:
    print(">>>>>>>>>>>>>>>>>\n",doc.page_content)

>>>>>>>>>>>>>>>>>
 할 수 있다.
제627조(일부멸실 등과 감액청구, 해지권) ①임차물의 일부가 임차인의 과실없이 멸실 기타 사유로 인하여 사용, 수익
할 수 없는 때에는 임차인은 그 부분의 비율에 의한 차임의 감액을 청구할 수 있다.
②전항의 경우에 그 잔존부분으로 임차의 목적을 달성할 수 없는 때에는 임차인은 계약을 해지할 수 있다.
제628조(차임증감청구권) 임대물에 대한 공과부담의 증감 기타 경제사정의 변동으로 인하여 약정한 차임이 상당하지
아니하게 된 때에는 당사자는 장래에 대한 차임의 증감을 청구할 수 있다.
>>>>>>>>>>>>>>>>>
 다.
1. 임차인이 2기의 차임액에 해당하는 금액에 이르도록 차임을 연체한 사실이 있는 경우
2. 임차인이 거짓이나 그 밖의 부정한 방법으로 임차한 경우
3. 서로 합의하여 임대인이 임차인에게 상당한 보상을 제공한 경우
4. 임차인이 임대인의 동의 없이 목적 주택의 전부 또는 일부를 전대(轉貸)한 경우
5. 임차인이 임차한 주택의 전부 또는 일부를 고의나 중대한 과실로 파손한 경우
6. 임차한 주택의 전부 또는 일부가 멸실되어 임대차의 목적을 달성하지 못할 경우
>>>>>>>>>>>>>>>>>
 6. 임차한 주택의 전부 또는 일부가 멸실되어 임대차의 목적을 달성하지 못할 경우
7. 임대인이 다음 각 목의 어느 하나에 해당하는 사유로 목적 주택의 전부 또는 대부분을 철거하거나 재건축하기 위
하여 목적 주택의 점유를 회복할 필요가 있는 경우
가. 임대차계약 체결 당시 공사시기 및 소요기간 등을 포함한 철거 또는 재건축 계획을 임차인에게 구체적으로 고
지하고 그 계획에 따르는 경우
나. 건물이 노후ㆍ훼손 또는 일부 멸실되는 등 안전사고의 우려가 있는 경우
다. 다른 법령에 따라 철거 또는 재건축이 이루어지는 경우


In [30]:
# 실행 결과
search_results = pinecone_retriever.invoke(
    "임차한 집에 거주하던 중 제 돈으로 집수리를 했습니다. 나중에 돌려받을 수 있나요?",
    search_kwargs={"rerank": True, "rerank_model": "bge-reranker-v2-m3", "top_n": 3},
)
# for result in search_results:
#     print(result.page_content)
#     print(result.metadata)
#     print("\n====================\n")

[rerank_documents]


AttributeError: 'GRPCIndex' object has no attribute 'inference'