- 임베딩 : 텍스트를 숫자 배열로 변환. 임베딩 모델을 통해서 실행
- 벡터 : 임베딩 결과로 만들어진 숫자 배열
- 벡터 DB : 벡터 값들을 저장하고 벡터로 조회할 수 있습니다.

In [None]:
# pip install langchain-pinecone pinecone-client

In [1]:
import os

pinecone_key = os.getenv('PINECONE_API_KEY')

In [2]:
# 벡터DB 파인콘 객체 초기화
from pinecone import Pinecone
pine = Pinecone(api_key=pinecone_key)
# 인덱스 : 관계형 db 의 '테이블' 또는 스키마 개념
# 인덱스를 웹사이트에서 생성 : test-embedding-3d

In [10]:
# test-embedding-3d 인덱스를 사용하기 위해 객체를 생성
index = pine.Index('test-embedding-3d')

# 인덱스 기본 정보 확인
index.describe_index_stats()

{'dimension': 3,
 'index_fullness': 0.0,
 'metric': 'cosine',
 'namespaces': {'embedding-3d-ns1': {'vector_count': 6}},
 'total_vector_count': 6,
 'vector_type': 'dense'}

In [4]:
# 데이터(벡터) 업서트
index.upsert(
    vectors=[
        {
            "id": "vec1",                       # id : 식별값(필수)
            "values": [1.0, 1.5, 2.0],          # 벡터(임의로 부여함)
            "metadata": {"genre": "drama"}      # 백터와 관련된 텍스트 값
        }, {
            "id": "vec2",
            "values": [2.0, 1.0, 0.5],
            "metadata": {"genre": "action"}
        }, {
            "id": "vec3",
            "values": [0.1, 0.3, 0.5],
            "metadata": {"genre": "drama"}
        }, {
            "id": "vec4",
            "values": [1.0, 2.5, 3.5],
            "metadata": {"genre": "action"}
        }, {
            "id": "vec5",
            "values": [3.0, 1.2, 1.3],
            "metadata": {"genre": "action"}
        }, {
            "id": "vec6",
            "values": [0.3, 1.1, 2.5],
            "metadata": {"genre": "drama"}
        }
    ],
    namespace="embedding-3d-ns1"
)

{'upserted_count': 6}

In [None]:
# '특정 벡터값' 으로 질의(쿼리) 조회하기 : 텍스트로 조회하지 않음
response = index.query(
    namespace="embedding-3d-ns1",
    vector=[0.5,0.3,0.7],       # 조회할 값
    top_k=3,                    # 가장 유사한 값 3개
    include_values=True,
    include_metadata=True
)

print(response)
# 결과 값 중에 score 는 유사도 : 대체로 0~1

{'matches': [{'id': 'vec1',
              'metadata': {'genre': 'drama'},
              'score': 0.958546877,
              'values': [1.0, 1.5, 2.0]},
             {'id': 'vec4',
              'metadata': {'genre': 'action'},
              'score': 0.919893265,
              'values': [1.0, 2.5, 3.5]},
             {'id': 'vec3',
              'metadata': {'genre': 'drama'},
              'score': 0.909705818,
              'values': [0.1, 0.3, 0.5]}],
 'namespace': 'embedding-3d-ns1',
 'usage': {'read_units': 1}}


In [7]:
from pinecone import ServerlessSpec

# 텍스트 문장으로 벡터 만들기
index_name = 'quickstart'

# index_name 이미 있는 이름 삭제
for idx in pine.list_indexes():     # 모든 인덱스 가져오기
    if idx.name == index_name:
        pine.delete_index(index_name)

# 함수로 인덱스 만들기
pine.create_index(
    name=index_name,
    dimension=1024,     # 임베딩 값의 차원
    spec=ServerlessSpec(
        cloud='aws',
        region='us-east-1'
    )
)

{
    "name": "quickstart",
    "metric": "cosine",
    "host": "quickstart-3h3vqd5.svc.aped-4627-b74a.pinecone.io",
    "spec": {
        "serverless": {
            "cloud": "aws",
            "region": "us-east-1"
        }
    },
    "status": {
        "ready": true,
        "state": "Ready"
    },
    "vector_type": "dense",
    "dimension": 1024,
    "deletion_protection": "disabled",
    "tags": null
}

In [8]:
pine.list_indexes()

[
    {
        "name": "quickstart",
        "metric": "cosine",
        "host": "quickstart-3h3vqd5.svc.aped-4627-b74a.pinecone.io",
        "spec": {
            "serverless": {
                "cloud": "aws",
                "region": "us-east-1"
            }
        },
        "status": {
            "ready": true,
            "state": "Ready"
        },
        "vector_type": "dense",
        "dimension": 1024,
        "deletion_protection": "disabled",
        "tags": null
    },
    {
        "name": "test-embedding-3d",
        "metric": "cosine",
        "host": "test-embedding-3d-3h3vqd5.svc.aped-4627-b74a.pinecone.io",
        "spec": {
            "serverless": {
                "cloud": "aws",
                "region": "us-east-1"
            }
        },
        "status": {
            "ready": true,
            "state": "Ready"
        },
        "vector_type": "dense",
        "dimension": 3,
        "deletion_protection": "disabled",
        "tags": null
    }
]

In [9]:
data = [
    {"id": "vec1", "text": "사과는 달콤하고 아삭한 식감으로 유명한 인기 있는 과일입니다."},
    {"id": "vec2", "text": "애플이라는 기술 회사는 아이폰과 같은 혁신적인 제품으로 유명합니다."},
    {"id": "vec3", "text": "많은 사람들이 건강한 간식으로 사과를 즐겨 먹습니다."},
    {"id": "vec4", "text": "애플 주식회사는 세련된 디자인과 사용자 친화적인 인터페이스로 기술 산업을 혁신했습니다."},
    {"id": "vec5", "text": "하루에 사과 하나면 의사를 멀리할 수 있다는 속담이 있습니다."},
    {"id": "vec6", "text": "애플 컴퓨터 회사는 1976년 4월 1일 스티브 잡스, 스티브 워즈니악, 로널드 웨인에 의해 파트너십으로 설립되었습니다."}
]

In [None]:
# 임베팅 -> upsert
embeddings = pine.inference.embed(
    model='multilingual-e5-large',      # 임베딩 크기 : 1024
    inputs=[d['text'] for d in data],
    parameters={'input_type':'passage','truncate':'END'}
)

In [13]:
print(embeddings[0])
print(len(embeddings[0].values))

{'vector_type': dense, 'values': [0.0301055908203125, -0.0205841064453125, ..., -0.0302276611328125, 0.0241241455078125]}
1024


In [None]:
# 인덱스를 초기화합니다.
index = pine.Index(index_name)

# 벡터 리스트를 초기화합니다.
vectors = []
for d, e in zip(data, embeddings):
    # 각 데이터와 임베딩을 결합하여 벡터를 생성합니다.
    vectors.append({
        "id": d['id'],
        "values": e['values'],
        "metadata": {'text': d['text']}
    })

# 벡터를 인덱스에 업서트(upsert)합니다. quickstart_ns1 네임스페이스에 벡터를 추가합니다.
index.upsert(
    vectors=vectors,
    namespace="quickstart_ns1"
)

{'upserted_count': 6}

In [12]:
# 쿼리 텍스트를 정의합니다.
query = "애플 회사에 대해서."

# 쿼리 텍스트를 임베딩 벡터로 변환합니다.
embedding = pine.inference.embed(
    model="multilingual-e5-large",
    inputs=[query],
    parameters={
        "input_type": "query"  # 입력 타입을 쿼리로 설정합니다.
    }
)

# 첫 번째 임베딩 벡터를 출력합니다.
print(embedding[0])

{'vector_type': dense, 'values': [0.01389312744140625, -0.0310821533203125, ..., -0.0176544189453125, -0.00432586669921875]}


In [13]:
index = pine.Index('quickstart')

response = index.query(
    namespace='quickstart_ns1',
    vector=embedding[0].values,    # 조회할 값
    top_k=3,
    include_values=False,
    include_metadata=True
)
print(response)

{'matches': [{'id': 'vec2',
              'metadata': {'text': '애플이라는 기술 회사는 아이폰과 같은 혁신적인 제품으로 유명합니다.'},
              'score': 0.872038305,
              'values': []},
             {'id': 'vec6',
              'metadata': {'text': '애플 컴퓨터 회사는 1976년 4월 1일 스티브 잡스, 스티브 워즈니악, '
                                   '로널드 웨인에 의해 파트너십으로 설립되었습니다.'},
              'score': 0.868629873,
              'values': []},
             {'id': 'vec4',
              'metadata': {'text': '애플 주식회사는 세련된 디자인과 사용자 친화적인 인터페이스로 기술 산업을 '
                                   '혁신했습니다.'},
              'score': 0.864157677,
              'values': []}],
 'namespace': 'quickstart_ns1',
 'usage': {'read_units': 1}}


- 함수로 만들어 보기

In [None]:
def searchquery(query):
    # 1️⃣ 쿼리 임베딩 생성
    embedding = pine.inference.embed(
        model="multilingual-e5-large",
        inputs=[query],
        parameters={
            "input_type": "query"  # 입력 타입을 쿼리로 설정합니다.
        }
    )

    # 2️⃣ test-embedding-3d 인덱스를 사용하기 위해 객체를 생성
    index = pine.Index('quickstart')

    # 3️⃣ 벡터 검색 수행
    response = index.query(
        namespace='quickstart_ns1',
        vector=embedding[0].values,    # 조회할 값
        top_k=3,
        include_values=False,
        include_metadata=True
    )
    return response

In [15]:
query = input()
searchquery(query)

{'matches': [{'id': 'vec2',
              'metadata': {'text': '애플이라는 기술 회사는 아이폰과 같은 혁신적인 제품으로 유명합니다.'},
              'score': 0.871960163,
              'values': []},
             {'id': 'vec6',
              'metadata': {'text': '애플 컴퓨터 회사는 1976년 4월 1일 스티브 잡스, 스티브 워즈니악, '
                                   '로널드 웨인에 의해 파트너십으로 설립되었습니다.'},
              'score': 0.871229112,
              'values': []},
             {'id': 'vec4',
              'metadata': {'text': '애플 주식회사는 세련된 디자인과 사용자 친화적인 인터페이스로 기술 산업을 '
                                   '혁신했습니다.'},
              'score': 0.869893134,
              'values': []}],
 'namespace': 'quickstart_ns1',
 'usage': {'read_units': 1}}