## 환경변수 로딩

In [7]:
from dotenv import load_dotenv
import os

load_dotenv(override=True)

OPENAI_API_KEY = os.environ['OPENAI_API_KEY']
PINECONE_API_KEY = os.environ['PINECONE_API_KEY']

# 벡터DB 클라이언트 초기화
-pinecone 객체 생성

In [8]:
from pinecone import Pinecone

pc = Pinecone(api_key=PINECONE_API_KEY)

In [9]:
pc.list_indexes()

[
    {
        "name": "wiki",
        "metric": "cosine",
        "host": "wiki-j7upu7f.svc.aped-4627-b74a.pinecone.io",
        "spec": {
            "serverless": {
                "region": "us-east-1",
                "cloud": "aws",
                "read_capacity": {
                    "mode": "OnDemand",
                    "status": {
                        "state": "Ready",
                        "current_shards": null,
                        "current_replicas": null
                    }
                }
            }
        },
        "status": {
            "ready": true,
            "state": "Ready"
        },
        "vector_type": "dense",
        "dimension": 1536,
        "deletion_protection": "disabled",
        "tags": null
    },
    {
        "name": "embedding-test",
        "metric": "cosine",
        "host": "embedding-test-j7upu7f.svc.aped-4627-b74a.pinecone.io",
        "spec": {
            "serverless": {
                "region": "us-east-1",
      

## index 객체 생성
- index 객체 : embedding vector를 저장하는 그릇같은 것
- 유사도 기반의 검색 수행

In [10]:
index_name= "wiki"

index = pc.Index(index_name)

index.describe_index_stats()

{'_response_info': {'raw_headers': {'connection': 'keep-alive',
                                    'content-length': '185',
                                    'content-type': 'application/json',
                                    'date': 'Tue, 30 Dec 2025 01:20:07 GMT',
                                    'grpc-status': '0',
                                    'server': 'envoy',
                                    'x-envoy-upstream-service-time': '62',
                                    'x-pinecone-request-id': '4885748942359909271',
                                    'x-pinecone-request-latency-ms': '61',
                                    'x-pinecone-response-duration-ms': '63'}},
 'dimension': 1536,
 'index_fullness': 0.0,
 'memoryFullness': 0.0,
 'metric': 'cosine',
 'namespaces': {'wiki_ns1': {'vector_count': 1659}},
 'storageFullness': 0.0,
 'total_vector_count': 1659,
 'vector_type': 'dense'}

# 검색하기
- Vector DB를 통해 질문에 대한 유사도가 가장 높은 top-k 문서를 검색

## 방법1 Pinecone API 사용

### 질문 embedding vector로 만들기

In [11]:
from langchain_openai import OpenAIEmbeddings
# embedding 객체 생성
embedding = OpenAIEmbeddings(
    model = "text-embedding-3-small",
    # api_key = OPENAI_API_KEY # 생략가능
)
embedding

OpenAIEmbeddings(client=<openai.resources.embeddings.Embeddings object at 0x00000198C90FE300>, async_client=<openai.resources.embeddings.AsyncEmbeddings object at 0x00000198CA15EEA0>, model='text-embedding-3-small', dimensions=None, deployment='text-embedding-ada-002', openai_api_version=None, openai_api_base=None, openai_api_type=None, openai_proxy=None, embedding_ctx_length=8191, openai_api_key=SecretStr('**********'), openai_organization=None, allowed_special=None, disallowed_special=None, chunk_size=1000, max_retries=2, request_timeout=None, headers=None, tiktoken_enabled=True, tiktoken_model_name=None, show_progress_bar=False, model_kwargs={}, skip_empty=False, default_headers=None, default_query=None, retry_min_seconds=4, retry_max_seconds=20, http_client=None, http_async_client=None, check_embedding_ctx_length=True)

In [12]:
# 질문을 embedding vector로 변환
# question = ["김대중 대통령의 행적에 대해 알여줘"]
question = ["백남준에 대해 알려줘"]

embedding_queestion = embedding.embed_documents(question)
embedding_queestion

[[-0.007225676905363798,
  -0.020302820950746536,
  -0.04408106207847595,
  0.020675187930464745,
  0.0007702216971665621,
  -0.01900840550661087,
  -0.039293497800827026,
  0.01481485366821289,
  -0.013103743083775043,
  -0.024345654994249344,
  -0.022572482004761696,
  0.035144273191690445,
  -0.008112262934446335,
  -0.004951583221554756,
  -0.025037191808223724,
  -0.00035491149174049497,
  -0.03769763931632042,
  -0.02200506627559662,
  0.053798045963048935,
  0.003672682913020253,
  0.03301646560430527,
  -0.015807829797267914,
  -0.0017210852820426226,
  0.01759873330593109,
  -0.029682902619242668,
  -0.00519539462402463,
  0.05737985298037529,
  -0.049648821353912354,
  0.03434634581208229,
  -0.018547382205724716,
  -0.003803454339504242,
  -0.0359422005712986,
  0.0331583209335804,
  -0.037378471344709396,
  -0.011374900117516518,
  0.008041336201131344,
  0.014974439516663551,
  -0.034293148666620255,
  -0.010443984530866146,
  -0.019292114302515984,
  0.032360393553972244,

In [14]:
len(embedding_queestion[0])

1536

- pinecone 'wiki' index의 'wiki_nsi' namespace에 질문 vector와 유사도가 가장 높은 top-3를 검색함
- 리턴 값은 메타값만 받음

In [15]:
query_result = index.query(
    namespace='wiki_ns1',
    vector=embedding_queestion   , # 질문 벡터
    top_k=3,
    include_values=False, # 벡터 데이터는 리턴에 포함하지 않음
    include_metadata=True # 메타데이터를 리턴에 포함함
)
query_result

QueryResponse(matches=[{'id': '6d73b91c-bf52-4010-9b9c-06f8f5f8cd27',
 'metadata': {'chunk_id': 0,
              'full_text': '백남준(白南準, 1932년 7월 20일 ~ 2006년 1월 29일, 서울 출생, )은 한국 '
                           '태생의 세계적인 비디오 아트 예술가, 작곡가, 전위 예술가이다. 본관은 수원(水原).\n'
                           '\n'
                           '생전에 뉴욕, 쾰른, 도쿄, 마이애미와 서울에 주로 거주한 그는 여러 가지 매체로 예술 '
                           '활동을 하였다. 특히 비디오 아트라는 새로운 예술의 범주를 발전시켰다는 평가를 받는 '
                           "예술가로서 '비디오 아트의 창시자'로 알려져 있다.\n"
                           '\n'
                           '생애',
              'title': '백남준',
              'url': 'https://ko.wikipedia.org/wiki/%EB%B0%B1%EB%82%A8%EC%A4%80',
              'wiki_id': '38'},
 'score': 0.544674873,
 'values': []}, {'id': 'c36b9313-6c62-49bb-b460-8c861bdb5a5c',
 'metadata': {'chunk_id': 39,
              'full_text': '관련 영상 \n'
                           ' 백남준의 위성예술 1부 (1984년 방송)\n'
                           ' 백남준의 위성예술 2부 (1984년 방송)\n'
                  

- 검색된 결과에서 필요한 데이터 추출하기

In [25]:
#query_result.matches
for r in query_result.matches:
    print(r.score, r.metadata)
    print("-"*30)

0.544674873 {'chunk_id': 0, 'full_text': "백남준(白南準, 1932년 7월 20일 ~ 2006년 1월 29일, 서울 출생, )은 한국 태생의 세계적인 비디오 아트 예술가, 작곡가, 전위 예술가이다. 본관은 수원(水原).\n\n생전에 뉴욕, 쾰른, 도쿄, 마이애미와 서울에 주로 거주한 그는 여러 가지 매체로 예술 활동을 하였다. 특히 비디오 아트라는 새로운 예술의 범주를 발전시켰다는 평가를 받는 예술가로서 '비디오 아트의 창시자'로 알려져 있다.\n\n생애", 'title': '백남준', 'url': 'https://ko.wikipedia.org/wiki/%EB%B0%B1%EB%82%A8%EC%A4%80', 'wiki_id': '38'}
------------------------------
0.498760164 {'chunk_id': 39, 'full_text': '관련 영상 \n 백남준의 위성예술 1부 (1984년 방송)\n 백남준의 위성예술 2부 (1984년 방송)\n 백남준의 비디오아트세계 (1984년 방송)\n 백남준, 예술로 미래를 말하다 (2006년 방송) - 백남준 추모특집\n\n각주\n\n외부 링크', 'title': '백남준', 'url': 'https://ko.wikipedia.org/wiki/%EB%B0%B1%EB%82%A8%EC%A4%80', 'wiki_id': '38'}
------------------------------
0.493059158 {'chunk_id': 40, 'full_text': '각주\n\n외부 링크 \n\n  백남준아트센터\n ARTCYCLOPEDIA에서 백남준 항목\n 백남준의 세계 (출처:Guggenheim.org)\n 백남준 간략한 일대기와 주요 작품 설명 (출처:Electronic Arts Intermix)\n 백남준 일대기 (출처:@ MedienKunstNetz)}\n 백남준 부고 "Father of Video Art Paik Nam-june Dies", (출처:조선일보, 

In [30]:
for r in query_result.matches:
    # full_text 추출하기
    print(r.metadata['full_text'])
    print("-"*30)

백남준(白南準, 1932년 7월 20일 ~ 2006년 1월 29일, 서울 출생, )은 한국 태생의 세계적인 비디오 아트 예술가, 작곡가, 전위 예술가이다. 본관은 수원(水原).

생전에 뉴욕, 쾰른, 도쿄, 마이애미와 서울에 주로 거주한 그는 여러 가지 매체로 예술 활동을 하였다. 특히 비디오 아트라는 새로운 예술의 범주를 발전시켰다는 평가를 받는 예술가로서 '비디오 아트의 창시자'로 알려져 있다.

생애
------------------------------
관련 영상 
 백남준의 위성예술 1부 (1984년 방송)
 백남준의 위성예술 2부 (1984년 방송)
 백남준의 비디오아트세계 (1984년 방송)
 백남준, 예술로 미래를 말하다 (2006년 방송) - 백남준 추모특집

각주

외부 링크
------------------------------
각주

외부 링크 

  백남준아트센터
 ARTCYCLOPEDIA에서 백남준 항목
 백남준의 세계 (출처:Guggenheim.org)
 백남준 간략한 일대기와 주요 작품 설명 (출처:Electronic Arts Intermix)
 백남준 일대기 (출처:@ MedienKunstNetz)}
 백남준 부고 "Father of Video Art Paik Nam-june Dies", (출처:조선일보, 2006년 1월 30일자 신문)
 백남준 부고 "Video artist Nam June Paik dead at 74", (출처:뉴욕 타임즈, 2006년 1월 30일 보도)
 백남준 공식 블로그
------------------------------


## 전체 코드 통합, 함수로 정의


In [2]:
#전체 코드 질문
question = [" 김대중 대통령의 행적에 대해 알려줘"]

from dotenv import load_dotenv
from pinecone import Pinecone
from langchain_openai import OpenAIEmbeddings
import os

def search_top_k(question):
    # 환경변수 로딩
    load_dotenv(override=True)
    OPENAI_API_KEY = os.environ['OPENAI_API_KEY']
    PINECONE_API_KEY = os.environ['PINECONE_API_KEY']
    
    #벡터db, index 객체생성
    pc = Pinecone(api_key=PINECONE_API_KEY)
    
    index_name= "wiki"
    index = pc.Index(index_name)
    
    # embedding 객체 생성
    embedding = OpenAIEmbeddings(
        model = "text-embedding-3-small",
        # api_key = OPENAI_API_KEY # 생략가능
    )
    
    #질문을 embedding vector로 변경
    embedding_queestion = embedding.embed_documents(question)
    embedding_queestion
    
    #top-3 검색
    query_result = index.query(
        namespace='wiki_ns1',
        vector=embedding_queestion   , # 질문 벡터
        top_k=3,
        include_values=False, # 벡터 데이터는 리턴에 포함하지 않음
        include_metadata=True # 메타데이터를 리턴에 포함함
    )
    
    # 결과에서 필요한 context 추출
    context = ""
    for r in query_result.matches:
        # full_text 추출하기
        # context = context + r.metadata['full_text'] + f'\n{"-"*30}\n'
        context = context + r.metadata['chunk_text']
        # print(r.metadata['full_text'])
    return context

In [9]:
# 함수 호출
question = [" 김대중 대통령의 행적에 대해 알려줘"]
top_k_context = search_top_k(question)
print(top_k_context)

1995년 부산 시장 선거 출마, 통합민주당 창당 활동에 합류
 1997년 새정치국민회의 입당, 새정치국민회의 부총재, 제15대 대통령선거 찬조 연설과 파랑새유세단 단장으로서의 활동 등으로 대통령 후보 김대중 지원
 1998년 서울 종로구 국회의원 보궐선거 당선, 현대자동차 파업 중재
 1999년 국회 동남아특위 위원장
 제6대 해양수산부 장관
 새천년민주당 당무위원
 새천년민주당 상임고문
 2002년 새천년민주당 제16대 대통령 후보
 2003년 ~ 2008년 제16대 대한민국 대통령아니라, 그동안 여러분에게 지고 있었던 마음의 짐을 풀었다는 것이 가장 기쁩니다"라는 말로 과거의 일을 반성했다. 그리고 그 해 12월 18일, 김대중이 15대 대통령에 당선되면서 노무현은 사상 처음으로 여당에 몸담게 되었다.취임식에는 김대중 전 대통령을 비롯해 김영삼, 전두환, 노태우, 최규하 전 대통령 등 전직 대통령 전원이 참석하였다. 대통령 비서실장으로 내정된 문희상 의원과 민정수석비서관 내정자였던 문재인도 참석했다. 김석수 국무총리, 박관용 국회의장, 최종영 대법원장, 유지담 중앙선거관리위원장, 고건 국무총리 내정자 등 5부 요인도 참석했다. 이 외에도 전국 광역단체장 전원이 취임식에 초청되었으며, 김종필 자민련 총재도 참석하여 삼김 전원이 참석한 마지막 대통령 취임식이 되었다. 문화계 인사로는 배우 문성근과 방송인 홍석천이 초청되었다. 외국 사절로는 콜린 파월 미 국무장관, 첸지천 중국 부총리, 고이즈미 준이치로 일본 총리, 나카소네 야스히로 전 일본 총리, 모리 요시로 전 일본 총리, 세르게이 미느로프 전 러시아


## 방법2. LangChain API 사용

- 질문에 대한 유사도 검색 수행

## 전체 코드 통합

In [6]:
#전체 코드 질문
question = " 김대중 대통령의 행적에 대해 알려줘"

from dotenv import load_dotenv
from pinecone import Pinecone
from langchain_openai import OpenAIEmbeddings
from langchain_pinecone import PineconeVectorStore
import os

def sm_search_top_k(question):
    # 환경변수 로딩
    load_dotenv(override=True)
    OPENAI_API_KEY = os.environ['OPENAI_API_KEY']
    PINECONE_API_KEY = os.environ['PINECONE_API_KEY']
    
    #벡터db, index 객체생성
    pc = Pinecone(api_key=PINECONE_API_KEY)
    
    index_name= "wiki"
    index = pc.Index(index_name)
    
    # embedding 객체 생성
    embedding = OpenAIEmbeddings(
        model = "text-embedding-3-small",
        # api_key = OPENAI_API_KEY # 생략가능
    )
    
    # #질문을 embedding vector로 변경 <----vector_store.similarity_search() 여기서 자동으로 됨
    # embedding_queestion = embedding.embed_documents(question)
    # embedding_queestion
    

    #top-k  검색
    # 텍스트 키는 "chunk_text"로 설정합니다.
    vector_store = PineconeVectorStore(index=index,        
                                       embedding=embedding, 
                                       text_key="full_text")  # default text 임, 우리가 설정한 값이 chunk_text
    
    # 질문에 대한 유사도 검색을 수행합니다.
    # query는 question 리스트의 첫 번째 요소를 사용하고, 상위 3개의 결과를 반환합니다.
    results = vector_store.similarity_search(
        query=question, # question 문자열을 embedding vector로 자동 변환됨
        k=3, 
        namespace="wiki_ns1")
    # print(results)
    
    # 검색된 문서의 메타데이터를 출력합니다.
    context= ""
    for result in results:
        # print(result)
        # print(result.metadata)
        # print(result.page_content)
        # print("-"*30)
        context = context + result.page_content
        
    return context

In [7]:
# 함수 호출
question = "김대중 대통령의 행적에 대해 알려줘"
top_k_context = sm_search_top_k(question)
print(top_k_context)

취임식에는 김대중 전 대통령을 비롯해 김영삼, 전두환, 노태우, 최규하 전 대통령 등 전직 대통령 전원이 참석하였다. 대통령 비서실장으로 내정된 문희상 의원과 민정수석비서관 내정자였던 문재인도 참석했다. 김석수 국무총리, 박관용 국회의장, 최종영 대법원장, 유지담 중앙선거관리위원장, 고건 국무총리 내정자 등 5부 요인도 참석했다. 이 외에도 전국 광역단체장 전원이 취임식에 초청되었으며, 김종필 자민련 총재도 참석하여 삼김 전원이 참석한 마지막 대통령 취임식이 되었다. 문화계 인사로는 배우 문성근과 방송인 홍석천이 초청되었다. 외국 사절로는 콜린 파월 미 국무장관, 첸지천 중국 부총리, 고이즈미 준이치로 일본 총리, 나카소네 야스히로 전 일본 총리, 모리 요시로 전 일본 총리, 세르게이 미느로프 전 러시아1995년 부산 시장 선거 출마, 통합민주당 창당 활동에 합류
 1997년 새정치국민회의 입당, 새정치국민회의 부총재, 제15대 대통령선거 찬조 연설과 파랑새유세단 단장으로서의 활동 등으로 대통령 후보 김대중 지원
 1998년 서울 종로구 국회의원 보궐선거 당선, 현대자동차 파업 중재
 1999년 국회 동남아특위 위원장
 제6대 해양수산부 장관
 새천년민주당 당무위원
 새천년민주당 상임고문
 2002년 새천년민주당 제16대 대통령 후보
 2003년 ~ 2008년 제16대 대한민국 대통령아니라, 그동안 여러분에게 지고 있었던 마음의 짐을 풀었다는 것이 가장 기쁩니다"라는 말로 과거의 일을 반성했다. 그리고 그 해 12월 18일, 김대중이 15대 대통령에 당선되면서 노무현은 사상 처음으로 여당에 몸담게 되었다.
