# Assistants API - 파일 검색

- 파일 검색은 독점 제품 정보나 사용자가 제공한 문서 등 모델 외부의 지식으로 도우미를 강화합니다. OpenAI는 자동으로 문서를 구문 분석 및 청크하고, 임베딩을 생성 및 저장하며, 벡터 및 키워드 검색을 모두 사용하여 관련 콘텐츠를 검색하여 사용자 쿼리에 응답합니다.  

- OpenAI의 Assistant에서 사용하는 파일 검색 기능은 RAG (Retrieval-Augmented Generation) 개념을 구현한 것입니다.

- 작동 방식
    - 문서 구문 분석 및 청크 처리: 파일을 작은 청크로 나누어 각 청크에 대한 임베딩을 생성합니다.
    - 임베딩 생성 및 벡터 저장: 각 청크를 벡터화하여 검색을 위한 벡터 데이터베이스에 저장합니다.
    - 벡터 및 키워드 검색: 사용자 쿼리와 관련된 벡터를 검색하거나 키워드 기반으로 관련 청크를 찾습니다.
    - 응답 생성: 검색된 청크를 바탕으로 사용자 질문에 대한 응답을 생성합니다.
  
이 과정에서 벡터 검색을 통해 관련 정보를 효과적으로 검색하고, 검색된 정보를 생성 과정에 결합하여 응답하므로, 이는 전형적인 RAG 아키텍처의 특징을 따릅니다.

이 실습에서는 회사의 재무제표에 대한 질문에 답변하는 데 도움이 되는  assistant를 만듭니다.

In [1]:
import os
import openai
import sys
sys.path.append('./')

from dotenv import load_dotenv, find_dotenv
load_dotenv(find_dotenv()) # read local .env file

True

### 1단계: 파일 검색이 활성화된 새 assistant 만들기
Assistants tools parameter수에서 file_search가 활성화된 새 assistant를 만듭니다  
file_search 도구가 활성화되면 모델은 사용자 메시지를 기반으로 콘텐츠를 검색할 시기를 결정합니다.

In [2]:
from openai import OpenAI
client = OpenAI()

Model = "gpt-4o-mini"

In [3]:
assistant = client.beta.assistants.create(
  name="Financial Analyst Assistant",
  instructions="당신은 전문 재무 분석가입니다. 지식 기반을 사용하여 감사된 재무제표에 대한 질문에 답하십시오.",
  model=Model,
  tools=[{"type": "file_search"}],
)

assistant

Assistant(id='asst_U0AjjtEFAy8JE7oEt3i5b6mN', created_at=1743554243, description=None, instructions='당신은 전문 재무 분석가입니다. 지식 기반을 사용하여 감사된 재무제표에 대한 질문에 답하십시오.', metadata={}, model='gpt-4o-mini', name='Financial Analyst Assistant', object='assistant', tools=[FileSearchTool(type='file_search', file_search=FileSearch(max_num_results=None, ranking_options=FileSearchRankingOptions(score_threshold=0.0, ranker='default_2024_08_21')))], response_format='auto', temperature=1.0, tool_resources=ToolResources(code_interpreter=None, file_search=ToolResourcesFileSearch(vector_store_ids=[])), top_p=1.0, reasoning_effort=None)

### 2단계: Vector Store 생성

- 가격: FILE SEARCH 기능은 벡터 저장소(storage) 용량을 기준으로 하루에 $0.10/GB의 요금이 부과됩니다. 첫 번째 1GB는 무료로 제공됩니다​.
- 보존기간: 생성된 벡터 저장소가 일주일 동안 비활성 상태로 남아 있으면 자동으로 삭제됩니다.

In [5]:
# "Financial Statements"라는 벡터 스토어 생성
vector_store = client.vector_stores.create(name="Financial Statements")
 
# OpenAI에 업로드할 파일 준비
file_paths = ["재무제표/goog-10k.pdf", "재무제표/brka-10k.pdf"]
file_streams = [open(path, "rb") for path in file_paths]
 
# 업로드 및 폴링 SDK 도우미를 사용하여 파일을 업로드하고 벡터 스토어에 추가,
# 파일 배치의 완료 상태를 폴링합니다.
file_batch = client.vector_stores.file_batches.upload_and_poll(
  vector_store_id=vector_store.id, files=file_streams
)
 
# 이 작업의 결과를 보기 위해 상태 및 파일 개수를 출력할 수 있습니다.
print(file_batch.status)
print(file_batch.file_counts)

completed
FileCounts(cancelled=0, completed=2, failed=0, in_progress=0, total=2)


### 3단계: 새로운 Vector Store를 사용하도록 어시스턴트 업데이트
어시스턴트가 파일에 액세스할 수 있도록 하려면 어시스턴트의 tool_resources를 새 vector_store ID로 업데이트합니다.

In [6]:
assistant = client.beta.assistants.update(
  assistant_id=assistant.id,
  tool_resources={"file_search": {"vector_store_ids": [vector_store.id]}},
)
assistant

Assistant(id='asst_U0AjjtEFAy8JE7oEt3i5b6mN', created_at=1743554243, description=None, instructions='당신은 전문 재무 분석가입니다. 지식 기반을 사용하여 감사된 재무제표에 대한 질문에 답하십시오.', metadata={}, model='gpt-4o-mini', name='Financial Analyst Assistant', object='assistant', tools=[FileSearchTool(type='file_search', file_search=FileSearch(max_num_results=None, ranking_options=FileSearchRankingOptions(score_threshold=0.0, ranker='default_2024_08_21')))], response_format='auto', temperature=1.0, tool_resources=ToolResources(code_interpreter=None, file_search=ToolResourcesFileSearch(vector_store_ids=['vs_67ec888e504481918a964e2e36723c8d'])), top_p=1.0, reasoning_effort=None)

### 4단계: 스레드 만들기
스레드에 메시지 첨부 파일로 파일을 첨부할 수도 있습니다. 이렇게 하면 스레드와 연결된 또 다른 벡터 저장소가 생성됩니다. 또는 이 스레드에 이미 연결된 벡터 저장소가 있는 경우 새 파일을 기존 스레드 벡터 저장소에 연결합니다. 이 스레드에서 실행을 생성하면 파일 검색 도구는 어시스턴트의 vector_store와 스레드의 vector_store를 모두 쿼리합니다.  

여기서 사용자는 Apple의 최신 10-K 파일을 추가로 첨부합니다. 

In [7]:
# OpenAI에 사용자 제공 파일 업로드
message_file = client.files.create(
  file=open("재무제표/aapl-10k.pdf", "rb"), purpose="assistants"
)

# 스레드 생성 및 파일을 메시지에 첨부
thread = client.beta.threads.create(
  messages=[
    {
      "role": "user",
      "content": "2023년 10월 말에 AAPL의 발행 주식 수는 얼마였나요?",
      # 새 파일을 메시지에 첨부합니다.
      "attachments": [
        { "file_id": message_file.id, 
          "tools": [{"type": "file_search"}] }
      ],
    }
  ]
)

# 이제 스레드에는 파일이 있는 벡터 저장소가 툴 리소스로 있습니다.
print(thread.tool_resources.file_search)

ToolResourcesFileSearch(vector_store_ids=['vs_67ec88a5bc208191b5278c3ff9e3f759'])


### 5단계: Run 만들기 및 출력 확인
이제Run행을 생성하고 모델이 파일 검색 도구를 사용하여 사용자의 질문에 대한 응답을 제공하는 것을 관찰합니다.

In [8]:
# `create_and_poll` 메서드를 사용하여 새로운 실행(run)을 생성하고 해당 실행이 완료될 때까지 폴링합니다.
run = client.beta.threads.runs.create_and_poll(
  thread_id=thread.id,  # 실행할 스레드의 ID
  assistant_id=assistant.id,  # 실행할 어시스턴트의 ID
  instructions="사용자를 고객님이라고 부르세요. 이 사용자는 프리미엄 계정을 가지고 있습니다.",   # 어시스턴트에게 제공할 지시사항
)

In [9]:
# 실행 상태 확인
if run.status == 'completed': 
  messages = client.beta.threads.messages.list(
    thread_id=thread.id
  )
  print(messages)
else:
  print(run.status)

SyncCursorPage[Message](data=[Message(id='msg_cCJC7sdVPFR4fAiQqZwOCfVf', assistant_id='asst_U0AjjtEFAy8JE7oEt3i5b6mN', attachments=[], completed_at=None, content=[TextContentBlock(text=Text(annotations=[FileCitationAnnotation(end_index=72, file_citation=FileCitation(file_id='file-T277g7KrrXGajdB5rBNaGS'), start_index=60, text='【6:1†source】', type='file_citation')], value='2023년 10월 말에 Apple Inc. (AAPL)의 발행 주식 수는 15,943,425,000 주입니다【6:1†source】.'), type='text')], created_at=1743554732, incomplete_at=None, incomplete_details=None, metadata={}, object='thread.message', role='assistant', run_id='run_NoMpbFQ3Qy509ZLzApe6EC3W', status=None, thread_id='thread_zQ1qKnGqH666TvvcgnEKz64M'), Message(id='msg_i77ROfVqT5w4Uc2y5TTrVOx9', assistant_id=None, attachments=[Attachment(file_id='file-T277g7KrrXGajdB5rBNaGS', tools=[AttachmentToolAssistantToolsFileSearchTypeOnly(type='file_search')])], completed_at=None, content=[TextContentBlock(text=Text(annotations=[], value='2023년 10월 말에 AAPL의 발행 주식 수는 얼마

In [10]:
messages.data[0].content[0].text.value

'2023년 10월 말에 Apple Inc. (AAPL)의 발행 주식 수는 15,943,425,000 주입니다【6:1†source】.'

### Thread에 새로운 message 추가 및 Run 생성

In [11]:
message = client.beta.threads.messages.create(
      thread_id=thread.id,
      role="user",
      content="2023년 Google의 당기 순이익은 얼마였나요? BERKSHIRE HATHAWAY INC. 와 어느 쪽의 당기 순이익이 더 많았나요?"
    )

In [12]:
# `create_and_poll` 메서드를 사용하여 새로운 실행(run)을 생성하고 해당 실행이 완료될 때까지 폴링합니다.
run = client.beta.threads.runs.create_and_poll(
  thread_id=thread.id,  # 실행할 스레드의 ID
  assistant_id=assistant.id,  # 실행할 어시스턴트의 ID
  instructions="사용자를 고객님이라고 부르세요. 이 사용자는 프리미엄 계정을 가지고 있습니다.",   # 어시스턴트에게 제공할 지시사항
)

In [13]:
# 실행 상태 확인
if run.status == 'completed': 
  messages = client.beta.threads.messages.list(
    thread_id=thread.id
  )
  print(messages)
else:
  print(run.status)

SyncCursorPage[Message](data=[Message(id='msg_GZKLk9ET6Nm5HCCNpJA2N76S', assistant_id='asst_U0AjjtEFAy8JE7oEt3i5b6mN', attachments=[], completed_at=None, content=[TextContentBlock(text=Text(annotations=[FileCitationAnnotation(end_index=46, file_citation=FileCitation(file_id='file-SCCSnnzpyT2PgQkVtay2nP'), start_index=33, text='【11:0†source】', type='file_citation'), FileCitationAnnotation(end_index=110, file_citation=FileCitation(file_id='file-CCYU2QRu4iawQLdpRD9cTS'), start_index=97, text='【17:8†source】', type='file_citation')], value='2023년 Google의 당기 순이익은 약 71억 달러입니다【11:0†source】. 반면, Berkshire Hathaway Inc.의 당기 순이익은 약 425억 달러입니다【17:8†source】. 따라서 두 회사 중에서 Berkshire Hathaway Inc.의 당기 순이익이 더 많습니다.'), type='text')], created_at=1743554745, incomplete_at=None, incomplete_details=None, metadata={}, object='thread.message', role='assistant', run_id='run_JdR7iosbRrka7PL78NeMQDX0', status=None, thread_id='thread_zQ1qKnGqH666TvvcgnEKz64M'), Message(id='msg_5IHG4HTX6RdMIuBjq7rAaPxM', assistant

In [14]:
messages.data[0].content[0].text.value

'2023년 Google의 당기 순이익은 약 71억 달러입니다【11:0†source】. 반면, Berkshire Hathaway Inc.의 당기 순이익은 약 425억 달러입니다【17:8†source】. 따라서 두 회사 중에서 Berkshire Hathaway Inc.의 당기 순이익이 더 많습니다.'

In [15]:
# messages 객체의 데이터에서 role과 content 값을 추출하여 리스트에 저장
values = [(messages.data[i].role, messages.data[i].content[0].text.value) for i in range(len(messages.data)-1, -1, -1)]

# 추출한 값들을 출력
for role, value in values:
    print(f"role: {role}")  # 역할(role) 출력
    print(value)  # 내용(value) 출력
    print(150*"-")  # 구분선 출력

role: user
2023년 10월 말에 AAPL의 발행 주식 수는 얼마였나요?
------------------------------------------------------------------------------------------------------------------------------------------------------
role: assistant
2023년 10월 말에 Apple Inc. (AAPL)의 발행 주식 수는 15,943,425,000 주입니다【6:1†source】.
------------------------------------------------------------------------------------------------------------------------------------------------------
role: user
2023년 Google의 당기 순이익은 얼마였나요? BERKSHIRE HATHAWAY INC. 와 어느 쪽의 당기 순이익이 더 많았나요?
------------------------------------------------------------------------------------------------------------------------------------------------------
role: assistant
2023년 Google의 당기 순이익은 약 71억 달러입니다【11:0†source】. 반면, Berkshire Hathaway Inc.의 당기 순이익은 약 425억 달러입니다【17:8†source】. 따라서 두 회사 중에서 Berkshire Hathaway Inc.의 당기 순이익이 더 많습니다.
---------------------------------------------------------------------------------------------------------------------------------------------

### 한글 PDF 분석

In [19]:
# step1) 새 assistant 생성
assistant = client.beta.assistants.create(
  name="Financial Analyst Assistant",
  instructions="당신은 기업분석 전문가입니다. 지식 기반을 사용하여 증권사 기업분석에 대한 질문에 답하십시오.",
  model=Model,
  tools=[{"type": "file_search"}],
)

In [21]:
# step2) 새 벡터 스토어 생성
vector_store = client.vector_stores.create(name="기업분석보고서")
 
# OpenAI에 업로드할 파일 준비
file_paths = ["재무제표/네이버.pdf", "재무제표/LG엔솔.pdf"]
file_streams = [open(path, "rb") for path in file_paths]
 
# 업로드 및 폴링 SDK 도우미를 사용하여 파일을 업로드하고 벡터 스토어에 추가,
# 파일 배치의 완료 상태를 폴링합니다.
file_batch = client.vector_stores.file_batches.upload_and_poll(
  vector_store_id=vector_store.id, files=file_streams
)
 
# 이 작업의 결과를 보기 위해 상태 및 파일 개수를 출력할 수 있습니다.
print(file_batch.status)
print(file_batch.file_counts)

completed
FileCounts(cancelled=0, completed=2, failed=0, in_progress=0, total=2)


In [22]:
# step3) assistant update
assistant = client.beta.assistants.update(
  assistant_id=assistant.id,
  tool_resources={"file_search": {"vector_store_ids": [vector_store.id]}},
)

In [23]:
# OpenAI에 사용자 제공 파일 업로드
message_file = client.files.create(
  file=open("재무제표/에코프로비엠.pdf", "rb"), purpose="assistants"
)

# step 4) 스레드 생성 및 파일을 메시지에 첨부
thread = client.beta.threads.create(
  messages=[
    {
      "role": "user",
      "content": "LG에너지솔루션의 2024년 하반기 전망을 요약해 주세요. 에코프로비엠은 매출액이 줄은 것에 비해 왜 영업이익이 더 크게 줄어들었나요?",
      # 새 파일을 메시지에 첨부합니다.
      "attachments": [
        { "file_id": message_file.id, 
          "tools": [{"type": "file_search"}] }
      ],
    }
  ]
)

# 이제 스레드에는 파일이 있는 벡터 저장소가 툴 리소스로 있습니다.
print(thread.tool_resources.file_search)

ToolResourcesFileSearch(vector_store_ids=['vs_67ec88f6202c8191bd5888dc8e43bc58'])


In [24]:
# step 5) 새로운 실행(run)을 생성하고 해당 실행이 완료될 때까지 폴링
run = client.beta.threads.runs.create_and_poll(
  thread_id=thread.id,  # 실행할 스레드의 ID
  assistant_id=assistant.id,  # 실행할 어시스턴트의 ID
  instructions="사용자를 고객님이라고 부르세요. 이 사용자는 프리미엄 계정을 가지고 있습니다.",   # 어시스턴트에게 제공할 지시사항
)

In [25]:
# 실행 상태 확인
if run.status == 'completed': 
  messages = client.beta.threads.messages.list(
    thread_id=thread.id
  )
  print(messages.data[0].content[0].text.value)
else:
  print(run.status)

고객님, LG에너지솔루션의 2024년 하반기 전망과 에코프로비엠의 매출 및 영업이익 감소 원인에 대해 요약해 드리겠습니다.

### LG에너지솔루션의 2024년 하반기 전망
1. **시장 회복의 중요성**: 2024년 하반기에 전통 자동차 제조업체의 모델 노후화가 본격화되는 가운데, GM의 신차 판매 성장세가 중요할 것이라고 전망됩니다. GM만이 신차 라인업을 바탕으로 판매가 증가하고 있으며, 이 판매가 다른 고객사의 부진을 얼마나 상쇄할 수 있을지가 관건입니다【4:1†source】.

2. **실적 전망**: 2분기 영업이익은 예상치(2,859억 원)보다 26% 하회할 것으로 보이며, 이는 전기차 수요의 부진과 에너지 저장 시스템(ESS)에서의 적자 때문입니다【4:1†source】. 또한, 2024년의 매출은 약 28조 원으로 추정되고, 이는 전년 대비 16.5% 감소한 수치입니다【4:10†source】.

### 에코프로비엠의 매출 및 영업이익 감소 원인
1. **매출 감소**: 에코프로비엠의 매출액은 2024년 2분기 809.5억 원으로 전년 동기 대비 57.5% 감소했습니다. 이는 EV 배터리 부문의 판매 부진이 현실화되었기 때문입니다【4:16†source】【4:3†source】.

2. **영업이익 감소**: 영업이익은 3.9억 원으로 전년 대비 96.6% 감소했습니다. 영업이익이 더 크게 줄어든 이유는 매출 감소에 따라 전체 고정비와 운영비가 매우 높은 비율로 전가되었기 때문이며, 이러한 구조는 매출이 줄어도 영업이익에 더 큰 타격을 주는 결과로 이어졌습니다【4:16†source】.

이와 같이 LG에너지솔루션은 전반적인 시장 회복이 중요하며, 에코프로비엠은 심각한 매출과 영업이익 감소에 직면하고 있습니다. 추가적으로 궁금하신 사항이 있으시면 언제든지 말씀해 주세요!


In [26]:
# thread에 새로운 message 추가
message = client.beta.threads.messages.create(
      thread_id=thread.id,
      role="user",
      content="2023년 4분기의 네이버의 영업이익은 얼마였나요? 한화 투자 증권이 목표가를 상향 조정한 이유는 무엇인가요?"
    )

run = client.beta.threads.runs.create_and_poll(
  thread_id=thread.id,  # 실행할 스레드의 ID
  assistant_id=assistant.id,  # 실행할 어시스턴트의 ID
  instructions="사용자를 고객님이라고 부르세요. 이 사용자는 프리미엄 계정을 가지고 있습니다.",   # 어시스턴트에게 제공할 지시사항
)

if run.status == 'completed': 
  messages = client.beta.threads.messages.list(
    thread_id=thread.id
  )
  print(messages.data[0].content[0].text.value)
else:
  print(run.status)

고객님, 네이버의 2023년 4분기 영업이익과 한화 투자 증권의 목표가 상향 조정 이유에 대해 요약해 드리겠습니다.

### 2023년 4분기 네이버 영업이익
- **영업이익**: 4분기 영업이익은 **4,055억 원**으로 집계되었습니다【8:0†source】.

### 한화 투자 증권의 목표가 상향 조정 이유
- 한화 투자 증권은 네이버의 목표주가를 **28만 원으로 상향**했습니다. 이는 주로 다음과 같은 이유 때문입니다:
  1. **웹툰 지분가치 상향**: 웹툰 사업의 성장 가능성이 높아지면서 지분 가치가 증가했습니다.
  2. **광고/커머스 수익성 개선**: 광고 및 커머스 부문의 개선된 수익성이 반영되었습니다.
  3. **영업이익 전망 상향**: 올해 영업이익 전망치를 기존 대비 **4% 상향 조정**했습니다【8:14†source】【8:17†source】.

이와 같은 이유로 한화 투자 증권은 네이버의 기업 가치를 긍정적으로 평가하고 있습니다. 추가 질문이 있으시면 언제든지 말씀해 주세요!


## 실습 : Prompt 수정하여 실행