# Assistants API - 파일 검색

- 파일 검색은 독점 제품 정보나 사용자가 제공한 문서 등 모델 외부의 지식으로 도우미를 강화합니다. OpenAI는 자동으로 문서를 구문 분석 및 청크하고, 임베딩을 생성 및 저장하며, 벡터 및 키워드 검색을 모두 사용하여 관련 콘텐츠를 검색하여 사용자 쿼리에 응답합니다.  

- OpenAI의 Assistant에서 사용하는 파일 검색 기능은 RAG (Retrieval-Augmented Generation) 개념을 구현한 것입니다.

- 작동 방식
    - 문서 구문 분석 및 청크 처리: 파일을 작은 청크로 나누어 각 청크에 대한 임베딩을 생성합니다.
    - 임베딩 생성 및 벡터 저장: 각 청크를 벡터화하여 검색을 위한 벡터 데이터베이스에 저장합니다.
    - 벡터 및 키워드 검색: 사용자 쿼리와 관련된 벡터를 검색하거나 키워드 기반으로 관련 청크를 찾습니다.
    - 응답 생성: 검색된 청크를 바탕으로 사용자 질문에 대한 응답을 생성합니다.
  
이 과정에서 벡터 검색을 통해 관련 정보를 효과적으로 검색하고, 검색된 정보를 생성 과정에 결합하여 응답하므로, 이는 전형적인 RAG 아키텍처의 특징을 따릅니다.

이 실습에서는 회사의 재무제표에 대한 질문에 답변하는 데 도움이 되는  assistant를 만듭니다.

### 1단계: 파일 검색이 활성화된 새 assistant 만들기
Assistants tools parameter수에서 file_search가 활성화된 새 assistant를 만듭니다  
file_search 도구가 활성화되면 모델은 사용자 메시지를 기반으로 콘텐츠를 검색할 시기를 결정합니다.

### 2단계: Vector Store 생성

- 가격: FILE SEARCH 기능은 벡터 저장소(storage) 용량을 기준으로 하루에 $0.10/GB의 요금이 부과됩니다. 첫 번째 1GB는 무료로 제공됩니다​.
- 보존기간: 생성된 벡터 저장소가 일주일 동안 비활성 상태로 남아 있으면 자동으로 삭제됩니다.

In [None]:
# "Financial Statements"라는 벡터 스토어 생성
# OpenAI에 업로드할 파일 준비
# 업로드 및 폴링 SDK 도우미를 사용하여 파일을 업로드하고 벡터 스토어에 추가,
# 파일 배치의 완료 상태를 폴링합니다.
# 이 작업의 결과를 보기 위해 상태 및 파일 개수를 출력할 수 있습니다.

### 3단계: 새로운 Vector Store를 사용하도록 어시스턴트 업데이트
어시스턴트가 파일에 액세스할 수 있도록 하려면 어시스턴트의 tool_resources를 새 vector_store ID로 업데이트합니다.

### 4단계: 스레드 만들기
스레드에 메시지 첨부 파일로 파일을 첨부할 수도 있습니다. 이렇게 하면 스레드와 연결된 또 다른 벡터 저장소가 생성됩니다. 또는 이 스레드에 이미 연결된 벡터 저장소가 있는 경우 새 파일을 기존 스레드 벡터 저장소에 연결합니다. 이 스레드에서 실행을 생성하면 파일 검색 도구는 어시스턴트의 vector_store와 스레드의 vector_store를 모두 쿼리합니다.  

여기서 사용자는 Apple의 최신 10-K 파일을 추가로 첨부합니다. 

In [None]:
# OpenAI에 사용자 제공 파일 업로드
# 스레드 생성 및 파일을 메시지에 첨부
      # 새 파일을 메시지에 첨부합니다.
# 이제 스레드에는 파일이 있는 벡터 저장소가 툴 리소스로 있습니다.

### 5단계: Run 만들기 및 출력 확인
이제Run행을 생성하고 모델이 파일 검색 도구를 사용하여 사용자의 질문에 대한 응답을 제공하는 것을 관찰합니다.

In [None]:
# `create_and_poll` 메서드를 사용하여 새로운 실행(run)을 생성하고 해당 실행이 완료될 때까지 폴링합니다.

In [None]:
# 실행 상태 확인

### Thread에 새로운 message 추가 및 Run 생성

In [None]:
# `create_and_poll` 메서드를 사용하여 새로운 실행(run)을 생성하고 해당 실행이 완료될 때까지 폴링합니다.

In [None]:
# 실행 상태 확인

In [None]:
# messages 객체의 데이터에서 role과 content 값을 추출하여 리스트에 저장
# 추출한 값들을 출력

### 한글 PDF 분석

In [None]:
# step1) 새 assistant 생성

In [None]:
# step2) 새 벡터 스토어 생성
# OpenAI에 업로드할 파일 준비
# 업로드 및 폴링 SDK 도우미를 사용하여 파일을 업로드하고 벡터 스토어에 추가,
# 파일 배치의 완료 상태를 폴링합니다.
# 이 작업의 결과를 보기 위해 상태 및 파일 개수를 출력할 수 있습니다.

In [None]:
# step3) assistant update

In [None]:
# OpenAI에 사용자 제공 파일 업로드
# step 4) 스레드 생성 및 파일을 메시지에 첨부
      # 새 파일을 메시지에 첨부합니다.
# 이제 스레드에는 파일이 있는 벡터 저장소가 툴 리소스로 있습니다.

In [None]:
# step 5) 새로운 실행(run)을 생성하고 해당 실행이 완료될 때까지 폴링

In [None]:
# 실행 상태 확인

In [None]:
# thread에 새로운 message 추가

## 실습 : Prompt 수정하여 실행