In [1]:
# !pip install -qU anthropic langchain-teddynote

## Anthropic PDF Assistant

- 참고 링크: https://docs.anthropic.com/en/docs/build-with-claude/pdf-support
- API 키 발급: https://console.anthropic.com/settings/keys

In [1]:
from dotenv import load_dotenv

load_dotenv()

True

## 셋업

- `pdf_path` : PDF 파일 경로
- `use_prompt_cache` : prompt 캐시 사용 여부(True, False). 사용하는 것을 권장합니다.

**configs**

- `model` : 사용할 모델 이름
- `ANTHROPIC_API_KEY` : Anthropic API 키

In [2]:
import os

from langchain_teddynote.models import AnthropicPDFAssistant

api_key = os.getenv("ANTHROPIC_API_KEY")

configs = {
    "ANTHROPIC_API_KEY": api_key,
    "model": "claude-3-5-sonnet-20241022",
}

# PDF 파일 경로(로컬 PC)
pdf_path = "SPRI_AI_Brief_2023년12월호_F.pdf"

# PDF 파일 경로(URL)
# pdf_path = "https://arxiv.org/pdf/1706.03762"

# prompt 캐시 사용 여부(True, False)
assistant = AnthropicPDFAssistant(configs, pdf_path, use_prompt_cache=True)

## 일반 호출

**옵션**

- `token_info=False` : 토큰 사용량 정보 생략
- `token_info=True` : 토큰 사용량 정보 포함


In [None]:
query = "삼성전자가 개발한 생성형 AI 기술은 무엇인가요?"

# 호출
response = assistant.invoke(query)

# 결과출력
print(response["content"])

multi-turn 대화 지원

In [None]:
query = "이전의 답변을 영어로 번역해줘"

# 호출
response = assistant.invoke(query)

# 결과출력
print(response["content"])

토큰 정보를 포함하여 호출하려는 경우


In [4]:
query = "삼성전자가 개발한 생성형 AI 기술은 무엇인가요?"

# 호출
response = assistant.invoke(query, token_info=True)

# 결과출력
print(response["content"])

# 토큰 사용량 출력
print(AnthropicPDFAssistant.pretty_token_usage(response["usage"]))

삼성전자가 개발한 생성형 AI '삼성 가우스'의 주요 특징은 다음과 같습니다:

1. 3개 모델 구성
- 언어모델: 클라우드와 온디바이스 대상 다양한 모델로 구성되며, 메일 작성, 문서 요약, 번역 업무 처리 지원
- 코드모델: AI 코딩 어시스턴트 '코드아이(code.i)'로 대화형 인터페이스를 제공하며 사내 소프트웨어 개발에 최적화
- 이미지모델: 창의적인 이미지를 생성하고 기존 이미지를 원하는 대로 바꿀 수 있으며, 저해상도 이미지의 고해상도 전환 지원

2. 주요 특징
- 온디바이스 작동: 기기 내에서 직접 작동하도록 설계되어 외부로 사용자 정보가 유출되지 않음
- 안전한 데이터 활용: 라이선스나 개인정보를 침해하지 않는 안전한 데이터로 학습
- 유연한 모델 선택: 정규분포 이론을 정립한 천재 수학자 가우스의 이름을 본떠 다양한 상황에 최적화된 크기의 모델 선택 가능

3. 향후 계획
- 삼성전자는 삼성 가우스를 다양한 제품에 단계적으로 탑재할 계획
- 온디바이스 AI 기술을 활용한 다양한 적용 방안 모색

이는 삼성전자가 자체 생성형 AI 개발을 통해 기술 경쟁력을 확보하고 제품 경쟁력을 강화하려는 전략의 일환입니다.

토큰 사용 통계
----------------------------------------
Cache Creation Input Tokens    : 0
Cache Read Input Tokens        : 60,911
Input Tokens                   : 576
Output Tokens                  : 593
----------------------------------------


## 스트리밍 출력

**옵션**

- `token_info=False` : 토큰 사용량 정보 생략
- `token_info=True` : 토큰 사용량 정보 포함


토큰 정보는 생략하는 경우

In [5]:
query = "삼성전자가 개발한 생성형 AI 기술은 무엇인가요?"

# 스트리밍 호출
for text in assistant.stream(query, token_info=False):
    if text["type"] == "token":
        # 토큰 출력
        print(text["content"], end="", flush=True)
    elif text["type"] == "usage":
        # 토큰 사용량 출력
        print(text["content"], end="", flush=True)

삼성전자가 개발한 생성형 AI '삼성 가우스'는 다음과 같은 특징을 가지고 있습니다:

1. 3개 모델 구성
- 언어모델: 메일 작성, 문서 요약, 번역 업무의 처리를 지원
- 코드모델: '코드아이(code.i)'라는 AI 코딩 어시스턴트로, 대화형 인터페이스로 서비스를 제공하며 사내 소프트웨어 개발에 최적화
- 이미지모델: 창의적인 이미지 생성과 기존 이미지 변환, 저해상도 이미지의 고해상도 전환 지원

2. 핵심 특징
- 온디바이스 작동: 기기에서 직접 작동하도록 설계되어 외부로 사용자 정보가 유출되지 않는 장점 보유
- 안전한 데이터: 라이선스나 개인정보를 침해하지 않는 안전한 데이터를 통해 학습
- 최적화: 다양한 상황에 최적화된 크기의 모델 선택이 가능

삼성전자는 삼성 가우스를 다양한 제품에 단계적으로 탑재할 계획이며, 이를 통해 AI 기술 경쟁력을 강화하고자 합니다.

In [6]:
query = "이전의 답변을 영어로"

# 스트리밍 호출
for text in assistant.stream(query, token_info=False):
    if text["type"] == "token":
        # 토큰 출력
        print(text["content"], end="", flush=True)
    elif text["type"] == "usage":
        # 토큰 사용량 출력
        print(text["content"], end="", flush=True)

Samsung's generative AI 'Samsung Gauss' has the following characteristics:

1. Three Model Components
- Language Model: Supports email writing, document summarization, and translation tasks
- Code Model: An AI coding assistant called 'code.i', providing services through an interactive interface, optimized for internal software development
- Image Model: Supports creative image generation, existing image modification, and conversion of low-resolution images to high-resolution

2. Key Features
- On-device Operation: Designed to operate directly on devices, preventing user information leakage
- Secure Data: Trained using safe data that doesn't infringe on licenses or personal information
- Optimization: Allows selection of model sizes optimized for various situations

Samsung plans to gradually incorporate Samsung Gauss into various products, aiming to strengthen its AI technological competitiveness.

This represents Samsung's effort to enhance its competitive edge in AI technology throug

토큰 정보를 포함하여 스트리밍 출력

In [None]:
query = "삼성전자가 개발한 생성형 AI 기술은 무엇인가요?"
token_usage = []

for text in assistant.stream(query, token_info=True):
    if text["type"] == "token":
        # 토큰 출력
        print(text["content"], end="", flush=True)
    elif text["type"] == "usage":
        # 토큰 사용량 저장
        token_usage.append(text["content"])

토큰 정보만 따로 출력하려는 경우

In [None]:
for usage in token_usage:
    print(AnthropicPDFAssistant.pretty_token_usage(usage))

## 새로운 파일로 다시 시작

In [None]:
query = "논문의 초록을 요약해줘"

# PDF 파일 경로
pdf_path = "https://arxiv.org/pdf/1706.03762"

# 새로운 파일로 대화 내역 초기화
assistant.add_new_pdf(pdf_path)

# 호출
response = assistant.invoke(query)

# 결과출력
print(response["content"])