# プロンプトキャッシング

- 著者: [PangPangGod](https://github.com/pangpanggod)
- ピアレビュー : [byoon](https://github.com/acho98), [Wonyoung Lee](https://github.com/BaBetterB)
- 校正 : [BokyungisaGod](https://github.com/BokyungisaGod)
- これは [LangChain Open Tutorial](https://github.com/LangChain-OpenTutorial/LangChain-OpenTutorial) の一部です

[![Open in Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/LangChain-OpenTutorial/LangChain-OpenTutorial/blob/main/02-Prompt/05-Prompt-C[...])
[![Open in GitHub](https://img.shields.io/badge/Open%20in%20GitHub-181717?style=flat-square&logo=github&logoColor=white)](https://github.com/LangChain-OpenTutorial/LangChain-OpenTutorial/blob/mai[...])

## 概要

プロンプトキャッシングは、プロンプト内の特定のプレフィックスから再開できるようにして API 利用を最適化する強力な機能です。  
この方法は、反復的なタスクや一貫したコンポーネントを持つプロンプトにおいて、処理時間とコストを大幅に削減します。

プロンプトキャッシングは次のような場合に特に有用です:

- 多くの例を含むプロンプト
- 大量のコンテキストや背景情報
- 一貫した指示で繰り返されるタスク
- 長いマルチターン会話

### 目次

- [概要](#overview)
- [環境セットアップ](#environment-setup)
- [デー���取得](#fetch-data)
- [OpenAI](#openai)
- [Anthropic](#anthropic)
- [GoogleAI](#googleai)

### 参考

- [OpenAI Prompt Caching Documentation](https://platform.openai.com/docs/guides/prompt-caching)
- [Anthropic Prompt Caching Documentation](https://docs.anthropic.com/en/docs/build-with-claude/prompt-caching)
- [Google Gemini API - Context Caching](https://ai.google.dev/gemini-api/docs/caching)
- [LangChain Google Generative AI - ChatGoogleGenerativeAI](https://python.langchain.com/api_reference/google_genai/chat_models/langchain_google_genai.chat_models.ChatGoogleGenerativeAI.html#chat[...])
----


## 環境セットアップ

環境をセットアップします。詳細は [Environment Setup](https://wikidocs.net/257836) を参照してください。

**[注意]**
- `langchain-opentutorial` はチュートリアル用の便利な環境セットアップやユーテ��リティを提供するパッケージです。
- 詳細は [`langchain-opentutorial`](https://github.com/LangChain-OpenTutorial/langchain-opentutorial-pypi) ���確認してください。


## データ取得

プロンプトキャッシングを検証する最も簡単な方法は、大量のコンテキストや背景情報を含めることです。  
これを示すために、Wikipedia から取得した長いドキュメントを使ったシンプルな例を用意しました。


## OpenAI

OpenAI のプロンプトキャッシングはすべての API リクエストで自動的に動作し（コード変更は不要）、追加料金はありません。  
長いプロンプトの場合、レイテンシを最大 **80%**、コストを **50%** 削減できることがあります。キャッシュは 1024 トークン以上のプロンプトで利用可能です。

### プロンプトキャッシングをサポートするモ��ル

| モデル                                    | テキスト入力コスト | 音声入力コスト |
|------------------------------------------|-----------------|------------------|
| gpt-4o (gpt-4o-2024-05-13 と chatgpt-4o-latest を除く) | 50% 減         | 該当なし              |
| gpt-4o-mini                              | 50% 減         | 該当なし              |
| gpt-4o-realtime-preview                  | 50% 減         | 80% 減         |
| o1-preview                               | 50% 減         | 該当なし              |
| o1-mini                                  | 50% 減         | 該当なし              |

詳しい参照は以下を確認してください。  
[OpenAI Prompt caching](https://platform.openai.com/docs/guides/prompt-caching)


## Anthropic

Anthropic のプロンプトキャッシングはキャッシュに対して以下のトークン制限を提供します:
- **1024 トークン** — Claude 3.5 Sonnet と Claude 3 Opus
- **2048 トークン** — Claude 3.5 Haiku と Claude 3 Haiku

**[注意]**
- 短いプロンプトは `cache_control` を指定してもキャッシュされません。
- キャッシュの有効期限（TTL）は **5 分** です。現在、`ephemeral` がサポートされる唯一のキャッシュタイプで、この 5 分の寿命に対応します。

### プロンプトキャッシングをサポートするモデル
- Claude 3.5 Sonnet
- Claude 3.5 Haiku
- Claude 3 Haiku
- Claude 3 Opus

Anthropic のプロンプトキャッシングは、Anthropic のメッセージスタイルに従う必要があるという欠点はありますが、少ないトークン数でキャッシュできるという利点があります。  
詳しくは次のリンクを参照してください。   
[Anthropic Prompt Caching Documentation](https://docs.anthropic.com/en/docs/build-with-claude/prompt-caching)


## GoogleAI

Google はこれを Context Caching（コンテキストキャッシング）と呼んでおり、主にコード解析、大量ドキュメント、長い動画、複数ファイルの解析などに使用されます。  
ここでは `langchain_google_genai` の `ChatGoogleGenerativeAI` を通じて `google.generativeai` のキャッシングの使い方を示します。

詳細は以下のリンクを参照してください:  
- [Google Gemini API - Context Caching](https://ai.google.dev/gemini-api/docs/caching)
- [LangChain Google Generative AI - ChatGoogleGenerativeAI](https://python.langchain.com/api_reference/google_genai/chat_models/langchain_google_genai.chat_models.ChatGoogleGenerativeAI.html#chat[...])


### GoogleAI のコンテキストキャッシング用データ取得

コンテキストキャッシング（プロンプトキャッシング）には少なくとも **32,768** トークンが必要です。   
そのため、ここではシンプルな実装として 3 つの長い Wikipedia ドキュメントを含めることで使い方を示します。
