# テキスト生成

テキスト生成では、以下のようなタスクを行うことができます。

- 文章生成
- 質問応答
- 要約
- 翻訳
- プログラム生成

## 準備

In [1]:
## 利用するベースモデルのライブラリ (OpenAI) も別途インストールする
!pip install langchain==0.0.331 openai==0.28.1 python-dotenv cohere tiktoken



In [2]:
## Googleドライブをマウント
from google.colab import drive
drive.mount('./drive')

Drive already mounted at ./drive; to attempt to forcibly remount, call drive.mount("./drive", force_remount=True).


In [3]:
## 環境変数設定
import dotenv
dotenv.load_dotenv('./drive/MyDrive/openai.env')

True

## 文章生成

In [4]:
## 入力プロンプトの準備
from langchain.prompts import PromptTemplate

template = '''\
以下のような頭出しで始まる小説の続きを書いてください。
{message}
'''
prompt = PromptTemplate(template=template, input_variables=["message"])

In [5]:
import os
from langchain.llms import OpenAI
from langchain.chains import LLMChain

## Configuration
llm = OpenAI(
    model_name="text-davinci-003",
    openai_api_key = os.getenv("OPENAI_API_KEY"),  # set OpenAI API Key
    temperature = 0.7,  ## サンプリング温度: 0..2 で設定。数値が高い(0.8等)と回答のランダム性が増し、低い(0.2等)と回答がより決定論的になる。
    max_tokens = 255,  ## 最大トークン長: 入力トークンと出力トークンの合計の最大値。
)

## Run
message = 'メロスは激怒した。'
prompt_text=prompt.format(message=message)
res = llm(prompt_text)
print(res)


「おまえたちのような野蛮人が！　いい加減にしなさい！」
メロスは怒りで叫んだ。彼を前にした野蛮人たちは、突然の激しい抗議に驚き、立ち止まった。彼らは何も言わず、ただその場を凝視しているだけだ。

メロスは野蛮人たちを睨みつけながら、あることを思い出した。友人のデオードスが言っていた言葉が脳裏をよぎった。「絶対に諦めないで！ 強さと勇気を持っ


## 質問応答

In [6]:
## 入力プロンプトの準備
template = '''\
あなたは、非常に知的な質問回答ボットです。
もし、真実に基づいた質問をした場合、あなたは答えを教えます。
ナンセンスな質問、トリッキーな質問、明確な答えの無い質問には「不明です」と答えます。

Question: {question}
Answer:
'''
prompt = PromptTemplate(template=template, input_variables=["question"])

In [7]:
## Configuration
llm = OpenAI(
    model_name="text-davinci-003",
    openai_api_key = os.getenv("OPENAI_API_KEY"),  # set OpenAI API Key
    temperature = 0.7,
    max_tokens = 255,
)

## Run
question = '日本人の平均寿命は何歳ですか。'
prompt_text=prompt.format(question=question)
res = llm(prompt_text)
print(res)

日本人の平均寿命は83.09歳です。


## 要約

In [8]:
## 入力プロンプトの準備
template = '''\
以下の文章を、小学3年生向けに、わかりやすく要約してください。

{text}
'''
prompt = PromptTemplate(template=template, input_variables=["text"])

In [9]:
## Configuration
llm = OpenAI(
    model_name="text-davinci-003",
    openai_api_key = os.getenv("OPENAI_API_KEY"),  # set OpenAI API Key
    temperature = 0.7,
    max_tokens = 255,
)

## Run
text = '''『源氏物語』（げんじものがたり）は、平安時代中期に成立した日本の長編物語、小説。文献初出は1008年（寛弘五年）。作者の紫式部にとって生涯で唯一の物語作品である[注 1]。主人公の光源氏を通して、恋愛、栄光と没落、政治的欲望と権力闘争など、平安時代の貴族社会を描いた[1]。
下級貴族出身の紫式部は、20代後半で藤原宣孝と結婚し一女をもうけたが、結婚後3年ほどで夫と死別し、その現実を忘れるために物語を書き始めた。これが『源氏物語』の始まりともいわれる[2]。当時、紙は貴重で、紙の提供者がいればその都度書き[注 2]、仲間内で批評し合うなどして楽しんでいたが[注 3]、その物語の評判から藤原道長が娘の中宮彰子の家庭教師として紫式部を呼んだ[注 4]。それを機に宮中に上がった紫式部は、宮仕えをしながら藤原道長の支援の下で物語を書き続け[注 5]、54帖からなる『源氏物語』が完成した[1]。
なお、源氏物語は文献初出からおよそ150年後の平安時代末期に「源氏物語絵巻」として絵画化された[4]。現存する絵巻物のうち、徳川美術館と五島美術館所蔵のものは国宝となっている。また現在、『源氏物語』は日本のみならず20か国語を超える翻訳を通じて世界各国で読まれている[注 6]。
'''  ## 引用: https://ja.wikipedia.org/wiki/%E6%BA%90%E6%B0%8F%E7%89%A9%E8%AA%9E
prompt_text=prompt.format(text=text)
res = llm(prompt_text)
print(res)

『源氏物語』は、平安時代中期に紫式部が書いた日本の長編小説です。主人公の光源氏を通して、恋愛、栄光と没落などを描いています。また、現在、20か国語を超える翻訳をして世界で読まれています。


## 翻訳

In [10]:
## 入力プロンプトの準備
template = '''\
## 以下の英語の文章を、日本語にギャルっぽく翻訳してください。
# English:

  {english}

# 日本語:
'''
prompt = PromptTemplate(template=template, input_variables=['english'])

In [11]:
## Configuration
llm = OpenAI(
    model_name="text-davinci-003",
    openai_api_key = os.getenv("OPENAI_API_KEY"),  # set OpenAI API Key
    temperature = 0.7,
    max_tokens = 255,
)

## Run
english='''
I'm so happy!
'''
prompt_text=prompt.format(english=english)
res = llm(prompt_text)
print(res)


ワクワクしてぇ♡


### おまけ: ソースコード変換

In [12]:
## 入力プロンプトの準備
template = '''\
## Pythonの関数をTypeScriptに変換してください。
# Python

  {function_code}

# TypeScript
'''
prompt = PromptTemplate(template=template, input_variables=['function_code'])

In [13]:
## Configuration
llm = OpenAI(
    model_name="text-davinci-003",
    openai_api_key = os.getenv("OPENAI_API_KEY"),  # set OpenAI API Key
    temperature = 0.7,
    max_tokens = 255,
)

## Run
function_code='''
def predict_proba(X: Iterable[str]):
  return np.array([predict_one_probas(tweet) for tweet in X])
'''
prompt_text=prompt.format(function_code=function_code)
res = llm(prompt_text)
print(res)


function predict_proba(X: Iterable<string>): Array<any> {
  return X.map(tweet => predict_one_probas(tweet));
}


## プログラム生成

In [14]:
## 入力プロンプトの準備
template = '''\
## 次の仕様を満たす関数を、Pythonで作成してください。
# 仕様
{spec}

# 関数
{function_name}({args}):

'''
prompt = PromptTemplate(template=template, input_variables=['spec', 'function_name', 'args'])

In [15]:
## Configuration
llm = OpenAI(
    model_name="text-davinci-003",
    openai_api_key = os.getenv("OPENAI_API_KEY"),  # set OpenAI API Key
    temperature = 0.7,
    max_tokens = 255,
)

## Run
spec='''- 入力引数に、1以上の正の整数を受け取ります。
- 入力引数の値が3の倍数ならば、文字列 "Fizz" を返します。
- 入力引数の値が5の倍数ならば、文字列 "Buzz" を返します。
- 入力引数の値が3の倍数かつ5の倍数ならば、文字列 "FizzBuzz" を返します。
- 入力引数の値が上記以外の場合、入力引数の値をそのまま返します。
'''
function_name='fizzbuzz'
args='n: Ingeter'

prompt_text=prompt.format(spec=spec, function_name=function_name, args=args)
res = llm(prompt_text)
print(res)

    if n % 3 == 0 and n % 5 == 0:
        return "FizzBuzz"
    elif n % 3 == 0:
        return "Fizz"
    elif n % 5 == 0:
        return "Buzz"
    else:
        return n


## 他にどんなことができるのか？

OpenAIのExampleに、掲載されています。試してみると良いでしょう。

- [Examples | OpenAI Platform](https://platform.openai.com/examples)

また、以下のサイトにて、Jurassic-2 UltraとOpenAIの比較表があります。比較で試している項目は、OpenAIのExample項目になっていますので、ご参考ください。

- [Jurassic-2 Ultra vs OpenAI 徹底比較！！ | moritalous blog](https://moritalous.pages.dev/dbb3d7326909769f26cc#%E3%82%B5%E3%83%9E%E3%83%AA%E3%83%BC)

## LangChain Model I/O

LangChainが用意しているモジュール。
言語モデルのアプリケーションの中核を担う部分。

以下の3つで構成される。

- Prompts: モデルへ入力をテンプレート化、動的選択、管理を担う
- Language models: 共通インタフェースを通じて、言語モデルを呼び出す
- Output parsers: モデルの出力から必要な情報を抽出する

![Model I/O](https://python.langchain.com/assets/images/model_io-1f23a36233d7731e93576d6885da2750.jpg)

https://python.langchain.com/docs/modules/model_io/


## Prompts

言語モデルでのプロンプトとは、ユーザがモデルの応答を誘導するために提供する指示や入力のことです。
モデルが文脈を理解し、質問に答えたり、文章を完成させたり、会話に参加したりするような、適切で首尾一貫した言語ベースの出力を生成するのに役立ちます。

LangChainでは、プロンプトの生成・操作する上で便利なクラスと関数が用意されています。

- Prompt templates: パラメータ化された、プロンプト文字列のテンプレート
- Example selectors: プロンプトに含む「例」を動的に選択

このノートブックでは、主にPrompt templateを使ってプロンプト文字列を整形してきました。
Example selectorsでは、例えば以下のような入力と応答の例をプロンプトに含める際に役に立ちます。
(いわゆる few-shot prompting)


In [16]:
from langchain.prompts import PromptTemplate
from langchain.prompts import FewShotPromptTemplate
from langchain.prompts.example_selector import LengthBasedExampleSelector

# 反対語を作るフリをした、タスクの例
examples = [
    {"input": "嬉しい", "output": "悲しい"},
    {"input": "高い", "output": "低い"},
    {"input": "元気", "output": "無気力"},
    {"input": "明るい", "output": "暗い"},
    {"input": "風が強い", "output": "風が穏やか"},
]

example_prompt = PromptTemplate(
    input_variables=["input", "output"],
    template="入力: {input}\n出力: {output}",
)

example_selector = LengthBasedExampleSelector(
    examples=examples,
    example_prompt=example_prompt,
    max_length=25,
)
dynamic_prompt = FewShotPromptTemplate(
    example_selector=example_selector,
    example_prompt=example_prompt,
    prefix="各入力の反対語を答えてください。",
    suffix="入力: {adjective}\n出力:",
    input_variables=["adjective"],
)

In [17]:
## LengthBasedExampleSelectorは、入力の文字列が長くなると、例の数を少なくできる。
prompt = dynamic_prompt.format(adjective="大きい")
print(prompt)

各入力の反対語を答えてください。

入力: 嬉しい
出力: 悲しい

入力: 高い
出力: 低い

入力: 元気
出力: 無気力

入力: 明るい
出力: 暗い

入力: 風が強い
出力: 風が穏やか

入力: 大きい
出力:


In [18]:
from langchain.llms import OpenAI

## Configuration
llm = OpenAI(
    model_name="text-davinci-003",
    openai_api_key = os.getenv("OPENAI_API_KEY"),  # set OpenAI API Key
    temperature = 0.7,
    max_tokens = 255,
)
res = llm(prompt)
print(res)

 小さい


Example selectorでは、他にも入力値に最も似ている(コサイン類似度やn-gramオーバーラップスコアなどで判定)例の組み合わせをプロンプトに選択することもできます。

詳細はLangChainのページをご覧ください。

https://python.langchain.com/docs/modules/model_io/prompts/example_selectors/

## Language models

LangChainは2種類のモデルの統合されたインタフェースを提供しています。

- LLMs (Large Language Models)
  - 文字列を入力とし、文字列を返すモデル
- Chat models
  - チャットメッセージ文字列のリストを入力とし、チャットメッセージの文字列を返すモデル

### LLM vs Chat model: どっちがいいの？

LLMとChat modelは若干の違いがあります。

LLMは、文字列を入力し、文字列を返します。チャットモデルは、文字列のリストを入力し、文字列を返します。チャットモデルのベースはLLMですが、チャットでのメッセージのやり取りのために特別なチューニングがなされています。また入力はメッセージ文字列のリストを受け取りますが、それには通常発信者のラベル（「システム」「AI」「人間」など）が付けられます。そして、AIのチャットメッセージとしての文字列を返します。GPT-4やAnthropic社のClaude 2はチャットモデルとして実装されています。



## Output parsers

言語モデルは、出力としてテキスト文字列を返します。ただ、場合によっては文字列ではなく構造化されたデータで出力して欲しい場合があります。この時、Output parsersの出番です。

Output parsersは言語モデルの出力を構造化するのに役に立つモジュールです。
LangChainでは、以下のモジュールが用意されています。

- List parser: カンマ区切りの文字列リスト
- Datetime parser: Pythonのdatetimeフォーマット
- Enum parser: PythonのEnumフォーマット
- Auto-fixing parser: 別のOutput parserをラップしていて、最初のOutput parserが失敗した場合、別のLLMを呼び出してエラーを修正することができる。また、誤ったフォーマットで出力された文字列を、フォーマットされた命令と共に言語モデルに渡し、修正を依頼することもできる。
- Pydantic (JSON) parser: JSONフォーマット
- Retry parser: 出力文字列のフォーマットがおかしい場合、元のプロンプトを使って単純に再試行し、より良い出力フォーマットを得るためのモジュール
- Structured output parser: 複数のフィールドを返したい場合に利用するフォーマット
- XML parser: XMLフォーマット


In [19]:
## example: List parser
from langchain.output_parsers import CommaSeparatedListOutputParser
from langchain.prompts import PromptTemplate
from langchain.llms import OpenAI

output_parser = CommaSeparatedListOutputParser()

format_instructions = output_parser.get_format_instructions()
prompt = PromptTemplate(
    template="5つの{subject}をリスト化してください。\n{format_instructions}",
    input_variables=["subject"],
    partial_variables={"format_instructions": format_instructions}
)

model = OpenAI(temperature=0)

_input = prompt.format(subject="アイスクリームのフレーバー")
output = model(_input)

_output = output_parser.parse(output)
print(f"入力プロンプト:\n{_input}\n\n出力:\n{_output}\n")


入力プロンプト:
5つのアイスクリームのフレーバーをリスト化してください。
Your response should be a list of comma separated values, eg: `foo, bar, baz`

出力:
['ストロベリー', 'チョコレート', 'バニラ', 'マンゴー', 'ピーナッツバター']

