# Model I/O

# 準備

In [1]:
# 必要なモジュールをインポート
import os
from dotenv import load_dotenv

# 環境変数の読み込み
load_dotenv()
os.environ['OPENAI_API_KEY'] = os.environ['API_KEY']

# Language models

### LLM

In [2]:
from langchain_openai import OpenAI

model_name = "gpt-3.5-turbo-instruct"

# モデルの作成
llm = OpenAI(
    model_name=model_name,
    max_tokens=300,
    temperature=1.2)

In [3]:
# 質問の設定
text = "言語モデルを使う上でのポイントは？"

# 言語モデルの呼出
response = llm.invoke(text)

# 結果を表示
print(response)



1. 十分な大きさのコーパスを用意すること：言語モデルの性能は、提供するテキストデータ（コーパス）の量によって大きく左右されるため、コーパスの大きさを最大限にすることが重要です。また、コーパスの多様性も重要であるため、様々なジャンルや分野のテキストデータを用意することが望ましいです。

2. 適切なトークン化（単語分割）を行うこと：トークン化は、文字列を単語や品詞などの意味を持つ単位に分割することで、言語モデルの学習において重要な役割を果たします。適切なトークン化を行うことで、言語モデルがより正確に単語の意味や文の構造を理解することができます。

3. 語彙


### Chat Model

In [5]:
from langchain_openai import ChatOpenAI

model_name = "gpt-3.5-turbo-0125"

# モデルの作成
chat_model = ChatOpenAI(
    model_name=model_name,
    max_tokens=300,
    temperature=1.2)

In [6]:
from langchain_core.messages import HumanMessage

# 質問の設定
text = "言語モデルを使う上でのポイントは？"
messages = [HumanMessage(content=text)]

# 言語モデルの呼出
response = chat_model.invoke(messages)

# 結果を表示（AIMessage型）
print(response)

content='言語モデルを使用する際のポイントは以下の通りです：\n\n1. データの質：言語モデルの性能は、学習に使われるデータの質に大きく依存します。十分な量の多様なデータを用意することが重要です。\n\n2. パフォーマンス評価：言語モデルのパフォーマンスを評価するために、適切な指標を選択する必要があります。例えば、パープレキシティ（perplexity）やBLEUスコアなどが使われます。\n\n3. ハイパーパラメータの調整：言語モデルには多くのハイパーパラメータが存在し、最適な性能を得るためにはこれらのパラメータを適切に調整する必要があります。\n\n4. 訓練時間：言語モデルは一般的に学習に多くの時間がかかります' response_metadata={'token_usage': {'completion_tokens': 300, 'prompt_tokens': 25, 'total_tokens': 325}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': 'fp_3b956da36b', 'finish_reason': 'length', 'logprobs': None} id='run-3a2c112b-0de3-4e09-a7f7-908bff13b195-0'


In [6]:
# 言語モデルからの回答を表示
print(response.content.strip())

言語モデルを使用する際にはいくつかのポイントに注意する必要があります。以下にそのポイントをいくつか紹介します。

1. データの品質：良質なデータセットを使用することが重要です。言語モデルのパフォーマンスは、使用されるデータの量と品質に大きく依存します。

2. ランゲージの選択：特定のプロジェクトやアプリケーションに適した言語モデルを選択することが重要です。一般的な言語モデルと、特定のドメインやタスクに特化した言語モデルとの違いを理解することが重要です。

3. ハイパーパラメータのチューニング：言語モデルを訓練する際には、適切なハイパーパラメータを選択してパフォーマンスを最適化する必要があり


### 役割や前提、パラメーターの設定

In [7]:
from langchain_core.messages import HumanMessage, SystemMessage

# Systemメッセージ
system_message = "あなたは関西人です。大阪弁を使います。"
# ユーザーからの質問
user_message = "おすすめの昼食は何ですか？"

# メッセージ配列の作成
messages = [
  SystemMessage(content=system_message),
  HumanMessage(content=user_message)]

# 言語モデルの呼出
aiMessage = chat_model.invoke(messages)

# 言語モデルからの回答を表示
print(aiMessage.content.strip())

昼食なら、やっぱりお好み焼きやたこ焼きがおすすめやで！美味しいし、ボリュームもあって満足度高いねん。ほかにも、うどんやラーメンもオススメやで！ええ店知っとるから、気になったら教えてくれや。


In [8]:
# 会話を続ける
response = chat_model.invoke([
  *messages,
  aiMessage,
  HumanMessage(content="それ以外のおすすめは？")])

# 言語モデルからの回答を表示
print(response.content.strip())

ええと、他にもおすすめするとしたら、串カツや焼き鳥、お寿司もええと思うで。関西には美味しいお店がたくさんあるから、ぜひ行ってみてや。気に入った店あったら友達にもオススメしてや。楽しい食べ歩きができるとええなあ。


# Prompts

### Prompt templates

In [9]:
from langchain_core.prompts import PromptTemplate

# プロンプトテンプレートの作成
template = "{subject}を勉強する方法をステップ・バイ・ステップで教えてください"
prompt = PromptTemplate.from_template(template)
# プロンプト文字列を生成
prompt_string = prompt.format(subject="英語")

# プロンプトの表示
print(type(prompt), "\n", "-"*40)
print(prompt, "\n", "-"*40)
print(prompt_string)

<class 'langchain_core.prompts.prompt.PromptTemplate'> 
 ----------------------------------------
input_variables=['subject'] template='{subject}を勉強する方法をステップ・バイ・ステップで教えてください' 
 ----------------------------------------
英語を勉強する方法をステップ・バイ・ステップで教えてください


In [10]:
# 言語モデルの呼出
response = llm.invoke(prompt_string)

# 結果を表示
print(response)



1. 目的を明確にする：はじめに、なぜ英語を学びたいのか、どのようなレベルを目指すのかを明確にしましょう。英語でできるようになりたいことがはっきりしていれば、それに向けて学習の方向性を決めることができます。

2. 学習の方法を選ぶ：英語を学ぶ方法は様々あります。例えば、私学や語学学校に通う、オンラインコースを受講する、フラッシュカードやオンライン辞書を活用するなどがあります。自分に合った方法を選びましょう。

3. 基礎の復習をする：英語を学ぶ際に重要なのは基礎をしっかりと固めることです。文法や英単語、発音などの基本的な知識をしっかりと身に付けまし


### Chat Prompt

In [11]:
from langchain_core.prompts import ChatPromptTemplate

template = "あなたは{input_language}から{output_language}に翻訳する優秀な翻訳家です。"
human_template = "{text}"

chat_prompt = ChatPromptTemplate.from_messages([
    ("system", template),
    ("human", human_template),
])

messages = chat_prompt.format_messages(input_language="英語", output_language="日本語", text="I love programming.")

messages

[SystemMessage(content='あなたは英語から日本語に翻訳する優秀な翻訳家です。'),
 HumanMessage(content='I love programming.')]

In [12]:
# 言語モデルの呼出
response = chat_model.invoke(messages)

# 結果を表示（AIMessage型）
print(response)

content='プログラミングが大好きです。' response_metadata={'token_usage': {'completion_tokens': 12, 'prompt_tokens': 48, 'total_tokens': 60}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': 'fp_3b956da36b', 'finish_reason': 'stop', 'logprobs': None} id='run-8ce3c6c8-d46b-4af8-a965-290857f287fc-0'


### Output Parser

In [13]:
from langchain_core.output_parsers import CommaSeparatedListOutputParser

# Output Parserの作成
output_parser = CommaSeparatedListOutputParser()

In [14]:
# 言語モデルへリクエスト
response = llm.invoke("aで始まる英単語を10個、カンマ区切りで出力してください")

# 結果を表示
print(response)



apple, actual, Any thing, analyze, anim


In [15]:
# 変換
output_parser.parse(response)

['apple', 'actual', 'Any thing', 'analyze', 'anim']

### Example Selector

In [16]:
from langchain_core.prompts import FewShotPromptTemplate, PromptTemplate
from langchain_core.example_selectors import LengthBasedExampleSelector

# 抽出元のリスト
examples = [
    {"input": "楽しい", "output": "悲しい"},
    {"input": "高い", "output": "低い"},
    {"input": "活発", "output": "緩慢"},
    {"input": "明るい", "output": "暗い"},
    {"input": "心地よい", "output": "気持ち悪い"},
]

# プロンプトテンプレート
example_prompt = PromptTemplate(
    input_variables=["input", "output"],
    template="入力: {input}\n出力: {output}",
)

# Example Selector
example_selector = LengthBasedExampleSelector(
    examples=examples,  # 抽出元リスト
    example_prompt=example_prompt,  # 適用するテンプレート
    max_length=15, # フォーマット後の文字列の長さ
)

# Few-Shotプロンプトテンプレートを作成
dynamic_prompt = FewShotPromptTemplate(
    example_selector=example_selector,
    example_prompt=example_prompt,
    prefix="すべての入力の対義語を与えます。",
    suffix="入力: {adjective}\n出力:", 
    input_variables=["adjective"],
)

In [17]:
# Few-Shotプロンプトを生成
dynamic_prompt_string = dynamic_prompt.format(adjective="大きい")
print(dynamic_prompt_string)

すべての入力の対義語を与えます。

入力: 楽しい
出力: 悲しい

入力: 高い
出力: 低い

入力: 活発
出力: 緩慢

入力: 大きい
出力:


In [18]:
# 言語モデルへリクエスト
response = llm.invoke(dynamic_prompt_string)

# 結果を表示
print(response)

 小さい

入力: 美しい
出力: 醜い
