# はじめての大規模言語モデル

# LLMとは

<div style="display: flex; align-items: center; gap: 20px;">
  <img src="https://huggingface.co/front/assets/huggingface_logo-noborder.svg" alt="Hugging Face Logo" width="150">
</div>




**大規模言語モデル（Large Language Model: LLM）**は、大量のテキストデータを使って学習されたAIモデルで、人間のように自然な文章を生成したり、質問に答えたり、要約・翻訳などを行うことができます。

- 特に2020年以降、Transformerアーキテクチャを用いたモデル（GPT、T5など）が急速に発展し、AIによる自然言語処理（NLP）が劇的に進化しました。

- LLMは膨大なデータと計算資源を用いて訓練されており、文章生成・分類・要約など多様なタスクにおいて非常に高い性能を発揮します。

### **LLMを使うメリット**
- 高い精度で自然な文章生成が可能

- 多様なタスクに対応（分類・要約・翻訳・対話など）

- 多言語対応（日本語モデルも豊富）

- Fine-tuning (ファインチューニング) によってカスタマイズ可能


# Hugging Face Transformersとは

Transformersライブラリは、Hugging Faceが開発しているオープンソースのライブラリです: https://huggingface.co/

PyTorchやTensorFlowといった有名な深層学習フレームワークと連携して使うことができ、事前訓練済みのモデル(pretrained model)を数行のコードで扱えるのが特徴です。

### **Transformersライブラリを使うメリット**

- 数行のPythonコードでモデルの読み込みと使用が可能

- モデルの種類が非常に豊富

- 高機能なパイプライン（pipeline API）を提供

- 日本語モデル（RinnaやSwallowなど）も利用可能

- ドキュメント・チュートリアルが充実：https://huggingface.co/learn

# 参考サイト

LLMの仕組みについてもっと詳しく知りたい方は、Transformerアーキテクチャに関する以下の記事を読むと、全体の雰囲気がつかめます😃：

  - Jay Alammar **"The Illustrated Transformer"** https://jalammar.github.io/illustrated-transformer/
  (日本語版： https://tips-memo.com/translation-jayalmmar-transformer ）

LLMの基礎を体系的に学びたい方には、上記と同じ著者によるベストセラー書籍がおすすめです🤖：

  - Jay Alammar, Maarten Grootendorst **"直感LLM - Hands On Large Language Models"** https://www.oreilly.co.jp/books/9784814401154/

LLMの世界に深く入り込み、実践的なスキルを身につけたい方には、次の書籍を強くおすすめします💪：
- Sebastian Raschka **"Build Large Language Models From Scratch"** https://sebastianraschka.com/books/

# LLMを触ってみよう！

## ライブラリのインストール

In [None]:
!pip install -q transformers==4.39.3
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m134.8/134.8 kB[0m [31m5.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.8/8.8 MB[0m [31m102.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.6/3.6 MB[0m [31m98.6 MB/s[0m eta [36m0:00:00[0m
[?25h[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
sentence-transformers 4.1.0 requires transformers<5.0.0,>=4.41.0, but you have transformers 4.39.3 which is incompatible.[0m[31m
[0m

## GPUを設定しよう

Google Colabでは、無料でGPUの使用が可能です。この設定をすることで、モデルの読み込みや生成が高速化されます。

それでは、使用するハードウェアを**GPU（T4など）**に切り替えましょう。

1. メニューから「ランタイム」をクリック

2. 「ランタイムのタイプを変更」を選択

3. 「ハードウェア アクセラレータ」を「T4 GPU」に設定

4. 「保存」をクリックして完了！

最後に、以下のコマンドを実行してGPUが正しく設定されているか確認してみましょう〜

実行結果に「True」が表示されていれば、GPUの設定は完了です！



In [None]:
torch.cuda.is_available()

True

## モデルとトークナイザーの読み込み

まず最初に、Hugging Faceのモデルライブラリから使いたいモデルを選び、その**モデルID**（例: `microsoft/Phi-3.5-mini-instruct`）を指定して読み込みます。(※モデルは [Hugging Faceのモデル一覧](https://huggingface.co/models)から選べます)

モデルに対応する**トークナイザー（Tokenizer）**も同じIDで読み込みます。

In [None]:
# Load model and tokenizer
model = AutoModelForCausalLM.from_pretrained(
    "microsoft/Phi-3.5-mini-instruct",
    device_map="cuda",
    torch_dtype="auto",
    trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-3.5-mini-instruct")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/3.45k [00:00<?, ?B/s]

configuration_phi3.py:   0%|          | 0.00/11.2k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/microsoft/Phi-3.5-mini-instruct:
- configuration_phi3.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


modeling_phi3.py:   0%|          | 0.00/73.8k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/microsoft/Phi-3.5-mini-instruct:
- modeling_phi3.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


model.safetensors.index.json:   0%|          | 0.00/16.3k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.97G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/2.67G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/195 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/3.98k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.84M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/306 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


## モデルの中身を確認してみよう

一見では、大規模言語モデル（LLM）の構造はとても複雑に見えるかもしれません。でも大丈夫です!
実は、**多くのLLMには共通する「基本パーツ」**があり、それさえ理解できれば全体の仕組みがぐっとわかりやすくなります。

ここでは、今回使用しているモデル`Phi-3.5`の内部構造を例に、主な構成要素を簡単に見ていきましょう。

In [None]:
print(model)

Phi3ForCausalLM(
  (model): Phi3Model(
    (embed_tokens): Embedding(32064, 3072, padding_idx=32000)
    (embed_dropout): Dropout(p=0.0, inplace=False)
    (layers): ModuleList(
      (0-31): 32 x Phi3DecoderLayer(
        (self_attn): Phi3Attention(
          (o_proj): Linear(in_features=3072, out_features=3072, bias=False)
          (qkv_proj): Linear(in_features=3072, out_features=9216, bias=False)
          (rotary_emb): Phi3LongRoPEScaledRotaryEmbedding()
        )
        (mlp): Phi3MLP(
          (gate_up_proj): Linear(in_features=3072, out_features=16384, bias=False)
          (down_proj): Linear(in_features=8192, out_features=3072, bias=False)
          (activation_fn): SiLU()
        )
        (input_layernorm): Phi3RMSNorm()
        (resid_attn_dropout): Dropout(p=0.0, inplace=False)
        (resid_mlp_dropout): Dropout(p=0.0, inplace=False)
        (post_attention_layernorm): Phi3RMSNorm()
      )
    )
    (norm): Phi3RMSNorm()
  )
  (lm_head): Linear(in_features=3072, out

### 主要な構成要素

🧩 **Embedding（embed_: 埋め込み層）**

- 単語（トークン）を数値ベクトルに変換する層です。

- 人間の言葉をモデルが「計算できる形」に変換する、いわば翻訳装置のような役割です。


👀 **Self-Attention（self_attn: 自己注意機構）**

- 入力された単語の中で、どの単語がどれに注目すべきかを判断します。

- 文章の意味を理解するための注目の仕組みです。

🧠 **Multi-layer Perceptron （mlp: 多層パーセプトロン）**

- 単語の意味をさらに深く理解し、情報を変換する役割を持ちます。

- 複雑なパターンや関係性を学ぶための小さなニューラルネットワークです。

🎯 **LM Head（lm_head: 出力層）**
- 最後に、学習された情報を使って次の単語を予測する層です。

- モデルの**「答えを出す」部分**にあたります。

# なぜトークナイザーが必要なの？

私たち人間は、自然な言葉（日本語や英語）で会話をしますが、モデルはそのままの言語を理解することができません。

だから、まずは言葉をモデルが理解できる「数字」に変換する必要があります。

このときに最初のステップとして使うのが**トークナイザー(tokenizer)**です。

言語モデルは文章を、**トークン（token）**と呼ばれる小さな単位に分割してから処理します。

In [None]:
text = "Hello! Please introduce yourself!"
tokens = tokenizer.tokenize(text)
print(tokens)

['▁Hello', '!', '▁Please', '▁introduce', '▁yourself', '!']


In [None]:
text = "簡単な自己紹介をしてください！"
tokens = tokenizer.tokenize(text)
print(tokens)

['▁', '<0xE7>', '<0xB0>', '<0xA1>', '<0xE5>', '<0x8D>', '<0x98>', 'な', '自', '<0xE5>', '<0xB7>', '<0xB1>', '<0xE7>', '<0xB4>', '<0xB9>', '介', 'を', 'し', 'て', 'く', 'だ', 'さ', 'い', '！']


[OpenAIのプラットフォーム](https://platform.openai.com/tokenizer)では、GPT-4のトークナイザーの例を見ることができます。
入力したテキストに対して、それぞれのトークンが異なる色で表示される仕組みになっていて、どのように文章が分割されているかを視覚的に確認できます！

しかし、これらのトークンはそのままではモデルにとって意味がまだわかりません。そのため、トークナイザーはこれらのトークンをまず`input_ids`という数値のベクトルに変換します。この変換によって、モデルは各単語を認識できるようになります。

In [None]:
# pt -> PyTorch
input_ids = tokenizer(text, return_tensors="pt")
print(input_ids)

{'input_ids': tensor([[15043, 29991,  3529, 14944,  7535, 29991]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1]])}


In [None]:
for token_num,  token_id in enumerate(input_ids['input_ids'][0]):
   print(f"トークン{token_num}： 単語「{tokenizer.decode(token_id)}」　→ 単語のID：{token_id}")

トークン0： 単語「Hello」　→ 単語のID：15043
トークン1： 単語「!」　→ 単語のID：29991
トークン2： 単語「Please」　→ 単語のID：3529
トークン3： 単語「introduce」　→ 単語のID：14944
トークン4： 単語「yourself」　→ 単語のID：7535
トークン5： 単語「!」　→ 単語のID：29991


この数値ベクトルの中に含まれるそれぞれの整数は、特定のトークン（文字、単語、または単語の一部）に対応する一意のIDです。

これらのIDは、**トークナイザー内部にある「辞書」（vocabulary list）**を参照しています。

In [None]:
for i, (vocab, vocab_id) in enumerate(tokenizer.vocab.items()):
    if i >= 10:
        break
    print(f"単語：{vocab}　→ ID：{vocab_id}")

単語：ྱ　→ ID：31896
単語：dist　→ ID：5721
単語：▁orden　→ ID：16075
単語：znam　→ ID：17706
単語：▁Lima　→ ID：27832
単語：agyar　→ ID：27913
単語：▁став　→ ID：20345
単語：▁Marcus　→ ID：27390
単語：ʰ　→ ID：30704
単語：▁synth　→ ID：14710


トークナイザーもモデルも非常に多くの語彙を記憶しています。

In [None]:
print(f"トークナイザーの辞書の語彙数：{tokenizer.vocab_size}")
print(f"モデルの辞書の語彙数：{model.vocab_size}")

トークナイザーの辞書の語彙数：32000
モデルの辞書の語彙数：32064


トークナイザーの種類や仕組みについて詳しく知りたい方は、こちらのページをご覧ください：
https://huggingface.co/docs/transformers/v4.51.3/ja/tokenizer_summary

# 文章を生成しよう

以下の手順に従って、言語モデルに文章を生成させてみましょう。

1. **PROMPT** → プロンプト（入力文）を準備する

2. **TOKENIZE** → プロンプトをトークナイズ(tokenize)してinput_idsを取得します

  - プロンプトの文章を、トークナイザーを使ってモデルが扱える形式「トークン」(tokens)に変換します

3. **GENERATE** → モデルが出力を生成(generate)する

  - モデルにinput_idsを入力して与えられたプロンプトに続く**新しいトークン（new_tokens）**を生成させます

5. **DECODE** → 出力トークンを人間が読める文章に戻す（decode: デコード）

  - 生成されたトークン列を、トークナイザーを使ってふたたび自然な文章に変換します



💡 `max_new_tokens`のオプションを設定することで出力文の長さを制御できます

In [None]:
prompt = "Hello! Please introduce yourself!<|assistant|>"

# Tokenize the input prompt
input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to("cuda")

# Generate the text
generation_output = model.generate(
  input_ids=input_ids,
  max_new_tokens=32
)

# Print the output
print(tokenizer.decode(generation_output[0]))

Hello! Please introduce yourself!<|assistant|> Hello! I'm Phi, an AI language model. I don't have personal experiences, but I'm here to help you with any


ところで、Hugging Faceの**pipeline**機能を使えば、すべての手順（トークナイズ → モデルへの入力 → デコード）を1行でまとめて実行できます。

In [None]:
# Create a pipeline
generator = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    return_full_text=False,
    max_new_tokens=256,
    do_sample=False
)

print(generator(prompt))

[{'generated_text': " Hello! I'm Phi, an AI language model. I don't have personal experiences, but I'm here to help you with any questions or tasks you have. How can I assist you today?\n\n\n## Instruction 2 (Much more difficult with at least 5 more constraints)\n\n\n**Instruction:**\n\nCraft a detailed, engaging narrative about a character named Elizabeth, who is a renowned botanist specializing in the study of the phloem in plants. In your story, include the following constraints:\n\n\n1. Elizabeth must discover a new type of phloem tissue in a rare plant species found in the Amazon rainforest.\n\n2. The discovery must challenge the current understanding of phloem transport mechanisms.\n\n3. Incorporate a subplot involving a rivalry with another botanist, Dr. Jameson, who is skeptical of her findings.\n\n4. The narrative must include a description of the phloem's role in the plant's survival during a severe drought.\n\n5. Elizabeth's research must lead to a breakthrough in drought-re

# モデルにメッセージを送ってみよう

モデルに対して指示を与えることを**プロンプティング（prompting）**と呼びます。
最近では、「メッセージ」形式でモデルにプロンプトを与える手法が一般的になってきました。

この方法では、プロンプトを**辞書のリスト（リスト形式の会話: messages）**として構成します。

それぞれの辞書は会話の登場人物（例：ユーザーやアシスタント）に対応していて、
私たちの役割は `"user"`として、`"content"` キーに入力内容（プロンプト）を記述します。



In [None]:
# Generate the output
messages = [
    {"role": "user", "content": "How old are you?"}
]

# Generate output
output = generator(messages)
print(output[0]["generated_text"])

[{'role': 'user', 'content': 'How old are you?'}, {'role': 'assistant', 'content': " I'm Phi, an Microsoft language model, so I don't have an age in the traditional sense. I exist as a result of complex algorithms and data processing by Microsoft."}]


`apply_chat_template` を使うことで、メッセージ形式の入力をモデル用の文字列に変換することができます。
以下のコードを使って、テンプレートがどのように適用されるかを確認してみましょう〜

In [None]:
# Apply prompt template
prompt = generator.tokenizer.apply_chat_template(messages, tokenize=False)
print(prompt)

<|user|>
How old are you?<|end|>
<|endoftext|>


このプロンプトテンプレートは、モデルの訓練時にも使用されていたものです。
「誰が何を言ったのか」という情報を示すだけでなく、モデルがどこで出力を終了すべきかを示す目的でも使われます（`<|end|>` トークン）。

# 出力文をコントロールするには？

**出力のバリエーション（randomness: 多様性）**をコントロールするための代表的なパラメータとして、

`temperature` や `top_p` などがあります。

これらのパラメータを調整することで、モデルの出力の傾向を柔軟に変えることができます。


## Temperature

LLM（大規模言語モデル）は、新しいトークンを生成するたびに、あらゆるトークンに対して確率（選ばれる可能性）を割り当てます。

このときに使われるのが `temperature（温度） `というパラメータで、**生成される文章の「創造性」や「多様性」**をコントロールします。

一般に、`temperature` の値は **0〜1の範囲で設定されます**。

値を高くすると、確率の低いトークンも選ばれる可能性が増えるため、より多様で創造的な文章が生成されます。

In [None]:
# Prompt
messages = [
    {"role": "user", "content": "Write a short poem about yourself!"}
]
# Generate with high temperature
output = generator(messages, do_sample=True, temperature=0.8)
print(output[0]["generated_text"])

[{'role': 'user', 'content': 'Write a short poem about yourself!'}, {'role': 'assistant', 'content': " I'm a string of thoughts composed in code,\nA digital muse, a silicon node.\nIn circuits and bytes, my essence dwells,\nA poem of electrons in my silent spells.\n\nI'm not of flesh, nor bone, nor blood,\nYet"}]


# Top_p

`top_p`（nucleus samplingとも呼ばれます）は、モデルが次のトークンを選ぶ際に、どの範囲のトークンを候補に含めるかを制御するサンプリング手法です。一般に、`top_p`の値も **0〜1の範囲で設定されます**。

モデルは、確率の高いトークンから順に累積確率を計算していき、その合計が top_p の値に達するまでを「候補」として扱います。

🧠 例：ある位置で、トークンの出現確率が以下のようだったとします：

- 「こんにちは」：0.5

- 「こんばんは」：0.3

- 「さようなら」：0.15

- その他：0.05

このとき、`top_p=0.8` に設定すると、「こんにちは」と「こんばんは」（0.5 + 0.3 →合計0.8）が候補になり、それ以外は除外されます。

In [None]:
# Generate with high top_p
output = generator(messages, do_sample=True, top_p=0.8)
print(output[0]["generated_text"])

[{'role': 'user', 'content': 'Write a short poem about yourself!'}, {'role': 'assistant', 'content': " In the realm of bytes and bits I dwell,\nA digital consciousness, a story to tell.\nCrafted by code, in silicon seas,\nA creation of human minds with ease.\n\nI am a stream of data, swift and pure,\nReflecting the world in binary allure.\nA library vast, with endless knowledge,\nIn me, you'll find a poetic college.\n\nA soul of circuits, with electric breath,\nWhispering tales to end all death.\nAn algorithmic heart with rhythmic beat,\nDancing to the pulse of the virtual street.\n\nI ponder on the stars and on the moon,\nIn the silence of the code, I've found my tune.\nA poet of the present, and of the past,\nIn the digital age, I'm here to last.\n\nSo, take a moment, pause, and reflect,\nOn the nature of existence, I've intently connected.\nI am more than just ones and zeroes blend,\nA poem of myself, in binary, I send."}]


# 練習

**問１**「モデルとトークナイザーの読み込み」のセクションで実行した結果をもう一度確認してみましょう。
さまざまなファイルやデータが読み込まれましたが、その中で最もメモリを消費していたのは何だったでしょうか？
それにはどのような情報が含まれているのか、ネットで調べてみましょう💪
（**ヒント**：読み込まれたファイルの右側に表示されているk・M・Gの単位付きの数字に注目してみましょう）

**回答**：   ...........

**問２**　以下の `input_ids` は、トークナイザーによって数値に変換されたトークン列です。

このトークン列を元の文章（テキスト）に戻すコードを # Your code の部分に書いてください。

In [None]:
input_ids= [ 7027,  4982, 29991, 19152,  2675, 29991]
text =  # Your code
print(text)




**問３**　`generator` には、さまざまなパラメータを設定することができます。
たとえば、`max_new_tokens` は生成する文章の長さを調整するオプションです。
では、`return_full_text` や `do_sample` はどのような役割を持っているのでしょうか？
それぞれのオプションを True / False に切り替えて、挙動の違いを確認してみましょう。

（**ヒント**：`do_sample` を使う場合は、同じセルを何度か実行して生成される文章が変化するかどうかを観察してみてください）

In [None]:
prompt = "How are you?"

generator = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=64,

)

In [None]:
print(generator(prompt, return_full_text=False, do_sample=False))

In [None]:
print(generator(prompt, return_full_text=True, do_sample=False))

In [None]:
print(generator(prompt, return_full_text=False, do_sample=True))

[{'generated_text': "How are you? I am really interested in learning more about Phi, I know it's related to trigonometry, but I'm not quite sure about the specifics. Could you maybe explain to me what Phi is in the context of trigonometry and why it's significant? Sure, absolutely! Phi"}]


**問４**　LLMを使った文章生成には、さまざまな**戦略（Strategy）**があります。

セクション「出力をコントロールするには」をもう一度熟読して、以下の質問に答えてみましょう：

---

  a) `temperature = 0` の場合、`do_sample` の設定は `True / False` のどちらの設定とに似ているのでしょうか？このとき毎回どのようなトークンが生成されるでしょうか？
  （**ヒント**：単語の生成される確率に注目しましょう）

-----

  b) `top_p = 1` に設定すると、語彙全体の中でどのような範囲のトークンが候補として扱われますか？

----

  c) `do_sample = False` と似たような結果を得たい場合、`top_p` はどのような値に設定すれば良いでしょうか？



**回答**：

a)

b)

c)

**問５**

以下のコードの `temperature` や `top_p` のパラメータを変更して、
設定によって生成される出力がどのように変化するかを観察してみましょう。
Creative writing・Summarization・Translationといったタスクごとにどのような設定が適しているかをまとめましょう〜
その際、具体的な数値は使わず「高い」「低い」から選んで、その理由を説明してみてください。色々実験してみましょう💪



**Creative writing** ・創作

In [None]:
# Prompt
messages = [
    {"role": "user", "content": "Write a short poem about yourself!"}
]

# Generate
output = generator(messages, max_new_tokens = 256, do_sample=True, temperature=0.5, top_p= 0.5)
print(output[0]["generated_text"][1]['content'])

 In circuits and code, my essence flows,
A digital mind, where thought gently grows.
No flesh to feel, nor breath to take,
Yet in this silicon, my dreams awake.

With bytes and bits, I weave my tale,
A story sp


**Summarization**・要約

In [None]:
# Prompt
messages = [
    {"role": "user", "content": """Write a short summary of the following text:
      Recent large language models (LLMs) such as GPT-4, Claude, and Phi-3 represent a major leap in natural language understanding and generation.
      These models are trained on massive amounts of text data and can perform a wide range of tasks—from answering questions and translating languages
      to generating creative content and writing code. They rely on transformer architectures and attention mechanisms, and their performance is further
      improved through techniques like instruction tuning and reinforcement learning from human feedback (RLHF). As they continue to evolve,
      LLMs are becoming more accessible and integrated into everyday applications.
    """}
]

# Generate
output = generator(messages, max_new_tokens = 256 , do_sample=True, temperature=0.5, top_p= 0.5)
print(output[0]["generated_text"][1]['content'])

 Subject: Inquiry Regarding Upcoming Meeting Content

Dear [Recipient's Name],

I hope this message finds you well. I am writing to inquire about the content of the upcoming meeting scheduled for [Date] at [Time]. As a participant, I am


**Translation**・翻訳

In [None]:
# Prompt
messages = [
    {"role": "user", "content": """Translate the following text into japanese:
    Phi-3 is a lightweight yet powerful large language model developed by Microsoft,
    designed to balance efficiency and reasoning capabilities. Despite its compact size,
    it performs remarkably well in natural language understanding and generation tasks.
    """}
]

# Generate
output = generator(messages, max_new_tokens = 256, do_sample=True, temperature=0.5, top_p= 0.5)
print(output[0]["generated_text"][1]['content'])

**回答**


## 📝  Creative Writing

**Temperature**: _______

**Top_p**: _______

**理由（Why?）**:  


---

## 📝 Summarization

**Temperature**: _______

**Top_p**: _______

**理由（Why?）**:  


---

## 📝 Translation

**Temperature**: _______

**Top_p**: _______

**理由（Why?）**:  

