# Mistral-7B-Instruct-v0.1

Mistral 7Bは7Bモデルにも関わらずLlama2 13BやLlama1 34Bなどのパラメータ数が大きいモデルを超える性能を発揮しています．日本語出力に関して少しだけ違和感がある点もありますが，英語やコード生成，計算などは非常に高い精度で出力することができています．
* https://huggingface.co/mistralai

<a href="https://colab.research.google.com/github/fuyu-quant/data-science-wiki/blob/develop/nlp/text_generation(japanese)/mistral_7b_instruct_v01.ipynb" target="_blank" rel="noopener noreferrer"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
%%capture
!pip install transformers

In [2]:
from transformers import AutoModelForCausalLM, AutoTokenizer

In [None]:
model = AutoModelForCausalLM.from_pretrained("mistralai/Mistral-7B-Instruct-v0.1")
tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-Instruct-v0.1")

In [None]:
device = "cuda"
model.to(device)

### 日本語の出力

In [6]:
prompt = """
量子コンピュータについて教えてください。
"""

messages = [
    {"role": "user", "content": f"{prompt}"},
]

model_inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs, max_new_tokens=1000, do_sample=True)
decoded = tokenizer.batch_decode(generated_ids)
print(decoded[0])

Using sep_token, but it is not set yet.
Using pad_token, but it is not set yet.
Using cls_token, but it is not set yet.
Using mask_token, but it is not set yet.
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


<s>[INST] 
量子コンピュータについて教えてください。
 [/INST] 量子コンピュータ（Quantum Computers）は、量子力学の理念を基にデジタルデータを处理します。量子力学は、光子、エリトン、磁場などを採用して課題を解決することであり、自然の現象を解決するための数学の方法を示しています。

量子コンピュータは、量子ビットの基本 unit として使われ、量子ビットは2状態を持ったものです。この量子ビットは、自然数0と1を示し、またはスクラムプブリルの形で、0と1の状態の混合を表現します。一般的に、量子コンピュータでは、量子ビットの状態を使って転移を指定するようにデータは表現されます。

量子ビットの重大な特徵は、SuperpositionとEntanglementの2つです。Superpositionは、量子ビットが同時に複数の状態を持つことを示します。例えば、量子ビットは、0 AND 1、0 OR 1の3つの状態のすべてを同時に持つことができます。Entanglementは、量子ビットの緊密な相関についてする詝語です。量子ビットが別の量子ビットと緊密に相関されると、そのquantum stateは、そのための量子ビットが持つ状態のみであればなくないことになります.

量子コンピュータでは、量子ビットを使ってQuantum Gateを作成することができます。Quantum Gateは、量子ビットから量子ビットへの指定した転移を作成し、データを处理するための基本的な操作として使われます。量子コンピュータのアルゴリズムでは、量子ゲートを使って、問題を解決するかどうかを決定します。

量子コンピュータは、特定の問題を解決するために使われ、そのためのアルゴリズムは、自然数の範側において数百、数千以上の量子ビットを使った量子コンピュータに関する問題を解決するデータを処理できます。量子コンピュータによって解決する問題の種類は、現在には有限ですが、実際には量子コンピュータは各種の問題を解決することができることを示しています。量子コンピュータは、大統一的で計算的な計算方法の中であるため、現在からすぐには、量子コンピュータで解決する問題の種類は墙が立っていませんが、未来には量子コンピュータは一緒に、それらの問題を解決することができるようになると思われます。</s

### 英語の出力

In [7]:
prompt = """
Please tell me about quantum computers.
"""

messages = [
    {"role": "user", "content": f"{prompt}"},
]

model_inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs, max_new_tokens=1000, do_sample=True)
decoded = tokenizer.batch_decode(generated_ids)
print(decoded[0])

Using sep_token, but it is not set yet.
Using pad_token, but it is not set yet.
Using cls_token, but it is not set yet.
Using mask_token, but it is not set yet.
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


<s>[INST] 
Please tell me about quantum computers.
 [/INST] Quantum computers are a type of computer that use the principles of quantum mechanics to store, process, and manipulate information. Unlike traditional computers, which use bits represented as either 0 or 1, quantum computers use quantum bits, or qubits, which can exist in a superposition of states, meaning they can represent 0, 1, or a combination of both at the same time.

This ability to represent multiple states simultaneously allows quantum computers to perform certain calculations much faster than traditional computers. While traditional computers are limited by the binary nature of classical computing, quantum computers use quantum mechanics to manipulate and process information in a whole new way, offering the potential for exponential speedups in certain types of calculations.

Quantum mechanics is a branch of physics that describes the behavior of matter and energy at the atomic and subatomic level. It is a complex a

### コード生成(日本語)

In [8]:
prompt = """
LightGBMを学習するためのPythonのコードを生成してください．
"""

messages = [
    {"role": "user", "content": f"{prompt}"},
]

model_inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs, max_new_tokens=1000, do_sample=True)
decoded = tokenizer.batch_decode(generated_ids)
print(decoded[0])

Using sep_token, but it is not set yet.
Using pad_token, but it is not set yet.
Using cls_token, but it is not set yet.
Using mask_token, but it is not set yet.
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


<s>[INST] 
LightGBMを学習するためのPythonのコードを生成してください．
 [/INST] 以下のPythonコードを使用してLightGBMを学習することができます。LightGBMの学習はデータセットについて必要ないといったものではないため、データセットを指定するようにしてください。

```python
from sklearn import datasets
import numpy as np
import pandas as pd

# データセットを指定する必要がありません
# datasets.load_breast_cancer()
# X, y = datasets.load_iris()
# X, y = datasets.load_digits()
# X, y = datasets.load_wine()

# データсеットを加工して使用する必要があります
X = pd.read_csv('X.csv')
y = pd.read_csv('y.csv', int64=True)

# データセットを加工します
# Pandasでデータをデータフレームで格納していますが、LightGBMはNumpyのアレイなどを使っています
X = np.array(X).reshape(-1, X.shape[1])

# LightGBMに入力などを準備します
params = {
    'n_estimators': 1000,
    'learning_rate': 0.1,
    'max_depth': 5
}

model = LightGBM.fit(X, y, **params)
```

LightGBMは使いやすいですが、このLightGBMの学習を使って何を実現できますようになりますか？</s>
