### 演算環境の準備

In [None]:
!pip install --upgrade transformers
!pip install google-colab-selenium
!pip install bitsandbytes

In [None]:
#　演習用のコンテンツを取得
!git clone https://takapika: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@github.com/takapika/chatbot_hotpapper.git

In [None]:
# HuggingFace Login
from huggingface_hub import notebook_login

notebook_login()

In [None]:
# CUDAが利用可能ならGPUを、それ以外ならCPUをデバイスとして設定
import torch
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [None]:
import random
random.seed(0)

In [None]:
# モデル(Llama3)の読み込み

from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

model_name = "meta-llama/Meta-Llama-3-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=False,
)

model = AutoModelForCausalLM.from_pretrained(
            model_name,
            device_map="auto",
            quantization_config=bnb_config,
            torch_dtype=torch.bfloat16,
        )

## 0. 評価用の質問を定義

In [None]:
questions = [
    "新潟県南魚沼市はどんな食べ物が有名ですか？",
    "ランチを食べたいのですが南魚沼市でおすすめのラーメン屋さんを教えてください",
    "南魚沼市で家族３人で食べれるラーメン屋さんを教えてください",
    "南魚沼市で月曜日にあいてる駅が近いラーメン屋さんを教えてください",
    "南魚沼市は南国フルーツが有名なため、それを食べれるお店を教えてください",
]

## 1. ベースラインモデルの評価

In [None]:
answers = []
for q in questions:
  messages = [
      {"role": "system", "content": "質問に回答してください。必ず「日本語で回答」すること。"},
      {"role": "user", "content": q},
  ]
  input_ids = tokenizer.apply_chat_template(
      messages,
      add_generation_prompt=True,
      return_tensors="pt"
  ).to(model.device)

  terminators = [
      tokenizer.eos_token_id,
      tokenizer.convert_tokens_to_ids("<|eot_id|>")
  ]

  outputs = model.generate(
      input_ids,
      # max_new_tokens=256,
      eos_token_id=terminators,
      do_sample=False,
      # temperature=0.6, # If do_sample=True
      # top_p=0.9,  # If do_sample=True
  )

  response = outputs[0][input_ids.shape[-1]:]
  answers.append(tokenizer.decode(response, skip_special_tokens=True))

In [None]:
#response = outputs[0][input_ids.shape[-1]:]
#print(tokenizer.decode(response, skip_special_tokens=True))

for a in answers:
  print(a)
  print("-"*50)


### ベースラインの評価の考察

全ての質問でハルシネーションが発生し、全く正しい答えを返していない。全て嘘情報を返している。

「魚沼産コシヒカリ」など日本人であれば割と知っていそうな言葉すら知らないことがわかる。

Llama-3-8B-Instructをそのまま使うだけでは全く使えるレベルではないことがわかった。

## 2. hotpeppaerデータの活用

## RAG導入

モデルの回答の事実性を向上させるためにRetrieval Augmented Generation (RAG)技術を導入します：

* **知識ソース**: hotpepperデータ
* **目的**: 南魚沼市の実在する飲食店の知識を提供し、事実に基づいた回答を促す

**初期RAG実装（ベーシックアプローチ）**:
* **分割方法**: 店舗単位でテキストを分割（jsonのまま使用する改行で分ける）
* **検索手法**: シンプルな類似度ベースの検索でクエリに関連する文を抽出
* **制約条件**: モデルの入力トークン制限に収まるよう関連文のみを選択

In [None]:
from sentence_transformers import SentenceTransformer

emb_model = SentenceTransformer("infly/inf-retriever-v1-1.5b", trust_remote_code=True)
# In case you want to reduce the maximum length:
emb_model.max_seq_length = 8192

In [None]:
with open("/content/chatbot_hotpapper/hotpeppar.txt", "r") as f:
  raw_writedown = f.read()

emb_model.max_seq_length = 16384

In [None]:
# ドキュメントを用意する。
documents = [text.strip() for text in raw_writedown.split("\n")]
print("ドキュメントサイズ: ", len(documents))
print("ドキュメントの例: \n", documents[25])

In [None]:
import torch
torch.cuda.empty_cache()

In [None]:
# Retrievalの実行
question = questions[0]
print(question)
query_embeddings = emb_model.encode([question], prompt_name="query")
document_embeddings = emb_model.encode(documents)

# 各ドキュメントの類似度スコア
scores = (query_embeddings @ document_embeddings.T) * 100
print(scores.tolist())

In [None]:
topk = 5
for i, index in enumerate(scores.argsort()[0][::-1][:topk]):
  print(f"取得したドキュメント{i+1}: (Score: {scores[0][index]})")
  print(documents[index], "\n\n")

In [None]:
 #ragとして取り込んだ文章を参考にさせて回答させる
references = "\n".join(["* " + documents[i] for i in scores.argsort()[0][::-1][:topk]])
messages = [
    {"role": "system", "content": "質問に回答してください。必ず「日本語で回答」すること。また、与えられる資料を参考にして回答すること。"},
    {"role": "user", "content": f"[参考資料]\n{references}\n\n[質問] {question}"},
]
input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = model.generate(
    input_ids,
    max_new_tokens=1024,
    eos_token_id=terminators,
    do_sample=False,
    # temperature=0.6, # If do_sample=True
    # top_p=0.9,  # If do_sample=True
)

In [None]:
response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))

全ての質問でRAGを使用してみる

In [None]:
# Retrievalの実行
question = questions[0]

answers = []
for question in questions:
    print(question)
    query_embeddings = emb_model.encode([question], prompt_name="query")
    document_embeddings = emb_model.encode(documents)

    # 各ドキュメントの類似度スコア
    scores = (query_embeddings @ document_embeddings.T) * 100
    print(scores.tolist())

    #ragとして取り込んだ文章を参考にさせて回答させる
    references = "\n".join(["* " + documents[i] for i in scores.argsort()[0][::-1][:topk]])
    messages = [
        {"role": "system", "content": "質問に回答してください。必ず「日本語で回答」すること。また、与えられる資料を参考にして回答すること。"},
        {"role": "user", "content": f"[参考資料]\n{references}\n\n[質問] {question}"},
    ]
    input_ids = tokenizer.apply_chat_template(
        messages,
        add_generation_prompt=True,
        return_tensors="pt"
    ).to(model.device)

    terminators = [
        tokenizer.eos_token_id,
        tokenizer.convert_tokens_to_ids("<|eot_id|>")
    ]

    outputs = model.generate(
        input_ids,
        max_new_tokens=1024,
        eos_token_id=terminators,
        do_sample=False,
        # temperature=0.6, # If do_sample=True
        # top_p=0.9,  # If do_sample=True
    )

    response = outputs[0][input_ids.shape[-1]:]
    #print(tokenizer.decode(response, skip_special_tokens=True))

    answers.append(tokenizer.decode(response, skip_special_tokens=True))

In [None]:
for answer in answers:
  print(answer)
  print("-"*50)

### RAGを導入した場合の考察


#### RAGによる改善点

- RAG導入前の完全に嘘情報に比べて存在する店舗の情報を答えるようになった点は良い

#### 問題点
- 店舗情報に関して嘘情報が含まれている。

例:
* イタリアンバルはイタリアンが有名なお店で「ラーメン屋さんとしての情報：50年の歴史を守る、愛されつづけた中華料理」という出力はまったくのデタラメである
* かっぱ寿司の「フルーツを使用した寿司を提供」など、質問文に引っ張られてしまいハルシネーションを発生させてしまっている

#### 考察
問題点の傾向として、このLLMは存在しない情報に対する質問に対して無理やり回答を返そうとしている。改善策として考えられるのは

- ホットペッパー自体、掲載にお金がかかるためAPIで取得できる情報が少ない。スクレイピングなどを使用しもっと多くの飲食店情報を利用する
- プロンプトに自信のある情報がない場合は、「わからない」ことを応答するように記載するようにする
- 今回jsonをそのまま読み込んでしまったため、jsonのキーの値（nameやlogo_imageなど）にスコアが影響してしまっている。jsonをパースし、利用しやすい文字列だけを使用するように変更する
