<a href="https://colab.research.google.com/github/daicamino/lecture-ai-engineering/blob/master/PJT04.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# JPT04 講義資料の質疑応答のまとめ機能の作成

神野大輔

##はじめに

　本プログラムは、『講義内容質問フォーム（回答）』の質問を要約したうえで並び替え、講師が類似した質問をまとめて回答することを支援する質問要約ツールである。

　生成モデルは、本講座の第３回演習のプログラムを引用しLlama3を利用している。また、それ以外のコードのドラフトはGeminiにより生成した。

　「質問」または「要約」をもとに類似度によるグループ分けを試みたが、分類の精度が上げられなかった。また、要約をソートすることでもある程度視認性が改善できるため、質問の内容による分類は不採用とした。

　加えて、処理中にも新しい質問が追加される可能性があるため、要約のソートは手動で行うこととする。

　なお、モデルのダウンロードには時間を要するため、本プログラムの利用時には初期設定までは事前に完了していることが望ましい。



##取扱方法

1.   hugging faceのトークンを準備ください。
2.   『講義内容質問フォーム（回答）』のB列に「要約」を追加ください。もしも、プログラム実行時に該当の列がないばあいは、「要約」列が最後列に自動で追加されます。
3.   『講義内容質問フォーム（回答）』を、Google スプレッドシート形式で保存してください。
4.   このノートブックを「講義質問フォーム」と同じフォルダに格納
してください。
5.   処理完了後、『講義内容質問フォーム（回答）』を開き、手動にて「要約」列でソートしてください。

# 初期設定

##環境設定
ご自身の環境に合わせて変更ください。

In [1]:
# 作業ディレクトリとQAファイル名の指定
work_dir = '/content/drive/MyDrive/Colab Notebooks/lecture-ai-engineering/PJT04/'
QAsheet = '講義内容質問フォーム（回答）'

# CUDAが利用可能ならGPUを、それ以外ならCPUをデバイスとして設定
import torch
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

import random
random.seed(0)

## Goodle Driveへの接続と各種認証

In [2]:
# Goodle Driveへの接続
from google.colab import drive
drive.mount('/content/drive')

# colab Notebookの認証
from google.colab import auth
auth.authenticate_user()

# gspreadの認証
import gspread
from google.auth import default
creds, _ = default()

gc = gspread.authorize(creds)

Mounted at /content/drive


## LLMモデルの読み込み

　本講義の第３回演習のプログラムより引用。


In [3]:
# HuggingFace Login
from huggingface_hub import notebook_login
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [4]:
# モデル(Llama3)の読み込み

!pip install --upgrade transformers
!pip install google-colab-selenium
!pip install bitsandbytes

from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

model_name = "meta-llama/Meta-Llama-3-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=False,
)

model = AutoModelForCausalLM.from_pretrained(
            model_name,
            device_map="auto",
            quantization_config=bnb_config,
            torch_dtype=torch.bfloat16,
)

Collecting transformers
  Downloading transformers-4.53.0-py3-none-any.whl.metadata (39 kB)
Downloading transformers-4.53.0-py3-none-any.whl (10.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m10.8/10.8 MB[0m [31m100.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: transformers
  Attempting uninstall: transformers
    Found existing installation: transformers 4.52.4
    Uninstalling transformers-4.52.4:
      Successfully uninstalled transformers-4.52.4
Successfully installed transformers-4.53.0
Collecting google-colab-selenium
  Downloading google_colab_selenium-1.0.14-py3-none-any.whl.metadata (2.7 kB)
Collecting selenium (from google-colab-selenium)
  Downloading selenium-4.33.0-py3-none-any.whl.metadata (7.5 kB)
Collecting trio~=0.30.0 (from selenium->google-colab-selenium)
  Downloading trio-0.30.0-py3-none-any.whl.metadata (8.5 kB)
Collecting trio-websocket~=0.12.2 (from selenium->google-colab-selenium)
  Downloading trio_websocket-0.12.2

Collecting bitsandbytes
  Downloading bitsandbytes-0.46.0-py3-none-manylinux_2_24_x86_64.whl.metadata (10 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch<3,>=2.2->bitsandbytes)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch<3,>=2.2->bitsandbytes)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch<3,>=2.2->bitsandbytes)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch<3,>=2.2->bitsandbytes)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch<3,>=2.2->bitsandbytes)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-c

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/51.0k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/73.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/654 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/187 [00:00<?, ?B/s]

#処理

##GSpreadの読み込み

In [5]:
import pandas as pd

worksheet = gc.open(QAsheet).sheet1
rows = worksheet.get_all_values()
qa_data = pd.DataFrame(rows[1:], columns=rows[0])

# 「要約」列が存在しない場合は追加
if '要約' not in qa_data.columns:
    qa_data['要約'] = ''
    # スプレッドシートにも列を追加 (ヘッダー行)
    worksheet.insert_cols([['要約']], col=len(rows[0]) + 1)

# prompt: qa_dataの内容を表示
qa_data.head()

Unnamed: 0,タイムスタンプ,要約,質問,氏名（任意）,スライド番号（任意）
0,,,データパイプラインの概念があまり理解できていないのですが、実際に分かりやすいアプリケーション...,,
1,,,Googlecolab はどんなアカウントを使ってもいいですか,,
2,,,既存論文を再現するとのことでしたが、公開されているプログラムを自身の環境でコピーして、一部は...,,
3,,,AIを使ったプロダクトのライフサイクル (プロとタイミング、実開発、検証、再開発などの流れ)...,,
4,,,FastAPIの役割と存在意義が理解できなかったです。\r\n「型ヒントとPydanticで...,,


##質問の要約

In [6]:
# prompt: もしも'要約'が空白のとき、各行の質問を要約して、ワークシートの'要約'列に挿入する。

terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

# 各行の「要約」列が空白かどうかを確認し、空白の場合は要約を生成して挿入
for index, row in qa_data.iterrows():
    if row['要約'] == '':
        question = row['質問']
        messages = [
            {"role": "system", "content": "コンテンツの件名を30文字以内で生成する。コンテンツに記載されていないことは表示しない。日本語で回答する。"},
            {"role": "user", "content": f"コンテンツ：{question}"},
        ]
        input_ids = tokenizer.apply_chat_template(
            messages,
            add_generation_prompt=True,
            return_tensors="pt"
        ).to(model.device)

        summary_output = model.generate(
            input_ids,
            max_new_tokens=25, # 要約のトークン数
            eos_token_id=terminators,
            do_sample=False,
        )

        summary_tokens = summary_output[0][input_ids.shape[-1]:]
        summary_str = tokenizer.decode(summary_tokens, skip_special_tokens=True)
        summary_str = summary_str.replace('タイトル：', '').replace('件名：', '').replace('「', '').replace('」', '')

        # DataFrameの「要約」列を更新
        qa_data.at[index, '要約'] = summary_str

        # スプレッドシートの該当セルを更新
        # ヘッダー行があるため、DataFrameのインデックスに2を加える (0始まりのDataFrameインデックス + 1 (ヘッダー) + 1 (スプレッドシートは1始まり))
        # 「要約」列のインデックスを取得
        summary_col_index = qa_data.columns.get_loc('要約') + 1 # gspreadは1始まり

        worksheet.update_cell(index + 2, summary_col_index, summary_str)

print("要約の更新が完了しました。")
print(qa_data[['質問', '要約']].head()) # 更新されたデータの確認

The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:128009 for op

要約の更新が完了しました。
                                                  質問  \
0  データパイプラインの概念があまり理解できていないのですが、実際に分かりやすいアプリケーション...   
1                    Googlecolab はどんなアカウントを使ってもいいですか   
2  既存論文を再現するとのことでしたが、公開されているプログラムを自身の環境でコピーして、一部は...   
3  AIを使ったプロダクトのライフサイクル (プロとタイミング、実開発、検証、再開発などの流れ)...   
4  FastAPIの役割と存在意義が理解できなかったです。\r\n「型ヒントとPydanticで...   

                                                  要約  
0            データパイプラインの実際のアプリケーション：E-commerceの商品情報集積  
1  "Google Colab：無料のJupyterノートブック環境、Googleアカウントでア...  
2                 既存論文を再現するという意味は、既に公開されているプログラムを自身の  
3                AIプロダクトライフサイクルマネジメント：AI技術の導入、開発、テスト  
4          FastAPIの理解を深める：型ヒントとPydanticによる自動バリデーションの  
