<a href="https://colab.research.google.com/github/niikun/lecture-ai-engineering/blob/master/Week01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Metrics

In [1]:
!pip install nltk



nltk.download('punkt') とは？
これは、**英語の文章を単語や文に分けるための道具（辞書）**をダウンロードする命令です。

punkt（プンクト） というのは、

「文を分けるルール（たとえば . や ! の後に文が終わる）」をまとめたものです。

nltk（自然言語ツールキット）というライブラリの中にある、文の区切りを見つけるためのデータセットです。

In [2]:
import nltk
nltk.download("punkt",quiet=False)
nltk.download('punkt_tab')
text = "Hello, how are you? I'm learning NLP with NLTK. It's fun!"

from nltk.tokenize import sent_tokenize
sentences = sent_tokenize(text)
print(sentences)


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...


['Hello, how are you?', "I'm learning NLP with NLTK.", "It's fun!"]


[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


In [3]:
# BLEUスコアを計算する関数 sentence_bleu を nltk_sentence_bleu という名前で使えるようにしています。
from nltk.translate.bleu_score import sentence_bleu as nltk_sentence_bleu
# 文を単語に分ける関数 word_tokenize を nltk_word_tokenize という名前で使えるようにしています。
from nltk.tokenize import word_tokenize as nltk_word_tokenize
print("NLTK loaded successfully.") # デバッグ用

NLTK loaded successfully.


Word_tokenizeの事例

In [4]:
nltk_word_tokenize("Hello, how are you?")
# → ['Hello', ',', 'how', 'are', 'you', '?']

['Hello', ',', 'how', 'are', 'you', '?']

### Bleuの事例

In [5]:
# punktデータをダウンロード（単語分割のため）
nltk.download('punkt')

# 正解の文（例：先生の答え）
reference = "The cat is on the mat."

# 生徒の答え（例：AIが出した回答）
candidate = "The cat sat on the mat."

# 単語に分ける
reference_tokens = nltk_word_tokenize(reference.lower())  # 小文字にしてトークナイズ
candidate_tokens = nltk_word_tokenize(candidate.lower())
reference_tokens,candidate_tokens

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


(['the', 'cat', 'is', 'on', 'the', 'mat', '.'],
 ['the', 'cat', 'sat', 'on', 'the', 'mat', '.'])

In [6]:
# BLEUスコアの計算（4-gramまで使う）
bleu_score = nltk_sentence_bleu([reference_tokens], candidate_tokens, weights=(0.25, 0.25, 0.25, 0.25))

print("🔵 BLEUスコア:", bleu_score)

🔵 BLEUスコア: 0.488923022434901


#### BLEUスコアの目安（ざっくり）

スコア   | 評価の目安  
1.0      | 完全に一致  
0.6〜0.8 | ほぼ正解  
0.3〜0.5 | 部分的に一致  
0.0〜0.2 | ほぼ不一致  

### 簡易関数

In [7]:
def nltk_sentence_bleu2(references, candidate):
    # 簡易BLEUスコア（完全一致/部分一致）
    ref_words = set(references[0])
    cand_words = set(candidate)
    common_words = ref_words.intersection(cand_words)
    precision = len(common_words) / len(cand_words) if cand_words else 0
    recall = len(common_words) / len(ref_words) if ref_words else 0
    f1 = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0
    return f1

In [8]:
reference = "The cat is on the mat."
candidate = "The cat sat on the mat."
ref_words = set(reference)
cand_words = set(candidate)
ref_words,len(ref_words),cand_words,len(cand_words)

({' ', '.', 'T', 'a', 'c', 'e', 'h', 'i', 'm', 'n', 'o', 's', 't'},
 13,
 {' ', '.', 'T', 'a', 'c', 'e', 'h', 'm', 'n', 'o', 's', 't'},
 12)

In [9]:
common_words = ref_words.intersection(cand_words)
common_words,len(common_words)

({' ', '.', 'T', 'a', 'c', 'e', 'h', 'm', 'n', 'o', 's', 't'}, 12)

In [10]:
ref_words.difference(cand_words)

{'i'}

precision（精度） = 回答に含まれる単語のうち、正解にある割合  
→「どれだけ余計なこと言ってないか」  

recall（再現率） = 正解に含まれる単語のうち、回答に入ってた割合  
→「必要なことをどれだけ言えているか」  

In [11]:
precision = len(common_words) / len(cand_words)
recall = len(common_words) / len(ref_words)
precision,recall

(1.0, 0.9230769230769231)

In [12]:
f1 = 2 * (precision * recall) / (precision + recall)
f1


0.9600000000000001

### 単語数のカウント

In [13]:
!pip install janome

Collecting janome
  Downloading Janome-0.5.0-py2.py3-none-any.whl.metadata (2.6 kB)
Downloading Janome-0.5.0-py2.py3-none-any.whl (19.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.7/19.7 MB[0m [31m92.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: janome
Successfully installed janome-0.5.0


In [14]:
from janome.tokenizer import Tokenizer

In [15]:
tokenizer = Tokenizer()

In [16]:
reference = "吾輩は猫である"
for token in tokenizer.tokenize(reference):
    print(token)

吾輩	名詞,代名詞,一般,*,*,*,吾輩,ワガハイ,ワガハイ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
猫	名詞,一般,*,*,*,*,猫,ネコ,ネコ
で	助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ
ある	助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル


In [17]:
tokens = list(tokenizer.tokenize(reference))
len(tokens)

5

### 類似度の計算

TF-IDF という方法を使って、

単語の重要さ（よく出るけど全体ではめずらしい単語）を数字にしてくれる「変換器（ベクトライザー）」を作っています。

In [18]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()

In [19]:
answer_lower = "The cat is on the mat."
correct_answer_lower = "The cat sat on the mat."

tfidf_matrix = vectorizer.fit_transform([answer_lower, correct_answer_lower])
print(tfidf_matrix,tfidf_matrix.shape)

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 10 stored elements and shape (2, 6)>
  Coords	Values
  (0, 5)	0.6675821723880022
  (0, 0)	0.3337910861940011
  (0, 1)	0.4691317250431934
  (0, 3)	0.3337910861940011
  (0, 2)	0.3337910861940011
  (1, 5)	0.6675821723880022
  (1, 0)	0.3337910861940011
  (1, 3)	0.3337910861940011
  (1, 2)	0.3337910861940011
  (1, 4)	0.4691317250431934 (2, 6)


In [20]:
tfidf_matrix[0:1],tfidf_matrix[1:2]

(<Compressed Sparse Row sparse matrix of dtype 'float64'
 	with 5 stored elements and shape (1, 6)>,
 <Compressed Sparse Row sparse matrix of dtype 'float64'
 	with 5 stored elements and shape (1, 6)>)

In [21]:
from sklearn.metrics.pairwise import cosine_similarity
similarity_matrix = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix[1:2])
similarity_matrix

array([[0.77991542]])

## Database

In [22]:
import sqlite3

In [23]:
with sqlite3.connect("test.db") as conn:
    c = conn.cursor()
    c.execute(
        """
        CREATE TABLE IF NOT EXISTS test_table(
            id INTEGER PRIMARY KEY AUTOINCREMENT,
            name TEXT,
            age INTEGER)
        """
        )

    c.execute("INSERT INTO test_table (name,age) VALUES ('niikun',58)")
    c.execute("INSERT INTO test_table (name,age) VALUES ('sankun',59)")
    c.execute("INSERT INTO test_table (name,age) VALUES ('yonkun',60)")
    conn.commit()

    c.execute("SELECT * FROM test_table")

    for row in c.fetchall():
        print(row)

(1, 'niikun', 58)
(2, 'sankun', 59)
(3, 'yonkun', 60)


## LLM

In [24]:
!pip install streamlit transformers

Collecting streamlit
  Downloading streamlit-1.44.1-py3-none-any.whl.metadata (8.9 kB)
Collecting watchdog<7,>=2.1.5 (from streamlit)
  Downloading watchdog-6.0.0-py3-none-manylinux2014_x86_64.whl.metadata (44 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.3/44.3 kB[0m [31m3.3 MB/s[0m eta [36m0:00:00[0m
Collecting pydeck<1,>=0.8.0b4 (from streamlit)
  Downloading pydeck-0.9.1-py2.py3-none-any.whl.metadata (4.1 kB)
Downloading streamlit-1.44.1-py3-none-any.whl (9.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.8/9.8 MB[0m [31m140.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pydeck-0.9.1-py2.py3-none-any.whl (6.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.9/6.9 MB[0m [31m136.8 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading watchdog-6.0.0-py3-none-manylinux2014_x86_64.whl (79 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.1/79.1 kB[0m [31m7.4 MB/s[0m eta [36m0:00:00[0m
[?25hIn

In [25]:
import os
import torch
from transformers import pipeline
import streamlit as st
import time
from huggingface_hub import login

In [26]:
MODEL_NAME = "google/gemma-2-2b-jpn-it"

In [27]:
device = "cuda" if torch.cuda.is_available() else "cpu"
pipe = pipeline(
            "text-generation",
            model=MODEL_NAME,
            model_kwargs={"torch_dtype":torch.bfloat16},
            device=device)

config.json:   0%|          | 0.00/805 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/24.2k [00:00<?, ?B/s]

Fetching 2 files:   0%|          | 0/2 [00:00<?, ?it/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/241M [00:00<?, ?B/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.99G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/168 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/46.9k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/4.24M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.5M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/555 [00:00<?, ?B/s]

Device set to use cuda


In [30]:
messages = [
    {"role":"user","content":"LLMとはなにですか？"}
]
outputs = pipe(messages,max_new_tokens=512,do_sample=True,temperature=0.7,top_p=0.9)

print(outputs)

[{'generated_text': [{'role': 'user', 'content': 'LLMとはなにですか？'}, {'role': 'assistant', 'content': 'LLM（Large Language Model）とは、**大量のテキストデータから学習した、人間のような文章を生成・理解する AI モデル**です。\n\n簡単に言うと、**大量のテキスト資料を学習することで、自然な文章を生成したり、質問に答えたり、翻訳したり、文章の要約したり、様々なタスクを実行できる**ことを意味します。\n\n**具体的には:**\n\n* **文章生成:** 小説、詩、記事など、様々な種類の文章を生成できます。\n* **翻訳:** 多言語での翻訳が可能。\n* **質問応答:**  質問に対して、適切な答えを返すことができます。\n* **要約:** 長い文章を要約して、重要なポイントを抽出できます。\n* **コード生成:**  プログラミング言語のコードを生成できます。\n\n\n**有名なLLM例:**\n\n* **GPT-3 (Generative Pre-trained Transformer 3):** OpenAIによって開発された、非常に高度なLLMです。\n* **LaMDA (Language Model for Dialogue Applications):** Googleによって開発された、対話型のLLMです。\n* **BERT (Bidirectional Encoder Representations from Transformers):** Googleによって開発された、文章理解に特化したLLMです。\n\n\n\nLLMは、様々な分野で応用が期待されています。\n \n\n\n'}]}]


In [35]:
if outputs and isinstance(outputs,list) and outputs[0].get("generated_text"):
    print(outputs[0]["generated_text"][-1].get("content","").strip())

LLM（Large Language Model）とは、**大量のテキストデータから学習した、人間のような文章を生成・理解する AI モデル**です。

簡単に言うと、**大量のテキスト資料を学習することで、自然な文章を生成したり、質問に答えたり、翻訳したり、文章の要約したり、様々なタスクを実行できる**ことを意味します。

**具体的には:**

* **文章生成:** 小説、詩、記事など、様々な種類の文章を生成できます。
* **翻訳:** 多言語での翻訳が可能。
* **質問応答:**  質問に対して、適切な答えを返すことができます。
* **要約:** 長い文章を要約して、重要なポイントを抽出できます。
* **コード生成:**  プログラミング言語のコードを生成できます。


**有名なLLM例:**

* **GPT-3 (Generative Pre-trained Transformer 3):** OpenAIによって開発された、非常に高度なLLMです。
* **LaMDA (Language Model for Dialogue Applications):** Googleによって開発された、対話型のLLMです。
* **BERT (Bidirectional Encoder Representations from Transformers):** Googleによって開発された、文章理解に特化したLLMです。



LLMは、様々な分野で応用が期待されています。
