# LLM基礎実習: 最初のLLM体験

このノートブックでは、LLMの基本的な使い方を学びます。

## 学習目標
- 簡単なLLMモデルを読み込んで使用する
- プロンプトエンジニアリングの基礎を理解する
- テキスト生成の基本的な仕組みを体験する


In [None]:
# 必要なライブラリのインポート
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
import warnings
warnings.filterwarnings('ignore')

print("PyTorch version:", torch.__version__)
print("CUDA available:", torch.cuda.is_available())


## 1. 簡単なLLMモデルの読み込み

まずは、比較的軽量なGPT-2モデルを使ってみましょう。


In [None]:
# モデルとトークナイザーの読み込み
model_name = "gpt2"  # 軽量なGPT-2モデル

print(f"Loading {model_name}...")
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# パディングトークンを設定
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

print("Model loaded successfully!")
print(f"Model parameters: {model.num_parameters():,}")


## 2. 基本的なテキスト生成

シンプルなプロンプトからテキストを生成してみましょう。


In [None]:
def generate_text(prompt, max_length=100, temperature=0.7):
    """
    テキストを生成する関数
    
    Args:
        prompt (str): 入力プロンプト
        max_length (int): 最大生成長
        temperature (float): 生成のランダム性（0.0-1.0）
    """
    # テキストをトークン化
    inputs = tokenizer.encode(prompt, return_tensors="pt")
    
    # テキスト生成
    with torch.no_grad():
        outputs = model.generate(
            inputs,
            max_length=max_length,
            temperature=temperature,
            do_sample=True,
            pad_token_id=tokenizer.eos_token_id
        )
    
    # 生成されたテキストをデコード
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return generated_text

# テスト用のプロンプト
test_prompts = [
    "The future of artificial intelligence is",
    "Once upon a time, there was a",
    "In the world of machine learning,"
]

print("=== 基本的なテキスト生成 ===")
for i, prompt in enumerate(test_prompts, 1):
    print(f"\n--- プロンプト {i} ---")
    print(f"入力: {prompt}")
    generated = generate_text(prompt, max_length=80)
    print(f"出力: {generated}")
