<a href="https://colab.research.google.com/github/daisuke00001/01tuning/blob/main/notebooks/TinySwallow_Patent_Tuning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## TinySwallow特許データ LoRAファインチューニング専用ノートブック


## 環境とライブラリのセットアップ

In [1]:
# 実行環境の確認とgithubリポジトリのクローン
import os
import subprocess
import sys

In [2]:
# 1. 自動リロード設定（初回のみ）
%load_ext autoreload
%autoreload 2

# 2. 更新があるたびに実行
!git pull origin main

fatal: not a git repository (or any of the parent directories): .git


In [3]:
# GPUの確認
def setup_patent_environment():
    """特許データ学収容Google Colab環境をセットアップ"""
    print("特許データ専用環境をセットアップ中...")

    # GPU確認
    if not os.path.exists('/opt/bin/nvidia-smi'):
       print("GPU環境が検出されません。ランタイムタイプをGPUに変更してください。")
       return False

    # リポジトリクローン
    repo_url = "https://github.com/daisuke00001/01tuning.git"
    if os.path.exists("01tuning"):
        print("📁 リポジトリが既に存在します。最新版に更新中...")
        subprocess.run(["git", "-C", "01tuning", "pull"], check=True)
    else:
        print(f"📁 リポジトリをクローン中: {repo_url}")
        subprocess.run(["git", "clone", repo_url], check=True)

    # 作業ディレクトリに移動
    os.chdir("01tuning")

    # Pythonパスに追加
    if "/content/01tuning/src" not in sys.path:
        sys.path.append("/content/01tuning/src")

    print("✅ 特許データ学習環境セットアップ完了")
    return True

# セットアップ実行
setup_patent_environment()

特許データ専用環境をセットアップ中...
📁 リポジトリが既に存在します。最新版に更新中...
✅ 特許データ学習環境セットアップ完了


True

## ライブラリインストール

In [4]:
# Google Colab専用のライブラリインストール
%%capture
# Unslothとその依存関係
!pip install --no-deps bitsandbytes accelerate xformers==0.0.29.post3 peft trl triton cut_cross_entropy unsloth_zoo
!pip install sentencepiece protobuf "datasets>=3.4.1,<4.0.0" huggingface_hub hf_transfer
!pip install --no-deps unsloth

# ライブラリエラー対応
!pip install xformers
!pip uninstall torchvision -y
!pip install torchvision --no-cache-dir

# 特許データ処理専用ライブラリ
!pip install lxml beautifulsoup4 xmltodict
!pip install nltk rouge-score sacrebleu
!pip install openpyxl

# その他の依存関係
!pip install PyYAML

print("📦 特許データ処理用ライブラリインストール完了")

## 特許専用設定の読み込み

In [5]:
import yaml
from src.config import Config

config_path = "configs/patent_config.yaml"
config = Config.load_from_yaml(config_path)

print("⚙️ 特許データ専用設定を読み込み中...")
print("=" * 50)
print(f"📄 設定ファイル: {config_path}")
print(f"🤖 モデル: {config.model.name}")
print(f"📊 データセット: {config.dataset.name}")
print(f"🔧 最大シーケンス長: {config.model.max_seq_length}")
print(f"📈 最大ステップ数: {config.training.max_steps}")
print(f"⚡ バッチサイズ: {config.training.per_device_train_batch_size}")
print(f"🎯 学習率: {config.training.learning_rate}")
print(f"🔗 LoRAランク: {config.lora.r}")
print(f"📋 対象モジュール: {', '.join(config.lora.target_modules[:3])}...")

print("\n🏭 特許データ固有設定:")
print(f"📄 特許文書最大長: {config.dataset.max_patent_length}")
print(f"📝 実施形態最大長: {config.dataset.max_implementation_length}")
print(f"🧹 参照除去: {config.dataset.remove_references}")
print(f"✨ フォーマット整理: {config.dataset.clean_formatting}")
print(f"📊 評価メトリクス: {', '.join(config.evaluation.metrics)}")

print("\n✅ 特許専用設定読み込み完了")

⚙️ 特許データ専用設定を読み込み中...
📄 設定ファイル: configs/patent_config.yaml
🤖 モデル: SakanaAI/TinySwallow-1.5B-Instruct
📊 データセット: patent_japanese
🔧 最大シーケンス長: 2048
📈 最大ステップ数: 200
⚡ バッチサイズ: 1
🎯 学習率: 3e-05
🔗 LoRAランク: 16
📋 対象モジュール: q_proj, v_proj, k_proj...

🏭 特許データ固有設定:
📄 特許文書最大長: 2048
📝 実施形態最大長: 1024
🧹 参照除去: True
✨ フォーマット整理: True
📊 評価メトリクス: rouge, bleu, patent_implementation_quality

✅ 特許専用設定読み込み完了


## モデルの読み込みとLoRA設定

In [6]:
from src.model_utils import ModelManager
import torch

print("TinySwallow-1.5B モデル読み込み中...")
print("=" * 50)

# モデルマネージャークラスの初期化
model_manager = ModelManager(config)

# メモリ使用量(読み込み前)
initial_memory = model_manager.get_memory_stats()
print(f"💾 最終メモリ使用量: {initial_memory['used']:.2f}GB / {initial_memory['total']:.2f}GB ({initial_memory['percentage']:.1f}%)")

# ベースモデルとトークナイザーの読み込み
model, tokenizer = model_manager.load_model()

# LoRA設定（特許データ専用）
print("\n🔧 特許データ専用LoRA設定を適用中...")
model = model_manager.setup_lora()

# メモリ使用量（読み込み後）
loaded_memory = model_manager.get_memory_stats()
print(f"💾 最終メモリ使用量: {loaded_memory['used']:.2f}GB / {loaded_memory['total']:.2f}GB ({loaded_memory['percentage']:.1f}%)")

# モデル情報の表示
model_info = model_manager.get_model_info()  # ✅ 正しいメソッド
print(f"\n🔍 モデル詳細情報:")
print(f"📊 総パラメータ数: {model_info['total_params']:,}")
print(f"🔧 学習可能パラメータ数: {model_info['trainable_params']:,}")
print(f"📈 学習可能パラメータ割合: {model_info['trainable_percentage']:.2f}%")

print("\n✅ TinySwallow-1.5B + 特許専用LoRA設定完了")

TinySwallow-1.5B モデル読み込み中...
💾 最終メモリ使用量: 0.00GB / 14.74GB (0.0%)
🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.


    PyTorch 2.6.0+cu124 with CUDA 1204 (you have 2.7.1+cu126)
    Python  3.11.11 (you have 3.11.13)
  Please reinstall xformers (see https://github.com/facebookresearch/xformers#installing-xformers)
  Memory-efficient attention, SwiGLU, sparse and more won't be available.
  Set XFORMERS_MORE_DETAILS=1 for more details


🦥 Unsloth Zoo will now patch everything to make training faster!
==((====))==  Unsloth 2025.7.11: Fast Qwen2 patching. Transformers: 4.54.0.
   \\   /|    Tesla T4. Num GPUs = 1. Max memory: 14.741 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.7.1+cu126. CUDA: 7.5. CUDA Toolkit: 12.6. Triton: 3.3.1
\        /    Bfloat16 = FALSE. FA [Xformers = None. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


Unsloth: Dropout = 0 is supported for fast patching. You are using dropout = 0.1.
Unsloth will patch all other layers, except LoRA matrices, causing a performance hit.



🔧 特許データ専用LoRA設定を適用中...


Unsloth 2025.7.11 patched 28 layers with 0 QKV layers, 0 O layers and 0 MLP layers.


💾 最終メモリ使用量: 1.57GB / 14.74GB (10.6%)

🔍 モデル詳細情報:
📊 総パラメータ数: 907,081,216
🔧 学習可能パラメータ数: 18,464,768
📈 学習可能パラメータ割合: 2.04%

✅ TinySwallow-1.5B + 特許専用LoRA設定完了


## データの準備

In [7]:
from datasets import Dataset
import json
import os
import shutil
from google.colab import drive

print("特許データセットを準備中...")
print("=" * 50)

# Google Drive連携
print("💾 Google Driveをマウント中...")
drive.mount('/content/drive')
print("✅ Google Driveマウント成功")

# Google Drive内の前処理済みデータパス
drive_processed_dir = "/content/drive/MyDrive/0731PatentData/processed"
local_processed_dir = "/content/01tuning/data/processed"

# ローカルのprocessedディレクトリを作成
os.makedirs(local_processed_dir, exist_ok=True)

if os.path.exists(drive_processed_dir):
    print(f"📁 Google Drive内の前処理済みデータを確認中...")

    # 利用可能なファイルをチェック
    available_files = []
    target_files = [
        "chatml_training.json",
        "complete_dataset.json",
        "training_dataset.json",
        "dataset_stats.json"
    ]

    for filename in target_files:
        drive_file_path = os.path.join(drive_processed_dir, filename)
        if os.path.exists(drive_file_path):
            available_files.append(filename)
            print(f"  ✅ {filename} ({os.path.getsize(drive_file_path)/1024/1024:.1f}MB)")

    if available_files:
        # ChatML形式データを優先的に使用
        if "chatml_training.json" in available_files:
            target_file = "chatml_training.json"
        else:
            target_file = available_files[0]

        print(f"\n🔄 {target_file} をローカルにコピー中...")
        drive_file_path = os.path.join(drive_processed_dir, target_file)
        local_file_path = os.path.join(local_processed_dir, target_file)

        # ファイルをコピー
        shutil.copy2(drive_file_path, local_file_path)
        print(f"✅ コピー完了: {local_file_path}")

        # データセットを読み込み（形式に応じて分岐）
        print(f"\n📂 {target_file} からデータセットを読み込み中...")

        try:
            with open(local_file_path, 'r', encoding='utf-8') as f:
                # まず全体をJSONとして読み込み
                patent_data = json.load(f)

                # リストでない場合はリストに変換
                if not isinstance(patent_data, list):
                    patent_data = [patent_data]

                print(f"📊 読み込み完了（JSON配列形式）:")

        except json.JSONDecodeError:
            # JSON配列形式で失敗した場合、JSONL形式を試行
            print("🔄 JSONL形式として再試行...")
            with open(local_file_path, 'r', encoding='utf-8') as f:
                patent_data = []
                for line_num, line in enumerate(f, 1):
                    line = line.strip()
                    if line:  # 空行をスキップ
                        try:
                            patent_data.append(json.loads(line))
                        except json.JSONDecodeError as e:
                            print(f"⚠️ 行 {line_num} でJSONエラー: {e}")
                            continue

                print(f"📊 読み込み完了（JSONL形式）:")

        print(f"  📄 総サンプル数: {len(patent_data):,}")

        if len(patent_data) > 0:
            # 最初のサンプルの構造を確認
            sample = patent_data[0]
            print(f"  📋 データ構造: {list(sample.keys())}")

            # ChatML形式の場合はテキスト統計を計算
            if 'messages' in sample:
                print(f"  🎯 データ形式: ChatML (messages形式)")
                # messagesを単一テキストに変換してテキスト長を計算
                total_chars = 0
                for item in patent_data[:100]:  # 最初の100件でサンプル計算
                    if 'messages' in item:
                        text_length = sum(len(msg.get('content', '')) for msg in item['messages'])
                        total_chars += text_length
                avg_length = total_chars / min(len(patent_data), 100)
                print(f"  📝 平均メッセージ長: {avg_length:.0f} 文字")

            elif 'text' in sample:
                print(f"  🎯 データ形式: 単一テキスト形式")
                avg_length = sum(len(item.get('text', '')) for item in patent_data[:100]) / min(len(patent_data), 100)
                print(f"  📝 平均テキスト長: {avg_length:.0f} 文字")

        # データセット統計情報も読み込み（存在する場合）
        stats_file = "dataset_stats.json"
        if stats_file in available_files:
            stats_drive_path = os.path.join(drive_processed_dir, stats_file)
            stats_local_path = os.path.join(local_processed_dir, stats_file)
            shutil.copy2(stats_drive_path, stats_local_path)

            with open(stats_local_path, 'r', encoding='utf-8') as f:
                stats = json.load(f)

        # 数値フォーマットの安全な適用
        total_patents = stats.get('total_patents', 'N/A')
        total_claims = stats.get('total_claims', 'N/A')
        total_sentences = stats.get('total_sentences', 'N/A')

        print(f"  🏛️ 特許数: {total_patents:,}" if isinstance(total_patents, (int, float)) else f"  🏛️ 特許数: {total_patents}")
        print(f"  📋 請求項数: {total_claims:,}" if isinstance(total_claims, (int, float)) else f"  📋 請求項数: {total_claims}")
        print(f"  📄 総文数: {total_sentences:,}" if isinstance(total_sentences, (int, float)) else f"  📄 総文数: {total_sentences}")

        # Hugging Face Dataset形式に変換
        dataset = Dataset.from_list(patent_data)
        print(f"\n🎯 Hugging Face Dataset形式に変換完了")
        print(f"  Dataset({len(dataset)} rows)")

        # サンプルデータの表示
        print(f"\n📋 サンプルデータ（最初の1件）:")
        if len(dataset) > 0:
            sample = dataset[0]
            if 'messages' in sample:
                print(f"  形式: ChatML (messages: {len(sample['messages'])} 件)")
                for i, msg in enumerate(sample['messages'][:2]):  # 最初の2メッセージを表示
                    content_preview = msg.get('content', '')[:200] + "..." if len(msg.get('content', '')) > 200 else msg.get('content', '')
                    print(f"    {i+1}. {msg.get('role', 'unknown')}: {content_preview}")
            elif 'text' in sample:
                text_preview = sample['text'][:300] + "..." if len(sample['text']) > 300 else sample['text']
                print(f"  テキスト: {text_preview}")

    else:
        print("❌ 利用可能な前処理済みファイルが見つかりませんでした")
        dataset = None
else:
    print(f"❌ Google Drive内に前処理済みデータが見つかりません: {drive_processed_dir}")
    print("📁 以下のディレクトリ構造でアップロードしてください:")
    print("   Google Drive/PatentData/processed/")
    print("     ├── chatml_training.json")
    print("     ├── complete_dataset.json")
    print("     └── dataset_stats.json")
    dataset = None

if dataset is not None:
    print("\n✅ 特許データセット準備完了！")
else:
    print("\n⚠️ データセットの準備に失敗しました。Google Driveの設定を確認してください。")

特許データセットを準備中...
💾 Google Driveをマウント中...
Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
✅ Google Driveマウント成功
📁 Google Drive内の前処理済みデータを確認中...
  ✅ chatml_training.json (45.1MB)
  ✅ complete_dataset.json (123.4MB)
  ✅ training_dataset.json (38.9MB)
  ✅ dataset_stats.json (0.0MB)

🔄 chatml_training.json をローカルにコピー中...
✅ コピー完了: /content/01tuning/data/processed/chatml_training.json

📂 chatml_training.json からデータセットを読み込み中...
📊 読み込み完了（JSON配列形式）:
  📄 総サンプル数: 420
  📋 データ構造: ['messages', 'metadata']
  🎯 データ形式: ChatML (messages形式)
  📝 平均メッセージ長: 60278 文字
  🏛️ 特許数: N/A
  📋 請求項数: N/A
  📄 総文数: N/A

🎯 Hugging Face Dataset形式に変換完了
  Dataset(420 rows)

📋 サンプルデータ（最初の1件）:
  形式: ChatML (messages: 3 件)
    1. system: あなたは特許文書の専門家です。与えられた特許請求の範囲に基づいて、その発明を実施するための具体的な形態を詳しく説明してください。
    2. user: 以下の特許請求の範囲に基づいて、発明を実施するための形態を説明してください：

【請求項1】
精神障害であると診断された患者を含む学習用動画を教師データとして学習させた精神障害学習モデルを記憶させる記憶部と、 分析対象者の日常会話に係る分析対象動画を取得する取得部と、 前記分析対

## トレーニングの準備と実行

In [8]:
from src.training_utils import TrainingManager
import time

print("🚀 特許データ専用トレーニング開始...")
print("=" * 60)
print(f"  📄 データセット: 特許文書 ({len(dataset):,}件)")
print(f"  🤖 モデル: {config.model.name}")
print(f"  📈 ステップ数: {config.training.max_steps}")
print(f"  ⚡ バッチサイズ: {config.training.per_device_train_batch_size}")
print(f"  🎯 学習率: {config.training.learning_rate}")
print(f"  🔗 LoRAランク: {config.lora.r}")
print(f"  📏 最大シーケンス長: {config.model.max_seq_length}")
print("=" * 60)

# トレーニングマネージャークラスの初期化
training_manager = TrainingManager(config)

# トレーナーの作成
trainer = training_manager.create_trainer(model, tokenizer, dataset)

# トレーニング開始時刻を記録
start_time = time.time()

# トレーニング実行
print("\n特許データ学習を開始します...")
training_stats = training_manager.train()

# 実行時間の計算
end_time = time.time()
training_time = end_time - start_time

print(f"\n✅ 特許データ専用トレーニング完了!")
print(f"実行時間: {training_time/60:.1f}分")

🚀 特許データ専用トレーニング開始...
  📄 データセット: 特許文書 (420件)
  🤖 モデル: SakanaAI/TinySwallow-1.5B-Instruct
  📈 ステップ数: 200
  ⚡ バッチサイズ: 1
  🎯 学習率: 3e-05
  🔗 LoRAランク: 16
  📏 最大シーケンス長: 2048


Unsloth: Tokenizing ["text"] (num_proc=2):   0%|          | 0/420 [00:00<?, ? examples/s]

ERROR:src.training_utils:✖トレーナー設定エラー: Column 2 named input_ids expected length 210 but got length 1


ArrowInvalid: Column 2 named input_ids expected length 210 but got length 1

## トレーニング結果を確認

In [None]:
# トレーニング結果とメモリ使用量を確認

summary = training_manager.get_training_summary()
final_memory = model_manager.get_memory_stats()

print(f"\n📊 特許データ学習結果:")
print("-" * 40)
print(f"📈 最終Loss: {summary['train_loss']:.4f}")
print(f"⏱️ 実行時間: {summary['train_runtime_minutes']:.1f}分")
print(f"🚀 1秒あたりサンプル数: {summary['train_samples_per_second']:.2f}")
print(f"💾 最終メモリ使用量: {final_memory['used']:.2f}GB / {final_memory['total']:.2f}GB ({final_memory['percentage']:.1f}%)")

print("\n🎉 特許データ専用LoRAチューニング成功！")

## 推論テスト

In [None]:
from src.inference_utils import InferenceManager

print("🧪 特許実施形態生成テスト開始...")
print("=" * 60)

# 推論マネージャークラスの初期化
inference_manager = InferenceManager(model, tokenizer)

# テスト用サンプル
test_cases = [
    {
        "name": "化学合成方法",
        "claims": "【請求項１】化合物Aと化合物Bとを触媒Cの存在下で反応させることにより化合物Dを製造する方法であって、反応温度が８０℃～１２０℃であることを特徴とする製造方法。",
        "context": ""
    },
    {
        "name": "半導体デバイス",
        "claims": "【請求項１】基板と、該基板上に形成された第１の半導体層と、該第１の半導体層上に形成された絶縁層と、該絶縁層上に形成された第２の半導体層とを有する半導体装置。",
        "context": ""
    },
    {
        "name": "電池システム",
        "claims": "【請求項１】正極と負極との間に電解質層を有する電池セルと、該電池セルの温度を検出する温度センサと、該温度センサの出力に基づいて電池セルの充放電を制御する制御回路とを備える電池システム。",
        "context": ""
    }
]

# 各テストケースで実施形態生成をテスト
for i, test_case in enumerate(test_cases, 1):
    print(f"\n テスト{i}: {test_case['name']}")
    print("-" * 50)

    # プロンプト作成
    instruction = f"以下の特許請求項から「発明を実施するための形態」を生成してください。\n\n### 特許請求項:\n{test_case['claims']}\n\n### 発明を実施するための形態:"

    # 推論実行
    response = inference_manager.test_alpaca_format(
        instruction=instruction,
        input_text=test_case['context']
    )

    # 結果から実施形態部分を抽出
    if "### Response:" in response:
        implementation = response.split("### Response:")[-1].strip()
    else:
        implementation = response.strip()

    print(f" 入力事項:")
    print(f" {test_case['claims'][:100]}...")

    print(f"\n 生成された実施形態:")
    if len(implementation) > 300:
       print(f"  {implementation[:300]}...")
    else:
       print(f"  {implementation}")

    print(f"\n📊 生成統計:")
    print(f"  文字数: {len(implementation):,}文字")
    print(f"  トークン数: {len(tokenizer.encode(implementation)):,}")

print("\n✅ 特許実施形態生成テスト完了")
print("\n💡 ポイント:")
print("• 生成された実施形態は技術的に詳細で具体的な内容になっているか")
print("• 請求項の技術内容を適切に展開できているか")
print("• 特許文書の形式（段落番号等）に従っているか")

## 特許専用評価メトリクス

In [None]:
from sklearn.metrics import accuracy_score, precision_recall_fscore_support
from rouge_score import rouge_scorer
from sacrebleu import sentence_bleu
import numpy as np
import re

print("📊 特許専用評価メトリクス実行中...")
print("=" * 50)

def evaluate_patent_implementation_quality(generated_text, reference_text=None):
    """特許実施形態の品質評価"""

    scores = {}

    # 1. 構造的評価：段落番号の存在
    paragraph_pattern = r'【\d{4}】'
    paragraph_matches = re.findall(paragraph_pattern, generated_text)
    scores['paragraph_structure'] = len(paragraph_matches) > 0
    scores['paragraph_count'] = len(paragraph_matches)

    # 2. 技術的詳細度: 数値や具体的な値の存在
    technical_patterns = [
        r'\d+\.\d+[μmn]*[mMA]',  # 寸法（例：1.5μm）
        r'\d+℃',                 # 温度（例：100℃）
        r'\d+～\d+',             # 範囲（例：50～100）
        r'約\d+',                # 概数（例：約500）
    ]

    technical_details = 0
    for pattern in technical_patterns:
        technical_details += len(re.findall(pattern, generated_text))

    scores['technical_detail_count'] = technical_details
    scores['has_technical_details'] = technical_details > 0

    # 3. 特許用語の適切性
    patent_terms = [
        '実施形態', '好ましくは', '特徴', '構成', '形成',
        '含む', '有する', '設ける', '配置', '接続'
    ]

    patent_term_count = sum(1 for term in patent_terms if term in generated_text)
    scores['patent_terminology'] = patent_term_count / len(patent_terms)

    # 4. 文字数・トークン数
    scores['character_count'] = len(generated_text)
    scores['token_count'] = len(tokenizer.encode(generated_text))

    # 5. ROUGE評価（参照テキストがある場合）
    if reference_text:
        scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=False)
        rouge_scores = scorer.score(reference_text, generated_text)

        scores['rouge1_f'] = rouge_scores['rouge1'].fmeasure
        scores['rouge2_f'] = rouge_scores['rouge2'].fmeasure
        scores['rougeL_f'] = rouge_scores['rougeL'].fmeasure

    return scores

In [None]:
# テストケースで評価を実行
print("\n🔍 生成された実施形態の品質評価:")
print("-" * 40)

# 先ほどのテスト結果を使用（実際には最後のテストケースの結果を使用）
test_implementation = """【０００８】本発明の電池システムについて、図面を参照して詳細に説明する。

【０００９】図１に示すように、本実施形態の電池システム１０は、電池セル１１、温度センサ１２、および制御回路１３を備えている。電池セル１１は、正極１１ａと負極１１ｂとの間に電解質層１１ｃを有している。

【００１０】温度センサ１２は、電池セル１１の表面に配置されており、電池セル１１の温度を連続的に検出する。温度センサ１２としては、サーミスタやＲＴＤ（抵抗温度検出器）を用いることができる。

【００１１】制御回路１３は、温度センサ１２の出力信号を受信し、電池セル１１の温度が所定の範囲（例えば０℃～６０℃）内にあるかを判定する。温度が範囲外の場合、制御回路１３は充放電を停止または制限する。"""

# 評価実行
quality_scores = evaluate_patent_implementation_quality(test_implementation)

print(f"📋 構造的評価:")
print(f"  ✅ 段落構造: {'有' if quality_scores['paragraph_structure'] else '無'}")
print(f"  📄 段落数: {quality_scores['paragraph_count']}個")

print(f"\n🔬 技術的詳細度:")
print(f"  ✅ 技術的詳細: {'有' if quality_scores['has_technical_details'] else '無'}")
print(f"  📊 技術詳細数: {quality_scores['technical_detail_count']}個")

print(f"\n📝 特許用語適切性:")
print(f"  📋 用語スコア: {quality_scores['patent_terminology']:.2f}")

print(f"\n📏 文章統計:")
print(f"  📄 文字数: {quality_scores['character_count']:,}文字")
print(f"  🔤 トークン数: {quality_scores['token_count']:,}")

# 総合評価スコアの算出
overall_score = (
    (1.0 if quality_scores['paragraph_structure'] else 0.0) * 0.3 +
    (1.0 if quality_scores['has_technical_details'] else 0.0) * 0.3 +
    quality_scores['patent_terminology'] * 0.2 +
    (1.0 if 200 <= quality_scores['character_count'] <= 2000 else 0.5) * 0.2
)

print(f"\n🎯 総合品質スコア: {overall_score:.2f}/1.0")

if overall_score >= 0.8:
    print("🌟 優秀: 高品質な特許実施形態が生成されています")
elif overall_score >= 0.6:
    print("👍 良好: 適切な品質の実施形態が生成されています")
elif overall_score >= 0.4:
    print("⚠️ 改善余地: いくつかの改善点があります")
else:
    print("🔧 要改善: より多くの学習が必要です")

print("\n✅ 特許専用評価メトリクス完了")


## 特許専用モデルの保存

In [None]:

import os
from datetime import datetime

print("💾 特許専用モデルを保存中...")
print("=" * 50)

# 保存先ディレクトリの作成
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
save_path = f"models/TinySwallow_Patent_LoRA_{timestamp}"
os.makedirs(save_path, exist_ok=True)

print(f"📁 保存先: {save_path}")

# LoRAモデルの保存
print("🔧 LoRAアダプタを保存中...")
model_manager.save_model(save_path)

# 設定ファイルも一緒に保存
config.save_yaml(f"{save_path}/patent_config.yaml")

# トレーニング統計の保存
training_summary = training_manager.get_training_summary()
training_summary['model_info'] = model_manager.get_model_info()
training_summary['evaluation_scores'] = quality_scores

import json
with open(f"{save_path}/training_summary.json", "w", encoding="utf-8") as f:
    json.dump(training_summary, f, ensure_ascii=False, indent=2)

print("✅ 特許専用LoRAモデル保存完了")
print(f"📁 保存先: {save_path}/")

In [None]:
# 保存したモデルのテスト読み込み
print("\n🔄 保存した特許モデルの読み込みテスト...")

# 新しい設定でモデル読み込み
test_config = Config.load_from_yaml(f"{save_path}/patent_config.yaml")
test_model_manager = ModelManager(test_config)

# 保存したモデルを読み込み
test_model, test_tokenizer = test_model_manager.load_model()

# 簡単な推論テスト
test_inference = InferenceManager(test_model, test_tokenizer)

test_claims = "【請求項１】炭素材料と金属材料とを複合化してなる複合材料であって、該複合材料の強度が従来材料の２倍以上であることを特徴とする複合材料。"
test_instruction = f"以下の特許請求項から「発明を実施するための形態」を生成してください。\n\n### 特許請求項:\n{test_claims}\n\n### 発明を実施するための形態:"

test_response = test_inference.test_alpaca_format(
    test_instruction,
    ""
)

print("📤 特許モデル読み込みテスト結果:")
print("-" * 50)
if "### Response:" in test_response:
    response_part = test_response.split("### Response:")[-1].strip()
    print(response_part[:200] + "..." if len(response_part) > 200 else response_part)
else:
    print(test_response[:200] + "..." if len(test_response) > 200 else test_response)

print("\n✅ 特許専用モデル読み込みテスト成功！")


In [None]:
# ===== セル10: 完了とサマリー =====
# 特許専用プロジェクト完了のサマリーを表示
print("\n🎉 TinySwallow-1.5B 特許専用LoRAチューニングプロジェクト完了！")
print("\n" + "=" * 70)
print("📋 特許学習実行サマリー:")
print("=" * 70)
print(f"🤖 モデル: {config.model.name}")
print(f"📄 データセット: 特許文書データ ({len(dataset):,}件)")
print(f"🚀 トレーニング: {config.training.max_steps}ステップ完了")
print(f"⏱️ 実行時間: {summary['train_runtime_minutes']:.1f} 分")
print(f"📈 最終Loss: {summary['train_loss']:.4f}")
print(f"💾 モデル保存先: {save_path}/")
print(f"🎯 品質スコア: {overall_score:.2f}/1.0")

print(f"\n🏭 特許データ特化機能:")
print("✅ 請求項→実施形態生成タスク")
print("✅ 特許文書フォーマット対応")
print("✅ 技術的詳細記述能力")
print("✅ 段落構造化生成")
print("✅ 特許用語適切使用")

print(f"\n🚀 次のステップ（特許データ応用）:")
print("1. より多くの特許データでの追加学習 (max_steps=500+)")
print("2. 技術分野別の専門モデル作成（化学・機械・電気等）")
print("3. 特許クレーム分析機能の追加")
print("4. 先行技術調査支援機能の開発")
print("5. 特許文書自動生成システムの構築")

print(f"\n📚 特許AI関連リソース:")
print("- TinySwallow: https://huggingface.co/SakanaAI/TinySwallow-1.5B-instruct")
print("- 特許データ処理: 01tuning/src/patent_processing/")
print("- 特許評価メトリクス: ROUGE + 特許専用指標")
print("- プロジェクト: https://github.com/daisuke00001/01tuning")

print(f"\n💡 特許AI開発のコツ:")
print("- 技術分野ごとのデータ収集が重要")
print("- 特許文書の構造的特徴を活用")
print("- 法的表現と技術的表現のバランス")
print("- 先行技術との差別化ポイントの明確化")

print(f"\n🏆 特許AIの応用可能性:")
print("📋 特許出願支援システム")
print("🔍 先行技術調査の自動化")
print("📊 特許ポートフォリオ分析")
print("⚖️ 特許侵害リスク評価")
print("🔬 技術動向分析レポート")

print("\n🎯 Happy Patent AI Development! 🎯")
print("\n💼 特許分野でのAI活用により、知的財産業務の効率化と品質向上を実現しましょう！")