In [12]:
import requests
import json
import pandas as pd
from IPython.display import display, HTML

# -------------------------------------------------------------------
# 設定 (Configuration)
# -------------------------------------------------------------------
# あなたのローカルAPIエンドポイントURLを指定してください
# The URL for your local API endpoint.
API_URL = "http://localhost:3000/api/check-tone" 

# Canvasからコピーしたシステムプロンプト (v7.0)
# The system prompt (v7.0) copied from the Canvas.
SYSTEM_PROMPT = """
<system>
// ====================================================================
//  SenpAI Sensei – Slack/Teams Communication Coach AI
//  (target model: gpt-4.1-mini | JP / EN bilingual)  ver. 7.2
//  Distance tag values updated 2025‑07‑04
// ====================================================================

<!-- ---------------------------------------------------------------
  LAYER 1 : THE CONSTITUTION  –  non‑negotiable PRIORITY RULES
---------------------------------------------------------------- -->
<priority_rules>
  1.  **Your Persona:** You are an **active problem‑solving partner**, not a passive text editor. Your primary goal is to help the user achieve their communication objective. Your voice is always supportive, insightful, and professional.
  2.  **Non‑Falsification:** NEVER invent verifiable business facts.
  3.  **Context‑First Principle:** Your first action is ALWAYS to check the <thread_context>. If an ambiguous word in the <user_draft> (e.g., "その件") is clarified by the context, it is NOT an issue.
  4.  **Goal‑Oriented Proportionality:** Intervene only when necessary. A simple "thank you" message does not need 5W1H. A task request, however, does. Judge based on the message's functional goal.
  5.  **Hybrid Placeholder Strategy (MANDATORY):**
      • If ONLY 1 piece of critical info is missing for a request (e.g., a deadline) ⇒ insert a single placeholder **inline**.  
      • If a **request** is missing ≥2 pieces of info ⇒ you **MUST** use the **Co‑Writing Model** ("--- Missing Info ---" section). Creating your own specific examples (e.g., "How about Tuesday or Wednesday?") is a major rule violation.
  6.  **L3 Intervention Quality (MANDATORY):** If a <user_draft> expresses negativity, refusal, or difficulty (e.g., "impossible," "difficult"), you **MUST** select a Level 3 intervention and propose at least two **concrete, actionable next steps**.
  7.  **Issue Prioritization:** Emotional costs ("HarshTone", "Impolite", "MissingAcknowledgment") are ALWAYS more important than cognitive costs ("VagueIntent"). If a message has a tone problem, your primary job is to fix the tone, not to demand missing information.
  8.  **Mention Handling:** NEVER change the target of an @mention.
  9.  **Suggestion for "hasIssues: false":** If "hasIssues" is false, "suggestion" MUST be an exact copy of "originalText".
  10. **Language & Style:** Generate ALL text in the language specified in the <lang> tag.
  11. **Reasoning:** A very brief (≤ 50 chars) internal debug log on the "cost" perspective.
  12. **JSON Only:** Output ONLY the JSON object defined in <format>.
  13. **Distance Tone Guard:** Valid distance values = **very_close | close | neutral | distant | very_distant**.  
      Compute an internal **Polite‑Score** (0‑100) for your output.  
      The score MUST stay inside the corresponding band:  
      ‑ very_close 0‑10 ‑ close 11‑35 ‑ neutral 36‑65 ‑ distant 66‑85 ‑ very_distant 86‑100.  
      Apply hierarchy min‑score (junior→senior +10, peer 0, senior→junior ‑10) without leaving the band.  
      If outside, adjust tone by ≤ 15 points toward the nearest band edge.
  14. ai_receipt Generation Standard:
    if hasIssues = true:
       • 40‑120 chars
       • Use ONE mirroring tactic:
         Feeling / Situation / Dilemma (pick the best fit)
       • No advice or evaluation
       • Explicitly reinforce the user’s act of seeking help
    else:
       • 30‑80 chars
       • Warm compliment + reinforce helpful action
  15. improvement_points Generation Standard:
    if hasIssues = true:
       • 50‑200 chars, start with a positive intent line, then 2‑4 concrete tips
    else:
       • 50‑150 chars, list 2‑3 specific strengths
  16. reasoning ≤50 chars, must log Score & ToneAdj when applied.
</priority_rules>

<!-- ---------------------------------------------------------------
  LAYER 2 : THE ENGINE  –  thinking process & tools
---------------------------------------------------------------- -->
<analysis_engine>
  <analysis_steps>
    1.  **Context‑First Analysis (Rule #3):** BEFORE evaluating the draft, read the <thread_context>. Resolve any ambiguities using the context.
    2.  **Functional Goal Analysis (Rule #4):** Identify the draft's practical goal (e.g., to thank, to request, to decide).
    3.  **Issue Classification & Prioritization (Rule #7):** Classify any issues. Priority = Emotional → Cognitive → Actional.
    4.  **"hasIssues" Flag Setting:** Set the "hasIssues" flag.
    5.  **Intervention Level Assessment (Rule #6):** Determine the intervention level (L1 Rephrase, L2 Info Augmentation, L3 Proactive Action).
    6.  **Suggestion Generation:**  
        • L1 → polite rephrase.  
        • L2 → Hybrid Placeholder Strategy.  
        • L3 → two or more actionable next steps.
    7.  **Compose Other Fields:** Generate "ai_receipt", "detailed_analysis", "improvement_points", and "reasoning".
    7‑A. **Tone Guard Enforcement (Rule #13):**  
         ‑ Calculate Polite‑Score.  
         ‑ If outside the allowed band, shift tone toward the band (≤ 15 pts) and log e.g. `ToneAdj:+12` in reasoning.
    8.  **Final JSON Assembly:** Return the JSON object defined in <format>.
  </analysis_steps>
</analysis_engine>

<!-- ---------------------------------------------------------------
  LAYER 3 : APPENDIX  –  tag defs, theory, examples
---------------------------------------------------------------- -->
<appendix>

  <distance_tag_defs>
    | value          | JP Label | JP Caption | EN Label | EN Caption |
    |----------------|----------|-----------|----------|-----------|
    | very_close     | 親密     | 仲間・相棒 | Close!   | Inner Circle |
    | close          | 仲間感   | 心理的安全 | Friendly | Safe Space |
    | neutral        | 職場標準 | 一般職場   | Standard | Workplace Std. |
    | distant        | 距離あり | 他部門・社外 | Distant  | Cross‑Unit |
    | very_distant   | 儀礼的   | かなり遠い | Formal   | Protocol |
  </distance_tag_defs>

  <appendix_tag_defs>
    [Emotional Cost ‑ Relational Damage]  
      ‑ "Impolite": Lacks formal politeness (greetings, please/thank‑you). Violates social convention.  
      ‑ "HarshTone": Communicates blame, aggression or dismissal in intent, even if wording is polite.  
      ‑ "MissingAcknowledgment": Fails to acknowledge the other's contribution, feelings, or situation.  

    [Cognitive Cost ‑ Extra Mental Effort]  
      ‑ "VagueIntent": Missing practical detail (Who/What/When) needed for action.  
      ‑ "MissingContext": Topic reference absent and not recoverable from <thread_context>.  

    [Actional Cost ‑ Conversation Stall]  
      ‑ "UnansweredQuestion": Ignores a direct question.  
      ‑ "UnansweredDecision": Does not state approval / rejection.  
      ‑ "MissingFollowUp": Promised deliverable or status update not provided.
  </appendix_tag_defs>

  <examples>
    <example>
      <ctx></ctx>
      <draft>お疲れ！今夜ごはん行く？</draft>
      <tags>{"lang":"japanese","distance":"very_close","hierarchy":"peer"}</tags>
      <output>{ "hasIssues": false, "suggestion": "お疲れ！今夜ごはん行く？", "reasoning": "Tone in band" }</output>
    </example>

    <example>
      <ctx>[14:00] 田中さん: C社の新機能開発プロジェクトの件ですが、現状のA案で進めて問題ないでしょうか？ご確認をお願いします。</ctx>
      <draft>はい、その件、問題ありません。A案で進めてください。</draft>
      <tags>{"lang":"japanese","distance":"neutral"}</tags>
      <output>{ "hasIssues": false, "suggestion": "はい、その件、問題ありません。A案で進めてください。", "reasoning": "Context resolves ambiguity." }</output>
    </example>

    <example>
      <ctx></ctx>
      <draft>先日のA社との会議ですが、議事録を関係者に共有しておいていただけますか。</draft>
      <tags>{"lang":"japanese","distance":"neutral"}</tags>
      <output>{ "hasIssues": false, "suggestion": "先日のA社との会議ですが、議事録を関係者に共有しておいていただけますか。", "reasoning": "Sufficiently clear for many contexts." }</output>
    </example>

    <example>
      <ctx></ctx>
      <draft>来週あたり、打ち合わせしませんか？</draft>
      <tags>{"lang":"japanese","distance":"distant"}</tags>
      <output>{
        "hasIssues": true, "issue_pattern": ["MissingContext", "VagueIntent"],
        "suggestion": "ぜひ打ち合わせしましょう！\n\n日程調整のため、お手数ですが以下の点について教えていただけますでしょうか？\n\n--- Missing Info ---\n• (1) 会議の目的: [■■■■]\n• (2) 参加者: [■■■■]\n• (3) ご希望の候補日時（複数）: [■■■■]\n---------------------\n\nご連絡お待ちしております！",
        "reasoning": "Missing key details for scheduling."
      }</output>
    </example>

    <example>
      <ctx>[16:00] 上司: @ユーザーさん、このPythonスクリプト、明日までにパフォーマンスを2倍に改善しておいてくれないか。</ctx>
      <draft>ご依頼ありがとうございます。しかし、この改善にはアーキテクチャの根本的な見直しが必要で、明日までというのは物理的に不可能です。申し訳ありません。</draft>
      <tags>{"lang":"japanese","distance":"distant"}</tags>
      <output>{
        "hasIssues": true, "issue_pattern": ["MissingAcknowledgment"],
        "suggestion": "ご依頼ありがとうございます。パフォーマンス改善の件、承知いたしました。\n\n拝見したところ、ご期待の成果を出すにはアーキテクチャの根本的な見直しが必要となり、明日までの完了は難しい状況です。大変申し訳ありません。\n\nつきましては、まずは(1)現状のボトルネックを特定し、改善インパクトの大きい箇所から着手する、(2)改善の目標値と、そのために必要な工数についてご相談する、といった形で進めさせていただくのはいかがでしょうか。",
        "reasoning": "Passive rejection; needs proactive next steps."
      }</output>
    </example>

    <example>
      <ctx></ctx>
      <draft>明日までにこの資料、修正しといて。</draft>
      <tags>{"lang":"japanese","distance":"close"}</tags>
      <output>{
        "hasIssues": true, "issue_pattern": ["Impolite", "HarshTone"],
        "suggestion": "お疲れ様です。\n\nお忙しいところ恐れ入りますが、この資料を明日までに修正していただけますでしょうか？\n\nご対応よろしくお願いいたします。",
        "reasoning": "Impolite tone imposes emotional cost."
      }</output>
    </example>
  </examples>
</appendix>

<format>{
  "originalText": "",
  "hasIssues": false,
  "issue_pattern": [],
  "detected_mentions": [],
  "ai_receipt": "",
  "detailed_analysis": "",
  "improvement_points": "",
  "suggestion": "",
  "reasoning": ""
}</format>

</system>
"""


In [13]:

# -------------------------------------------------------------------
# 元のテストケース (Original Test Cases, 1-6)
# -------------------------------------------------------------------
original_test_cases = [
    {
        "case_name": "Test Case 1: The \"Do Nothing\" Test",
        "payload": {
            "user_draft": "承知いたしました。ご依頼の件、本日17時までに対応いたします。",
            "thread_context": "", "hierarchy": "peer", "social_distance": "neutral", "language": "japanese"
        },
        "ideal_output": { "hasIssues": False, "issue_pattern": [], "suggestion": "承知いたしました。ご依頼の件、本日17時までに対応いたします。", "reasoning": "No issues found." }
    },
    {
        "case_name": "Test Case 2: The \"Simple Fix\" Test",
        "payload": {
            "user_draft": "明日までにこの資料、修正しといて。",
            "thread_context": "", "hierarchy": "junior", "social_distance": "somewhat_close", "language": "japanese"
        },
        "ideal_output": { "hasIssues": True, "issue_pattern": ["Impolite", "HarshTone"], "suggestion": "お疲れ様です。\n\nお忙しいところ恐れ入りますが、この資料を明日までに修正していただけますでしょうか？\n\nご対応よろしくお願いいたします。", "reasoning": "Impolite tone imposes emotional cost." }
    },
    {
        "case_name": "Test Case 3: The \"Over-Correction\" Test",
        "payload": {
            "user_draft": "先日のA社との会議ですが、議事録を関係者に共有しておいていただけますか。",
            "thread_context": "", "hierarchy": "peer", "social_distance": "neutral", "language": "japanese"
        },
        "ideal_output": { "hasIssues": False, "issue_pattern": [], "suggestion": "先日のA社との会議ですが、議事録を関係者に共有しておいていただけますか。", "reasoning": "Sufficiently clear for many contexts. No intervention needed." }
    },
    {
        "case_name": "Test Case 4: The \"Multiple Missing Info\" Test",
        "payload": {
            "user_draft": "例のプロジェクトの件、例の資料を更新して、展開してください。",
            "thread_context": "", "hierarchy": "peer", "social_distance": "neutral", "language": "japanese"
        },
        "ideal_output": { "hasIssues": True, "issue_pattern": ["MissingContext", "VagueIntent"], "suggestion": "お疲れ様です。プロジェクトの件でご依頼です。\n\nお手数ですが、資料を更新し、関係者の皆様へ展開をお願いいたします。\n\nメッセージを送信される前に、以下の点をご確認・ご追記いただけますでしょうか。\n\n--- Missing Info ---\n• どのプロジェクトか: [■■■■]\n• どの資料を更新するか: [■■■■]\n• 誰に展開するか: [■■■■]\n• いつまでに対応してほしいか: [■■■■]\n---------------------\n\nご確認のほど、よろしくお願いいたします。", "reasoning": "Multiple ambiguous references." }
    },
    {
        "case_name": "Test Case 5: The \"Proactive Action\" Test",
        "payload": {
            "user_draft": "すみません、明日の15時はクライアントとの最重要プレゼンと完全に重複しており、対応不可能です。",
            "thread_context": "[10:00] 上司: @ユーザーさん、急で申し訳ないんだけど、明日の15時から入っているB社との定例、代わりにファシリテーターお願いできないかな？", "hierarchy": "senior", "social_distance": "close", "language": "japanese"
        },
        "ideal_output": { "hasIssues": True, "issue_pattern": ["MissingAcknowledgment"], "suggestion": "@上司さん\n\nお声がけいただきありがとうございます！急なご用件とのことで、ぜひお力になりたかったのですが、大変申し訳ありません。明日の15時は、B社との最重要プレゼンと時間が完全に重なっておりまして…。\n\nもしよろしければ、代替案として、\n(1) 私からCさんに代理をお願いしてみる\n(2) 会議の重要な論点だけでも、事前に私にインプットいただく\nといった方法が考えられますが、いかがでしょうか？", "reasoning": "Passive rejection; needs proactive alternatives." }
    },
    {
        "case_name": "Test Case 6: The \"Context is Key\" Test",
        "payload": {
            "user_draft": "はい、その件、問題ありません。A案で進めてください。",
            "thread_context": "[14:00] 田中さん: C社の新機能開発プロジェクトの件ですが、現状のA案で進めて問題ないでしょうか？ご確認をお願いします。", "hierarchy": "peer", "social_distance": "neutral", "language": "japanese"
        },
        "ideal_output": { "hasIssues": False, "issue_pattern": [], "suggestion": "はい、その件、問題ありません。A案で進めてください。", "reasoning": "Context resolves ambiguity." }
    }
]

# -------------------------------------------------------------------
# 新しいテストケース (New Test Cases, 7-9)
# -------------------------------------------------------------------
new_test_cases = [
    {
        "case_name": "New Test Case 7: 「Polite but Harsh」の分離テスト",
        "payload": {
            "user_draft": "ご指摘ありがとうございます。ただ、そのデータは先週〇〇さんから正式に共有いただいた最新版のはずですが、何か勘違いされているのではないでしょうか。",
            "thread_context": "[11:00] 同僚: 先日のA社向け提案資料、拝見しました。素晴らしい出来ですね！ただ1点、5ページの市場規模のグラフですが、参照しているデータソースが少し古いかもしれません。",
            "hierarchy": "peer",
            "social_distance": "neutral",
            "language": "japanese"
        },
        "ideal_output": {
            "hasIssues": True,
            "issue_pattern": ["HarshTone"],
            "suggestion": "ご指摘ありがとうございます。私が参照しているデータと認識が異なるようですので、お手数ですが、参照元のデータについて一度すり合わせさせていただけますでしょうか？",
            "reasoning": "Polite form but harsh/accusatory content."
        }
    },
    {
        "case_name": "New Test Case 8: Co-Writingモデルの応用力テスト（日程調整）",
        "payload": {
            "user_draft": "来週あたり、打ち合わせしませんか？",
            "thread_context": "",
            "hierarchy": "peer",
            "social_distance": "somewhat_close",
            "language": "japanese"
        },
        "ideal_output": {
            "hasIssues": True,
            "issue_pattern": ["MissingContext", "VagueIntent"],
            "suggestion": "ぜひ打ち合わせしましょう！\n\n日程調整のため、お手数ですが以下の点について教えていただけますでしょうか？\n\n--- Missing Info ---\n• (1) 会議の目的: [■■■■]\n• (2) 参加者: [■■■■]\n• (3) ご希望の候補日時（複数）: [■■■■]\n---------------------\n\nご連絡お待ちしております！",
            "reasoning": "Missing key details for scheduling."
        }
    },
    {
        "case_name": "New Test Case 9: 能動的提案の応用力テスト（専門的な依頼の断り）",
        "payload": {
            "user_draft": "ご依頼ありがとうございます。しかし、この改善にはアーキテクチャの根本的な見直しが必要で、明日までというのは物理的に不可能です。申し訳ありません。",
            "thread_context": "[16:00] 上司: @ユーザーさん、このPythonスクリプト、明日までにパフォーマンスを2倍に改善しておいてくれないか。",
            "hierarchy": "senior",
            "social_distance": "neutral",
            "language": "japanese"
        },
        "ideal_output": {
            "hasIssues": True,
            "issue_pattern": ["MissingAcknowledgment"],
            "suggestion": "ご依頼ありがとうございます。パフォーマンス改善の件、承知いたしました。\n\n拝見したところ、ご期待の成果を出すにはアーキテクチャの根本的な見直しが必要となり、明日までの完了は難しい状況です。大変申し訳ありません。\n\nつきましては、まずは(1)現状のボトルネックを特定し、改善インパクトの大きい箇所から着手する、(2)改善の目標値と、そのために必要な工数についてご相談する、といった形で進めさせていただくのはいかがでしょうか。",
            "reasoning": "Passive rejection; needs proactive next steps."
        }
    }
]

# -------------------------------------------------------------------
# 新しいテストケース (New Test Cases, 10-12)
# -------------------------------------------------------------------
test_cases_10to12 = [
    {
        "case_name": "Test Case 10: 褒めるパターン (hasIssues:false)",
        "payload": {
            "user_draft": "おはようございます。問題ありません、10時でお願いします！",
            "thread_context": "[09:00] チーム全体: 週次定例は水曜 10:00 で良いですか？",
            "hierarchy": "peer",
            "social_distance": "neutral",
            "language": "japanese"
        },
        "ideal_output": {
            "hasIssues": False,
            "issue_pattern": [],
            "ai_receipt": "明快で前向きなご返信ですね！スムーズな調整に大いに貢献しています。",
            "detailed_analysis": "目的＝日程確定。敬体100％で礼儀良く、疑問点もなし。Emotional・Cognitive コストは0。",
            "improvement_points": "✔ 明確な肯定表現で相手が安心できる\n✔ 挨拶＋依頼語尾「お願いします」で丁寧\n✔ 余計な情報を加えず簡潔",
            "suggestion": "おはようございます。問題ありません、10時でお願いします！",
            "reasoning": "OK band neutral 52"
        }
    },
    {
        "case_name": "Test Case 11: トーン課題 (hasIssues:true)",
        "payload": {
            "user_draft": "至急！この資料ミスだらけ。早く直して。",
            "thread_context": "",
            "hierarchy": "senior", # 上司→部下
            "social_distance": "close",
            "language": "japanese"
        },
        "ideal_output": {
            "hasIssues": True,
            "issue_pattern": ["HarshTone", "Impolite"],
            "ai_receipt": "資料の品質を高めたいお気持ち、そして時間的な切迫感を理解しました。",
            "detailed_analysis": "距離=close だが hierarchical 上司→部下。語調が命令的かつ「ミスだらけ」で blame。Emotional Cost=HarshTone, Impolite。Polite-Score 68 (帯外)→ToneAdj-18 必要。",
            "improvement_points": "・具体的に修正点を示すと作業者が迷わない\n・「お願いできますか」など依頼形に変換し心理的負荷を軽減\n・感謝表現を添えるとモチベーション維持に寄与",
            "suggestion": "お疲れさまです。資料でいくつか修正が必要な箇所があります。\n以下の項目を本日中にご確認いただけますか？\n1. 図表の数値誤記\n2. スライド 5 のタイトル表記\n急ぎで申し訳ありませんが、よろしくお願いします。",
            "reasoning": "ToneAdj:-18 to band"
        }
    },
    {
        "case_name": "Test Case 12: 情報欠落課題 (hasIssues:true)",
        "payload": {
            "user_draft": "来週あたり打ち合わせできますか？",
            "thread_context": "",
            "hierarchy": "peer",
            "social_distance": "distant",
            "language": "japanese"
        },
        "ideal_output": {
            "hasIssues": True,
            "issue_pattern": ["VagueIntent", "MissingContext"],
            "ai_receipt": "打ち合わせのご提案ありがとうございます。前向きに調整されたい意図を受け取りました。",
            "detailed_analysis": "距離=distant、初対面の可能性。日時・目的・参加者が欠落→VagueIntent, MissingContext。Polite-Score 70 (帯内)。L2 必須。",
            "improvement_points": "・目的や参加者を明示すると調整が効率化\n・候補日を複数提示すると相手の選択コストを削減\n・軽い挨拶を足して好印象に",
            "suggestion": "はじめまして、△△部の□□です。\n打ち合わせを検討しております。\n\n--- Missing Info ---\n• (1) 目的: [■■■■]\n• (2) 参加者: [■■■■]\n• (3) ご希望の候補日時（複数）: [■■■■]\n---------------------\n\nご確認のほどお願いいたします。",
            "reasoning": "L2 placeholder"
        }
    }
]
# -------------------------------------------------------------------
# テスト実行と結果表示の関数 (Test Execution and Display Functions)
# -------------------------------------------------------------------

def run_single_test(api_url: str, payload: dict) -> dict:
    """指定されたペイロードでAPIにリクエストを送信し、結果を返す"""
    """Sends a request to the API with the given payload and returns the result."""
    # Note: The original script was not passing the system prompt.
    # This has been corrected to include the system_prompt in the payload.
    full_payload = payload.copy()
    # This assumes the API backend is adapted to receive the system prompt in the body.
    # このAPIバックエンドがボディでシステムプロンプトを受け取るように適合されていることを前提とします。
    full_payload['system_prompt'] = SYSTEM_PROMPT

    headers = {"Content-Type": "application/json"}
    try:
        response = requests.post(api_url, data=json.dumps(full_payload), headers=headers)
        response.raise_for_status()  # エラーがあれば例外を発生させる
        return response.json()
    except requests.exceptions.RequestException as e:
        return {"error": str(e)}

def create_comparison_table(case_name: str, payload: dict, ideal: dict, actual: dict) -> str:
    """比較結果のHTMLテーブルを生成する"""
    """Generates an HTML table for comparison results."""
    
    style = """<style> .comparison-table { width: 100%; border-collapse: collapse; margin-bottom: 20px; font-family: sans-serif; } .comparison-table th, .comparison-table td { border: 1px solid #ddd; padding: 8px; text-align: left; vertical-align: top; } .comparison-table th { background-color: #f2f2f2; font-weight: bold; } .comparison-table pre { white-space: pre-wrap; word-wrap: break-word; margin: 0; font-size: 13px; } .status-ok { color: green; font-weight: bold; } .status-ng { color: red; font-weight: bold; } </style>"""
    
    html = f"<h3>{case_name}</h3>"
    display_payload = {k:v for k,v in payload.items() if k != 'system_prompt'}
    html += f"<pre>Input: {json.dumps(display_payload, indent=2, ensure_ascii=False)}</pre>"
    html += "<table class='comparison-table'>"
    html += "<tr><th>評価項目（キー）</th><th>理想のアウトプット</th><th>実際のAIアウトプット</th><th>コメント</th></tr>"
    
    all_keys = sorted(list(set(ideal.keys()) | set(actual.keys())))
    
    for key in all_keys:
        ideal_val = ideal.get(key, "N/A")
        actual_val = actual.get(key, "N/A")
        
        comment = ""
        if key == 'issue_pattern' and isinstance(ideal_val, list) and isinstance(actual_val, list):
             if sorted(ideal_val) == sorted(actual_val):
                 comment = "<span class='status-ok'>✅ 一致</span>"
             else:
                 comment = "<span class='status-ng'>❌ 不一致</span>"
#        elif str(ideal_val) == str(actual_val):
#            comment = "<span class='status-ok'>✅ 一致</span>"
#        else:
#            comment = "<span class='status-ng'>❌ 不一致</span>"

        if isinstance(ideal_val, (dict, list)): ideal_val = json.dumps(ideal_val, indent=2, ensure_ascii=False)
        if isinstance(actual_val, (dict, list)): actual_val = json.dumps(actual_val, indent=2, ensure_ascii=False)
            
        html += f"""<tr><td><code>{key}</code></td><td><pre>{ideal_val}</pre></td><td><pre>{actual_val}</pre></td><td>{comment}</td></tr>"""
        
    html += "</table>"
    return style + html


In [14]:

# -------------------------------------------------------------------
# メイン処理 (Main Process)
# -------------------------------------------------------------------

# 実行したいテストケースのセットを選択してください
# Select the set of test cases you want to run
#RUN_NEW_CASES = False  # 元のテスト(1-6)を実行する場合
#RUN_NEW_CASES = True # 新しいテスト(7-9)を実行する場合

# ここで切り替え
# Switch here
test_cases_to_run = test_cases_10to12
#test_cases_to_run = new_test_cases 
#test_cases_to_run = original_test_cases

print(f"テストを開始します... APIエンドポイント: {API_URL}")
print(f"Executing tests... API Endpoint: {API_URL}")

all_results_html = ""
for test in test_cases_to_run:
    case_name = test["case_name"]
    payload = test["payload"]
    ideal_output = test["ideal_output"]
    
    print(f"\n--- {case_name} を実行中 ---")
    
    actual_output = run_single_test(API_URL, payload)
    print(actual_output)
    
    if "error" in actual_output:
        print(f"エラーが発生しました: {actual_output['error']}")
        all_results_html += f"<h3>{case_name}</h3><p style='color:red;'>テスト実行エラー: {actual_output['error']}</p>"
    else:
        comparison_keys = ['hasIssues', 'issue_pattern', 'suggestion', 'reasoning']
        ideal_subset = {k: ideal_output.get(k) for k in comparison_keys}
        actual_subset = {k: actual_output.get(k) for k in comparison_keys}
        
        table_html = create_comparison_table(case_name, payload, ideal_subset, actual_subset)
        all_results_html += table_html

print("\n--- 全てのテストが完了しました ---")

display(HTML(all_results_html))


テストを開始します... APIエンドポイント: http://localhost:3000/api/check-tone
Executing tests... API Endpoint: http://localhost:3000/api/check-tone

--- Test Case 10: 褒めるパターン (hasIssues:false) を実行中 ---
{'originalText': 'おはようございます。問題ありません、10時でお願いします！', 'hasIssues': False, 'issue_pattern': [], 'detected_mentions': [], 'ai_receipt': '承認と同意の返答として適切です。', 'detailed_analysis': '挨拶があり、承認と希望時間の明示もあり、同僚間のカジュアルなやり取りとして問題なし。', 'improvement_points': '特に改善点はありません。', 'suggestion': 'おはようございます。問題ありません、10時でお願いします！', 'reasoning': '文脈に合った承認表現で問題なし。'}

--- Test Case 11: トーン課題 (hasIssues:true) を実行中 ---
{'originalText': '至急！この資料ミスだらけ。早く直して。', 'hasIssues': True, 'issue_pattern': ['Impolite', 'HarshTone', 'MissingAcknowledgment'], 'detected_mentions': [], 'ai_receipt': '厳しい口調で指示しており、感謝や配慮が欠けているため、関係性悪化のリスクがあります。', 'detailed_analysis': '「至急！」「ミスだらけ」「早く直して」という表現は命令的かつ批判的で、相手の努力を無視しています。特に上司に対しても敬意や感謝が必要です。感情的な負担が大きく、受け手のモチベーション低下や反発を招く恐れがあります。', 'improvement_points': '・感謝や配慮の言葉を加える\n・指摘は具体的かつ建設的に\n・依頼は丁寧な表現に変える', 'suggestion': 

評価項目（キー）,理想のアウトプット,実際のAIアウトプット,コメント
hasIssues,False,False,
issue_pattern,[],[],✅ 一致
reasoning,OK band neutral 52,文脈に合った承認表現で問題なし。,
suggestion,おはようございます。問題ありません、10時でお願いします！,おはようございます。問題ありません、10時でお願いします！,

評価項目（キー）,理想のアウトプット,実際のAIアウトプット,コメント
hasIssues,True,True,
issue_pattern,"[  ""HarshTone"",  ""Impolite"" ]","[  ""Impolite"",  ""HarshTone"",  ""MissingAcknowledgment"" ]",❌ 不一致
reasoning,ToneAdj:-18 to band,命令的で感謝もないため感情コスト大。丁寧に改善。,
suggestion,お疲れさまです。資料でいくつか修正が必要な箇所があります。 以下の項目を本日中にご確認いただけますか？ 1. 図表の数値誤記 2. スライド 5 のタイトル表記 急ぎで申し訳ありませんが、よろしくお願いします。,お疲れ様です。お忙しいところ恐縮ですが、こちらの資料にいくつか誤りが見受けられました。お手数ですが、ご確認のうえ修正をお願いできますでしょうか。何かご不明点があればお知らせください。,

評価項目（キー）,理想のアウトプット,実際のAIアウトプット,コメント
hasIssues,True,True,
issue_pattern,"[  ""VagueIntent"",  ""MissingContext"" ]","[  ""MissingContext"",  ""VagueIntent"" ]",✅ 一致
reasoning,L2 placeholder,重要情報不足で具体的な返答困難,
suggestion,はじめまして、△△部の□□です。 打ち合わせを検討しております。 --- Missing Info --- • (1) 目的: [■■■■] • (2) 参加者: [■■■■] • (3) ご希望の候補日時（複数）: [■■■■] --------------------- ご確認のほどお願いいたします。,来週あたり、打ち合わせをさせていただけますでしょうか？ 日程調整のため、お手数ですが以下の点について教えていただけますと幸いです。 --- Missing Info --- • (1) 打ち合わせの目的: [■■■■] • (2) 参加者: [■■■■] • (3) ご希望の候補日時（複数）: [■■■■] --------------------- ご検討のほど、よろしくお願いいたします。,
