# Example 2: フォーム異常深堀り分析

このノートブックは、フォーム異常検出後のドリルダウン分析の例を示します。

## ユースケース

**ユーザーの質問**: 「GCT（接地時間）が急上昇した箇所の前後30秒を詳しく見たい」

## アーキテクチャフロー

1. **異常検出**: `detect_form_anomalies_summary()` で異常の概要を取得
2. **詳細取得**: `get_form_anomaly_details()` でフィルタして特定の異常を取得
3. **ドリルダウン**: `export()` で異常前後30秒のデータをエクスポート
4. **相関分析**: Python でペース/HR/標高との相関を分析
5. **可視化**: 散布図 + 統計サマリーを生成
6. **解釈**: LLM が原因仮説を提示

## トークン削減のポイント

- 異常サマリー: 約700トークン（全異常の概要）
- 詳細フィルタ: 特定の異常IDのみ取得（可変サイズ）
- エクスポート: ハンドルのみ返却（約25トークン）
- 要約: 相関係数 + 統計のみ（約100トークン）

## セットアップ

In [None]:
import sys
from pathlib import Path

import matplotlib.pyplot as plt
import numpy as np
import polars as pl
from scipy.stats import pearsonr

# プロジェクトルートをPATHに追加
project_root = Path().absolute().parent.parent
sys.path.insert(0, str(project_root))

from tools.utils.llm_safe_data import (
    safe_json_output,
    safe_load_export,
    safe_summary_table,
)

## ステップ1: 異常検出サマリー（シミュレート）

実際の環境では、以下のように異常サマリーを取得します：

```python
summary = mcp__garmin_db__detect_form_anomalies_summary(
    activity_id=12345,
    metrics=['ground_contact_time', 'vertical_oscillation'],
    z_threshold=2.0
)
```

In [None]:
# 異常サマリーのモック（実際のMCP関数の返却値をシミュレート）
anomaly_summary = {
    'total_anomalies': 12,
    'severity_distribution': {
        'high': 3,    # z-score > 3.0
        'medium': 5,  # 2.0 < z-score <= 3.0
        'low': 4      # z-score <= 2.0
    },
    'top_anomalies': [
        {
            'anomaly_id': 1,
            'metric': 'ground_contact_time',
            'timestamp': 450,
            'z_score': 3.5,
            'value': 285.0,
            'baseline': 250.0,
            'cause': 'elevation_change'
        },
        {
            'anomaly_id': 2,
            'metric': 'ground_contact_time',
            'timestamp': 720,
            'z_score': 3.2,
            'value': 280.0,
            'baseline': 250.0,
            'cause': 'pace_change'
        },
        {
            'anomaly_id': 5,
            'metric': 'vertical_oscillation',
            'timestamp': 900,
            'z_score': 2.8,
            'value': 95.0,
            'baseline': 85.0,
            'cause': 'fatigue'
        }
    ]
}

print("異常検出サマリー:")
print(safe_json_output(anomaly_summary))
print("\nトークンコスト: 約700トークン（95%削減）")

## ステップ2: 特定の異常にフォーカス

最も深刻な異常（anomaly_id=1）の前後30秒を詳しく分析します。

In [None]:
# フォーカスする異常
target_anomaly = anomaly_summary['top_anomalies'][0]
anomaly_timestamp = target_anomaly['timestamp']

print("フォーカスする異常:")
print(f"  ID: {target_anomaly['anomaly_id']}")
print(f"  メトリクス: {target_anomaly['metric']}")
print(f"  タイムスタンプ: {anomaly_timestamp}秒")
print(f"  Z-score: {target_anomaly['z_score']}")
print(f"  原因: {target_anomaly['cause']}")
print(f"\n分析範囲: {anomaly_timestamp - 30}秒 ~ {anomaly_timestamp + 30}秒（前後30秒）")

## ステップ3: 異常周辺のデータをエクスポート

実際の環境では、MCP Server の `export()` を使用します：

```python
export_result = mcp__garmin_db__export(
    query=f"""
        SELECT timestamp, ground_contact_time, pace, heart_rate, elevation
        FROM time_series_metrics
        WHERE activity_id = 12345
        AND timestamp BETWEEN {anomaly_timestamp - 30} AND {anomaly_timestamp + 30}
    """,
    format="parquet"
)
```

In [None]:
# モックデータ: 異常周辺60秒のデータ
np.random.seed(42)
n_seconds = 60
start_time = anomaly_timestamp - 30
timestamps = np.arange(start_time, start_time + n_seconds)

# GCT: 異常ポイント（450秒）で急上昇
gct_baseline = 250
gct = gct_baseline + np.random.normal(0, 5, n_seconds)
# 異常ポイント（インデックス30）で急上昇
gct[28:33] += np.array([10, 20, 35, 20, 10])  # ピークは450秒

# ペース: GCTの異常と同時に減速
pace = 270 + np.random.normal(0, 3, n_seconds)
pace[28:33] += np.array([5, 10, 15, 10, 5])

# 心拍: やや上昇
heart_rate = 150 + np.random.normal(0, 2, n_seconds)
heart_rate[28:33] += np.array([2, 4, 6, 4, 2])

# 標高: 急上昇（原因）
elevation = 100 + np.random.normal(0, 0.5, n_seconds)
elevation[28:33] += np.array([2, 5, 8, 5, 2])  # 坂道

df_context = pl.DataFrame({
    'timestamp': timestamps,
    'ground_contact_time': gct,
    'pace': pace,
    'heart_rate': heart_rate,
    'elevation': elevation
})

# Parquetとして保存
export_path = Path('/tmp/export_anomaly_context.parquet')
df_context.write_parquet(export_path)

# MCP Server レスポンスをシミュレート
export_result = {
    'handle': str(export_path),
    'rows': len(df_context),
    'size_mb': export_path.stat().st_size / (1024 * 1024),
    'columns': ['timestamp', 'ground_contact_time', 'pace', 'heart_rate', 'elevation']
}

print("MCP Server レスポンス（ハンドルのみ）:")
print(safe_json_output(export_result))
print("\nトークンコスト: 約25トークン")

## ステップ4: 相関分析

GCT異常とその他のメトリクス（ペース、心拍、標高）との相関を分析します。

In [None]:
# データをロード
df_loaded = safe_load_export(export_result['handle'])

print(f"✓ データをロード: {len(df_loaded)} 行")
print("\nデータプレビュー:")
print(safe_summary_table(df_loaded, max_rows=5))

In [None]:
# 相関係数を計算
df_pandas = df_loaded.to_pandas()

corr_pace, p_pace = pearsonr(df_pandas['ground_contact_time'], df_pandas['pace'])
corr_hr, p_hr = pearsonr(df_pandas['ground_contact_time'], df_pandas['heart_rate'])
corr_elev, p_elev = pearsonr(df_pandas['ground_contact_time'], df_pandas['elevation'])

correlations = {
    'pace': {'correlation': corr_pace, 'p_value': p_pace},
    'heart_rate': {'correlation': corr_hr, 'p_value': p_hr},
    'elevation': {'correlation': corr_elev, 'p_value': p_elev}
}

print("相関分析結果:")
for metric, stats in correlations.items():
    print(f"  {metric}: r={stats['correlation']:.3f} (p={stats['p_value']:.4f})")

## ステップ5: 可視化

時系列プロットと散布図で異常の原因を視覚化します。

In [None]:
fig = plt.figure(figsize=(14, 10))
gs = fig.add_gridspec(3, 2, hspace=0.3, wspace=0.3)

# 時系列プロット（左列）
ax1 = fig.add_subplot(gs[0, 0])
ax1.plot(df_pandas['timestamp'], df_pandas['ground_contact_time'], 'o-', color='blue')
ax1.axvline(x=anomaly_timestamp, color='red', linestyle='--', label='異常ポイント')
ax1.set_xlabel('タイムスタンプ（秒）')
ax1.set_ylabel('GCT (ms)')
ax1.set_title('接地時間（GCT）の時系列')
ax1.legend()
ax1.grid(True, alpha=0.3)

ax2 = fig.add_subplot(gs[1, 0])
ax2.plot(df_pandas['timestamp'], df_pandas['pace'], 'o-', color='green')
ax2.axvline(x=anomaly_timestamp, color='red', linestyle='--')
ax2.set_xlabel('タイムスタンプ（秒）')
ax2.set_ylabel('ペース (秒/km)')
ax2.set_title('ペースの時系列')
ax2.grid(True, alpha=0.3)
ax2.invert_yaxis()

ax3 = fig.add_subplot(gs[2, 0])
ax3.plot(df_pandas['timestamp'], df_pandas['elevation'], 'o-', color='brown')
ax3.axvline(x=anomaly_timestamp, color='red', linestyle='--')
ax3.set_xlabel('タイムスタンプ（秒）')
ax3.set_ylabel('標高 (m)')
ax3.set_title('標高の時系列')
ax3.grid(True, alpha=0.3)

# 散布図（右列）
ax4 = fig.add_subplot(gs[0, 1])
ax4.scatter(df_pandas['pace'], df_pandas['ground_contact_time'], alpha=0.6)
ax4.set_xlabel('ペース (秒/km)')
ax4.set_ylabel('GCT (ms)')
ax4.set_title(f'GCT vs ペース (r={corr_pace:.3f})')
ax4.grid(True, alpha=0.3)

ax5 = fig.add_subplot(gs[1, 1])
ax5.scatter(df_pandas['heart_rate'], df_pandas['ground_contact_time'], alpha=0.6, color='orange')
ax5.set_xlabel('心拍 (bpm)')
ax5.set_ylabel('GCT (ms)')
ax5.set_title(f'GCT vs 心拍 (r={corr_hr:.3f})')
ax5.grid(True, alpha=0.3)

ax6 = fig.add_subplot(gs[2, 1])
ax6.scatter(df_pandas['elevation'], df_pandas['ground_contact_time'], alpha=0.6, color='red')
ax6.set_xlabel('標高 (m)')
ax6.set_ylabel('GCT (ms)')
ax6.set_title(f'GCT vs 標高 (r={corr_elev:.3f})')
ax6.grid(True, alpha=0.3)

plot_path = Path('/tmp/anomaly_drilldown_plot.png')
plt.savefig(plot_path, dpi=100, bbox_inches='tight')
plt.show()

print(f"✓ グラフを保存: {plot_path}")

## ステップ6: 要約データのみをLLMに返却

In [None]:
# 統計サマリーを計算
summary = {
    'anomaly_info': target_anomaly,
    'context_window': {
        'start': int(df_loaded['timestamp'].min()),
        'end': int(df_loaded['timestamp'].max()),
        'duration_seconds': len(df_loaded)
    },
    'correlations': {
        'gct_vs_pace': {
            'r': float(corr_pace),
            'strength': 'strong' if abs(corr_pace) > 0.7 else 'moderate' if abs(corr_pace) > 0.4 else 'weak'
        },
        'gct_vs_heart_rate': {
            'r': float(corr_hr),
            'strength': 'strong' if abs(corr_hr) > 0.7 else 'moderate' if abs(corr_hr) > 0.4 else 'weak'
        },
        'gct_vs_elevation': {
            'r': float(corr_elev),
            'strength': 'strong' if abs(corr_elev) > 0.7 else 'moderate' if abs(corr_elev) > 0.4 else 'weak'
        }
    },
    'plot_path': str(plot_path)
}

# 要約JSONを出力（1KB制限）
summary_json = safe_json_output(summary)
print("要約データ（LLMに返却）:")
print(summary_json)
print(f"\nJSON サイズ: {len(summary_json.encode('utf-8'))} バイト")
print("トークンコスト: 約100トークン")

## ステップ7: LLMによる原因仮説の提示（シミュレート）

In [None]:
# LLMの解釈例
interpretation = f"""
**GCT異常の原因分析（タイムスタンプ {anomaly_timestamp}秒）:**

**相関分析結果:**
- GCT vs 標高: r={corr_elev:.3f} ({summary['correlations']['gct_vs_elevation']['strength']})
- GCT vs ペース: r={corr_pace:.3f} ({summary['correlations']['gct_vs_pace']['strength']})
- GCT vs 心拍: r={corr_hr:.3f} ({summary['correlations']['gct_vs_heart_rate']['strength']})

**原因仮説:**
1. **主要因: 標高変化（坂道）**
   - GCTと標高の間に強い正の相関（r={corr_elev:.3f}）が見られます
   - {anomaly_timestamp}秒付近で標高が急上昇しており、これが直接的な原因と考えられます
   - 上り坂では接地時間が長くなる傾向があり、これは正常な適応反応です

2. **副次的影響: ペース減速**
   - 坂道に伴いペースも減速しています（r={corr_pace:.3f}）
   - これもGCT増加に寄与している可能性があります

3. **心拍への影響は限定的**
   - 心拍との相関は弱く（r={corr_hr:.3f}）、疲労による異常ではないと判断されます

**推奨:**
- この異常は地形による正常な適応反応であり、懸念は不要です
- 今後の分析では、標高変化による異常を除外するフィルタリングを検討してください
"""

print(interpretation)

## トークンコスト比較

### Before（従来の方法）:
- 全時系列データ取得: 60秒 × 5カラム = 約1.5KB
- トークンコスト: 約400トークン

### After（新アーキテクチャ）:
1. 異常サマリー: 約700トークン（全アクティビティの異常）
2. MCP `export()` レスポンス: 約25トークン
3. 要約JSON: 約100トークン
4. 合計: 約825トークン

**注**: 異常サマリーは全アクティビティで1回のみ取得し、複数の異常分析で再利用可能です。
個別の異常分析では、エクスポート（25トークン）+ 要約（100トークン）= 125トークンのみ。

## まとめ

このノートブックでは、フォーム異常の深堀り分析を通じて：

1. ✅ 異常検出 → 詳細フィルタ → ドリルダウンの段階的アプローチ
2. ✅ 相関分析による原因特定
3. ✅ 視覚化による直感的な理解
4. ✅ 要約データのみをLLMに返却（トークン効率）
5. ✅ LLMによる原因仮説の自動生成

このパターンは、他の異常分析（VO、VR、心拍など）にも応用可能です。