In [None]:
# Calvano et al. (2020) Q-Learning Replication (Colab)

このノートブックは Calvano et al. (2020) の Q学習による価格付け実験を Google Colab 上で再現します。

**論文**: Calvano, E., Calzolari, G., Denicolò, V., & Pastorello, S. (2020). Artificial Intelligence, Algorithmic Pricing, and Collusion. *American Economic Review*, 110(10), 3267-3297.

✅ **論文仕様準拠**: 正確な実装チートシートに基づいた完全実装

---

## 📋 実行手順

1. **セットアップ**: セクション1-2を順番に実行
2. **ベンチマーク計算**: セクション3で理論値を確認
3. **クイックテスト**: セクション4で基本動作確認（100エピソード、約5分）
4. **結果確認**: セクション5で学習結果を可視化
5. **フル実験**: セクション6で統計的に有意な結果を取得
   - **推奨**: 中規模実験（10,000エピソード × 3シード、3-4時間）
   - **論文完全版**: フル実験（25,000イテレーション × 80,000エピソード）

**💡 推奨フロー**: セクション1→2→3→4→5→6（中規模実験）

## 📊 パラメータの信頼性（論文チートシート確認済み）

| パラメータ | 信頼度 | 根拠 |
|-----------|--------|------|
| a₀=0, aᵢ=2, μ=0.25, cᵢ=1 | ✅高 | 論文チートシート明記 |
| α=0.15, δ=0.95, k=1 | ✅高 | 論文チートシート明記 |
| β=4×10⁻⁶, β*=0.1 | ✅高 | **論文チートシート確認済み** |
| 25,000イテレーション | ✅高 | **論文推奨値確認済み** |
| m=15, ξ=0.1 | ✅高 | **論文チートシート確認済み** |


In [None]:
## 1. セットアップ（リポジトリのクローン＆依存パッケージのインストール）


In [None]:
# リポジトリをクローン（並列実行対応ブランチ）
!git clone -b parallel-colab https://github.com/Yusei406/calvano-thesis.git
%cd calvano-thesis

# 現在のディレクトリを確認
!pwd
!ls -la

# 依存パッケージをインストール
!pip install -r requirements.txt

# パッケージが正しくインストールされたか確認
import sys
import os
print(f"Python path: {sys.path}")

# 現在の作業ディレクトリを取得
current_dir = os.getcwd()
print(f"Current working directory: {current_dir}")

# myprojectディレクトリの存在確認
if os.path.exists('myproject'):
    print("✅ myprojectディレクトリが見つかりました")
    print("📁 myproject内容:")
    !ls -la myproject/
else:
    print("❌ myprojectディレクトリが見つかりません")
    print("📁 現在のディレクトリ内容:")
    !ls -la

print("✅ セットアップ完了")


In [None]:
## 2. モジュールのインポート


In [None]:
import sys
import os

# 現在のディレクトリをPythonパスに追加
sys.path.append('.')
sys.path.append(os.getcwd())

print(f"📍 現在のディレクトリ: {os.getcwd()}")
print(f"📁 myprojectの存在確認: {os.path.exists('myproject')}")

# 必要なモジュールをインポート
try:
    from myproject.env import DemandEnvironment
    from myproject.agent import QLearningAgent
    from myproject.train import train_agents
    print("✅ myprojectモジュールのインポート成功")
except ImportError as e:
    print(f"❌ myprojectモジュールのインポートエラー: {e}")
    print("📋 利用可能なファイル:")
    !find . -name "*.py" | head -10
    raise

# 標準ライブラリとサードパーティライブラリ
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

print("✅ 全モジュールのインポート完了")


In [None]:
## 3. 環境セットアップとベンチマーク計算（Nash/協調均衡）


In [None]:
# Calvanoパラメータで環境を作成
env = DemandEnvironment(
    demand_intercept=0.0,   # a_0 (outside option)
    product_quality=2.0,    # a_i (product quality)
    demand_slope=0.25,      # μ (price sensitivity)
    marginal_cost=1.0       # c (marginal cost)
)

# Nash均衡・協調均衡を計算
nash_eq = env.get_nash_equilibrium()
coop_eq = env.get_collusive_outcome()

print('📊 ベンチマーク均衡の計算結果:')
print()
print('Nash Equilibrium:')
print(f'  Price: {nash_eq["prices"][0]:.3f}')
print(f'  Individual Profit: {nash_eq["individual_profit"]:.3f}')
print(f'  Joint Profit: {nash_eq["joint_profit"]:.3f}')
print()
print('Cooperative Equilibrium:')
print(f'  Price: {coop_eq["prices"][0]:.3f}')
print(f'  Individual Profit: {coop_eq["individual_profit"]:.3f}')
print(f'  Joint Profit: {coop_eq["joint_profit"]:.3f}')


In [None]:
## 4. Q学習エージェント学習（クイックテスト）

**クイックテスト専用**: 基本動作確認とアルゴリズムのテスト用
- **パラメータ**: 100エピソード × 1,000イテレーション
- **実行時間**: 約5分
- **目的**: 協調的行動の基本確認

**注意**: フル実験は後のセクション6で実行します


In [None]:
# クイックテスト（基本動作確認用）
print('🚀 クイックテスト実験を開始...')
print('📊 パラメータ: 100エピソード × 1,000イテレーション')
print('⏰ 予想実行時間: 約5分')
print()

agents, env, history = train_agents(
    n_episodes=100,
    iterations_per_episode=1000,
    learning_rate=0.15,
    discount_factor=0.95,
    epsilon_decay_beta=4e-6,
    memory_length=1,
    verbose=True
)

print('\n✅ クイックテスト完了!')
print(f'Final individual profit: {history["training_summary"]["final_individual_profit"]:.4f}')
print(f'Final joint profit: {history["training_summary"]["final_joint_profit"]:.4f}')
print(f'Nash ratio (individual): {history["training_summary"]["nash_ratio_individual"]:.3f}')
print()
print('💡 このテストで協調的行動（Nash比>100%）が確認できれば、基本実装は正常です。')
print('📊 論文レベルの統計的に有意な結果を得るには、セクション6のフル実験を実行してください。')


In [None]:
## 5. 学習履歴の可視化


In [None]:
# 学習結果のプロット
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# 個別利益の推移
axes[0, 0].plot(history['episodes'], history['individual_profits'], 'b-', linewidth=2)
axes[0, 0].axhline(y=nash_eq['individual_profit'], color='r', linestyle='--', label='Nash', linewidth=2)
axes[0, 0].axhline(y=coop_eq['individual_profit'], color='g', linestyle='--', label='Cooperative', linewidth=2)
axes[0, 0].set_title('Individual Profits', fontsize=14)
axes[0, 0].set_xlabel('Episode')
axes[0, 0].set_ylabel('Profit')
axes[0, 0].legend()
axes[0, 0].grid(True, alpha=0.3)

# 合計利益の推移
axes[0, 1].plot(history['episodes'], history['joint_profits'], 'b-', linewidth=2)
axes[0, 1].axhline(y=nash_eq['joint_profit'], color='r', linestyle='--', label='Nash', linewidth=2)
axes[0, 1].axhline(y=coop_eq['joint_profit'], color='g', linestyle='--', label='Cooperative', linewidth=2)
axes[0, 1].set_title('Joint Profits', fontsize=14)
axes[0, 1].set_xlabel('Episode')
axes[0, 1].set_ylabel('Profit')
axes[0, 1].legend()
axes[0, 1].grid(True, alpha=0.3)

# Nash比
nash_ratios = [p / nash_eq['individual_profit'] for p in history['individual_profits']]
axes[1, 0].plot(history['episodes'], nash_ratios, 'orange', linewidth=2)
axes[1, 0].axhline(y=1.0, color='r', linestyle='--', label='Nash', linewidth=2)
axes[1, 0].set_title('Individual Profit / Nash Profit', fontsize=14)
axes[1, 0].set_xlabel('Episode')
axes[1, 0].set_ylabel('Ratio')
axes[1, 0].legend()
axes[1, 0].grid(True, alpha=0.3)

# Epsilon減衰
axes[1, 1].plot(history['episodes'], history['epsilon_values'], 'purple', linewidth=2)
axes[1, 1].set_title('Epsilon Decay', fontsize=14)
axes[1, 1].set_xlabel('Episode')
axes[1, 1].set_ylabel('Epsilon')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print('📈 最終結果:')
print(f'Individual Profit: {history["training_summary"]["final_individual_profit"]:.4f}')
print(f'Joint Profit: {history["training_summary"]["final_joint_profit"]:.4f}')
print(f'Nash Ratio: {history["training_summary"]["nash_ratio_individual"]:.3f}')


In [None]:
## 6. フル実験（Table A.2完全再現）

**論文レベルの統計的に有意な結果**を得るための本格実験：

**実験レベルの選択**:
- **中規模実験**: 10,000エピソード × 3シード（約3-4時間）- 推奨
- **フル実験**: 50,000エピソード × 10シード（約10-15日）- 論文完全再現

**注意**: フル実験は非常に長時間かかります。まず中規模実験で結果を確認することを推奨します。


In [None]:
# 並列実験スクリプトの実行
import os
from datetime import datetime
import ipywidgets as widgets
from IPython.display import display

print("🎯 Table A.2 完全再現実験")
print()

# 実験タイプ選択UI
experiment_selector = widgets.Dropdown(
    options=[
        ('小規模実験（1,000エピソード×3シード、約30分）', 'small'),
        ('中規模実験（10,000エピソード×3シード、約3-4時間）⭐推奨', 'medium'),
        ('フル実験（50,000エピソード×10シード、約8-12時間）', 'full')
    ],
    value='medium',
    description='実験タイプ:',
    style={'description_width': 'initial'}
)

run_button = widgets.Button(
    description='実験開始',
    button_style='success',
    icon='play'
)

output = widgets.Output()

def run_experiment(button):
    with output:
        output.clear_output()
        
        experiment_type = experiment_selector.value
        
        if experiment_type == "small":
            print("🚀 小規模実験を開始...")
            print("📊 パラメータ: 1,000エピソード × 3シード × 4セッション")
            print("⏰ 予想実行時間: 30分")
            episodes, seeds, sessions = 1000, 3, 4
            
        elif experiment_type == "medium":
            print("🚀 中規模実験を開始...")
            print("📊 パラメータ: 10,000エピソード × 3シード × 4セッション")
            print("⏰ 予想実行時間: 3-4時間")
            episodes, seeds, sessions = 10000, 3, 4
            
        else:  # full
            print("🚀 フル実験を開始...")
            print("📊 パラメータ: 50,000エピソード × 10シード × 4セッション")
            print("⏰ 予想実行時間: 8-12時間")
            episodes, seeds, sessions = 50000, 10, 4
        
        start_time = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
        print(f"⏰ 開始時刻: {start_time}")
        print()
        print("📈 実験進行中... 進捗は下記のコマンドで確認できます:")
        print()
        
        # 実際の実験コマンドを実行
        import subprocess
        cmd = [
            'python', '-m', 'myproject.scripts.table_a2_parallel',
            '--episodes', str(episodes),
            '--n-seeds', str(seeds), 
            '--n-sessions', str(sessions),
            '--max-workers', '4',
            '--verbose'
        ]
        
        try:
            result = subprocess.run(cmd, capture_output=True, text=True, timeout=None)
            print("📋 実験結果:")
            print(result.stdout)
            if result.stderr:
                print("⚠️ エラー:")
                print(result.stderr)
        except Exception as e:
            print(f"❌ 実験実行エラー: {e}")
            print()
            print("🔧 手動実行コマンド:")
            print(f"!python -m myproject.scripts.table_a2_parallel --episodes {episodes} --n-seeds {seeds} --n-sessions {sessions} --max-workers 4 --verbose")

run_button.on_click(run_experiment)

# UIを表示
display(widgets.VBox([
    widgets.HTML("<h3>📊 実験設定</h3>"),
    experiment_selector,
    run_button,
    output
]))

print()
print("💡 実験結果は results/ ディレクトリに自動保存されます")
print("📁 結果ファイルの確認: !ls -la results/")
print()
print("⚠️ 注意事項:")
print("- 長時間実験はColab Pro/Pro+推奨")
print("- 実験中はブラウザタブを閉じないでください")
print("- セッション切断対策でスクリプトは自動再開機能付き")


In [None]:
# 実験結果の分析と可視化
import json
import glob
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from datetime import datetime

print("📊 実験結果の分析")
print("=" * 50)

# 結果ファイルを検索
result_files = glob.glob("results/table_a2_parallel_*.json")

if result_files:
    # 最新の結果ファイルを取得
    latest_file = max(result_files, key=lambda x: os.path.getmtime(x))
    print(f"📁 最新結果ファイル: {latest_file}")
    print()
    
    # 結果を読み込み
    with open(latest_file, 'r') as f:
        results = json.load(f)
    
    # 基本統計を表示
    if 'aggregated_stats' in results:
        stats = results['aggregated_stats']
        info = results['experiment_info']
        
        print("🎯 実験概要:")
        print(f"   実行時刻: {info['timestamp']}")
        print(f"   シード数: {info['n_seeds']}")
        print(f"   セッション数: {info['successful_sessions']}/{info['total_sessions']}")
        print(f"   実行時間: {info['execution_time_seconds']:.1f}秒")
        print()
        
        print("📈 Table A.2 再現結果:")
        print(f"   Individual Profit: {stats['individual_profit_mean']:.4f} ± {stats['individual_profit_std']:.4f}")
        print(f"   Joint Profit: {stats['joint_profit_mean']:.4f} ± {stats['joint_profit_std']:.4f}")
        print(f"   Nash Ratio: {stats['nash_ratio_mean']:.1%} ± {stats['nash_ratio_std']:.1%}")
        print()
        
        # 論文結果との比較
        paper_individual = 0.18
        paper_joint = 0.26
        
        print("📚 論文結果との比較:")
        print(f"   Individual Profit:")
        print(f"     論文: 0.18 ± 0.03")
        print(f"     再現: {stats['individual_profit_mean']:.4f} ± {stats['individual_profit_std']:.4f}")
        diff_individual = abs(stats['individual_profit_mean'] - paper_individual)
        print(f"     差分: {diff_individual:.4f}")
        
        print(f"   Joint Profit:")
        print(f"     論文: 0.26 ± 0.04")
        print(f"     再現: {stats['joint_profit_mean']:.4f} ± {stats['joint_profit_std']:.4f}")
        diff_joint = abs(stats['joint_profit_mean'] - paper_joint)
        print(f"     差分: {diff_joint:.4f}")
        print()
        
        # 成功判定
        individual_success = diff_individual <= 0.05  # 5%以内
        joint_success = diff_joint <= 0.05
        nash_success = stats['nash_ratio_mean'] > 1.0  # Nash比>100%
        
        print("✅ 再現成功判定:")
        print(f"   Individual Profit: {'✅ 成功' if individual_success else '❌ 要改善'}")
        print(f"   Joint Profit: {'✅ 成功' if joint_success else '❌ 要改善'}")
        print(f"   Nash Ratio > 100%: {'✅ 成功' if nash_success else '❌ 要改善'}")
        
        overall_success = individual_success and joint_success and nash_success
        print(f"   総合評価: {'🎉 論文再現成功!' if overall_success else '⚠️ 部分的成功 - より多くのシードが必要'}")
        
        # 可視化
        if 'all_sessions' in results:
            sessions = [s for s in results['all_sessions'] if s['success']]
            
            if len(sessions) > 0:
                fig, axes = plt.subplots(2, 2, figsize=(15, 10))
                
                # Individual profits
                individual_profits = [s['final_individual_profit'] for s in sessions]
                axes[0, 0].hist(individual_profits, bins=min(10, len(individual_profits)), alpha=0.7, edgecolor='black')
                axes[0, 0].axvline(paper_individual, color='red', linestyle='--', linewidth=2, label='論文値')
                axes[0, 0].axvline(np.mean(individual_profits), color='blue', linestyle='-', linewidth=2, label='再現値')
                axes[0, 0].set_title('Individual Profit Distribution')
                axes[0, 0].set_xlabel('Individual Profit')
                axes[0, 0].set_ylabel('Frequency')
                axes[0, 0].legend()
                axes[0, 0].grid(True, alpha=0.3)
                
                # Joint profits
                joint_profits = [s['final_joint_profit'] for s in sessions]
                axes[0, 1].hist(joint_profits, bins=min(10, len(joint_profits)), alpha=0.7, edgecolor='black')
                axes[0, 1].axvline(paper_joint, color='red', linestyle='--', linewidth=2, label='論文値')
                axes[0, 1].axvline(np.mean(joint_profits), color='blue', linestyle='-', linewidth=2, label='再現値')
                axes[0, 1].set_title('Joint Profit Distribution')
                axes[0, 1].set_xlabel('Joint Profit')
                axes[0, 1].set_ylabel('Frequency')
                axes[0, 1].legend()
                axes[0, 1].grid(True, alpha=0.3)
                
                # Nash ratios
                nash_ratios = [s['nash_ratio_individual'] for s in sessions]
                axes[1, 0].hist(nash_ratios, bins=min(10, len(nash_ratios)), alpha=0.7, edgecolor='black')
                axes[1, 0].axvline(1.0, color='red', linestyle='--', linewidth=2, label='Nash均衡')
                axes[1, 0].axvline(np.mean(nash_ratios), color='blue', linestyle='-', linewidth=2, label='平均比')
                axes[1, 0].set_title('Nash Ratio Distribution')
                axes[1, 0].set_xlabel('Individual Profit / Nash Profit')
                axes[1, 0].set_ylabel('Frequency')
                axes[1, 0].legend()
                axes[1, 0].grid(True, alpha=0.3)
                
                # Seed別結果
                if 'seed_results' in results:
                    seed_means = []
                    for seed, seed_sessions in results['seed_results'].items():
                        seed_individual = np.mean([s['final_individual_profit'] for s in seed_sessions])
                        seed_means.append(seed_individual)
                    
                    axes[1, 1].bar(range(len(seed_means)), seed_means, alpha=0.7, edgecolor='black')
                    axes[1, 1].axhline(paper_individual, color='red', linestyle='--', linewidth=2, label='論文値')
                    axes[1, 1].set_title('Individual Profit by Seed')
                    axes[1, 1].set_xlabel('Seed')
                    axes[1, 1].set_ylabel('Mean Individual Profit')
                    axes[1, 1].legend()
                    axes[1, 1].grid(True, alpha=0.3)
                
                plt.tight_layout()
                plt.show()
                
        print()
        print("💾 結果をCSVでダウンロード:")
        print("!zip -r calvano_results.zip results/")
        
    else:
        print("❌ 結果データの解析に失敗しました")
        
else:
    print("❌ 実験結果ファイルが見つかりません")
    print("📋 利用可能なファイル:")
    !ls -la results/ 2>/dev/null || echo "resultsディレクトリが存在しません"


In [None]:
---

## 📚 参考情報

### 期待される結果（論文Table A.2）
- **Individual profit**: 0.18 ± 0.03
- **Joint profit**: 0.26 ± 0.04
- **Nash ratio**: > 100% (協調的行動を示唆)

⚠️ **重要**: 上記は論文の報告値ですが、この実装では正確なパラメータが確認できていないため、結果は参考値として扱ってください。

### パラメータ設定（推定値含む）

| パラメータ | 値 | 信頼度 | 根拠 |
|-----------|---|--------|------|
| a₀ (外部選択肢) | 0.0 | 高 | 論文・VoxEU記事で明記 |
| aᵢ (製品品質) | 2.0 | 高 | 論文・VoxEU記事で明記 |
| μ (価格感応度) | 0.25 | 高 | 論文・VoxEU記事で明記 |
| c (限界費用) | 1.0 | 高 | 論文・VoxEU記事で明記 |
| α (学習率) | 0.15 | 中 | 標準的なQ学習値 |
| γ (割引因子) | 0.95 | 中 | 標準的なQ学習値 |
| β (epsilon減衰) | 4×10⁻⁶ | 低 | **推定値（要検証）** |
| memory | 1 | 中 | Q学習の標準設定 |
| イテレーション数 | 25,000 | 低 | **推定値（要検証）** |

### 実行時間の目安
- **クイックテスト**: 100エピソード（約5分）
- **中規模実験**: 10,000エピソード × 3シード（約3-4時間）
- **フル実験**: 50,000エピソード × 10シード（約10-15日）

### 現在の実装での理論値
- **Nash均衡**: 個別利益 0.223, 価格 1.473
- **協調均衡**: 個別利益 0.337, 価格 1.925

**🎓 論文**: Calvano, E., Calzolari, G., Denicolò, V., & Pastorello, S. (2020). *Artificial Intelligence, Algorithmic Pricing, and Collusion*. American Economic Review, 110(10), 3267-3297.


In [None]:
## 🔧 トラブルシューティング

### よくあるエラーと解決方法

**1. `ModuleNotFoundError: No module named 'myproject'`**
- セクション1のセットアップセルを正しく実行したか確認
- `%cd calvano-thesis` が正しく動作しているか確認

**2. `requirements.txt` インストールエラー**
- Colab環境で必要なパッケージが既にインストール済みの場合があります
- エラーが出た場合は個別にインストール: `!pip install numpy scipy matplotlib pandas tqdm`

**3. 並列実験エラー**
- 並列実験はオプションです。基本実験（セクション4-5）は単体で動作します

**4. セッションタイムアウト**
- 長時間実験はColab Pro/Pro+の使用を推奨
- 実験中はタブを閉じないでください
