In [23]:

# ===== セル1: セットアップ =====

import sys
import os
import time
from datetime import datetime
import json

# パス設定
current_dir = os.getcwd()  # notebooks/
project_root = os.path.dirname(current_dir)  # ml-analysis/
scraping_path = os.path.join(project_root, 'src', 'scraping')

# パス確認
print(f"📁 現在地: {current_dir}")
print(f"📁 プロジェクトルート: {project_root}")
print(f"📁 スクレイピングパス: {scraping_path}")
print(f"✅ パス存在確認: {os.path.exists(scraping_path)}")

if scraping_path not in sys.path:
    sys.path.append(scraping_path)

# モジュールインポート
from simple_offset_scraper import (
    SimpleOffsetHorseListScraper, 
    CompleteBatchProcessor,
    get_next_100_horses,
    run_complete_100_horses_batch,
    test_offset_scraper
)

print("🚀 モジュール読み込み完了")
print("-" * 50)


📁 現在地: /Users/skdata_mng/Documents/PROJECTS/STALLION/stallion-analytics/packages/ml-analysis/notebooks
📁 プロジェクトルート: /Users/skdata_mng/Documents/PROJECTS/STALLION/stallion-analytics/packages/ml-analysis
📁 スクレイピングパス: /Users/skdata_mng/Documents/PROJECTS/STALLION/stallion-analytics/packages/ml-analysis/src/scraping
✅ パス存在確認: True
🚀 モジュール読み込み完了
--------------------------------------------------


In [29]:
print("🔍 詳細データ処理開始")

# CompleteBatchProcessorを使用
processor = CompleteBatchProcessor()

# 100頭で詳細処理をテスト
batch_results = processor.collect_and_process_horses(
    total_target=100,
    batch_size=25,
    start_offset=100,
    min_birth_year=2000,
    process_details=True,  # 詳細処理有効
    delay_between_horses=3  # 3秒間隔
)

print("\n📊 バッチ処理結果:")
print(f"  リスト取得: {batch_results.get('list_count', 0)}頭")
print(f"  詳細成功: {len(batch_results.get('success', []))}頭")
print(f"  詳細失敗: {len(batch_results.get('failed', []))}頭")



🔍 詳細データ処理開始
🏇 完全バッチ処理開始
🎯 目標: 100頭
📦 バッチサイズ: 25頭
📍 開始オフセット: 0
📅 最小生年: 2000年
🔧 詳細処理: 有効

🔍 Step 1: 馬リスト取得
📦 リストバッチ: オフセット0, 25頭取得
🎯 G1馬取得開始:
   オフセット: 0
   最大取得数: 25頭
   最小生年: 2000年
--------------------------------------------------
📄 開始ページ: 1, ページ内位置: 0

📄 ページ1を処理中...
  ✓ [  1] カムニャック (2022年)
  ✓ [  2] クロワデュノール (2022年)
  ✓ [  3] ミリアッドラヴ (2022年)
  ✓ [  4] アドマイヤズーム (2022年)
  ✓ [  5] パンジャタワー (2022年)
  ✓ [  6] アルマヴェローチェ (2022年)
  ✓ [  7] ナチュラルライズ (2022年)
  ✓ [  8] エンブロイダリー (2022年)
  ✓ [  9] ミュージアムマイル (2022年)
  ✓ [ 10] ミッキーファイト (2021年)
  ✓ [ 11] メイショウタバル (2021年)
  ✓ [ 12] レガレイラ (2021年)
  ✓ [ 13] ジャスティンミラノ (2021年)
  ✓ [ 14] ダノンデサイル (2021年)
  ✓ [ 15] ヘデントール (2021年)
  ✓ [ 16] ラムジェット (2021年)
  ✓ [ 17] ジャンタルマンタル (2021年)
  ✓ [ 18] アーバンシック (2021年)
  ✓ [ 19] アスコリピチェーノ (2021年)
  ✓ [ 20] フォーエバーヤング (2021年)
  ✓ [ 21] ステレンボッシュ (2021年)
  ✓ [ 22] アンモシエラ (2021年)
  ✓ [ 23] チェルヴィニア (2021年)
  ✓ [ 24] アマンテビアンコ (2021年)
  ✓ [ 25] デルマソトガケ (2020年)

✅ 合計25頭を取得しました
✅ リストバッチ完了: 25頭追加, 累計25頭
📦 リストバッチ: オフセット25, 25頭取得
🎯

KeyboardInterrupt: 