In [2]:
# セル1: 環境設定とライブラリ読み込み
import sys
import os
sys.path.append('../src')

print("🏇 競馬G1データ収集ノートブック")
print("📚 ライブラリ読み込み中...")

import pandas as pd
import json
from datetime import datetime

try:
    from scraping.horse_list_scraper import G1HorseScraper  # ← 修正
    print("✅ スクレイピングモジュール読み込み完了")
except ImportError as e:
    print(f"❌ インポートエラー: {e}")

print("🎯 準備完了！")

🏇 競馬G1データ収集ノートブック
📚 ライブラリ読み込み中...
✅ スクレイピングモジュール読み込み完了
🎯 準備完了！


In [3]:
# セル2: スクレイピング実行（テスト）
print("🚀 G1馬データのスクレイピングを開始します...")

scraper = G1HorseScraper()
horses = scraper.run(
    max_horses=5,           # テスト用に5頭のみ
    min_birth_year=2018,    # 2018年以降生まれ
    save_to_db=True         # Supabaseに保存
)

print(f"📊 {len(horses)}頭のデータを取得しました")

ImportError: cannot import name 'HorseListScraper' from 'scraping.horse_list_scraper' (/Users/skdata_mng/Documents/PROJECTS/STALLION/stallion-analytics/packages/ml-analysis/notebooks/../src/scraping/horse_list_scraper.py)

In [None]:
# セル3: 取得データの詳細確認
print("🔍 取得したデータの詳細:")
print("-" * 50)

for i, horse in enumerate(horses, 1):
    print(f"{i}. ID: {horse['id']}")
    print(f"   名前: {horse['name_ja']}")
    print(f"   性別: {horse['sex']}")
    print(f"   生年: {horse['birth_year']}")
    print()

In [None]:
# セル4: DataFrame化
import pandas as pd

print("📈 データをDataFrameに変換...")
df = pd.DataFrame(horses)

print("データフレーム情報:")
print(df.info())
print("\n基本統計:")
print(df.describe())
print("\nデータサンプル:")
df.head()

In [None]:
# セル5: ローカルファイルに保存
import json
from datetime import datetime

# タイムスタンプ付きでファイル保存
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
filename = f"../data/raw/g1_horses_sample_{timestamp}.json"

print(f"💾 データを保存: {filename}")

# JSONファイルとして保存
with open(filename, 'w', encoding='utf-8') as f:
    json.dump(horses, f, ensure_ascii=False, indent=2)

# CSVファイルとしても保存
csv_filename = f"../data/raw/g1_horses_sample_{timestamp}.csv"
df.to_csv(csv_filename, index=False, encoding='utf-8')

print(f"✅ JSON: {filename}")
print(f"✅ CSV: {csv_filename}")
print("データ保存完了！")