In [2]:
# セル1: 環境設定とライブラリ読み込み
import sys
import os
sys.path.append('../src')

print("🏇 競馬G1データ収集ノートブック")
print("📚 ライブラリ読み込み中...")

import pandas as pd
import json
from datetime import datetime

try:
    from scraping.horse_list_scraper import G1HorseScraper  # ← 修正
    print("✅ スクレイピングモジュール読み込み完了")
except ImportError as e:
    print(f"❌ インポートエラー: {e}")

print("🎯 準備完了！")

🏇 競馬G1データ収集ノートブック
📚 ライブラリ読み込み中...
✅ スクレイピングモジュール読み込み完了
🎯 準備完了！


In [4]:
# セル2: スクレイピング実行（テスト）
print("🚀 G1馬データのスクレイピングを開始します...")

scraper = G1HorseScraper()
horses = scraper.run(
    max_horses=5,           # テスト用に5頭のみ
    min_birth_year=2018,    # 2018年以降生まれ
    save_to_db=True         # Supabaseに保存
)

print(f"📊 {len(horses)}頭のデータを取得しました")

🚀 G1馬データのスクレイピングを開始します...
🏇 G1馬スクレイピング開始
📋 設定: 最大5頭、2018年以降生まれ
🐎 G1馬を最大5頭、2018年以降生まれから取得開始...
📄 ページ1を処理中...
  ✓ カムニャック (2022年生)
  ✓ クロワデュノール (2022年生)
  ✓ ミリアッドラヴ (2022年生)
  ✓ アドマイヤズーム (2022年生)
  ✓ パンジャタワー (2022年生)
🎯 合計5頭の馬を取得しました

📊 取得結果:
  ID: 2022105402, 名前: カムニャック, 生年: 2022
  ID: 2022105102, 名前: クロワデュノール, 生年: 2022
  ID: 2022105170, 名前: ミリアッドラヴ, 生年: 2022
  ID: 2022105396, 名前: アドマイヤズーム, 生年: 2022
  ID: 2022101732, 名前: パンジャタワー, 生年: 2022
💾 Supabaseに5頭のデータを保存中...
✅ 5件のデータを保存しました
🎉 すべての処理が完了しました!
📊 5頭のデータを取得しました


In [8]:
# セル3: 取得データの詳細確認
print("🔍 取得したデータの詳細:")
print("-" * 50)

for i, horse in enumerate(horses, 1):
    print(f"{i}. ID: {horse['id']}")
    print(f"   名前: {horse['name_ja']}")
    print(f"   性別: {horse['sex']}")
    print(f"   生年: {horse['birth_year']}")
    print()

🔍 取得したデータの詳細:
--------------------------------------------------
1. ID: 2022105402
   名前: カムニャック
   性別: 牝
   生年: 2022

2. ID: 2022105102
   名前: クロワデュノール
   性別: 牡
   生年: 2022

3. ID: 2022105170
   名前: ミリアッドラヴ
   性別: 牝
   生年: 2022

4. ID: 2022105396
   名前: アドマイヤズーム
   性別: 牡
   生年: 2022

5. ID: 2022101732
   名前: パンジャタワー
   性別: 牡
   生年: 2022



In [6]:
# セル4: DataFrame化
import pandas as pd

print("📈 データをDataFrameに変換...")
df = pd.DataFrame(horses)

print("データフレーム情報:")
print(df.info())
print("\n基本統計:")
print(df.describe())
print("\nデータサンプル:")
df.head()

📈 データをDataFrameに変換...
データフレーム情報:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id          5 non-null      int64 
 1   name_ja     5 non-null      object
 2   sex         5 non-null      object
 3   birth_year  5 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 292.0+ bytes
None

基本統計:
                 id  birth_year
count  5.000000e+00         5.0
mean   2.022105e+09      2022.0
std    1.586766e+03         0.0
min    2.022102e+09      2022.0
25%    2.022105e+09      2022.0
50%    2.022105e+09      2022.0
75%    2.022105e+09      2022.0
max    2.022105e+09      2022.0

データサンプル:


Unnamed: 0,id,name_ja,sex,birth_year
0,2022105402,カムニャック,牝,2022
1,2022105102,クロワデュノール,牡,2022
2,2022105170,ミリアッドラヴ,牝,2022
3,2022105396,アドマイヤズーム,牡,2022
4,2022101732,パンジャタワー,牡,2022


In [7]:
# セル5: ローカルファイルに保存
import json
from datetime import datetime

# タイムスタンプ付きでファイル保存
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
filename = f"../data/raw/g1_horses_sample_{timestamp}.json"

print(f"💾 データを保存: {filename}")

# JSONファイルとして保存
with open(filename, 'w', encoding='utf-8') as f:
    json.dump(horses, f, ensure_ascii=False, indent=2)

# CSVファイルとしても保存
csv_filename = f"../data/raw/g1_horses_sample_{timestamp}.csv"
df.to_csv(csv_filename, index=False, encoding='utf-8')

print(f"✅ JSON: {filename}")
print(f"✅ CSV: {csv_filename}")
print("データ保存完了！")

💾 データを保存: ../data/raw/g1_horses_sample_20250822_194846.json
✅ JSON: ../data/raw/g1_horses_sample_20250822_194846.json
✅ CSV: ../data/raw/g1_horses_sample_20250822_194846.csv
データ保存完了！


In [9]:
# 新しいセル
from scraping.horse_detail_scraper import HorseDetailScraper

detail_scraper = HorseDetailScraper()
success = detail_scraper.scrape_horse_complete("2019105219")  # イクイノックス


--- 馬ID: 2019105219 完全取得開始 ---
🔍 馬詳細ページ取得: 2019105219
  ❌ 基本情報取得失敗
