In [1]:
import requests
import json
import time
import pandas as pd # 导入pandas库，通常简写为pd
import os
from datetime import date, timedelta # 导入日期时间工具，方便处理日期

In [18]:
import requests
from datetime import date, timedelta

def fetch_tournaments(start_date, end_date, game_format='standard'):
    """
    从AlwaysBeRunning API获取指定时间范围和赛制下的锦标赛数据。
    （已修正参数键名）
    """
    print(f"\n--- 正在获取数据 ---")
    print(f"时间范围: {start_date} 到 {end_date}, 赛制: {game_format}")
    
    # 优化点：base_url末尾不需要 '?'
    base_url = "https://alwaysberunning.net/api/tournaments" 
    
    # 关键修正：将键名严格修改为API文档要求的 'start' 和 'end'
    params = {
        'format': game_format,
        'concluded': 1,
        'start': start_date,  # <-- 修正这里
        'end': end_date      # <-- 修正这里
    }
    
    try:
        response = requests.get(base_url, params=params)
        
        # 我们可以打印出最终URL来验证一下
        print(f"实际请求的URL: {response.url}")
        
        response.raise_for_status()
        tournaments = response.json()
        print(f"✅ 成功获取了 {len(tournaments)} 场比赛的数据。")
        return tournaments
    except requests.exceptions.RequestException as e:
        print(f"❌ 请求失败: {e}")
        return []

# --- 现在再次调用函数 ---

# 获取2025年8月1日到9月17日的数据
standard_tournaments_2508 = fetch_tournaments(
    start_date='2025.07.18',
    end_date='2025.09.17',
    game_format='standard'
)

# 现在这里的数量应该会变回你预期的几百场了
print(f"\n最终拿到 {len(standard_tournaments_2508)} 条比赛记录。")

# 把比赛数据赋值给tournaments_list
tournaments_list = standard_tournaments_2508

if tournaments_list:
    print("\n数据获取和赋值成功！")
else:
    print("\n没有找到符合条件的比赛记录。")



--- 正在获取数据 ---
时间范围: 2025.07.18 到 2025.09.17, 赛制: standard
实际请求的URL: https://alwaysberunning.net/api/tournaments?format=standard&concluded=1&start=2025.07.18&end=2025.09.17
✅ 成功获取了 54 场比赛的数据。

最终拿到 54 条比赛记录。

数据获取和赋值成功！


In [3]:
# --- 数据筛选步骤 ---

# 1. 创建一个空列表，用来存放符合我们条件的锦标赛ID
filtered_ids = []

print(f"开始从 {len(tournaments_list)} 场锦标赛中进行筛选...")
print("筛选条件: claim_count > 3 AND claim_conflict is False\n")

# 2. 遍历你获取到的每一场锦标赛数据
for tournament in tournaments_list:
    
    # 3. 检查每一个锦标赛字典是否同时满足两个条件
    # 使用 .get() 方法来安全地获取值，如果键不存在，则返回一个不会导致错误的值
    # 例如，如果'claim_count'不存在，我们给它一个默认值0
    claim_count = tournament.get('claim_count', 0)
    claim_conflict = tournament.get('claim_conflict', True) # 如果'claim_conflict'不存在，默认它是有问题的

    # 这就是筛选的核心逻辑！
    if claim_count > 3 and claim_conflict == False:
        # 4. 如果条件满足，就把这场锦标赛的'id'添加到我们的列表中
        filtered_ids.append(tournament['id'])
        # 我们可以顺便打印出符合条件的比赛信息，方便检查
        print(f"✅ 符合条件: ID={tournament['id']}, Title='{tournament['title']}', claim_count={claim_count}")

# 5. 循环结束后，打印出所有符合条件的ID
print("\n" + "="*50)
print("🎉 筛选完成！")

if filtered_ids:
    print(f"总共有 {len(filtered_ids)} 场锦标赛符合条件。")
    print("它们的ID分别是:")
    print(filtered_ids)
else:
    print("没有找到符合条件的锦标赛。")

开始从 3044 场锦标赛中进行筛选...
筛选条件: claim_count > 3 AND claim_conflict is False

✅ 符合条件: ID=5082, Title='Standard AMT - September 20th (EMEA)', claim_count=6
✅ 符合条件: ID=5079, Title='Whimsy Game Night September 2025', claim_count=6
✅ 符合条件: ID=5029, Title='Let's see how dwarves run! -2024 CO H2-', claim_count=6
✅ 符合条件: ID=4990, Title='CO/CT Frankfurt - 06.09.25 - Standard', claim_count=4
✅ 符合条件: ID=5004, Title='2025 Americas Continental Championship', claim_count=24
✅ 符合条件: ID=5069, Title='Muenster Game Day- UpGr8 @MaWoMe Mecklenbeck', claim_count=9
✅ 符合条件: ID=5003, Title='2025 EMEA Continental Championship', claim_count=26
✅ 符合条件: ID=5022, Title='Leuven Summer CO', claim_count=4
✅ 符合条件: ID=4858, Title='2025 Americas Continental Championship - Montréal', claim_count=28
✅ 符合条件: ID=5002, Title='2025 Asia-Pacific Continental Championship', claim_count=14
✅ 符合条件: ID=4832, Title='2025 APAC Continental Championship - Sydney', claim_count=18
✅ 符合条件: ID=4906, Title='TORONTO MEGACITY 2025', claim_count=6

In [4]:
# tournaments_list = response.json() 

# --- 数据筛选步骤 ---

# 1. 创建一个空列表，用来存放符合我们条件的锦标赛ID
filtered_ids = []

print(f"开始从 {len(tournaments_list)} 场锦标赛中进行筛选...")
print("筛选条件: claim_count > 3 AND claim_conflict is False\n")

# 2. 遍历你获取到的每一场锦标赛数据
for tournament in tournaments_list:
    
    # 3. 检查每一个锦标赛字典是否同时满足两个条件
    # 使用 .get() 方法来安全地获取值，如果键不存在，则返回一个不会导致错误的值
    # 例如，如果'claim_count'不存在，我们给它一个默认值0
    claim_count = tournament.get('claim_count', 0)
    claim_conflict = tournament.get('claim_conflict', True) # 如果'claim_conflict'不存在，默认它是有问题的

    # 这就是筛选的核心逻辑！
    if claim_count > 3 and claim_conflict == False:
        # 4. 如果条件满足，就把这场锦标赛的'id'添加到我们的列表中
        filtered_ids.append(tournament['id'])
        # 我们可以顺便打印出符合条件的比赛信息，方便检查
        print(f"✅ 符合条件: ID={tournament['id']}, Title='{tournament['title']}', claim_count={claim_count}")

# 5. 循环结束后，打印出所有符合条件的ID
print("\n" + "="*50)
print("🎉 筛选完成！")

if filtered_ids:
    print(f"总共有 {len(filtered_ids)} 场锦标赛符合条件。")
    print("它们的ID分别是:")
    print(filtered_ids)
else:
    print("没有找到符合条件的锦标赛。")

开始从 3044 场锦标赛中进行筛选...
筛选条件: claim_count > 3 AND claim_conflict is False

✅ 符合条件: ID=5082, Title='Standard AMT - September 20th (EMEA)', claim_count=6
✅ 符合条件: ID=5079, Title='Whimsy Game Night September 2025', claim_count=6
✅ 符合条件: ID=5029, Title='Let's see how dwarves run! -2024 CO H2-', claim_count=6
✅ 符合条件: ID=4990, Title='CO/CT Frankfurt - 06.09.25 - Standard', claim_count=4
✅ 符合条件: ID=5004, Title='2025 Americas Continental Championship', claim_count=24
✅ 符合条件: ID=5069, Title='Muenster Game Day- UpGr8 @MaWoMe Mecklenbeck', claim_count=9
✅ 符合条件: ID=5003, Title='2025 EMEA Continental Championship', claim_count=26
✅ 符合条件: ID=5022, Title='Leuven Summer CO', claim_count=4
✅ 符合条件: ID=4858, Title='2025 Americas Continental Championship - Montréal', claim_count=28
✅ 符合条件: ID=5002, Title='2025 Asia-Pacific Continental Championship', claim_count=14
✅ 符合条件: ID=4832, Title='2025 APAC Continental Championship - Sydney', claim_count=18
✅ 符合条件: ID=4906, Title='TORONTO MEGACITY 2025', claim_count=6

In [5]:
# 1. 创建两个空列表，分别存放公司和潜袭者的URL信息
all_corp_deck_urls = []
all_runner_deck_urls = []

print(f"准备开始从 {len(filtered_ids)} 场筛选后的锦标赛中获取牌表链接...\n")

# 2. 遍历每一个筛选出来的锦标赛ID
for tournament_id in filtered_ids:
    
    # 构建针对单个锦标赛的API URL和参数
    params = {'id': tournament_id}
    url = "https://alwaysberunning.net/api/entries"
    
    print(f"正在请求锦标赛 ID: {tournament_id} 的参赛列表...")
    
    try:
        response = requests.get(url, params=params)
        response.raise_for_status()
        
        # 3. response.json() 返回的是一个参赛者列表 (list of entries)
        # 我们直接把它命名为 entries_list
        entries_list = response.json()
        
        # 4. 检查这个参赛者列表是否为空
        if entries_list:
            print(f"  -> 成功获取了 {len(entries_list)} 条参赛记录。")
            
            # 5. 遍历这场比赛中的【每一条参赛记录】(每一个参赛者字典)
            for entry in entries_list:
                
                # 6. 从每个参赛者(entry)字典中提取URL
                corp_url = entry.get('corp_deck_url')
                runner_url = entry.get('runner_deck_url')
                player_name = entry.get('user_name', 'N/A')
                
                # 7. 如果公司URL存在，就把它存到公司列表中
                if corp_url:
                    all_corp_deck_urls.append({
                        'tournament_id': tournament_id,
                        'player': player_name,
                        'corp_deck_url': corp_url
                    })
                
                # 8. 如果潜袭者URL存在，就把它存到潜袭者列表中
                if runner_url:
                    all_runner_deck_urls.append({
                        'tournament_id': tournament_id,
                        'player': player_name,
                        'runner_deck_url': runner_url
                    })
        else:
            print(f"  -> 锦标赛 {tournament_id} 没有返回参赛记录。")

    except requests.exceptions.RequestException as e:
        print(f"  -> 错误: 请求锦标赛 {tournament_id} 失败: {e}")

    # 礼貌地暂停一秒
    time.sleep(1)

# --- 循环结束后，查看我们的成果 ---
print("\n" + "="*50)
print("🎉 全部处理完成！")

# 公司URL输出
if all_corp_deck_urls:
    print(f"\n总共收集到了 {len(all_corp_deck_urls)} 份公司牌表链接。")
    print("前5条记录示例：")
    print(json.dumps(all_corp_deck_urls[:5], indent=2))
else:
    print("\n未能收集到任何公司牌表链接。")

# 潜袭者URL输出
if all_runner_deck_urls:
    print(f"\n总共收集到了 {len(all_runner_deck_urls)} 份潜袭者牌表链接。")
    print("前5条记录示例：")
    print(json.dumps(all_runner_deck_urls[:5], indent=2))
else:
    print("\n未能收集到任何潜袭者牌表链接。")

准备开始从 929 场筛选后的锦标赛中获取牌表链接...

正在请求锦标赛 ID: 5082 的参赛列表...
  -> 成功获取了 18 条参赛记录。
正在请求锦标赛 ID: 5079 的参赛列表...
  -> 成功获取了 10 条参赛记录。
正在请求锦标赛 ID: 5029 的参赛列表...
  -> 成功获取了 10 条参赛记录。
正在请求锦标赛 ID: 4990 的参赛列表...
  -> 成功获取了 12 条参赛记录。
正在请求锦标赛 ID: 5004 的参赛列表...
  -> 成功获取了 91 条参赛记录。
正在请求锦标赛 ID: 5069 的参赛列表...
  -> 成功获取了 16 条参赛记录。
正在请求锦标赛 ID: 5003 的参赛列表...
  -> 成功获取了 99 条参赛记录。
正在请求锦标赛 ID: 5022 的参赛列表...
  -> 成功获取了 10 条参赛记录。
正在请求锦标赛 ID: 4858 的参赛列表...
  -> 成功获取了 91 条参赛记录。
正在请求锦标赛 ID: 5002 的参赛列表...
  -> 成功获取了 45 条参赛记录。
正在请求锦标赛 ID: 4832 的参赛列表...
  -> 成功获取了 62 条参赛记录。
正在请求锦标赛 ID: 4906 的参赛列表...
  -> 成功获取了 19 条参赛记录。
正在请求锦标赛 ID: 5024 的参赛列表...
  -> 成功获取了 14 条参赛记录。
正在请求锦标赛 ID: 4800 的参赛列表...
  -> 成功获取了 50 条参赛记录。
正在请求锦标赛 ID: 4829 的参赛列表...
  -> 成功获取了 102 条参赛记录。
正在请求锦标赛 ID: 4958 的参赛列表...
  -> 成功获取了 20 条参赛记录。
正在请求锦标赛 ID: 5027 的参赛列表...
  -> 成功获取了 16 条参赛记录。
正在请求锦标赛 ID: 5018 的参赛列表...
  -> 成功获取了 38 条参赛记录。
正在请求锦标赛 ID: 4828 的参赛列表...
  -> 成功获取了 21 条参赛记录。
正在请求锦标赛 ID: 4976 的参赛列表...
  -> 成功获取了 12 条参赛记录。
正在请求锦标赛 ID: 4715 的参赛列表...
  -

KeyboardInterrupt: 

In [None]:

# --- 第一部分：处理公司方卡组 ---

# 1. 创建一个最终的、大的列表，用来存放每一条卡牌记录
corp_card_data = []

print(f"准备处理 {len(all_corp_deck_urls)} 个公司方卡组链接...\n")

# 2. 遍历我们之前收集到的每一个包含URL的字典
for deck_info in all_corp_deck_urls:
    
    url = deck_info['corp_deck_url']
    
    # 如果URL为空，则跳过此次循环
    if not url:
        continue

    try:
        # 3. 从URL中解析出 decklist_id (这是关键一步！)
        # 例如: 'https://netrunnerdb.com/en/decklist/91006/...' -> '91006'
        decklist_id = url.split('/')[5]
        
        # 4. 使用ID调用NetrunnerDB API
        api_url = f"https://netrunnerdb.com/api/2.0/public/decklist/{decklist_id}"
        print(f"正在请求 Decklist ID: {decklist_id} ...")
        
        response = requests.get(api_url)
        response.raise_for_status()
        decklist_data = response.json()
        
        # 5. 提取 'cards' 字典
        if decklist_data.get('success') and decklist_data.get('data'):
            cards_dict = decklist_data['data'][0].get('cards')
            
            if cards_dict:
                # 6. 【核心】遍历 'cards' 字典，将每张卡作为一条新记录添加
                for card_id, quantity in cards_dict.items():
                    corp_card_data.append({
                        'tournament_id': deck_info['tournament_id'],
                        'player': deck_info['player'],
                        'decklist_id': decklist_id,
                        'card_id': card_id,
                        'quantity': quantity
                    })
        
        # 礼貌地暂停
        time.sleep(0.5)

    except Exception as e:
        print(f"  -> 处理URL {url} 时发生错误: {e}")
        continue # 即使单个URL出错，也继续处理下一个



In [None]:
# --- 第二部分：将收集到的数据转换成表格 (Pandas DataFrame) ---
print("\n" + "="*50)
print("🎉 公司方数据处理完成！正在创建表格...")

if corp_card_data:
    # 这就是“拼成表格”的魔法！
    corp_df = pd.DataFrame(corp_card_data)

    print("\n公司方卡牌数据表格创建成功！")
    print("表格信息概览：")
    corp_df.info() # 显示表格的结构信息

    print("\n表格前5行预览：")
    print(corp_df.head()) # 显示表格的前5行
else:
    print("未能收集到任何公司方卡牌数据。")

In [None]:

# --- 第二部分：处理潜袭者方卡组 ---

# 1. 创建一个最终的、大的列表，用来存放每一条卡牌记录
runner_card_data = []

print(f"准备处理 {len(all_runner_deck_urls)} 个潜袭者方卡组链接...\n")

# 2. 遍历我们之前收集到的每一个包含URL的字典
for deck_info in all_runner_deck_urls:
    
    url = deck_info['runner_deck_url']
    
    # 如果URL为空，则跳过此次循环
    if not url:
        continue

    try:
        # 3. 从URL中解析出 decklist_id (这是关键一步！)
        # 例如: 'https://netrunnerdb.com/en/decklist/91006/...' -> '91006'
        decklist_id = url.split('/')[5]
        
        # 4. 使用ID调用NetrunnerDB API
        api_url = f"https://netrunnerdb.com/api/2.0/public/decklist/{decklist_id}"
        print(f"正在请求 Decklist ID: {decklist_id} ...")
        
        response = requests.get(api_url)
        response.raise_for_status()
        decklist_data = response.json()
        
        # 5. 提取 'cards' 字典
        if decklist_data.get('success') and decklist_data.get('data'):
            cards_dict = decklist_data['data'][0].get('cards')
            
            if cards_dict:
                # 6. 【核心】遍历 'cards' 字典，将每张卡作为一条新记录添加
                for card_id, quantity in cards_dict.items():
                    runner_card_data.append({
                        'tournament_id': deck_info['tournament_id'],
                        'player': deck_info['player'],
                        'decklist_id': decklist_id,
                        'card_id': card_id,
                        'quantity': quantity
                    })
        
        # 礼貌地暂停
        time.sleep(0.5)

    except Exception as e:
        print(f"  -> 处理URL {url} 时发生错误: {e}")
        continue # 即使单个URL出错，也继续处理下一个



In [None]:
# --- 第二部分：将收集到的数据转换成表格 (Pandas DataFrame) ---
print("\n" + "="*50)
print("🎉 潜袭者方数据处理完成！正在创建表格...")

if runner_card_data:
    runner_df = pd.DataFrame(runner_card_data)

    print("\潜袭者方卡牌数据表格创建成功！")
    print("表格信息概览：")
    runner_df.info() # 显示表格的结构信息

    print("\n表格前5行预览：")
    print(runner_df.head()) # 显示表格的前5行
else:
    print("未能收集到任何潜袭者方卡牌数据。")

In [None]:
# --- 准备工作：获取并准备卡牌信息数据 ---

# 1. 获取所有卡牌的详细信息
all_cards_url = "https://netrunnerdb.com/api/2.0/public/cards"
response = requests.get(all_cards_url)
all_cards_data = response.json()['data']

# 2. 将卡牌信息列表转换成一个DataFrame
cards_info_df = pd.DataFrame(all_cards_data)

# 3. 为了让表格更简洁，我们只保留需要的几列
# 'code'是卡牌ID, 'title'是标题, 'faction_code'是阵营, 'side_code'是公司/潜袭者
cards_info_df = cards_info_df[['code', 'title', 'faction_code', 'side_code']]

print("卡牌信息表格（cards_info_df）已准备就绪：")
print(cards_info_df.head())


# --- 核心步骤：合并表格 ---
print("\n" + "="*50)
print("正在将卡组数据 (corp_df) 与卡牌信息 (cards_info_df) 进行合并...")

# 使用 pd.merge() 函数
# left_on='card_id' 指的是 corp_df 中用来匹配的列
# right_on='code' 指的是 cards_info_df 中用来匹配的列
corp_df_merged = pd.merge(corp_df, cards_info_df, left_on='card_id', right_on='code')

print("\n合并成功！新的表格 corp_df_merged 包含了卡牌的详细信息。")
print("新表格的前5行预览：")
print(corp_df_merged.head())


In [None]:

# 假设你已经有了 runner_df 和 cards_info_df 这两个表格

print("="*50)
print("正在将潜袭者方卡组数据 (runner_df) 与卡牌信息 (cards_info_df) 进行合并...")

# 使用完全相同的 pd.merge() 函数
# 左表是 runner_df，右表是 cards_info_df
# 连接键依然是 'card_id' 和 'code'
runner_df_merged = pd.merge(runner_df, cards_info_df, left_on='card_id', right_on='code')

print("\n合并成功！新的表格 runner_df_merged 已创建。")
print("新表格的前5行预览：")
print(runner_df_merged.head())

In [None]:
# --- 数据持久化：保存到CSV文件 ---

print("正在将处理好的数据保存到本地文件...")

# 确保你有一个名为'data'的子文件夹来存放数据
import os
if not os.path.exists('data'):
    os.makedirs('data')

# to_csv() 就是保存命令
# 'data/final_corp_data.csv' 是文件路径和名称
# index=False 是一个非常重要的参数，它能防止Pandas把DataFrame的行索引也存进文件里
corp_df_merged.to_csv('data/final_corp_data.csv', index=False,encoding='utf-8-sig')
runner_df_merged.to_csv('data/final_runner_data.csv', index=False,encoding='utf-8-sig')

print("✅ 成功！数据已保存为 data/final_corp_data.csv 和 data/final_runner_data.csv")