In [31]:
import pandas as pd

In [32]:
df = pd.read_csv('2025_Problem_C_Data/summerOly_athletes.csv')
df["Medal"].value_counts()

Medal
No medal    213747
Bronze       13070
Gold         13002
Silver       12746
Name: count, dtype: int64

In [51]:
pd.set_option('display.max_rows', None) 
# 2. 检查列名是否存在（可选，若你的数据中列名与此处不符，需要修改）
required_cols = {"Name", "Sex", "Team", "NOC", "Year", "City", "Sport", "Event", "Medal"}
if not required_cols.issubset(set(df.columns)):
    missing = required_cols - set(df.columns)
    raise ValueError(f"数据缺少必要的列: {missing}")

# 3. 统计每个 NOC 每年参加比赛的参赛条目数（不去重）
grouped_df = (
    df.groupby(["NOC", "Year"])["Name"]
      .count()  # 仅做计数，不去重
      .reset_index(name="Participants") # 重置索引并命名统计列
)

grouped_df["Participants"] = grouped_df["Participants"].astype(int)

# 4. 查看结果（分组形式）
print("按 NOC, Year 统计参赛条目数：")
print(grouped_df) 

# 5. 如果需要将其转为类似透视表形式（行：NOC，列：Year，值：Participants）
result_pivot = grouped_df.pivot(index="NOC", columns="Year", values="Participants").fillna(0)

# 6. 如需保存结果，可使用：
grouped_df.to_csv("each_country_each_year_count_entries.csv", index=False)

按 NOC, Year 统计参赛条目数：
      NOC  Year  Participants
0     AFG  1936            16
1     AFG  1948            25
2     AFG  1956            12
3     AFG  1960            16
4     AFG  1964             8
5     AFG  1968             5
6     AFG  1972             8
7     AFG  1980            11
8     AFG  1988             5
9     AFG  1996             2
10    AFG  2004             5
11    AFG  2008             4
12    AFG  2012             6
13    AFG  2016             3
14    AFG  2020             5
15    AFG  2024             7
16    AHO  1952            11
17    AHO  1960             5
18    AHO  1964             4
19    AHO  1968             5
20    AHO  1972             2
21    AHO  1976             4
22    AHO  1984            13
23    AHO  1988             4
24    AHO  1992             4
25    AHO  1996             7
26    AHO  2000             8
27    AHO  2004             3
28    AHO  2008             4
29    AIN  2024            46
30    ALB  1972             5
31    ALB  1992    

In [52]:
# 7. 读取奖牌数据
df_medal = pd.read_csv('2025_Problem_C_Data/summerOly_medal_counts.csv')
df_participants = pd.read_csv('each_country_each_year_count_entries.csv')

# 8. 合并 grouped_df 的 Participants 列到 df_medal
merged_df = pd.merge(
    df_medal,  # 原始奖牌数据
    grouped_df,  # 只选择需要的列
    on=["NOC", "Year"],  # 按照 NOC 和 Year 合并
    how="left"  # 保留 df_medal 的所有行，grouped_df 中匹配不到的行填充 NaN
)

# 9. 查看合并后的结果
print("合并后的表格：")
print(merged_df)

# 10. 保存合并后的表格
#merged_df.to_csv("merged_medal_with_num_entries.csv", index=False)

合并后的表格：
      Rank                     NOC  Gold  Silver  Bronze  Total  Year  \
0        1           United States    11       7       2     20  1896   
1        2                  Greece    10      18      19     47  1896   
2        3                 Germany     6       5       2     13  1896   
3        4                  France     5       4       2     11  1896   
4        5           Great Britain     2       3       2      7  1896   
5        6                 Hungary     2       1       3      6  1896   
6        7                 Austria     2       1       2      5  1896   
7        8               Australia     2       0       0      2  1896   
8        9                 Denmark     1       2       3      6  1896   
9       10             Switzerland     1       2       0      3  1896   
10      11              Mixed team     1       0       1      2  1896   
11       1                  France    27      39      37    103  1900   
12       2           United States    19   