In [1]:
import pandas as pd

INPUT_FILE = "W020250729615142156867.xls"
OUTPUT_FILE = "step1_private_undergrad.xlsx"

# 1. 读取：第 3 行作为表头
df_raw = pd.read_excel(INPUT_FILE, engine="xlrd", header=2)

# 2. 选取关键列
use_cols = ["学校名称", "学校标识码", "主管部门", "所在地", "办学层次", "备注"]
df = df_raw[use_cols].copy()

# 3. 去空格（注意这里是 .str.strip()）
for col in df.columns:
    df[col] = df[col].astype(str).str.strip()

# 4. 去掉不是学校的行（小节标题那种学校标识码为空的）
df = df[df["学校标识码"].notna()]
df = df[df["学校名称"].notna()]

# 5. 筛选 “民办”
df_private = df[df["备注"].fillna("").str.contains("民办")].copy()
print("民办高校（含本科+专科）数量：", df_private.shape[0])

# 6. 再筛选 “本科”
df_private_undergrad = df_private[df_private["办学层次"].fillna("").str.contains("本科")].copy()
print("民办本科高校数量：", df_private_undergrad.shape[0])
print(df_private_undergrad.head())

# 7. 重命名英文列名
rename_dict = {
    "学校名称": "school_name",
    "学校标识码": "school_code",
    "主管部门": "governing_body",
    "所在地": "location",
    "办学层次": "level",
    "备注": "note",
}
df_private_undergrad = df_private_undergrad.rename(columns=rename_dict)

# 8. 排序并导出
df_private_undergrad = df_private_undergrad.sort_values(
    by=["location", "school_name"]
).reset_index(drop=True)

df_private_undergrad.to_excel(OUTPUT_FILE, index=False)
print(f"\n✅ 民办本科高校表已导出到：{OUTPUT_FILE}")


民办高校（含本科+专科）数量： 829
民办本科高校数量： 417
          学校名称         学校标识码   主管部门  所在地 办学层次  备注
56      北京城市学院  4111011418.0  北京市教委  北京市   本科  民办
60  首都师范大学科德学院  4111013629.0  北京市教委  北京市   本科  民办
61    北京金融科技学院  4111013630.0  北京市教委  北京市   本科  民办
62  北京邮电大学世纪学院  4111013901.0  北京市教委  北京市   本科  民办
63  北京工业大学耿丹学院  4111013904.0  北京市教委  北京市   本科  民办

✅ 民办本科高校表已导出到：step1_private_undergrad.xlsx


In [2]:
import pandas as pd

df_raw = pd.read_excel("W020250729615142156867.xls", engine="xlrd", header=None)

print("前 20 行：\n")
for i in range(20):
    print(f"Row {i}: {df_raw.iloc[i].tolist()}")


前 20 行：

Row 0: ['附件1：', nan, nan, nan, nan, nan, nan]
Row 1: ['全国普通高等学校名单\n（截至2025年6月20日）', nan, nan, nan, nan, nan, nan]
Row 2: ['序号', '学校名称', '学校标识码', '主管部门', '所在地', '办学层次', '备注']
Row 3: ['北京市（92所）', nan, nan, nan, nan, nan, nan]
Row 4: [1, '北京大学', 4111010001, '教育部', '北京市', '本科', nan]
Row 5: [2, '中国人民大学', 4111010002, '教育部', '北京市', '本科', nan]
Row 6: [3, '清华大学', 4111010003, '教育部', '北京市', '本科', nan]
Row 7: [4, '北京交通大学', 4111010004, '教育部', '北京市', '本科', nan]
Row 8: [5, '北京工业大学', 4111010005, '北京市', '北京市', '本科', nan]
Row 9: [6, '北京航空航天大学', 4111010006, '工业和信息化部', '北京市', '本科', nan]
Row 10: [7, '北京理工大学', 4111010007, '工业和信息化部', '北京市', '本科', nan]
Row 11: [8, '北京科技大学', 4111010008, '教育部', '北京市', '本科', nan]
Row 12: [9, '北方工业大学', 4111010009, '北京市', '北京市', '本科', nan]
Row 13: [10, '北京化工大学', 4111010010, '教育部', '北京市', '本科', nan]
Row 14: [11, '北京工商大学', 4111010011, '北京市', '北京市', '本科', nan]
Row 15: [12, '北京服装学院', 4111010012, '北京市', '北京市', '本科', nan]
Row 16: [13, '北京邮电大学', 4111010013, '教育部', '北京市', '本科', n

In [1]:
import pandas as pd
df = pd.read_excel("step5_intl_features_A2_kimi_languages.xlsx")
df["languages_offered_count"].describe()


count    417.000000
mean       1.676259
std        3.562389
min        0.000000
25%        1.000000
50%        1.000000
75%        1.000000
max       64.000000
Name: languages_offered_count, dtype: float64