In [43]:
import pandas as pd


def process_salary(df):
    min_salary_list = []
    max_salary_list = []

    for salary in df["薪水"]:
        if "-" not in salary:
            if "K" in salary:  # 形如60K·16薪或30K的情况
                parts = salary.split("·")
                if len(parts) == 1:  # 无·符号，形如30K
                    month_salary = int(parts[0].replace("K", "")) * 1000
                    months = 12
                else:  # 有·符号，形如60K·16薪
                    month_salary = int(parts[0].replace("K", "")) * 1000
                    months = int(parts[1].replace("薪", ""))
                    salary_year = months * month_salary
                    min_salary_list.append(salary_year / 10000)
                    max_salary_list.append(salary_year / 10000)
            elif "元/天" in salary:  # 形如380元/天的情况
                parts = salary.split("元/天")
                day_salary = int(parts[0])
                days = 52 * 6
                salary_year = days * day_salary
                min_salary_list.append(salary_year / 10000)
                max_salary_list.append(salary_year / 10000)
            elif "元/时" in salary:  # 形如35元/时的情况
                hourly_salary = int(salary.replace("元/时", ""))
                min_salary_list.append(hourly_salary * 8 * 6 * 52 / 10000)
                max_salary_list.append(hourly_salary * 8 * 6 * 52 / 10000)

        elif "-" in salary:
            # 判断薪水格式并进行统一化处理
            if "K" in salary:  # 形如30-60K·16薪或20-30K的情况
                salary = salary.replace("K", "")
                parts = salary.split("·")
                if len(parts) == 1:  # 无·符号，形如20-30K
                    min_salary, max_salary = map(int, parts[0].split("-"))
                    min_salary_list.append(min_salary * 1.2)
                    max_salary_list.append(max_salary * 1.2)
                else:  # 有·符号，形如30-60K·16薪
                    min_salary, max_salary = map(int, parts[0].split("-"))
                    months = int(parts[1].replace("薪", ""))
                    min_salary_list.append(min_salary * months / 10)
                    max_salary_list.append(max_salary * months / 10)
            elif "元/天" in salary:  # 形如250-380元/天的情况
                parts = salary.split("元/天")
                min_salary, max_salary = map(int, parts[0].split("-"))
                min_salary_list.append(min_salary * 6 * 52 / 10000)
                max_salary_list.append(max_salary * 6 * 52 / 10000)
            elif "元/时" in salary:  # 形如25-35元/时的情况
                parts = salary.split("元/时")
                min_salary, max_salary = map(int, parts[0].split("-"))
                min_salary_list.append(min_salary * 8 * 6 * 52 / 10000)
                max_salary_list.append(max_salary * 8 * 6 * 52 / 10000)
            # else:  # 其他情况，直接提取数字作为薪资
            #     min_salary = max_salary = int(salary.replace("K", ""))
            #     min_salary_list.append(min_salary)
            #     max_salary_list.append(max_salary)

    # 将最低年薪和最高年薪添加到 DataFrame 中
    df["最低年薪"] = min_salary_list
    df["最高年薪"] = max_salary_list

    return df


# 读取 Excel 文件
filename = "jobs_from_htmls.xlsx"
df = pd.read_excel(filename)
df = process_salary(df)
# 保存修改后的 Excel 文件
df.to_excel(filename, index=False)

In [44]:
# 处理薪水属性
df

Unnamed: 0,标题,公司,薪水,工作地点,经验要求,学历要求,岗位类型,融资情况,公司规模,福利信息,城市,区县,街道,最低年薪,最高年薪
0,大模型算法,文远知行,30-60K·15薪,广州·海珠区·官洲,经验不限,本科,互联网,D轮及以上,1000-9999人,带薪年假，年终奖，节日福利，员工旅游，通讯补贴，五险一金，补充医疗保险，零食下午茶，股票期权...,广州,海珠区,官洲,45.00,90.00
1,大模型算法,一零跃动,30-50K·14薪,北京·朝阳区·来广营,3-5年,本科,互联网,不需要融资,1000-9999人,带薪年假，节日福利，定期体检，零食下午茶，年终奖，员工旅游，五险一金，餐补，补充医疗保险,北京,朝阳区,来广营,42.00,70.00
2,算法工程师（大模型）,赛力斯研究院,14-28K,重庆·沙坪坝区·烈士墓,3-5年,本科,汽车研发/制造,,1000-9999人,,重庆,沙坪坝区,烈士墓,16.80,33.60
3,蚂蚁集团大模型算法岗位,蚂蚁集团,30-60K·16薪,北京·朝阳区·团结湖,3-5年,本科,互联网,D轮及以上,10000人以上,员工旅游，带薪年假，零食下午茶，年终奖，定期体检，节日福利，五险一金，餐补，包吃，住房补贴，...,北京,朝阳区,团结湖,48.00,96.00
4,大模型算法工程师,中软国际,20-30K,广州·天河区·龙口,5-10年,本科,计算机软件,已上市,10000人以上,零食下午茶，定期体检，五险一金，年终奖，餐补，带薪年假，员工旅游，免费班车，加班补助，节日福利,广州,天河区,龙口,24.00,36.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
295,3D模型师,辰渔数字,4-8K,泉州·晋江市·青阳,1-3年,大专,计算机软件,,0-20人,生日福利，节假日加班费，有无线网，全勤奖，年终奖，底薪加提成，工龄奖，加班补助，保底工资，绩...,泉州,晋江市,青阳,4.80,9.60
296,模型手办制作师,纽威艺品,3-6K,厦门·海沧区·新阳工业区,经验不限,中专/中技,工艺品/收藏品,未融资,20-99人,五险一金，加班补助，全勤奖，餐补，包吃，住房补贴,厦门,海沧区,新阳工业区,3.60,7.20
297,3D模型师,绍兴魔鱼,8-13K·13薪,绍兴·上虞区·东关,经验不限,大专,游戏,未融资,20-99人,五险一金，全勤奖，带薪年假，员工旅游，年终奖，节日福利,绍兴,上虞区,东关,10.40,16.90
298,数据模型实习生,京东科技集团,200-300元/天,北京·大兴区·亦庄,5天/周,3个月,互联网,不需要融资,1000-9999人,补充医疗保险，五险一金，餐补，免费班车,北京,大兴区,亦庄,6.24,9.36


In [23]:

# 读取 Excel 文件
filename = "jobs_from_htmls.xlsx"
df = pd.read_excel(filename)

# 添加年薪范围列
df["年薪范围"] = df["薪水"].apply(calculate_annual_salary)

# 保存修改后的 Excel 文件
df.to_excel(filename, index=False)

ValueError: invalid literal for int() with base 10: '60K'