## 第一波提取

In [49]:
import pandas as pd

# 定义岗位职责、入职要求和福利待遇的近义词
responsibilities_synonyms = [
    '岗位职责', '工作内容', '职责描述', '业务内容', '工作职责',
    '工作任务', '职能职责', '职能描述', '任务职责', '工作明细',
    '职位职责', '日常职责', '日常任务', '工作职责', '工作义务',
    '工作范围', '工作目标', '岗位任务', '职业职责', '岗位义务',
    '职位目标', '业务职责', '岗位描述', '岗位职能', '职务内容',
    '工作指引', '职责条款', '工作分配', '职务说明', '职责要求',
    '主要职责', '责任范围', '主要任务', '岗位责任', '核心职责',
    '重要职责', '责任描述', '关键职责', '首要职责', '必备职责',
    '基础职责', '核心任务', '必要职责', '岗位定义', '基本职责',
    '职责', '职位描述', '职责描述', '【岗位职责】', '【工作内容】',
    
]

requirements_synonyms = [
    '入职要求', '任职条件', '资格要求', '职位要求', '任职要求',
    '任职资格', '录用条件', '录用资格', '应聘要求', '应聘资格',
    '招聘要求', '招聘条件', '条件要求', '资历要求', '素质要求',
    '任用条件', '入岗条件', '职位条件', '就职条件', '招聘资格',
    '任用资格', '入岗资格', '职位资格', '就职资格', '职位需要',
    '应聘条件', '入职条件', '用人要求', '入岗要求', '招聘标准',
    '基本条件', '基本要求', '必要条件', '必要要求', '岗位要求',
    '岗位条件', '必备条件', '必备要求', '选拔条件', '选拔资格',
    '选人标准', '选人要求', '人选条件', '人选资格', '求职条件',
    '求职资格', '用人条件', '用人标准', '职位标准', '录用要求',
    '职位描述', '要求', 
]

benefits_synonyms = [
    '福利待遇', '薪资待遇', '假期安排', '培训安排', '工作地点', '上班地点', '作息时间', 
    '面试地址', '晋升方向', '晋升通道', '晋升路线', '福利', '薪酬福利', '我们将为您提供',
    '其他', '升职', '升迁', '世界500强集团万科旗下德英乐教育平台及品牌资源', '职业发展',
    '职业规划', '年终奖金', '带薪年假', '员工旅游', '定期体检', '年度体检', '节日福利',
    '住房补贴', '交通补贴', '餐饮补贴', '通讯补贴', '书报补贴', '高温补贴', '加班补贴',
    '健康检查', '商业保险', '社保', '公积金', '五险一金', '十三薪', '绩效奖金', '季度奖金',
    '员工活动', '团队建设', '团队活动', '年度旅游', '拓展训练', '职业培训', '外派培训',
    '在职培训', '员工折扣', '员工优惠', '内部晋升', '成长计划', '职业晋升', '灵活工作时间',
    '弹性工作时间', '家庭责任假', '父母体检', '子女教育福利', '员工子女托育', '内部调岗',
    '跨部门调动', '职能轮换', '交通津贴', '购房优惠', '购车优惠', '免费午餐', '免费晚餐',
    '公司水果', '零食', '饮料', '茶点', '茶歇时间', '节日慰问', '生日会',
    '节日礼包','三、岗位竞争力', '面试流程', '工资和待遇','在这里，我们期待遇见--您','地址是',
    '工作时间', '多项多样奖励', '竞争优势', '待遇', '薪资','上班时间','薪资面议','该岗位是三方岗位，介意者慎投，谢谢',
    
]

# 定义一个函数来提取岗位职责、任职要求并排除福利待遇
def extract_job_details(text):
    sections = responsibilities_synonyms + requirements_synonyms + benefits_synonyms
    content = {section: [] for section in sections}
    current_section = None
    
    if isinstance(text, str):
        lines = text.split('\n')
        
        for line in lines:
            line = line.strip()
            if not line:
                continue
            if any(section in line for section in sections):
                for section in sections:
                    if section in line:
                        current_section = section
                        break
            elif current_section:
                content[current_section].append(line)
    
    # 合并岗位职责内容
    job_description = None
    for responsibility in responsibilities_synonyms:
        if content[responsibility]:
            job_description = '\n'.join(content[responsibility])
            break

    # 合并任职要求内容，并排除福利待遇
    job_requirements = []
    for requirement in requirements_synonyms:
        if content[requirement]:
            job_requirements.extend(content[requirement])
    
    # 合并到一个字符串，并移除包含福利待遇近义词的内容
    job_requirements_str = '\n'.join(job_requirements)
    for benefit in benefits_synonyms:
        job_requirements_str = job_requirements_str.replace(benefit, '')
    
    return job_description, job_requirements_str.strip()

# 读取CSV文件
df = pd.read_csv('data/basic/all_data.csv')

# 构建新的列
df['岗位职责'], df['任职要求'] = zip(*df['岗位描述'].apply(extract_job_details))



                                                岗位职责  \
0  3）建立渠道、供应商合作关系，并且有效开展业务合作，促进业务发展；\n4）负责所辖区域内安全...   
1  1、 负责合理安排维修人员的工作及车间看板的管理、开展并控制车间6S的具体实施，并保证本部人...   
2  1. 技术支持：通过电话提供远程技术支援，对新能源汽车产品故障分析确认并给予维修建议；\n2...   
3                                               None   
4                                               None   

                                                任职要求  
0  1）本科及以上学历；\n2）3年以上城市负责人或运营管理经验，具有相应的团队管理经验；\n3...  
1                                                     
2  1.大专及以上学历，汽车维修相关专业毕业；\n2.熟练使用Excel，Word等办公软件；\...  
3  1、大专及以上学历，物流、营销专业优先；\n2、三年以上汽车行业配件经验；\n3、有较强的责...  
4  教育程度： 大专 专业： 汽车相关 性别： 不限 年龄： 不限。\n工作经验： 汽车4S店工...  


In [52]:
# 过滤出岗位职责和任职要求都不为空的行
filtered_df = df[(df['任职要求'].notnull()) & (df['岗位职责'].notnull())]

# 剩余的行
remaining_df = df[~((df['任职要求'].notnull()) & (df['岗位职责'].notnull()))]

# 统计行数
count_1 = filtered_df.shape[0]
count_2 = remaining_df.shape[0]

print(f"岗位职责和任职要求都不为空的行数为: {count_1}")
print(f"岗位职责和任职要求有一个为空的行数为: {count_2}")
# 将过滤后的数据写入一个CSV文件
filtered_df.to_csv('data/process/filtered_output.csv', index=False)

# 将剩余的数据写入另一个CSV文件
remaining_df.to_csv('data/process/remaining_output.csv', index=False)

岗位职责和任职要求都不为空的行数为: 130231
岗位职责和任职要求有一个为空的行数为: 69769


In [53]:
# 定义一个函数来提取岗位职责、任职要求并排除福利待遇
def extract_job_details(text):
    sections = responsibilities_synonyms + requirements_synonyms + benefits_synonyms
    content = {section: [] for section in sections}
    current_section = None
    
    if isinstance(text, str):
        lines = text.split('\n')
        
        for line in lines:
            line = line.strip()
            if not line:
                continue

            # 判断当前行是否包含任何定义的关键字
            found_section = False
            for section in sections:
                if section in line:
                    current_section = section
                    found_section = True
                    break
            
            # 如果行不是标题，则添加到当前 section
            if not found_section and current_section:
                content[current_section].append(line)
    
    # 合并岗位职责内容
    job_description = None
    for responsibility in responsibilities_synonyms:
        if content[responsibility]:
            job_description = '\n'.join(content[responsibility])
            break

    # 合并任职要求内容，并排除福利待遇
    job_requirements = []
    for requirement in requirements_synonyms:
        if content[requirement]:
            job_requirements.extend(content[requirement])
    
    # 合并到一个字符串，并移除包含福利待遇近义词的内容
    job_requirements_str = '\n'.join(job_requirements)
    for benefit in benefits_synonyms:
        job_requirements_str = job_requirements_str.replace(benefit, '')
    
    return job_description, job_requirements_str.strip()

# 读取CSV文件
df = pd.read_csv('data/basic/all_data.csv')

# 构建新的列
df['岗位职责'], df['任职要求'] = zip(*df['岗位描述'].apply(extract_job_details))

# 过滤出岗位职责和任职要求都不为空的行
filtered_df = df[(df['任职要求'].notnull()) & (df['岗位职责'].notnull())]

# 剩余的行
remaining_df = df[~((df['任职要求'].notnull()) & (df['岗位职责'].notnull()))]

# 统计行数
count = filtered_df.shape[0]

print(f"岗位职责和任职要求都不为空的行数为: {count}")

岗位职责和任职要求都不为空的行数为: 130231


## 第二波提取

In [None]:
data = pd.read_csv('data/process/remaining.csv')
data['任职要求']