敏捷参考使用文档

1. 20250602csv 文件夹（数据）

20250602csv 文件夹中存放的是 6 月 2 日至 6 月 7 日期间爬取的网页数据。

2. csv_folder 文件夹（数据）

文件夹内的内容均为 4 月 21 日后几天的网页数据。

3. article_classification 文件夹

该文件夹包含以下内容：

5 个 Python 文件：generate_judge.py、judge_generate.py、judge_title_generate.py、key_word_generate.py、test.py
辅助分类和文本生成的 TXT 文件（可根据实际需求调整）
分类结果文件夹 result

文件说明：

test.py：仅用于测试文本生成和写入 docx 文件的功能，其核心逻辑被复用于其他 4 个 Python 文件。
其余 4 个核心文件对应不同的文本分类方法：
- generate_judge.py：先生成敏捷参考文本，再对文本进行分类
- judge_generate.py：先对文本进行分类，再生成敏捷参考文本
- judge_title_generate.py：先对文本标题进行判断，再生成敏捷参考文本
- key_word_generate.py：根据关键词对文本进行判断，再生成敏捷参考文本
如需自定义 api_key，请自行开通

使用方法：

4 份核心代码的使用方式基本一致，仅需修改待分类文本的 CSV 文件路径和分类结果存储路径即可运行。

4. article_ranking 文件夹（后端功能）

文件说明与使用：

importance_rank.py
- 基础版文本排序代码，未应用敏捷参考企业名单，也未区分企业和高校
- 使用前需先设置 api_key（如需自定义 api_key，请自行开通）
- 运行时仅需提供待处理的 CSV 文件路径
5_14_rank.py
- 基于 5 月 14 日新需求修改，可判断科技成果所属机构；若为企业，可在企业数据库中检索并辅助评分
- 功能状态：因信息来源多为国外机构、企业名单多为国内企业，且检索阈值未优化
- 使用方式：与 importance_rank.py 基本一致，需额外提供向量库所在文件夹路径
- 注意：运行时可能需要开启 VPN，也可尝试将向量化模型下载到本地解决该问题
build_company_bank.py
- 功能：构建存储企业评分档位的向量库
- 使用：需提供原始数据库文件路径和生成的向量知识库文件夹路径
- 注意：该功能可能需要开启 VPN 使用
Companies.xlsx
- 存储企业评分档位的表格文件
pic_plt.py
- 功能：绘制文本分类和文本修正的结果统计图
评分配置 TXT 文件：
- scoring_criteria.txt：指导 importance_rank.py 进行评分
- college_score.txt/company_score.py：指导 5_14_rank.py 进行评分
company_index 文件夹：存放 build_company_bank.py 生成的向量库

5. correction 文件夹

基础文件说明：

examples 文件夹：存放指导敏捷参考科技热点（也适用于科技前沿）生成的示例
template 文件夹：存放指导敏捷参考科技热点生成的指南
sensitive_words 文件夹：存放两组收集到的违禁词库

核心功能文件：

ali_censor.py
- 功能：调用阿里云内容安全平台实现文本审核（需自行申请使用id与密钥）
- 使用：需提供待检查文本文件路径（仅支持 TXT 格式）
- 注意：阿里云审查会将所有链接判定为危险内容，因此审核时会提交「有链接版」和「无链接版」两种文本（该功能已实现）
word_cleanse.py
- 功能：查找文本中的违禁词并定位
- 使用：需提供违禁词库路径和待审核文本路径
data_correction.py
- 功能：校对生成文本中的数据
- 使用：需指定原文路径、大模型生成文本路径、错误数据位置输出的 TXT 文件路径
censor_and_correction.py
- 功能：整合上述 3 个审核方法，让生成文本依次通过「违禁词审核→内容安全平台审核→数据校对」
- 使用：与上述 3 个功能的使用方式一致
tech_hotspot.py
- 功能：生成科技热点类文本并完成审核
- 使用：需提供科技热点生成的示例/指南路径、原文路径、生成文本路径
- 注意：原文需按指定格式提供（正文以「正文：」开头，链接以「原文链接：」开头，否则代码无法运行）
generate_feedback.py
- 功能：整合 tech_hotspot.py 和 censor_and_correction.py，通过循环对生成文本进行针对性修改
- 使用：与上述两个文件基本一致
- 输出文件：
  - rewritten_article.txt：存放第一次生成的文本
  - rewritten_article_checked.txt：存放最终生成的文本

注意：如需自定义 `api_key`，请自行开通

6. news_crawler 文件夹

technology_news.ipynb：基础的网页信息爬取代码
8 个 Python 文件：7 个网站的爬虫代码 + 1 个 replace_old_chromedriver.py（用于替换 chromedriver 版本）

特殊文件使用：

replace_old_chromedriver.py：当 Chrome 浏览器与 chromedriver 版本不兼容时，下载新 chromedriver 压缩包并指定文件路径后运行即可

爬虫代码使用：

7 个爬虫代码使用方式基本一致：

爬取逻辑：从当前日期回溯至设定的 base_time
使用方法：根据 base_time_format 格式调整截止日期，并指定爬取数据的输出文件路径
编码注意：爬取时使用的中文编码方式可能有误，若运行报错/乱码，可尝试切换 utf-8 或 utf-8-sig 编码

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
20250602csv		20250602csv
article_classification		article_classification
article_ranking		article_ranking
correction		correction
csv_folder		csv_folder
news_crawler		news_crawler
analyse_data.py		analyse_data.py
experiments.doc		experiments.doc
readme.md		readme.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

敏捷参考使用文档

1. 20250602csv 文件夹（数据）

2. csv_folder 文件夹（数据）

3. article_classification 文件夹

文件说明：

使用方法：

4. article_ranking 文件夹（后端功能）

文件说明与使用：

5. correction 文件夹

基础文件说明：

核心功能文件：

注意：如需自定义 `api_key`，请自行开通

6. news_crawler 文件夹

特殊文件使用：

爬虫代码使用：

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

敏捷参考使用文档

1. 20250602csv 文件夹（数据）

2. csv_folder 文件夹（数据）

3. article_classification 文件夹

文件说明：

使用方法：

4. article_ranking 文件夹（后端功能）

文件说明与使用：

5. correction 文件夹

基础文件说明：

核心功能文件：

注意：如需自定义 api_key，请自行开通

6. news_crawler 文件夹

特殊文件使用：

爬虫代码使用：

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

注意：如需自定义 `api_key`，请自行开通

Packages