In [None]:
from keybert import KeyBERT
import jieba

# 中文测试
doc = "刚刚，理论计算机科学家、UT Austin 教授、量子计算先驱 Scott Aaronson 因其「对量子计算的开创性贡献」被授予 2020 年度 ACM 计算奖。在获奖公告中，ACM 表示：「量子计算的意义在于利用量子物理学定律解决传统计算机无法解决或无法在合理时间内解决的难题。Aaronson 的研究展示了计算复杂性理论为量子物理学带来的新视角，并清晰地界定了量子计算机能做什么以及不能做什么。他在推动量子优越性概念发展的过程起到了重要作用，奠定了许多量子优越性实验的理论基础。这些实验最终证明量子计算机可以提供指数级的加速，而无需事先构建完整的容错量子计算机。」 ACM 主席 Gabriele Kotsis 表示：「几乎没有什么技术拥有和量子计算一样的潜力。尽管处于职业生涯的早期，但 Scott Aaronson 因其贡献的广度和深度备受同事推崇。他的研究指导了这一新领域的发展，阐明了它作为领先教育者和卓越传播者的可能性。值得关注的是，他的贡献不仅限于量子计算，同时也在诸如计算复杂性理论和物理学等领域产生了重大影响。」"
doc = " ".join(jieba.cut(doc))
kw_model = KeyBERT()

print("naive ...")
keywords = kw_model.extract_keywords(doc)
print(keywords)

print("\nkeyphrase_ngram_range ...")
keywords = kw_model.extract_keywords(doc, keyphrase_ngram_range=(1, 2), stop_words=None)
print(keywords)

print("\nhighlight ...")
keywords = kw_model.extract_keywords(doc, keyphrase_ngram_range=(1, 2), highlight=True)
print(keywords)

# 为了使结果多样化，我们将 2 x top_n 与文档最相似的词/短语。
# 然后，我们从 2 x top_n 单词中取出所有 top_n 组合，并通过余弦相似度提取彼此最不相似的组合。
print("\nuse_maxsum ...")
keywords = kw_model.extract_keywords(doc, keyphrase_ngram_range=(1, 3), stop_words='english',
                              use_maxsum=True, nr_candidates=20, top_n=5)
print(keywords)

# 为了使结果多样化，我们可以使用最大边界相关算法(MMR)
# 来创建同样基于余弦相似度的关键字/关键短语。 具有高度多样性的结果：
print("\nhight diversity ...")
keywords = kw_model.extract_keywords(doc, keyphrase_ngram_range=(3, 3), stop_words='english',
                        use_mmr=True, diversity=0.7)
print(keywords)

# 低多样性的结果
print("\nlow diversity ...")
keywords = kw_model.extract_keywords(doc, keyphrase_ngram_range=(3, 3), stop_words='english',
                        use_mmr=True, diversity=0.2)
print(keywords)


# 中文测试

In [2]:
from keybert import KeyBERT

from sklearn.feature_extraction.text import CountVectorizer
import jieba

# 中文测试
# doc_path = './testClass/cpp.txt'
# doc_path = './testClass/电路与模拟电子技术.txt'
doc_path = './testClass/线性代数A1.txt'
# doc_path = './testClass/计算机网络.txt'
# doc_path = './testClass/计算机组成原理.txt'
# doc_path = './testClass/离散数学.txt'
# doc_path = './testClass/操作系统.txt'
# doc_path = './testClass/数据结构.txt'
# doc_path = './testClass/软件工程.txt'

# doc_path = './testRoute/计算机视觉.txt'

doc = ''
with open (doc_path, 'r', encoding='utf-8') as f:
    for line in f:
        doc+=line

 
jieba.load_userdict(r'stop_words\vocab.txt') # 载入自定义的词典，定义一些专业性名词

def tokenize_zh(text):
    words = jieba.lcut(text, HMM=True)
    return words
 
# ======================== 获取停用词 ======================
def load_stopwords(stopwords_file):
    stopwords = set()   # 为了去重
    with open(stopwords_file, 'r', encoding='utf-8') as f:
        for line in f:
            stopwords.add(line.strip())
    stopwords = list(stopwords)
    return stopwords

stop_words = load_stopwords(r'stop_words\myStopWords.txt')
# ======================= END 获取停用词 ======================



# 包含自己的词表的列表
# vectorizer1 = CountVectorizer(tokenizer=tokenize_zh)  
vectorizer = CountVectorizer(tokenizer=tokenize_zh, stop_words=stop_words)  # 自定义了vectorizer之后，停用词加载这！！！！ 


kw_model = KeyBERT(model='paraphrase-multilingual-MiniLM-L12-v2')  # 官方说英文以外的其他语言用这个模型


print("关键词 不使用use_mmr...")
keywords = kw_model.extract_keywords(doc, vectorizer=vectorizer, top_n=30, diversity=0.8, use_mmr=False)
print(keywords)

print("关键词 使用use_mmr...")
keywords = kw_model.extract_keywords(doc, vectorizer=vectorizer, top_n=30, diversity=0.8,  use_mmr=True) # 传入了分词器，keyphrase_ngram_range=(1, 3),就没有用了， 可在CountVectorizer里面设置ngram_range
print(keywords)

关键词 不使用use_mmr...




[('线性方程组', 0.6535), ('线性代数', 0.6431), ('线性', 0.6417), ('矩阵', 0.569), ('线性变换', 0.5431), ('基础理论', 0.5186), ('数学', 0.5038), ('算法', 0.5034), ('方法论', 0.4906), ('几何', 0.4673), ('代数和', 0.4574), ('特征值', 0.4541), ('编程', 0.45), ('框架', 0.4492), ('特征向量', 0.4433), ('ometrymetry', 0.4431), ('高中数学', 0.4417), ('机器学习', 0.4282), ('抽象思维', 0.4263), ('嵌入式', 0.4002), ('行列式', 0.3926), ('化', 0.3897), ('性质', 0.3862), ('数据结构', 0.3826), ('领域', 0.381), ('逻辑思维', 0.3806), ('三角', 0.3799), ('开发', 0.3777), ('人工智能', 0.3774), ('编程语言', 0.3747)]
关键词 使用use_mmr...
[('线性方程组', 0.6535), ('矩阵', 0.569), ('基础理论', 0.5186), ('算法', 0.5034), ('框架', 0.4492), ('特征向量', 0.4433), ('ometrymetry', 0.4431), ('高中数学', 0.4417), ('机器学习', 0.4282), ('抽象思维', 0.4263), ('三角', 0.3799), ('开发', 0.3777), ('编程语言', 0.3747), ('a1', 0.3649), ('分布式系统', 0.3648), ('拓宽', 0.3451), ('空间', 0.33), ('软件架构', 0.3243), ('专业知识', 0.3154), ('推荐', 0.2972), ('软件测试', 0.2815), ('线', 0.27), ('协作', 0.2681), ('环境', 0.2467), ('云计算', 0.2406), ('变化', 0.2336), ('数据库', 0.2237), ('意义',



# 所有实体的构建

In [8]:

from keybert import KeyBERT

from sklearn.feature_extraction.text import CountVectorizer
import jieba
import os
import tqdm

VOCAB_PATH = 'stop_words/vocab.txt'
STOP_WORDS_PATH = 'stop_words/myStopWords.txt'
TOP_N = 30


# 指定保存的课程信息路径
# folder_path = r'testClass'
folder_path = r'testRoute'

# 遍历文件夹下的所有文件
for filename in os.listdir(folder_path):
    # 检查文件是否是txt文件
    if filename.endswith('.txt'):
        # 构建完整的文件路径
        file_path = os.path.join(folder_path, filename)
        
        # 打开并读取txt文件的内容
        with open(file_path, 'r') as file:
            doc = file.read()
            
            # 处理文件
            jieba.load_userdict(VOCAB_PATH) # 载入自定义的词典，定义一些专业性名词

            def tokenize_zh(text):
                words = jieba.lcut(text, HMM=True)
                return words
            
            # ======================== 获取停用词 ======================
            def load_stopwords(stopwords_file):
                stopwords = set()   # 为了去重
                with open(stopwords_file, 'r', encoding='utf-8') as f:
                    for line in f:
                        stopwords.add(line.strip())
                stopwords = list(stopwords)
                return stopwords

            stop_words = load_stopwords(STOP_WORDS_PATH)
            # ======================= END 获取停用词 ======================


            # 包含自己的词表的列表
            # vectorizer1 = CountVectorizer(tokenizer=tokenize_zh)  
            vectorizer = CountVectorizer(tokenizer=tokenize_zh, stop_words=stop_words)  # 自定义了vectorizer之后，停用词加载这！！！！ 


            kw_model = KeyBERT(model='paraphrase-multilingual-MiniLM-L12-v2')  # 官方说英文以外的其他语言用这个模型



            print("正在处理：",filename)
            # print("关键词 不使用use_mmr...")
            keywords1 = kw_model.extract_keywords(doc, vectorizer=vectorizer, top_n=TOP_N, diversity=0.8, use_mmr=False)
            # print(keywords1)

            # print("关键词 使用use_mmr...")
            keywords2 = kw_model.extract_keywords(doc, vectorizer=vectorizer, top_n=TOP_N, diversity=0.8,  use_mmr=True) # 传入了分词器，keyphrase_ngram_range=(1, 3),就没有用了， 可在CountVectorizer里面设置ngram_range
            # print(keywords2)

            # with open(f'./class_key/{filename[:-4]}.txt', 'w') as f:
            with open(f'./route_key/{filename[:-4]}.txt', 'w') as f:
                key_set = set()
                for kw in keywords1:
                    key_set.add(kw[0])
                for kw in keywords2:
                    key_set.add(kw[0])
                key_list = list(key_set)
                
                for k in key_list:
                    f.write(k + '\n')


正在处理： 云计算.txt




正在处理： 产品运维.txt




正在处理： 人工智能.txt




正在处理： 前端开发.txt




正在处理： 后端开发.txt




正在处理： 游戏开发.txt




正在处理： 硬件开发.txt




正在处理： 移动开发.txt




正在处理： 算法设计.txt




正在处理： 网络开发.txt




正在处理： 计算机视觉.txt


