<a href="https://colab.research.google.com/github/cauchy221/PaiPaiHelper/blob/main/extraction.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 无监督

## 统计类

### 基于TF-IDF算法的关键词提取

In [None]:
!pip install jieba

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
import jieba.analyse

# 聊天记录中的多轮对话用句号分隔
text = "根据团委要求，我们将在今天下午开展以冬奥会为主题的团日活动，看到的同学请回复。收到。收到。收到。收到。收到。收到。收到。收到。\
此外，我们将在下周进行考试，请各位同学做好准备。好的。收到，会复习的！看这个视频，贼搞笑。哈哈哈哈哈哈哈哈哈哈。确实哈哈哈哈哈哈哈。明天大家一起去吃海底捞吧，新学期聚餐。好呀好呀。好耶！好好好"
key_words = jieba.analyse.extract_tags(text, topK=10)
print("关键词：" + '，'.join(key_words))

关键词：收到，哈哈哈，哈哈哈哈，同学，冬奥会，新学期，团日，搞笑，聚餐，团委


TF-IDF是基于词频和逆文档频率的算法，因此在上面的例子中，“收到”这个词语出现了很多次，排在结果的第一位，而这并不是我们需要的（我们想要隐藏聊天记录中的这些无关信息）

因此，我们可以考虑将原文本按句子去重

In [None]:
sentences = text.split('。')
new_sentences = list(set(sentences))
new_sentences.sort(key=sentences.index)  # 保证顺序不变
new_text = '。'.join(new_sentences)
print(new_text)

根据团委要求，我们将在今天下午开展以冬奥会为主题的团日活动，看到的同学请回复。收到。此外，我们将在下周进行考试，请各位同学做好准备。好的。收到，会复习的！看这个视频，贼搞笑。哈哈哈哈哈哈哈哈哈哈。确实哈哈哈哈哈哈哈。明天大家一起去吃海底捞吧，新学期聚餐。好呀好呀。好耶！好好好


In [None]:
key_words = jieba.analyse.extract_tags(new_text, topK=10)
print("关键词：" + '，'.join(key_words))

关键词：哈哈哈，哈哈哈哈，同学，收到，冬奥会，新学期，团日，搞笑，聚餐，团委


此外，可以设置自定义逆向文件频率文本语料库，调整IDF的计算值，以保证更符合微信聊天记录的使用场景

### 基于YAKE算法的中文关键词提取

In [None]:
!pip install iyake-cn
!pip install jieba

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
from iyake_cn import get_S_t, get_key_words, get_stopwords
from iyake_cn import cn_stopwords

text = "根据团委要求，我们将在今天下午开展以冬奥会为主题的团日活动，看到的同学请回复。收到。收到。收到。收到。收到。收到。收到。收到。\
此外，我们将在下周进行考试，请各位同学做好准备。好的。收到，会复习的！看这个视频，贼搞笑。哈哈哈哈哈哈哈哈哈哈。确实哈哈哈哈哈哈哈。明天大家一起去吃海底捞吧，新学期聚餐。好呀好呀。好耶！好好好"
df = get_S_t(text, stop=cn_stopwords)
words_noun = get_key_words(df, p='n')
print("名词：" + ",".join(words_noun))
words_verb = get_key_words(df, p='v')
print("动词：" + ",".join(words_verb))

名词：团委,主题,团日,聚餐,新学期,视频,同学
动词：要求,开展,看到,收到,回复,做好,准备,复习,搞笑


可以考虑根据原文本顺序，将提取的名词关键词和动词关键词组合起来，形成句子/短语

In [None]:
import jieba

seg = jieba.cut(text, cut_all=False)
seg_list = []
for word in seg:
  seg_list.append(word)
print(seg_list)

['根据', '团委', '要求', '，', '我们', '将', '在', '今天下午', '开展', '以', '冬奥会', '为', '主题', '的', '团日', '活动', '，', '看到', '的', '同学', '请', '回复', '。', '收到', '。', '收到', '。', '收到', '。', '收到', '。', '收到', '。', '收到', '。', '收到', '。', '收到', '。', '此外', '，', '我们', '将', '在', '下周', '进行', '考试', '，', '请', '各位', '同学', '做好', '准备', '。', '好', '的', '。', '收到', '，', '会', '复习', '的', '！', '看', '这个', '视频', '，', '贼', '搞笑', '。', '哈哈哈哈', '哈哈哈', '哈哈哈', '。', '确实', '哈哈哈哈', '哈哈哈', '。', '明天', '大家', '一起', '去', '吃', '海底', '捞', '吧', '，', '新学期', '聚餐', '。', '好', '呀', '好', '呀', '。', '好', '耶', '！', '好好', '好']


In [None]:
ans = []
keywords = words_noun+words_verb

for word in seg_list:
  if word in keywords:
    ans.append(word)
print(ans)

['团委', '要求', '开展', '主题', '团日', '看到', '同学', '回复', '收到', '收到', '收到', '收到', '收到', '收到', '收到', '收到', '同学', '做好', '准备', '收到', '复习', '视频', '搞笑', '新学期', '聚餐']


进一步处理一下

In [None]:
new_ans = list(set(ans))
new_ans.sort(key=ans.index)
print(new_ans)

['团委', '要求', '开展', '主题', '团日', '看到', '同学', '回复', '收到', '做好', '准备', '复习', '视频', '搞笑', '新学期', '聚餐']


## 词图类

### 基于TextRank算法的关键词提取

In [None]:
key_words = jieba.analyse.textrank(text, topK=10)
print("关键词：" + '，'.join(key_words))
key_words = jieba.analyse.textrank(new_text, topK=10)
print("去重后关键词：" + '，'.join(key_words))

关键词：收到，同学，活动，主题，要求，视频，聚餐，看到，团委，搞笑
去重后关键词：同学，活动，看到，收到，主题，回复，团日，要求，视频，聚餐


### 使用TextRank4ZH库进行关键词、关键词组、关键句提取

In [None]:
!pip install textrank4zh

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting textrank4zh
  Downloading textrank4zh-0.3.zip (13 kB)
Building wheels for collected packages: textrank4zh
  Building wheel for textrank4zh (setup.py) ... [?25l[?25hdone
  Created wheel for textrank4zh: filename=textrank4zh-0.3-py3-none-any.whl size=13422 sha256=28067dd436a67e564cafea5d1bf84c935e794eb633a486fed84bc25f6e527f59
  Stored in directory: /root/.cache/pip/wheels/14/4e/2e/a98380a114c215e21b9220d9ebb73cfa2e4094861d5faaf2ca
Successfully built textrank4zh
Installing collected packages: textrank4zh
Successfully installed textrank4zh-0.3


#### 提取关键词

In [None]:
from textrank4zh import TextRank4Keyword

text = "根据团委要求，我们将在今天下午开展以冬奥会为主题的团日活动，看到的同学请回复。收到。收到。收到。收到。收到。收到。收到。收到。\
此外，我们将在下周进行考试，请各位同学做好准备。好的。收到，会复习的！看这个视频，贼搞笑。哈哈哈哈哈哈哈哈哈哈。确实哈哈哈哈哈哈哈。明天大家一起去吃海底捞吧，新学期聚餐。好呀好呀。好耶！好好好"
tr4w = TextRank4Keyword()
tr4w.analyze(text=text, lower=False, window=2)

key_words = []
for word in tr4w.get_keywords(10, word_min_len=2):
  key_words.append(word.word)
print("关键词：" + '，'.join(key_words))

关键词：新学期，同学，视频，要求，进行，今天下午，做好，考试，开展，冬奥会


#### 提取关键词组

In [None]:
for word in tr4w.get_keyphrases(keywords_num=10, min_occur_num=1):  # 词组在原文中出现的最少次数
  print(word)

同学请
同学做好


效果并不好

#### 提取关键句

In [None]:
from textrank4zh import TextRank4Sentence

tr4s = TextRank4Sentence()
tr4s.analyze(text=text, lower=False, source='all_filters')

for sentence in tr4s.get_key_sentences(num=5):
  print(sentence.sentence)

收到，会复习的
根据团委要求，我们将在今天下午开展以冬奥会为主题的团日活动，看到的同学请回复
看这个视频，贼搞笑
明天大家一起去吃海底捞吧，新学期聚餐
此外，我们将在下周进行考试，请各位同学做好准备


## Embedding类

### SIFRank
https://github.com/yukuotc/SIFRank_zh

# 有监督

## BERT-KPE
但是基于英文

https://github.com/thunlp/BERT-KPE

## MEDRank
最新，实验表现优于SIFRank和BERT-KPE，但是基于英文

https://github.com/LinhanZ/mderank