# 内容
* 以功能索引记录NLP应用
* 

# 关键词抽取

* https://pynlpir.readthedocs.io/en/latest/

## pynlpir

### install
* pip install pynlpir
* pynlpir update

In [3]:
import pynlpir
pynlpir.open()

s = '随着ChatGPT人工智能在全球范围内爆红,一些商家开始以各种方式借助ChatGPT牟利。部分商家充当“二道贩子”为国内网民提供ChatGPT镜像服务,这种行为存在用户隐私泄露的风险。一旦用户通过这些镜像服务询问涉及个人或企业的敏感信息,这些信息将暴露给提供镜像服务的公司和OpenAI。'

# pynlpir.segment(s) # 分词

pynlpir.get_key_words(s, weighted=True)

[('镜像服务', 8.64),
 ('ChatGPT', 7.44),
 ('商家', 4.39),
 ('二道贩子', 4.39),
 ('提供', 4.39),
 ('用户', 4.39),
 ('信息', 4.39),
 ('镜像', 3.1),
 ('服务', 3.1),
 ('网民', 2.4),
 ('OpenAI', 2.4),
 ('人工智能', 2.0),
 ('全球', 2.0),
 ('范围', 2.0),
 ('开始', 2.0),
 ('方式', 2.0),
 ('借助', 2.0),
 ('牟利', 2.0),
 ('充当', 2.0),
 ('行为', 2.0),
 ('存在', 2.0),
 ('隐私', 2.0),
 ('泄露', 2.0),
 ('风险', 2.0),
 ('询问', 2.0),
 ('涉及', 2.0),
 ('个人', 2.0),
 ('企业', 2.0),
 ('暴露', 2.0),
 ('公司', 2.0),
 ('敏感', 1.0)]

## harvesttext
* https://github.com/blmoistawinde/HarvestText

In [4]:
from harvesttext import HarvestText
ht = HarvestText()

# 命名实体识别
sent = "上海上港足球队的武磊是中国最好的前锋。"
print(ht.named_entity_recognition(sent))

# 文本摘要
docs = ["武磊威武，中超第一射手！",
        "郜林看来不行，已经到上限了。",
        "武球王威武，中超最强前锋！",
        "武磊和郜林，谁是中国最好的前锋？"]
for doc in ht.get_summary(docs, topK=2):
    print(doc)
print("\nText summarization(避免重复)")
for doc in ht.get_summary(docs, topK=3, avoid_repeat=True):
    print(doc)

# 关键词

print("《关键词》里的关键词")
kwds = ht.extract_keywords(s, 5, method="jieba_tfidf")
print("jieba_tfidf", kwds)
kwds = ht.extract_keywords(s, 5, method="textrank")
print("textrank", kwds)

{'上海上港足球队': '机构名', '武磊': '人名', '中国': '地名'}
武磊威武，中超第一射手！
武球王威武，中超最强前锋！

Text summarization(避免重复)
武磊威武，中超第一射手！
郜林看来不行，已经到上限了。
武磊和郜林，谁是中国最好的前锋？
《关键词》里的关键词
jieba_tfidf ['镜像', '服务', '商家', '用户', '爆红']
textrank ['服务', '镜像', '商家', '提供', '用户']


# 摘要

## 传统方法

### snownlp

* https://github.com/isnowfy/snownlp
* 可训练
* 中文分词（Character-Based Generative Model）
词性标注（TnT 3-gram 隐马）
情感分析（现在训练数据主要是买卖东西时的评价，所以对其他的一些可能效果不是很好，待解决）
文本分类（Naive Bayes）
转换成拼音（Trie树实现的最大匹配）
繁体转简体（Trie树实现的最大匹配）
提取文本关键词（TextRank算法）
提取文本摘要（TextRank算法）
tf，idf
Tokenization（分割成句子）
文本相似（BM25）
支持python3（感谢erning）

## LLM方法

In [23]:
import sys
sys.path.append("D:/code/nlp/summary/Fengshenbang-LM/fengshen/examples/pegasus/")
sys.path.append("D:/code/nlp/summary/Fengshenbang-LM/")

from transformers import PegasusForConditionalGeneration
# Need to download tokenizers_pegasus.py and other Python script from Fengshenbang-LM github repo in advance,
# or you can download tokenizers_pegasus.py and data_utils.py in https://huggingface.co/IDEA-CCNL/Randeng_Pegasus_523M/tree/main
# Strongly recommend you git clone the Fengshenbang-LM repo:
# 1. git clone https://github.com/IDEA-CCNL/Fengshenbang-LM
# 2. cd Fengshenbang-LM/fengshen/examples/pegasus/
# and then you will see the tokenizers_pegasus.py and data_utils.py which are needed by pegasus model


from tokenizers_pegasus import PegasusTokenizer

model = PegasusForConditionalGeneration.from_pretrained("IDEA-CCNL/Randeng-Pegasus-238M-Summary-Chinese")
tokenizer = PegasusTokenizer.from_pretrained("IDEA-CCNL/Randeng-Pegasus-238M-Summary-Chinese")

text = "在北京冬奥会自由式滑雪女子坡面障碍技巧决赛中，中国选手谷爱凌夺得银牌。祝贺谷爱凌！今天上午，自由式滑雪女子坡面障碍技巧决赛举行。决赛分三轮进行，取选手最佳成绩排名决出奖牌。第一跳，中国选手谷爱凌获得69.90分。在12位选手中排名第三。完成动作后，谷爱凌又扮了个鬼脸，甚是可爱。第二轮中，谷爱凌在道具区第三个障碍处失误，落地时摔倒。获得16.98分。网友：摔倒了也没关系，继续加油！在第二跳失误摔倒的情况下，谷爱凌顶住压力，第三跳稳稳发挥，流畅落地！获得86.23分！此轮比赛，共12位选手参赛，谷爱凌第10位出场。网友：看比赛时我比谷爱凌紧张，加油！"
inputs = tokenizer(text, max_length=1024, return_tensors="pt")

# Generate Summary
summary_ids = model.generate(inputs["input_ids"])
tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

# model Output: 滑雪女子坡面障碍技巧决赛谷爱凌获银牌


Downloading pytorch_model.bin:   0%|          | 0.00/477M [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/374k [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/65.0 [00:00<?, ?B/s]

'滑雪女子坡面障碍技巧决赛谷爱凌获银牌'

In [31]:
from transformers import PegasusForConditionalGeneration
# Need to download tokenizers_pegasus.py and other Python script from Fengshenbang-LM github repo in advance,
# or you can download tokenizers_pegasus.py and data_utils.py in https://huggingface.co/IDEA-CCNL/Randeng_Pegasus_523M/tree/main
# Strongly recommend you git clone the Fengshenbang-LM repo:
# 1. git clone https://github.com/IDEA-CCNL/Fengshenbang-LM
# 2. cd Fengshenbang-LM/fengshen/examples/pegasus/
# and then you will see the tokenizers_pegasus.py and data_utils.py which are needed by pegasus model
from tokenizers_pegasus import PegasusTokenizer

model = PegasusForConditionalGeneration.from_pretrained("IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese")
tokenizer = PegasusTokenizer.from_pretrained("IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese")

text = "据微信公众号“界面”报道，4日上午10点左右，中国发改委反垄断调查小组突击查访奔驰上海办事处，调取数据材料，并对多名奔驰高管进行了约谈。截止昨日晚9点，包括北京梅赛德斯-奔驰销售服务有限公司东区总经理在内的多名管理人员仍留在上海办公室内"
inputs = tokenizer(text, max_length=1024, return_tensors="pt", padding=True)

# Generate Summary
summary_ids = model.generate(inputs["input_ids"])
tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

# model Output: 反垄断调查小组突击查访奔驰上海办事处，对多名奔驰高管进行约谈



'反垄断调查小组突击查访奔驰上海办事处，对多名奔驰高管进行约谈'

In [39]:
text = "在北京冬奥会自由式滑雪女子坡面障碍技巧决赛中，中国选手谷爱凌夺得银牌。祝贺谷爱凌！今天上午，自由式滑雪女子坡面障碍技巧决赛举行。决赛分三轮进行，取选手最佳成绩排名决出奖牌。第一跳，中国选手谷爱凌获得69.90分。在12位选手中排名第三。完成动作后，谷爱凌又扮了个鬼脸，甚是可爱。第二轮中，谷爱凌在道具区第三个障碍处失误，落地时摔倒。获得16.98分。"

text1 = "网友：摔倒了也没关系，继续加油！在第二跳失误摔倒的情况下，谷爱凌顶住压力，第三跳稳稳发挥，流畅落地！获得86.23分！此轮比赛，共12位选手参赛，谷爱凌第10位出场。网友：看比赛时我比谷爱凌紧张，加油！"

chunk = """
财联社5月22日讯，据平安包头微信公众号消息，近日，包头警方发布一起利用人工智能（AI）实施电信诈骗的典型案例，福州市某科技公司法人代表郭先生10分钟内被骗430万元。
4月20日中午，郭先生的好友突然通过微信视频联系他，自己的朋友在外地竞标，需要430万保证金，且需要公对公账户过账，想要借郭先生公司的账户走账。
基于对好友的信任，加上已经视频聊天核实了身份，郭先生没有核实钱款是否到账，就分两笔把430万转到了好友朋友的银行卡上。郭先生拨打好友电话，才知道被骗。骗子通过智能AI换脸和拟声技术，佯装好友对他实施了诈骗。
值得注意的是，骗子并没有使用一个仿真的好友微信添加郭先生为好友，而是直接用好友微信发起视频聊天，这也是郭先生被骗的原因之一。骗子极有可能通过技术手段盗用了郭先生好友的微信。幸运的是，接到报警后，福州、包头两地警银迅速启动止付机制，成功止付拦截336.84万元，但仍有93.16万元被转移，目前正在全力追缴中。
"""

from ltp import StnSplit
sents_splitter = StnSplit()

sentences = sents_splitter.split(chunk)
for s in sentences:
    print(s)
    
print()

inputs = tokenizer(sentences, max_length=1024, return_tensors="pt", padding=True)

# print(inputs)

# Generate Summary
summary_ids = model.generate(inputs["input_ids"])
tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)

财联社5月22日讯，据平安包头微信公众号消息，近日，包头警方发布一起利用人工智能（AI）实施电信诈骗的典型案例，福州市某科技公司法人代表郭先生10分钟内被骗430万元。
4月20日中午，郭先生的好友突然通过微信视频联系他，自己的朋友在外地竞标，需要430万保证金，且需要公对公账户过账，想要借郭先生公司的账户走账。
基于对好友的信任，加上已经视频聊天核实了身份，郭先生没有核实钱款是否到账，就分两笔把430万转到了好友朋友的银行卡上。
郭先生拨打好友电话，才知道被骗。
骗子通过智能AI换脸和拟声技术，佯装好友对他实施了诈骗。
值得注意的是，骗子并没有使用一个仿真的好友微信添加郭先生为好友，而是直接用好友微信发起视频聊天，这也是郭先生被骗的原因之一。
骗子极有可能通过技术手段盗用了郭先生好友的微信。
幸运的是，接到报警后，福州、包头两地警银迅速启动止付机制，成功止付拦截336.84万元，但仍有93.16万元被转移，目前正在全力追缴中。





['利用人工智能实施电信诈骗案例：郭先生10 分钟被骗430万',
 '郭先生被好友诈骗430万保证金要公对公账户过账',
 '银行卡里的钱都去哪儿了？',
 '郭先生拨打好友电话才知道被骗',
 '骗子通过智能ai换脸和拟声技术佯装好友诈骗',
 '骗子冒充微信好友发视频敲诈郭先生',
 '骗子可能通过技术手段盗用郭先生微信',
 '即时：福州包头警银成功止付拦截336.84 万元']

In [2]:
# heack/HeackMT5-ZhSum100k

from transformers import MT5ForConditionalGeneration, T5Tokenizer

model = MT5ForConditionalGeneration.from_pretrained("heack/HeackMT5-ZhSum100k")
tokenizer = T5Tokenizer.from_pretrained("heack/HeackMT5-ZhSum100k")

chunk = """
财联社5月22日讯，据平安包头微信公众号消息，近日，包头警方发布一起利用人工智能（AI）实施电信诈骗的典型案例，福州市某科技公司法人代表郭先生10分钟内被骗430万元。
4月20日中午，郭先生的好友突然通过微信视频联系他，自己的朋友在外地竞标，需要430万保证金，且需要公对公账户过账，想要借郭先生公司的账户走账。
基于对好友的信任，加上已经视频聊天核实了身份，郭先生没有核实钱款是否到账，就分两笔把430万转到了好友朋友的银行卡上。郭先生拨打好友电话，才知道被骗。骗子通过智能AI换脸和拟声技术，佯装好友对他实施了诈骗。
值得注意的是，骗子并没有使用一个仿真的好友微信添加郭先生为好友，而是直接用好友微信发起视频聊天，这也是郭先生被骗的原因之一。骗子极有可能通过技术手段盗用了郭先生好友的微信。幸运的是，接到报警后，福州、包头两地警银迅速启动止付机制，成功止付拦截336.84万元，但仍有93.16万元被转移，目前正在全力追缴中。
"""
inputs = tokenizer.encode("summarize: " + chunk, return_tensors='pt', max_length=512, truncation=True)
summary_ids = model.generate(inputs, max_length=150, num_beams=4, length_penalty=1.5, no_repeat_ngram_size=2)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print(summary)

Downloading (…)lve/main/config.json:   0%|          | 0.00/751 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/2.33G [00:00<?, ?B/s]

Downloading spiece.model:   0%|          | 0.00/4.31M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/65.0 [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/375 [00:00<?, ?B/s]

包头警方发布一起利用AI实施电信诈骗典型案例:法人代表10分钟内被骗430万元


In [17]:
chunk = """
模型量化会带来一定的性能损失，经过测试，ChatGLM-6B 在 4-bit 量化下仍然能够进行自然流畅的生成。使用 GPT-Q 等量化方案可以进一步压缩量化精度/提升相同量化精度下的模型性能，欢迎大家提出对应的 Pull Request。
"""

chunk1 = """
量化过程需要在内存中首先加载 FP16 格式的模型，消耗大概 13GB 的内存。如果你的内存不足的话，可以直接加载量化后的模型，INT4 量化后的模型仅需大概 5.2GB 的内存："""

# chunk1 = """
# 该塔高324米（1063英尺），与一幢81层的建筑物一样高，是巴黎最高的建筑物。 它的底座是方形的，每边长125米（410英尺）。 在建造过程中，艾菲尔铁塔超过了华盛顿纪念碑，成为世界上最高的人造结构，它保持了41年的头衔，直到1930年纽约市的克莱斯勒大楼竣工。这是第一个到达300米高度的结构。 由于1957年在塔顶增加了广播天线，因此它现在比克莱斯勒大厦高5.2米（17英尺）。 除发射器外，艾菲尔铁塔是法国第二高的独立式建筑，仅次于米劳高架桥。"""

inputs = tokenizer.encode("summarize: " + chunk1, return_tensors='pt', max_length=512, truncation=True)
summary_ids = model.generate(inputs, max_length=250, num_beams=1, length_penalty=2, no_repeat_ngram_size=4)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print(summary)

量化过程:从GP16到INT4 量化后的内存


## modelscope Multilingual-GLM-Summarization-zh

In [2]:
from modelscope.models import Model
from modelscope.pipelines import pipeline
from modelscope.preprocessors import MGLMSummarizationPreprocessor
from modelscope.utils.constant import Tasks

model = 'ZhipuAI/Multilingual-GLM-Summarization-zh'
preprocessor = MGLMSummarizationPreprocessor()
pipe = pipeline(
    task=Tasks.text_summarization,
    model=model,
    preprocessor=preprocessor,
    model_revision='v1.0.1',
)
result = pipe(
    '据中国载人航天工程办公室消息，北京时间2022年10月25日，梦天实验舱与长征五号B遥四运载火箭组合体已转运至发射区。后续将按计划开展发射前各项功能检查和联合测试等工作，计划于近日择机实施发射。目前，文昌航天发射场设施设备状态良好，参试各单位正在加紧开展任务准备，全力以赴确保空间站建造任务决战决胜。'
)
print(result)

2023-09-25 09:58:42,489 - modelscope - INFO - Use user-specified model revision: v1.0.1


RuntimeError: Failed to import modelscope.models.nlp.mglm.mglm_for_text_summarization because of the following error (look up to see its traceback):
No module named 'deepspeed'

# 翻译

## Helsinki-NLP


In [1]:
from transformers import (AutoModelForSeq2SeqLM, AutoTokenizer, pipeline)
tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-zh-en")
model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-zh-en")
zh2en_pipe = pipeline("translation_zh_to_en", model=model, tokenizer=tokenizer)




In [2]:
text = ['你好', '我也好']

# translated = zh2en_pipe(text, max_length=512)[0]["translation_text"]
translated = zh2en_pipe(text, max_length=512)
translated

[{'translation_text': 'Hello.'}, {'translation_text': 'Yeah, me too.'}]

# 分词，分句

## LTP

* docs: http://ltp.ai/docs/quickstart.html

In [1]:
# 基础使用样例。
import torch
from ltp import LTP

ltp = LTP("LTP/small")  # 默认加载 Small 模型

# 将模型移动到 GPU 上
if torch.cuda.is_available():
    # ltp.cuda()
    ltp.to("cuda")

output = ltp.pipeline(["他叫汤姆去拿外衣。"], tasks=["cws", "pos", "ner", "srl", "dep", "sdp"])
# 使用字典格式作为返回结果
print(output.cws)  # print(output[0]) / print(output['cws']) # 也可以使用下标访问
print(output.pos)
print(output.sdp)

# 使用感知机算法实现的分词、词性和命名实体识别，速度比较快，但是精度略低
ltp = LTP("LTP/legacy")
# cws, pos, ner = ltp.pipeline(["他叫汤姆去拿外衣。"], tasks=["cws", "ner"]).to_tuple() # error: NER 需要 词性标注任务的结果
cws, pos, ner = ltp.pipeline(["他叫汤姆去拿外衣。"], tasks=["cws", "pos", "ner"]).to_tuple()  # to tuple 可以自动转换为元组格式
# 使用元组格式作为返回结果
print(cws, pos, ner)

c:\Users\73915\.conda\envs\open_editor\lib\site-packages\numpy\.libs\libopenblas.EL2C6PLE4ZYW3ECEVIV3OXXGRN2NRFM2.gfortran-win_amd64.dll
c:\Users\73915\.conda\envs\open_editor\lib\site-packages\numpy\.libs\libopenblas.FB5AE2TYXYH2IJRDKGDGQ3XBKLKTF43H.gfortran-win_amd64.dll
c:\Users\73915\.conda\envs\open_editor\lib\site-packages\numpy\.libs\libopenblas64__v0.3.21-gcc_10_3_0.dll


[['他', '叫', '汤姆', '去', '拿', '外衣', '。']]
[['r', 'v', 'nh', 'v', 'v', 'n', 'wp']]
[{'head': [2, 0, 2, 2, 4, 5, 2], 'label': ['AGT', 'Root', 'DATV', 'eSUCC', 'eSUCC', 'PAT', 'mPUNC']}]


Downloading (…)lve/main/config.json:   0%|          | 0.00/142 [00:00<?, ?B/s]

Downloading cws_model.bin:   0%|          | 0.00/32.0M [00:00<?, ?B/s]

Downloading pos_model.bin:   0%|          | 0.00/76.6M [00:00<?, ?B/s]

Downloading ner_model.bin:   0%|          | 0.00/5.23M [00:00<?, ?B/s]

[['他', '叫', '汤姆', '去', '拿', '外衣', '。']] [['r', 'v', 'nh', 'v', 'v', 'n', 'wp']] [[('Nh', '汤姆')]]


In [18]:
# 分句样例
from ltp import LTP

ltp = LTP()

from ltp import StnSplit
sents = StnSplit().split("汤姆生病了.他去了医院。特斯拉CEO马斯克发声：hello world。")

# sents = StnSplit().batch_split(["他叫汤姆去拿外衣。", "汤姆生病了。他去了医院。"])
print('sentences: \n', sents)

# 问题：hello world无法分开，对英文无法分词
words = ltp.pipeline(sents, tasks = ["cws"], return_dict=True)
print(words)

sentences: 
 ['汤姆生病了.', '他去了医院。', '特斯拉CEO马斯克发声：hello world.']
LTPOutput(cws=[['汤姆', '生病', '了', '.'], ['他', '去', '了', '医院', '。'], ['特斯拉', 'CEO', '马斯克', '发声', '：', 'hello world', '.']], pos=None, ner=None, srl=None, dep=None, sdp=None, sdpg=None)


## jieba

In [16]:
import jieba
from ltp import StnSplit
sents = StnSplit().split("汤姆生病了.他去了医院。特斯拉CEO马斯克发声：hello world。")
import paddle

paddle.enable_static()
jieba.enable_paddle()# 启动paddle模式。 0.40版之后开始支持，早期版本不支持

for str in sents:
    seg_list = jieba.cut(str, use_paddle=True) # 使用paddle模式
    print("Paddle Mode: " + '/'.join(list(seg_list)))

seg_list = jieba.cut("特斯拉CEO马斯克发声：hello world。", cut_all=False)
# print("Full Mode: " + "/ ".join(seg_list))  # 全模式
print(list(seg_list))

Paddle enabled successfully......


Paddle Mode: 汤姆/生病/了/.
Paddle Mode: 他/去/了/医院/。
Paddle Mode: 特斯拉CEO马斯克发声：hello world。
['特斯拉', 'CEO', '马斯克', '发声', '：', 'hello', ' ', 'world', '。']


## Cutword

* 分词速度是jieba的两倍。基于Cython优化，运行速度快
* https://github.com/liwenju0/cutword
    * jieba不维护了，所以有了cutword。
    * 

## 正则分句

In [15]:
import re
resentencesp = re.compile('([﹒﹔﹖﹗．；。！？]["’”」』]{0,2}|：(?=["‘“「『]{1,2}|$))')
def splitsentence(sentence):
    s = sentence
    slist = []
    for i in resentencesp.split(s):
        if resentencesp.match(i) and slist:
            slist[-1] += i
        elif i:
            slist.append(i)
    return slist

print(splitsentence("汤姆生病了, 所以去医院。他去了医院。特斯拉CEO马斯克发声：hello world。"))

['汤姆生病了, 所以去医院. 他去了医院。', '特斯拉CEO马斯克发声：hello world。']


In [13]:
# 版本为python3，如果为python2需要在字符串前面加上u
import re
def cut_sent(para):
    para = re.sub('([。！？\?])([^”’])', r"\1\n\2", para)  # 单字符断句符
    para = re.sub('(\.{6})([^”’])', r"\1\n\2", para)  # 英文省略号
    para = re.sub('(\…{2})([^”’])', r"\1\n\2", para)  # 中文省略号
    para = re.sub('([。！？\?][”’])([^，。！？\?])', r'\1\n\2', para)
    # 如果双引号前有终止符，那么双引号才是句子的终点，
    #把分句符\n放到双引号后，注意前面的几句都小心保留了双引号
    para = para.rstrip()  # 段尾如果有多余的\n就去掉它
    # 很多规则中会考虑分号;，但是这里我把它忽略不计，破折号、英文双引号等同样忽略，
    #需要的再做些简单调整即可。
    return para.split("\n")

print(cut_sent("汤姆生病了, 所以去医院。他去了医院。特斯拉CEO马斯克发声：hello world。"))

['汤姆生病了, 所以去医院。', '他去了医院。', '特斯拉CEO马斯克发声：hello world。']


  para = re.sub('([。！？\?])([^”’])', r"\1\n\2", para)  # 单字符断句符
  para = re.sub('(\.{6})([^”’])', r"\1\n\2", para)  # 英文省略号
  para = re.sub('([。！？\?][”’])([^，。！？\?])', r'\1\n\2', para)


## zhon 分句


In [2]:
import zhon
import re

# 效果较差
re.findall(zhon.hanzi.sentence, '我买了一辆车.妈妈做的菜，很好吃！')

['妈妈做的菜，很好吃！']

## en

### nltk

* from nltk.tokenize import sent_tokenize

# insert whitespace between CJK

* Paranoid text spacing for good readability, to automatically insert whitespace between CJK (Chinese, Japanese, Korean) and half-width characters (alphabetical letters, numerical digits and symbols).

* pip install pangu
* java, go, python
* https://pypi.org/project/pangu/

In [1]:
import pangu

pangu.spacing('新八的構造成分有95%是眼鏡、3%是水、2%是垃圾')
# output: u'新八的構造成分有 95% 是眼鏡、3% 是水、2% 是垃圾'

pangu.spacing_text("Mr.龍島主道：「Let's Party!各位高明博雅君子！」")
# output: u"Mr. 龍島主道：「Let's Party! 各位高明博雅君子！」"

"Mr. 龍島主道：「Let's Party! 各位高明博雅君子！」"

# fuzzy matching

## rapidfuzz 

* https://github.com/maxbachmann/RapidFuzz

In [4]:
from rapidfuzz import fuzz
print(fuzz.ratio("this is a test", "this is a test!"))

print(fuzz.ratio("叶梓红", "叶红"))

print(fuzz.ratio("代办事项", "代办服务"))

96.55172413793103
80.0
50.0


# 时间语义解析

## JioNLP

* JioNLP: https://github.com/dongrixinyu/JioNLP/wiki/%E6%97%B6%E9%97%B4%E8%AF%AD%E4%B9%89%E8%A7%A3%E6%9E%90-%E8%AF%B4%E6%98%8E%E6%96%87%E6%A1%A3#user-content-%E6%97%B6%E9%97%B4%E8%AF%AD%E4%B9%89%E8%A7%A3%E6%9E%90

## duckling

* 

### Duckling, int() argument must be a string, a bytes-like object or a number, not 'java.lang.String',

* pip install --force-reinstall JPype1==0.6.3
* https://stackoverflow.com/questions/64841426/duckling-int-argument-must-be-a-string-a-bytes-like-object-or-a-number-not

### duckling chinese

* https://duckling.leovan.tech/dimension/
* pip install duckling-chinese 
* 中文 Duckling 利用 Jpype1 调用 duckling-fork-chinese，需要系统正确安装配置 JVM，再通过 pip 安装最新版本。

## Chronyk

* https://www.toutiao.com/article/7351818121822356018/?log_from=21f55ba53ae76_1711980587028

## ply

* 词法分析：支持定义正则表达式进行词法分析。语法分析：支持基于上下文无关文法的语法分析。
* https://mp.weixin.qq.com/s/iOPKx5Q_dMROXjSD1JRzeA


In [2]:
from duckling import DucklingWrapper, Language

# 初始化Duckling实例
duckling = DucklingWrapper(language=Language.CHINESE)

# # 解析文本
text = "明天下午三点开会"
results = duckling.parse(text)

# # 打印解析结果
for result in results:
    print(result)

print(duckling.parse_number("我今年25岁了"))
print(duckling.parse_duration("我今天跑了两个小时"))

type=<class 'jpype._jclass.java.lang.Long'>, toString type=<class 'str'>, value=3
type=<class 'jpype._jclass.java.lang.Long'>, toString type=<class 'str'>, value=3
{'dim': 'number', 'text': '三', 'start': 4, 'end': 5, 'value': {'value': 3.0}}
{'dim': 'temperature', 'text': '三', 'start': 4, 'end': 5, 'value': {'value': 3.0, 'unit': None}}
{'dim': 'time', 'text': '明天下午三点', 'start': 0, 'end': 6, 'value': {'value': '2024-06-26T15:00:00.000+08:00', 'grain': 'hour', 'others': [{'grain': 'hour', 'value': '2024-06-26T15:00:00.000+08:00'}]}}
type=<class 'jpype._jclass.java.lang.Long'>, toString type=<class 'str'>, value=25
[{'dim': 'number', 'text': '25', 'start': 3, 'end': 5, 'value': {'value': 25.0}}]
type=<class 'jpype._jclass.java.lang.Long'>, toString type=<class 'str'>, value=2
type=<class 'jpype._jclass.java.lang.Integer'>, toString type=<class 'str'>, value=7200
type=<class 'jpype._jclass.java.lang.Long'>, toString type=<class 'str'>, value=2
type=<class 'jpype._jclass.java.lang.Integer'

In [3]:
d = duckling
print(d.parse_duration("我今天跑了两个小时")) # 解析时长
print(d.parse_number("我25岁了")) # 解析数值
print(d.parse_ordinal("我是第一，你是第二"))  # 解析序数#解析温度
print(d.parse_temperature("人体最适宜的温度是25摄氏度"))
print(d.parse_time("我们十一点半见"))# 解析时间
print(d.parse_timezone("中国统一用一个时区UTC")) # 解析时区

type=<class 'jpype._jclass.java.lang.Long'>, toString type=<class 'str'>, value=2
type=<class 'jpype._jclass.java.lang.Integer'>, toString type=<class 'str'>, value=7200
type=<class 'jpype._jclass.java.lang.Long'>, toString type=<class 'str'>, value=2
type=<class 'jpype._jclass.java.lang.Integer'>, toString type=<class 'str'>, value=7200
[{'dim': 'duration', 'text': '两个小时', 'start': 5, 'end': 9, 'value': {'value': 2.0, 'unit': 'hour', 'year': None, 'month': None, 'day': None, 'hour': 2, 'minute': None, 'second': None}}, {'dim': 'duration', 'text': '两个小时', 'start': 5, 'end': 9, 'value': {'value': 2.0, 'unit': 'hour', 'year': None, 'month': None, 'day': None, 'hour': 2, 'minute': None, 'second': None}}]
type=<class 'jpype._jclass.java.lang.Long'>, toString type=<class 'str'>, value=25
[{'dim': 'number', 'text': '25', 'start': 1, 'end': 3, 'value': {'value': 25.0}}]
[{'dim': 'ordinal', 'text': '第一', 'start': 2, 'end': 4, 'value': {'value': 1}}, {'dim': 'ordinal', 'text': '第二', 'start': 7,

In [None]:
from duckling_chinese import Duckling, DucklingDimension

duckling = Duckling()
context = duckling.gen_context()
options = duckling.gen_options(
    targets={
        DucklingDimension.ACT
    }
)

text = '倒数第一场'
answers = duckling.analyze(text, context=context, options=options)
entities = duckling.parse_entities(text, context=context, options=options)

print(duckling.parse_number("我今年25岁了"))

In [4]:
text = '今天上午9点我得了第一名'
answers = duckling.analyze(text, context=context, options=options)
entities = duckling.parse_entities(text, context=context, options=options)

print(answers)
print(entities)

[]
[]


# 编码修复ftfy

  ```python
from ftfy import fix_text

text = "ÃƒÂ¡"  # 这可能是“á”经过多次错误编码的结果
fixed_text = fix_text(text)

print(fixed_text)  # 输出应为"á"
  ```


# 纠错

## pycorrector

## YoungCorrector

* https://github.com/hiyoung123/YoungCorrector/
* 基于规则的文本纠错系统

# markdown to text

## strip_markdown

* pip install strip_markdown

In [15]:
import strip_markdown
MD = "# good man \n\n如果老年人想去北京旅游，以下是一些建议：\n\n 1. **确定旅游时间**：考虑到老年人的身体状况，建议选择在气候宜人且交通方便的季节出行，如春季或秋季。2. **做好健康管理**：在出行前，老年人应咨询医生，了解自己的身体状况能否适应长途旅行和高强度的旅游活动。同时，准备好常用药品，并注意饮食卫生。3. **选择合适的交通方式**：如果老年人身体健康状况良好，可以选择乘坐飞机前往北京。如果身体状况稍差，可以考虑乘坐火车，途中可以欣赏沿途的风景，缓解旅途疲劳。4. **规划好行程**：老年人应选择轻松、悠闲的行程，避免过于劳累。可以考虑参观故宫、天安门广场、颐和园等著名景点，同时也可以选择一些适合老年人的文化休闲活动，如品茶、赏花等。5. **注意安全**：在旅游过程中，老年人应尽量选择有专人陪同的旅行团，以确保安全。同时，要注意遵守旅游景区的规定和安全提示。6. **备好应急用品**：老年人应准备一些急救药品和常用药品，以及必要的急救用品，如创可贴、消毒液等。"
TXT: str = strip_markdown.strip_markdown(MD)
print(TXT)

good man
如果老年人想去北京旅游，以下是一些建议：

确定旅游时间：考虑到老年人的身体状况，建议选择在气候宜人且交通方便的季节出行，如春季或秋季。2. 做好健康管理：在出行前，老年人应咨询医生，了解自己的身体状况能否适应长途旅行和高强度的旅游活动。同时，准备好常用药品，并注意饮食卫生。3. 选择合适的交通方式：如果老年人身体健康状况良好，可以选择乘坐飞机前往北京。如果身体状况稍差，可以考虑乘坐火车，途中可以欣赏沿途的风景，缓解旅途疲劳。4. 规划好行程：老年人应选择轻松、悠闲的行程，避免过于劳累。可以考虑参观故宫、天安门广场、颐和园等著名景点，同时也可以选择一些适合老年人的文化休闲活动，如品茶、赏花等。5. 注意安全：在旅游过程中，老年人应尽量选择有专人陪同的旅行团，以确保安全。同时，要注意遵守旅游景区的规定和安全提示。6. 备好应急用品：老年人应准备一些急救药品和常用药品，以及必要的急救用品，如创可贴、消毒液等。



## mistune

In [16]:
import mistune

def markdown_to_text(markdown_string):
    # renderer = mistune.Renderer(escape=False)
    return mistune.html(markdown_string)
    # markdown_parser = mistune.Markdown(renderer=renderer)
    # return markdown_parser(markdown_string)

# # 读取Markdown文件
# with open('input.md', 'r') as f:
#     content = f.read()

# # 将Markdown转换为纯文本
# text_content = markdown_to_text(content)

# 写入TXT文件
# with open('output.txt', 'w') as f:
#     f.write(text_content)


print(markdown_to_text(MD))

from mistune import HTMLRenderer

markdown = mistune.create_markdown(renderer=HTMLRenderer())
print(markdown(MD))




<h1>good man</h1>
<p>如果老年人想去北京旅游，以下是一些建议：</p>
<ol>
<li><strong>确定旅游时间</strong>：考虑到老年人的身体状况，建议选择在气候宜人且交通方便的季节出行，如春季或秋季。2. <strong>做好健康管理</strong>：在出行前，老年人应咨询医生，了解自己的身体状况能否适应长途旅行和高强度的旅游活动。同时，准备好常用药品，并注意饮食卫生。3. <strong>选择合适的交通方式</strong>：如果老年人身体健康状况良好，可以选择乘坐飞机前往北京。如果身体状况稍差，可以考虑乘坐火车，途中可以欣赏沿途的风景，缓解旅途疲劳。4. <strong>规划好行程</strong>：老年人应选择轻松、悠闲的行程，避免过于劳累。可以考虑参观故宫、天安门广场、颐和园等著名景点，同时也可以选择一些适合老年人的文化休闲活动，如品茶、赏花等。5. <strong>注意安全</strong>：在旅游过程中，老年人应尽量选择有专人陪同的旅行团，以确保安全。同时，要注意遵守旅游景区的规定和安全提示。6. <strong>备好应急用品</strong>：老年人应准备一些急救药品和常用药品，以及必要的急救用品，如创可贴、消毒液等。</li>
</ol>

<h1>good man</h1>
<p>如果老年人想去北京旅游，以下是一些建议：</p>
<ol>
<li><strong>确定旅游时间</strong>：考虑到老年人的身体状况，建议选择在气候宜人且交通方便的季节出行，如春季或秋季。2. <strong>做好健康管理</strong>：在出行前，老年人应咨询医生，了解自己的身体状况能否适应长途旅行和高强度的旅游活动。同时，准备好常用药品，并注意饮食卫生。3. <strong>选择合适的交通方式</strong>：如果老年人身体健康状况良好，可以选择乘坐飞机前往北京。如果身体状况稍差，可以考虑乘坐火车，途中可以欣赏沿途的风景，缓解旅途疲劳。4. <strong>规划好行程</strong>：老年人应选择轻松、悠闲的行程，避免过于劳累。可以考虑参观故宫、天安门广场、颐和园等著名景点，同时也可以选择一些适合老年人的文化休闲活动，如品茶、赏花等。5. <strong>注意安全</strong>：在旅游过程中，老年人应尽量选择有专人

In [12]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(markdown_to_text(MD), "html.parser")
# text = ''.join(soup.findAll(text=True))
text = soup.get_text()
print(text)

good man
如果老年人想去北京旅游，以下是一些建议：

确定旅游时间：考虑到老年人的身体状况，建议选择在气候宜人且交通方便的季节出行，如春季或秋季。2. 做好健康管理：在出行前，老年人应咨询医生，了解自己的身体状况能否适应长途旅行和高强度的旅游活动。同时，准备好常用药品，并注意饮食卫生。3. 选择合适的交通方式：如果老年人身体健康状况良好，可以选择乘坐飞机前往北京。如果身体状况稍差，可以考虑乘坐火车，途中可以欣赏沿途的风景，缓解旅途疲劳。4. 规划好行程：老年人应选择轻松、悠闲的行程，避免过于劳累。可以考虑参观故宫、天安门广场、颐和园等著名景点，同时也可以选择一些适合老年人的文化休闲活动，如品茶、赏花等。5. 注意安全：在旅游过程中，老年人应尽量选择有专人陪同的旅行团，以确保安全。同时，要注意遵守旅游景区的规定和安全提示。6. 备好应急用品：老年人应准备一些急救药品和常用药品，以及必要的急救用品，如创可贴、消毒液等。


