In [24]:
from transformers import pipeline
from transformers import AutoTokenizer

# Sentiment Analysis

In [2]:
sentences = [
    "今天天气真好，我感觉心情很愉快！",
    "这次的考试太难了，我觉得自己肯定不会及格。",
    "我对这个新闻没有什么特别的感觉。",
    "他们的服务态度实在太差了，让我非常生气。",
    "我终于完成了这个项目，感到非常的满足和自豪。",
    "这部电影真的很无聊，我看着看着就睡着了。",
    "今天遇到了老朋友，感觉就像回到了过去。",
    "工作上的压力真的很大，让我感到焦虑不安。",
    "我今天尝试了新菜谱，家人都说很好吃。",
    "这个消息听起来太假了，我一点也不信。"
]

models = [
    "lxyuan/distilbert-base-multilingual-cased-sentiments-student",
    "bardsai/finance-sentiment-zh-base",
    "IDEA-CCNL/Erlangshen-Roberta-110M-Sentiment"
]

In [3]:
answers = [
    True, False, False, False, True, False, True, False, True, False
]

def check(result, _answers):
    f = []
    for r in result:
        if r.get('label') == 'positive':
            f.append(True)
        else:
            f.append(False)
    return [i==j for i, j in zip(f, _answers)]

In [4]:
for model in models:
    print(f"【测试】【{model}】")
    pipe = pipeline(task="sentiment-analysis", model=model)
    result = pipe(sentences)
    check_result = check(result, answers)
    for i, j, k in zip(sentences, result, check_result):
        print(i, j, k)
    print("正确数量：", sum(check_result))
    print("-----------------------------------------------------------------------------")    

【测试】【lxyuan/distilbert-base-multilingual-cased-sentiments-student】
今天天气真好，我感觉心情很愉快！ {'label': 'positive', 'score': 0.9922294020652771} True
这次的考试太难了，我觉得自己肯定不会及格。 {'label': 'negative', 'score': 0.8550916314125061} True
我对这个新闻没有什么特别的感觉。 {'label': 'neutral', 'score': 0.9213656783103943} True
他们的服务态度实在太差了，让我非常生气。 {'label': 'negative', 'score': 0.9857802987098694} True
我终于完成了这个项目，感到非常的满足和自豪。 {'label': 'positive', 'score': 0.9948790073394775} True
这部电影真的很无聊，我看着看着就睡着了。 {'label': 'negative', 'score': 0.7081538438796997} True
今天遇到了老朋友，感觉就像回到了过去。 {'label': 'negative', 'score': 0.4166187345981598} False
工作上的压力真的很大，让我感到焦虑不安。 {'label': 'negative', 'score': 0.8652476668357849} True
我今天尝试了新菜谱，家人都说很好吃。 {'label': 'positive', 'score': 0.9487581253051758} True
这个消息听起来太假了，我一点也不信。 {'label': 'negative', 'score': 0.8587807416915894} True
正确数量： 9
-----------------------------------------------------------------------------
【测试】【bardsai/finance-sentiment-zh-base】
今天天气真好，我感觉心情很愉快！ {'label': 'positive', 'score':

# NER

In [5]:
ner_sentences = [
    "明天下午三点，张伟将在北京的国家大剧院举行一场钢琴音乐会。",
    "微软公司计划于2024年在纽约市推出其最新的操作系统。",
    "《哈利·波特与密室》是J.K.罗琳所著的第二部小说，于1998年7月在英国出版。",
    "玛丽和约翰计划下周去巴黎度蜜月，并计划参观埃菲尔铁塔。",
    "印度尼西亚的巴厘岛是一个受欢迎的旅游目的地，以其美丽的海滩和独特的文化而闻名。",
    "2023年，中国的国家航天局成功发射了嫦娥五号探测器，前往月球采集样本。",
    "《纽约时报》昨日报导了美国总统对最近的经济危机的回应。",
    "英格兰国家足球队计划于明年六月在伦敦的温布利体育场参加欧洲冠军联赛决赛。",
    "诺贝尔物理学奖于2023年授予了两位科学家，他们对量子通信的贡献具有开创性意义。",
    "李华昨天在阿里巴巴集团总部参加了一次关于电子商务创新的研讨会。",
]

ner_models = [
    "ckiplab/bert-base-chinese-ner",
    "gyr66/bert-base-chinese-finetuned-ner",
    "ckiplab/albert-base-chinese-ner"
]

In [6]:
def handle_ner_result(preds):
    preds = [
    {
        "entity": pred["entity"],
        "score": round(pred["score"], 4),
        "index": pred["index"],
        "word": pred["word"],
        "start": pred["start"],
        "end": pred["end"],
    }
    for pred in preds]

In [7]:
for model in ner_models:
    print(f"【测试】【{model}】")
    pipe = pipeline(task="ner", model=model, grouped_entities=True)
    for ns in ner_sentences:
        print('【测试语句】', ns)
        result = pipe(ns)
        print(*result, sep="\n")
    print("-----------------------------------------------------------------------------")    

【测试】【ckiplab/bert-base-chinese-ner】




【测试语句】 明天下午三点，张伟将在北京的国家大剧院举行一场钢琴音乐会。
{'entity_group': 'DATE', 'score': 0.99976057, 'word': '明', 'start': 0, 'end': 1}
{'entity_group': 'DATE', 'score': 0.9994923, 'word': '天', 'start': 1, 'end': 2}
{'entity_group': 'TIME', 'score': 0.9998896, 'word': '下 午 三', 'start': 2, 'end': 5}
{'entity_group': 'TIME', 'score': 0.99999905, 'word': '点', 'start': 5, 'end': 6}
{'entity_group': 'PERSON', 'score': 0.9999994, 'word': '张', 'start': 7, 'end': 8}
{'entity_group': 'PERSON', 'score': 0.9999995, 'word': '伟', 'start': 8, 'end': 9}
{'entity_group': 'GPE', 'score': 0.99999917, 'word': '北', 'start': 11, 'end': 12}
{'entity_group': 'GPE', 'score': 0.99999917, 'word': '京', 'start': 12, 'end': 13}
{'entity_group': 'FAC', 'score': 0.99999803, 'word': '国 家 大 剧', 'start': 14, 'end': 18}
{'entity_group': 'FAC', 'score': 0.9999981, 'word': '院', 'start': 18, 'end': 19}
【测试语句】 微软公司计划于2024年在纽约市推出其最新的操作系统。
{'entity_group': 'ORG', 'score': 0.99999887, 'word': '微 软 公', 'start': 0, 'end': 3}
{'entity_group': 'ORG

# Summarization

In [40]:
raw_text_for_sum = (
    """中国，全称中华人民共和国，是位于东亚的一个国家，拥有世界上最多的人口。它的历史可以追溯到几千年前，是世界上最古老的文明之一，拥有丰富的文化遗产和传统。中国的地理特征非常多样，从东部的沿海平原到西部的高山和高原，如青藏高原和喜马拉雅山脉。
中国的政治体制是社会主义共和国，由中国共产党领导。首都是北京，其他主要城市包括上海、广州和深圳。中国经济在过去几十年里迅速发展，现在是世界上最大的经济体之一。它在制造业、科技和贸易方面具有显著地位。
中国的文化非常丰富多彩，包括传统的文学、音乐、舞蹈、戏剧、手工艺品和美食。中国的传统节日，如春节、中秋节和端午节，都有着丰富的文化内涵和庆祝活动。
中国也是联合国安理会五个常任理事国之一，对国际事务有重要的影响。同时，它也在全球环境保护、可持续发展和其他全球性问题上扮演着重要角色。""")

sum_models = [
    "csebuetnlp/mT5_multilingual_XLSum",
    "heack/HeackMT5-ZhSum100k",
    "yihsuan/best_model_0427_small_long",
]

print(raw_text_for_sum)

中国，全称中华人民共和国，是位于东亚的一个国家，拥有世界上最多的人口。它的历史可以追溯到几千年前，是世界上最古老的文明之一，拥有丰富的文化遗产和传统。中国的地理特征非常多样，从东部的沿海平原到西部的高山和高原，如青藏高原和喜马拉雅山脉。
中国的政治体制是社会主义共和国，由中国共产党领导。首都是北京，其他主要城市包括上海、广州和深圳。中国经济在过去几十年里迅速发展，现在是世界上最大的经济体之一。它在制造业、科技和贸易方面具有显著地位。
中国的文化非常丰富多彩，包括传统的文学、音乐、舞蹈、戏剧、手工艺品和美食。中国的传统节日，如春节、中秋节和端午节，都有着丰富的文化内涵和庆祝活动。
中国也是联合国安理会五个常任理事国之一，对国际事务有重要的影响。同时，它也在全球环境保护、可持续发展和其他全球性问题上扮演着重要角色。


In [44]:
for model in sum_models:
    print(f"【测试】【{model}】")
    tokenizer = AutoTokenizer.from_pretrained(model, legacy=False, use_fast=False)
    pipe = pipeline(task="summarization", model=model, tokenizer=tokenizer, min_length=10, max_length=150)
    result = pipe(raw_text_for_sum)
    print(result)
    print("-----------------------------------------------------------------------------")    

【测试】【csebuetnlp/mT5_multilingual_XLSum】
[{'summary_text': '中国是世界上最大的经济体,也是联合国安理会五个常任理事国之一。'}]
-----------------------------------------------------------------------------
【测试】【heack/HeackMT5-ZhSum100k】
[{'summary_text': '中国是联合国安理会五个常任理事国之一'}]
-----------------------------------------------------------------------------
【测试】【yihsuan/best_model_0427_small_long】
[{'summary_text': '中国,全称中华人民共和国,是位于东亚的一个国家,拥有世界上最多的人口。中国的地理特征非常多样,从东部的沿海平原到西部的高山和高原,如青藏高原和喜马拉雅山脉。中国的政治体制是社会主义共和国,由中国共产党领导。首都是北京,其他主要城市包括上海、广州和深圳。中国经济在过去几十年里迅速发展,现在是世界上最大的经济体之一。中国的政治体制是社会主义共和国,由中国共产党领导。首都是北京,其他主要城市包括上海、广州和深圳。'}]
-----------------------------------------------------------------------------
