# HF Transformers 核心模块学习：Pipelines

**Pipelines**（管道）是使用模型进行推理的一种简单易上手的方式。

这些管道是抽象了 Transformers 库中大部分复杂代码的对象，提供了一个专门用于多种任务的简单API，包括**命名实体识别、掩码语言建模、情感分析、特征提取和问答**等。


| Modality                    | Task                         | Description                                                | Pipeline API                                  |
| --------------------------- | ---------------------------- | ---------------------------------------------------------- | --------------------------------------------- |
| Audio                       | Audio classification         | 为音频文件分配一个标签                                     | pipeline(task=“audio-classification”)         |
|                             | Automatic speech recognition | 将音频文件中的语音提取为文本                               | pipeline(task=“automatic-speech-recognition”) |
| Computer vision             | Image classification         | 为图像分配一个标签                                         | pipeline(task=“image-classification”)         |
|                             | Object detection             | 预测图像中目标对象的边界框和类别                           | pipeline(task=“object-detection”)             |
|                             | Image segmentation           | 为图像中每个独立的像素分配标签（支持语义、全景和实例分割） | pipeline(task=“image-segmentation”)           |
| Natural language processing | Text classification          | 为给定的文本序列分配一个标签                               | pipeline(task=“sentiment-analysis”)           |
|                             | Token classification         | 为序列里的每个 token 分配一个标签（人, 组织, 地址等等）    | pipeline(task=“ner”)                          |
|                             | Question answering           | 通过给定的上下文和问题, 在文本中提取答案                   | pipeline(task=“question-answering”)           |
|                             | Summarization                | 为文本序列或文档生成总结                                   | pipeline(task=“summarization”)                |
|                             | Translation                  | 将文本从一种语言翻译为另一种语言                           | pipeline(task=“translation”)                  |
| Multimodal                  | Document question answering  | 根据给定的文档和问题回答一个关于该文档的问题。             | pipeline(task=“document-question-answering”)  |
|                             | Visual Question Answering    | 给定一个图像和一个问题，正确地回答有关图像的问题           | pipeline(task=“vqa”)                          |


Pipelines 已支持的完整任务列表：https://huggingface.co/docs/transformers/task_summary


## Pipeline API

**Pipeline API** 是对所有其他可用管道的包装。它可以像任何其他管道一样实例化，并且降低AI推理的学习和使用成本。-

- NLP(自然语言处理)
    - Text Classification(文本分类任务)：将一个文本序列（可以是句子级别、段落或者整篇文章）标记为预定义的类别集合之一。
        - 情感分析：根据某种极性（如积极或消极）对文本进行标记，以在政治、金融和市场等领域支持决策制定。
        - 内容分类：根据某个主题对文本进行标记，以帮助组织和过滤新闻和社交媒体信息流中的信息（天气、体育、金融等）。
    - Token Classification(Token分类任务)：将每个token分配一个来自预定义类别集的标签。
        - 命名实体识别（NER）：根据实体类别（如组织、人员、位置或日期）对token进行标记。NER在生物医学设置中特别受欢迎，可以标记基因、蛋白质和药物名称。
        - 词性标注（POS）：根据其词性（如名词、动词或形容词）对标记进行标记。POS对于帮助翻译系统了解两个相同的单词如何在语法上不同很有用（作为名词的银行与作为动词的银行）。
    - Question Answering(问答任务)：另一个token-level的任务，返回一个问题的答案，有时带有上下文（开放领域），有时不带上下文（封闭领域）。每当我们向虚拟助手提出问题时，例如询问一家餐厅是否营业，就会发生这种情况。它还可以提供客户或技术支持，并帮助搜索引擎检索您要求的相关信息。
        - 提取式：给定一个问题和一些上下文，模型必须从上下文中提取出一段文字作为答案
        - 生成式：给定一个问题和一些上下文，答案是根据上下文生成的
    - Summarization(文本摘要）：从较长的文本中创建一个较短的版本，同时尽可能保留原始文档的大部分含义。摘要是一个序列到序列的任务；它输出比输入更短的文本序列。有许多长篇文档可以进行摘要，以帮助读者快速了解主要要点。法案、法律和财务文件、专利和科学论文等文档可以摘要，以节省读者的时间并作为阅读辅助工具。
        - 提取式：从原始文本中识别和提取最重要的句子
        - 生成式：从原始文本中生成目标摘要（可能包括输入文件中没有的新单词）
- Audio 音频处理任务
    - Audio classification(音频分类)：是一项将音频数据从预定义的类别集合中进行标记的任务。
    - Automatic speech recognition（自动语音识别）：将语音转录为文本。
- Computer Vision 计算机视觉
    - Image Classificaiton(图像分类)：将整个图像从预定义的类别集合中进行标记。 
    - Object Detection(目标检测):与图像分类不同，目标检测在图像中识别多个对象以及这些对象在图像中的位置（由边界框定义）。

## 对比不同模型在相同任务上的性能表现

### Text Classification(文本分类任务)

In [11]:
# 中文和英文情感分类对比
from transformers import pipeline
sentiment_task = pipeline(
    model="lxyuan/distilbert-base-multilingual-cased-sentiments-student", 
    top_k=1
)
sentiment_task("今儿北京可真冷啊!")

[[{'label': 'negative', 'score': 0.8286268711090088}]]

In [12]:
sentiment_task("Today Beijing is really cold.")

[[{'label': 'negative', 'score': 0.7933650612831116}]]

In [13]:
sentiment_task("你学东西真的好快，理论课一讲就明白了!")

[[{'label': 'positive', 'score': 0.953176736831665}]]

In [14]:
sentiment_task("You learn things really quickly. You understand the theory class as soon as it is taught.")

[[{'label': 'positive', 'score': 0.7639099359512329}]]

### Token Classification(Token分类任务)

In [19]:
# 中文Token分类
from transformers import AutoTokenizer,AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large-finetuned-conll03-english")
model = AutoModelForTokenClassification.from_pretrained("xlm-roberta-large-finetuned-conll03-english")
classifier = pipeline("ner", model=model, tokenizer=tokenizer)
classifier("中国的首都是北京，去北京可以到天安门广场上看升国旗，可以通过百度的搜索更多详细信息。")

Some weights of the model checkpoint at xlm-roberta-large-finetuned-conll03-english were not used when initializing XLMRobertaForTokenClassification: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing XLMRobertaForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing XLMRobertaForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


[{'entity': 'I-LOC',
  'score': 0.9879116,
  'index': 2,
  'word': '中国的',
  'start': 0,
  'end': 3},
 {'entity': 'I-LOC',
  'score': 0.99999654,
  'index': 5,
  'word': '北京',
  'start': 6,
  'end': 8},
 {'entity': 'I-LOC',
  'score': 0.9999956,
  'index': 8,
  'word': '北京',
  'start': 10,
  'end': 12},
 {'entity': 'I-LOC',
  'score': 0.999691,
  'index': 11,
  'word': '天',
  'start': 15,
  'end': 16},
 {'entity': 'I-LOC',
  'score': 0.99995625,
  'index': 12,
  'word': '安',
  'start': 16,
  'end': 17},
 {'entity': 'I-LOC',
  'score': 0.9998363,
  'index': 13,
  'word': '门',
  'start': 17,
  'end': 18},
 {'entity': 'I-ORG',
  'score': 0.9885372,
  'index': 22,
  'word': '百度',
  'start': 30,
  'end': 32}]

In [20]:
# 合并实体后，天安门可以整体识别
classifier = pipeline("ner", model=model, tokenizer=tokenizer, grouped_entities=True)
classifier("中国的首都是北京，去北京可以到天安门广场上看升国旗，可以通过百度的搜索更多详细信息。")

[{'entity_group': 'LOC',
  'score': 0.9879116,
  'word': '中国的',
  'start': 0,
  'end': 3},
 {'entity_group': 'LOC',
  'score': 0.99999654,
  'word': '北京',
  'start': 6,
  'end': 8},
 {'entity_group': 'LOC',
  'score': 0.9999956,
  'word': '北京',
  'start': 10,
  'end': 12},
 {'entity_group': 'LOC',
  'score': 0.99982786,
  'word': '天安门',
  'start': 15,
  'end': 18},
 {'entity_group': 'ORG',
  'score': 0.9885372,
  'word': '百度',
  'start': 30,
  'end': 32}]

### Question Answering(问答任务)

In [21]:
# 中文问答，提取式
from transformers import AutoModelForQuestionAnswering,AutoTokenizer,pipeline
model = AutoModelForQuestionAnswering.from_pretrained('uer/roberta-base-chinese-extractive-qa')
tokenizer = AutoTokenizer.from_pretrained('uer/roberta-base-chinese-extractive-qa')
QA = pipeline('question-answering', model=model, tokenizer=tokenizer)
QA_input = {'question': "什么时候去天安门广场可以看到升国旗？",'context': "北京天安门广场每天早上6点左右会有升国旗仪式。"}
QA(QA_input)

config.json:   0%|          | 0.00/452 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/407M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/216 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/110k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

{'score': 0.2946624755859375, 'start': 7, 'end': 15, 'answer': '每天早上6点左右'}

### Summarization(文本摘要）

In [34]:
# 中文摘要，试了几个效果不理想
import re
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))

article_text = """小米汽车su7在续航方面，根据不同配置，分别搭载来自襄阳弗迪的磷酸铁锂电池组（比亚迪），以及来自宁德时代的三元锂电池组，电池容量分别为73.6千瓦时、94.3千瓦时和101千瓦时，其中73.6千瓦时对应的纯电续航里程700km，94.3千瓦时对应的纯电续航为830km，101千瓦时对应的纯电续航里程分别为800km（均为CLTC工况）。另外，小米SU7搭载了800V高压平台，配合宁德时代的麒麟电池，可以做到充电5分钟，220km续航，充电15分钟，510km续航的表现。"""

model_name = "csebuetnlp/mT5_m2m_crossSum_enhanced"
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

get_lang_id = lambda lang: tokenizer._convert_token_to_id(
    model.config.task_specific_params["langid_map"][lang][1]
) 

target_lang = "chinese_simplified" # for a list of available language names see below

input_ids = tokenizer(
    [WHITESPACE_HANDLER(article_text)],
    return_tensors="pt",
    padding="max_length",
    truncation=True,
    max_length=512
)["input_ids"]

output_ids = model.generate(
    input_ids=input_ids,
    decoder_start_token_id=get_lang_id(target_lang),
    max_length=84,
    no_repeat_ngram_size=2,
    num_beams=4,
)[0]

summary = tokenizer.decode(
    output_ids,
    skip_special_tokens=True,
    clean_up_tokenization_spaces=False
)

print(summary)


<extra_id_59> 中国小米汽车su7在续航方面,搭载来自宁德时代的三元锂电池组。
