# transformers
Transformers 库提供了创建和使用huggingface上面共享模型的功能。其目标是提供一个 API，通过该 API 可以加载、训练和保存任何 Transformer 模型。该库的主要特点是：
- 易于使用：只需两行代码即可下载、加载和使用最先进的 NLP 模型进行推理。
- 灵活性：所有模型的核心都是简单的 PyTorch nn.Module 或 TensorFlow tf.keras.Model 类，并且可以像各自机器学习 (ML) 框架中的任何其他模型一样进行处理。
- 简单性：整个库几乎没有进行任何抽象。 “All in one file”是一个核心概念：模型的前向传递完全在单个文件中定义，因此代码本身是可理解和可修改的。
- 隔离性： 每个模型都有自己的层，可以轻松地在一个模型上进行实验，而不会影响其他模型。

## 使用transformers
### pipeline

Transformers 库中最基本的对象是 pipeline() 函数。它将模型与其必要的预处理和后处理步骤连接起来，使我们能够直接输入任何文本并获得易于理解的答案。

pipeline处理文本的三个主要步骤：
- 文本被预处理为模型可以理解的格式。
- 处理后的输入将传递给模型。
- 模型的结果是经过后处理的，因此您可以理解它们。

目前[可用pipeline](https://huggingface.co/transformers/main_classes/pipelines)是：

- feature-extraction (get the vector representation of a text)
- fill-mask ：文本填充
- ner (named entity recognition)：识别文本中的人物、组织、地址
- question-answering ：文档
- sentiment-analysis ：情绪分析
- summarization ：生成摘要
- text-generation ： 文本生成
- translation ：翻译
- zero-shot-classification ：零样本分类

In [None]:
!pip install datasets evaluate transformers[sentencepiece]

In [None]:
from transformers import pipeline

classifier = pipeline("sentiment-analysis")
classifier("I've been waiting for a HuggingFace course my whole life.")

[{'label': 'POSITIVE', 'score': 0.9598048329353333}]

In [None]:
from transformers import pipeline

# 零样本分类
classifier = pipeline("zero-shot-classification")
classifier(
    "This is a course about the Transformers library",
    candidate_labels=["education", "politics", "business"],
)

{'sequence': 'This is a course about the Transformers library',
 'labels': ['education', 'business', 'politics'],
 'scores': [0.8445993661880493, 0.1119738519191742, 0.04342673718929291]}

In [None]:
from transformers import pipeline
# 默认模型
generator = pipeline("text-generation")
generator("In this course, we will teach you how to")
# 指定模型
generator = pipeline("text-generation", model="distilgpt2")
#num_return_sequences 和 max_length 参数控制生成的语句数量，以及每个语句的长度
generator(
    "In this course, we will teach you how to",
    max_length=30,
    num_return_sequences=2,
)

[{'generated_text': 'In this course, we will teach you how to navigate the universe, see how and why we create the Universe. This means that you have to explore'},
 {'generated_text': 'In this course, we will teach you how to make your own homemade cheese. This is an online course geared toward women who are interested in cheese making'}]

## Transformer如何工作

预训练是从头开始训练模型的行为：权重随机初始化，并且在没有任何先验知识的情况下开始训练。
微调是在模型预训练后进行的训练。要执行微调，您首先需要获取预训练的语言模型，然后使用特定于您的任务的数据集执行额外的训练。

### 通用架构

<img src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers_blocks.svg" alt="示例图片" style="width: 500px; height: 300px;">

- **Encoder**:编码器接收输入并构建其表示（其特征）。这意味着模型经过优化以从输入中获取理解。

- **Decoder**：解码器使用编码器的表示（特征）以及其他输入来生成目标序列。这意味着该模型针对生成输出进行了优化。



### Attention layers(注意力层)

Transformer 模型的一个关键特征是它们是由称为注意力层的特殊层构建的。该层将告诉模型在处理每个单词的表示时特别注意您传递给它的句子中的某些单词（并或多或少地忽略其他单词）。


## 模型类型介绍

 **Encoder models**：编码器模型仅使用 Transformer 模型的编码器。最适合需要理解完整句子的任务，例如句子分类、命名实体识别（以及更一般的单词分类）和提取式问答。
该系列模型的代表包括：
- ALBERT
- BERT
- DistilBERT  
- ELECTRA  
- RoBERTa

 **Decoder models** : 解码器模型仅使用 Transformer 模型的解码器。最适合涉及文本生成的任务。
该系列模型的代表包括：
- CTRL
- GPT
- GPT-2
- Transformer XL

**Encoder-decoder models**： (也叫sequence-to-sequence models)，使用 Transformer 架构的两个部分。序列到序列模型最适合根据给定输入生成新句子的任务，例如摘要、翻译或生成式问答。
该系列模型的代表包括：

- BART
- mBART
- Marian
- T5

| Model           | Examples                                   | Tasks                                                        |
| --------------- | ------------------------------------------ | ------------------------------------------------------------ |
| Encoder         | ALBERT, BERT, DistilBERT, ELECTRA, RoBERTa | Sentence classification, named entity recognition, extractive question answering |
| Decoder         | CTRL, GPT, GPT-2, Transformer XL           | Text generation                                              |
| Encoder-decoder | BART, T5, Marian, mBART                    | Summarization, translation, generative question answering    |