# 1.本节介绍Transform在自然语言处理任务中的作用
transformer库功能强大，用户可以使用Hugging Face模型中心的模型，也可以分享他们自己训练的模型到Hub上

### 使用pipelines（）
pipeline是流水线的意思，在transformer库中将模型训练等一系列步骤串起来，方便用户通过调用api接口。
我们先看一个简单的示例，使用pipeline函数进行"sentiment-analysis"情感分类

In [None]:
!pip install transformers
from transformers import pipeline

classifier = pipeline("sentiment-analysis")
classifier("I met my crush today, and I became secretly happy.")

我们没有指定使用的模型，因此pipeline默认加载“distilbert-base-uncased-finetuned-sst-2-english”模型，这个模型已经针对英语情感进行微调（如果让他识别中文情感会不准确）。
当我们运行`classfier("xxx")`,pipeline会执行以下流程：
1. 自然语言文本被处理成模型可以理解的格式（tokenize -> embedding）
2. 模型接收处理后的文本
3. 模型输出结果，并经过后续处理成人类可以理解的格式

目前pipeline支持的NLP任务：
- eature-extraction （获取文本的向量表示）
- fill-mask （完形填空）
- ner （命名实体识别）
- question-answering （问答）
- sentiment-analysis （情感分析）
- summarization （提取摘要）
- text-generation （文本生成）
- translation （翻译）
- zero-shot-classification （零样本分类）

In [None]:
# 1. feature-extraction(获取文本的向量表示)
# TODO: 介绍embedding, bert-base-uncased
feature_extraction = pipeline("feature-extraction", model="bert-base-uncased")
text = "Hugging Face is creating a tool that democratizes AI."
features = feature_extraction(text)
for f in features:
    print(f)

In [None]:
# 2. fill-mask(完形填空)
fill_mask = pipeline("fill-mask", model="bert-base-uncased")

# 完形填空就是给出一个句子挖几个空，用[MASK]表示需要模型预测的单词，[MASK]在被分词器tokenizer处理时会被处理成特定的token_id
text = "Hugging Face is creating a [MASK] that democratizes AI."
results = fill_mask(text)
for r in results:
    print(f"{r['sequence']} (score: {r['score']:.4f})")


In [None]:
# 3. ner（命名实体识别）
# 作用：识别文本中的 人名（PER）、地点（LOC）、组织（ORG） 等。
ner = pipeline("ner")
text = "Elon Musk is the CEO of Tesla, which is headquartered in Palo Alto."

# 识别出文本中的实体，然后给出类别和分数
entities = ner(text) 
for entity in entities:
    print(entity)
    print(f"{entity['word']} ({entity['entity']}, score: {entity['score']:.4f})")

In [20]:
# 4. question-answering（问答）
# 作用：基于上下文回答问题
qa = pipeline("question-answering")
context = "Hugging Face is a company based in Paris, founded in 2016. It focuses on NLP and ML."
question = "Where is Hugging Face based?"

answer = qa(question=question, context=context)
print(f"Answer: {answer['answer']} (score: {answer['score']:.4f})")

No model was supplied, defaulted to distilbert/distilbert-base-cased-distilled-squad and revision 564e9b5 (https://hf-mirror.com//distilbert/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.
Device set to use cuda:0


Answer: Paris (score: 0.9953)


In [None]:
# 5. zero-shot-classification(零样本分类)
# 作用：无需训练，直接分类文本

zero_shot_classifier = pipeline("zero-shot-classification")

text = "Hugging Face is a company that specializes in NLP and AI."
candidate_labels = ["technology", "business", "sports"]

result = zero_shot_classifier(text, candidate_labels)
print(result)


**🎯 总结**
| 任务 | 作用 | 适用模型 |
|------|------|----------|
| **feature-extraction** | 获取文本向量表示 | `bert-base-uncased` |
| **fill-mask** | 预测被 `[MASK]` 遮挡的单词 | `bert-base-uncased`, `roberta-base` |
| **ner** | 命名实体识别（人名、地点、组织等） | `dbmdz/bert-large-cased-finetuned-conll03-english` |
| **question-answering** | 根据上下文回答问题 | `distilbert-base-cased-distilled-squad` |
| **sentiment-analysis** | 预测文本情感（正面/负面） | `nlptown/bert-base-multilingual-uncased-sentiment` |
| **summarization** | 压缩文本，生成摘要 | `facebook/bart-large-cnn` |
| **text-generation** | 给定开头，自动生成文本 | `gpt2` |
| **translation** | 翻译文本（如英 -> 法） | `Helsinki-NLP/opus-mt-en-fr` |
| **zero-shot-classification** | 无需训练，直接分类文本 | `facebook/bart-large-mnli` |

