### 使用pipeline
使用預訓練模型最簡單的方法就是使用pipeline函數，它支援如下的任務：

1. 情緒分析(Sentiment analysis)：一段文字是正面還是負面的情感傾向
2. 文本生成(Text generation)：給定一段文本，讓模型補充後面的內容
3. 命名實體辨識(Name entity recognition)：辨識文字中出現的人名地名的命名實體
4. 問答(Question answering)：給定一段文字以及針對它的一個問題，從文本中抽取答案
5. 填詞(Filling masked text)：把一段文字的某些部分mask住，然後讓模型填空
6. 摘要(Summarization)：根據一段長文本中產生簡短的摘要
7. 翻譯(Translation)：把一種語言的文字翻譯成另一種語言
8. 特徵提取(Feature extraction)：把一段文字用一個向量來表示

In [1]:
from transformers import pipeline

generator = pipeline("text-generation", model="uer/gpt2-chinese-poem")

2024-11-04 23:55:19.952329: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2024-11-04 23:55:19.964110: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1730735719.977644   39119 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1730735719.981609   39119 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-11-04 23:55:19.994557: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instr

config.json:   0%|          | 0.00/577 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/425M [00:00<?, ?B/s]

  return self.fget.__get__(instance, owner)()


tokenizer_config.json:   0%|          | 0.00/271 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/115k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


In [2]:
results = generator(
    "[CLS] 萬 疊 春 山 積 雨 晴 ，",
    max_length=40,
    num_return_sequences=2,
)
print(results)

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.


[{'generated_text': '[CLS] 萬 疊 春 山 積 雨 晴 ， 飞 霍 风 露 。 百 花 醉 不 醒 ， 酴 醾 烂 欲 飞 。 江 燕 狂 可 怜 ， 翩 翩 自 来 去 。'}, {'generated_text': '[CLS] 萬 疊 春 山 積 雨 晴 ， 如 茜 茜 间 。 溪 无 此 境 ， 秀 气 浮 南 浦 。 予 老 衰 残 ， 幸 兹 得 一 睹 。'}]


In [3]:
results2 = generator(
    "[CLS] 白日依山盡",
    max_length=40,
    num_return_sequences=1,
)
print(results2)

[{'generated_text': '[CLS] 白日依山盡 ， 黄 流 终 古 注 东 溟 。 千 秋 此 日 归 遗 恨 ， 五 夜 三 军 詟 六 丁 。 谁 谓 英 雄 皆 草 莽'}]
