# HuggingFace简介

[Hugging Face Hub](https://huggingface.co/docs/hub/index)和 Github 类似，都是Hub(社区)。Hugging Face可以说的上是机器学习界的Github。Hugging Face为用户提供了以下主要功能：

- [模型仓库（Model Repository）](https://huggingface.co/docs/hub/repositories-getting-started)：Git仓库可以让你管理代码版本、开源代码。而模型仓库可以让你管理模型版本、开源模型等。使用方式与Github类似。
- [模型（Models）](https://huggingface.co/docs/hub/models)：Hugging Face为不同的机器学习任务提供了许多[预训练好的机器学习模型](https://huggingface.co/models)供大家使用，这些模型就存储在模型仓库中。
- [数据集（Dataset）](https://huggingface.co/docs/hub/datasets)：Hugging Face上有许多公开数据集。

hugging face在NLP领域最出名，其提供的模型大多都是基于Transformer的。为了易用性，Hugging Face还为用户提供了以下几个项目：

  - **Transformers**([github](https://github.com/huggingface/transformers), [官方文档](https://huggingface.co/docs/transformers/index)): Transformers提供了上千个预训练好的模型可以用于不同的任务，例如文本领域、音频领域和CV领域。该项目是HuggingFace的核心，可以说学习HuggingFace就是在学习该项目如何使用。
  - **Datasets**([github](https://github.com/huggingface/datasets), [官方文档](https://huggingface.co/docs/datasets/index)): 一个轻量级的数据集框架，主要有两个功能：①一行代码下载和预处理常用的公开数据集； ② 快速、易用的数据预处理类库。
  - **Accelerate**([github](https://github.com/huggingface/accelerate), [官方文档](https://huggingface.co/docs/accelerate/index)): 帮助Pytorch用户很方便的实现 multi-GPU/TPU/fp16。
  - **Space**([链接](https://huggingface.co/spaces))：Space提供了许多好玩的深度学习应用，可以尝试玩一下。

# Transforms简介

Hugging Face Transformer是Hugging Face最核心的项目，你可以用它做以下事情：

- 直接使用预训练模型进行推理
- 提供了大量预训练模型可供使用
- 使用预训练模型进行迁移学习

# Transformers安装

安装Transformers非常简单，直接安装即可。

In [1]:
import torch
!pip install transformers

^C


# 使用Transformers进行推理

如果你的任务是一个比较常见的，大概率可以直接使用Transformer提供的[Pipeline](https://huggingface.co/docs/transformers/v4.21.0/en/main_classes/pipelines)API解决，其使用方式非常简单，可以说是直接用即可。

In [29]:
from transformers import pipeline

translator = pipeline("translation_en_to_fr")
print(translator("How old are you?"))

No model was supplied, defaulted to t5-base and revision 686f1db (https://huggingface.co/t5-base).
Using a pipeline without specifying a model name and revision in production is not recommended.
For now, this behavior is kept to avoid breaking backwards compatibility when padding/encoding with `truncation is True`.
- Be aware that you SHOULD NOT rely on t5-base automatically truncating your input to 512 when padding/encoding.
- If you want to encode/pad to sequences longer than 512 you can either instantiate this tokenizer with `model_max_length` or pass `max_length` when encoding/padding.


[{'translation_text': ' quel âge êtes-vous?'}]


对于部分特定任务，官方并没有提供相应的模型，但你也可以到[官网搜索模型](https://huggingface.co/models)，然后显示指定即可。在加载模型时，你有可能会因为缺少一些库而报错，这个时候，只需要安装对应的库，然后重启即可。

In [None]:
!pip install sentencepiece

In [6]:
translator = pipeline("translation_en_to_zh", model='Helsinki-NLP/opus-mt-en-zh')
translator("I'm learning deep learning.")

[{'translation_text': '我在学习深思熟虑'}]

更多Pipeline请参考[官方文档](https://huggingface.co/docs/transformers/v4.21.0/en/main_classes/pipelines)：https://huggingface.co/docs/transformers/v4.21.0/en/main_classes/pipelines

# 查找Hugging Face模型

本节来介绍一下如何通过Hugging Face找到你需要的模型。

首先，我们需要到来到官网的[模型模块](https://huggingface.co/models)。之后我们会看到如下界面：

<img src="./images/hf_0.jpg" width="800">

其主要包含三部分：

1. **Filter**: 用于筛选你想要的模型
2. **模型列表**: 展示了可使用的模型。不带前缀的是官方提供的模型，例如gpt2，而带前缀的是第三方提供的模型。
3. **搜索框**：你可以通过搜索框按名字搜索模型。

当你点进去你的模型后，你会来到如下页面：

<img src="./images/hf_1.png" width=1000>

该页面主要的几个部分：

1. **模型介绍（Model Card）**: 我们可以通过该文档查看该模型都提供了哪些功能，模型的表现等。
2. **模型文件（Files and versions)**: 从该模块可以下载模型文件，一般包含多种框架的（TF、Pytorch等）模型文件和配置文件等，可以用于离线加载。
3. **测试模型(Hosted inference API)**: 可以直接通过该模块测试自己的模型。同时Hugging Face也提供了Http API可以调用，这样就不需要本地部署了。详情请参考：https://huggingface.co/docs/api-inference/index
4. **使用该模型的应用（Spaces using ..）**：这里展示了使用该模型的应用，可以点进去玩一玩。
5. **代码样例（Use in Transformers）**：你可以通过该模块直接查看该模型的使用方式，直接拷贝代码到项目里就可以用了。

# 使用Hugging Face模型

Transformers项目提供了几个简单的API帮助用户使用Hugging Face模型，而这几个简单的API统称为`AutoClass`([官方文档链接](https://huggingface.co/docs/transformers/autoclass_tutorial))，包括：

1. `AutoTokenizer`: 用于文本分词
2. `AutoFeatureExtractor`: 用于特征提取
3. `AutoProcessor`: 用于数据处理
4. `AutoModel`: 用于加载模型

它们的使用方式均为: `AutoClass.from_pretrain("模型名称")`，然后就可以用了。例如：

In [3]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
tokenizer("I'm learning deep learning.")

{'input_ids': [101, 1045, 1005, 1049, 4083, 2784, 4083, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}

通常一个模型会包含上述4个中的部分功能，例如，对于`bert-base-uncased`模型，就包含“分词”和“模型”两项功能，我们可以通过**代码样例（Use in Transformers）** 模块查看：

<br>

<img src="./images/hf_2.png" width="600">

> 也不是所有的模型都可以使用`AutoModel`，具体还要看模型的代码示例。

# 迁移学习

很多情况下，Hugging Face提供的模型并不能满足我们的需要，所以我们还是要自己训练模型的。此时我们可以使用Hugging Face提供的预训练模型来进行迁移学习，本节将会介绍如何使用Hugging Face进行迁移学习。

使用Hugging Face模型做迁移学习的思路和普通迁移学习几乎一致：

1. 首先选择一个和你的任务类似的任务的预训练模型，或者直接选择一个任务无关的基础模型。
2. 从原有模型中拿出主干部分(backbone)
3. 然后接上自己的下游任务，构建成新的模型
4. 开始训练

这里我以`bert-base-uncased`模型作为例子，进行一次模型参数更新操作，假设我的任务是一个二分类的情感分类问题。

首先，我们将该模型的**Use in Transformers**中的样例代码拷贝过来：

In [33]:
from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

model = AutoModelForMaskedLM.from_pretrained("bert-base-uncased")

Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForMaskedLM: ['cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


之后我们需要尝试使用一下该模型：

In [47]:
tokenizer("Learning is a very happy [MASK].", return_tensors='pt')

{'input_ids': tensor([[ 101, 4083, 2003, 1037, 2200, 3407,  103, 1012,  102]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1]])}

In [51]:
model(**tokenizer("Learning is a very happy thing.", return_tensors='pt')).logits.argmax(dim=-1)

tensor([[1012, 1012, 2003, 1037, 1037, 3407, 2518, 1012, 1012]])

In [54]:
dir(tokenizer)

['SPECIAL_TOKENS_ATTRIBUTES',
 '__annotations__',
 '__call__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_add_tokens',
 '_additional_special_tokens',
 '_auto_class',
 '_batch_encode_plus',
 '_bos_token',
 '_cls_token',
 '_convert_encoding',
 '_convert_id_to_token',
 '_convert_token_to_id_with_added_voc',
 '_create_or_get_repo',
 '_decode',
 '_decode_use_source_tokenizer',
 '_encode_plus',
 '_eos_token',
 '_eventual_warn_about_too_long_sequence',
 '_eventually_correct_t5_max_length',
 '_from_pretrained',
 '_get_padding_truncation_strategies',
 '_get_repo_url_from_name',
 '_mask_token',
 '_pad',
 '_pad_token',
 '_pad_token_type_id',
 '_processor_class'