DistilBERT是BERT(Bidirectional Encoder Representations from Transformers）的一个精简版本，由Hugging Face团队开发。它通过知识蒸馏技术，将BERT模型中的知识压缩到一个较小的模型中，同时保持了较高的性能。与BERT相比，DistilBERT的参数量减少了约40%，推理速度提高了60%。

DistilBERT的工作原理基于知识蒸馏技术，这是一种将复杂模型（教师模型）中的知识转移到简单模型（学生模型）中的方法。在训练过程中，学生模型尝试模仿教师模型的输出，同时保持自身的结构紧凑。DistilBERT作为教师模型的BERT的精简版，通过最小化学生模型与教师模型输出之间的差异，实现了知识的有效传递。

在多个NLP任务上，DistilBERT的性能与BERT相近，但推理速度更快，参数量更少。这使得DistilBERT在实际应用中具有更高的可行性.

In [1]:
from transformers import DistilBertTokenizer, DistilBertForSequenceClassification
import torch

#加载pre-trained distilbert模型和分词器
tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-uncased')

#加载了一个已经在SST-2（Sentiment Analysis on Twitter dataset with two classes: positive and negative）数据集上微调过的DistilBERT模型。
model = DistilBertForSequenceClassification.from_pretrained('distilbert-base-uncased-finetuned-sst-2-english')

  torch.utils._pytree._register_pytree_node(


Downloading vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

Downloading tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

Downloading config.json:   0%|          | 0.00/483 [00:00<?, ?B/s]

In [3]:
#文本预处理: 将文本转换为模型可以接受的输入格式，包括填充和截断操作，以确保所有输入文本的长度一致
text = ["I love programming!", "I hate bugs."]
inputs = tokenizer(text, return_tensors='pt', padding=True, truncation=True, max_length=512)
print(inputs)

{'input_ids': tensor([[  101,  1045,  2293,  4730,   999,   102],
        [  101,  1045,  5223, 12883,  1012,   102]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1]])}


In [4]:
#文本分类
with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits

predictions = torch.argmax(logits, dim=-1)
print(predictions)
# 预测结果
labels = predictions.tolist()
print(labels)

tensor([1, 0])
[1, 0]
