# 完整代码

In [1]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer

# 加载预训练模型和tokenizer
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
model = GPT2LMHeadModel.from_pretrained('gpt2')

# 显式设置 pad_token_id
tokenizer.pad_token = tokenizer.eos_token

input_text = "Long time ago, "
inputs = tokenizer(input_text, return_tensors='pt')

# 生成文本
output = model.generate(**inputs, max_new_tokens=100, pad_token_id=tokenizer.pad_token_id)

# 解码输出
decoded_output = tokenizer.decode(output[0], skip_special_tokens=True)

print(decoded_output)


Long time ago,  I was a little bit of a fan of the  The Last Jedi  series.  I was a little bit of a fan of the  The Last Jedi  series.  I was a little bit of a fan of the  The Last Jedi  series.  I was a little bit of a fan of the  The Last Jedi  series.  I was a little bit of a fan of the  The Last Jedi  series. 


# 逐句讲解

In [2]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer

这行代码从transformers库中导入GPT2LMHeadModel和GPT2Tokenizer类。

GPT2LMHeadModel是GPT-2模型，它包括了语言模型头（用于文本生成）

而GPT2Tokenizer是用于将文本转换为模型可以理解的数字表示（tokens）的类。

In [3]:
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')

这行代码创建了一个GPT2Tokenizer实例，并使用预训练的gpt2模型词汇表对其进行初始化。

这意味着tokenizer对象已经知道如何将文本转换为模型可以理解的tokens。


In [4]:
model = GPT2LMHeadModel.from_pretrained('gpt2')

这行代码创建了一个GPT2LMHeadModel实例，并加载了预训练的gpt2模型权重。

这样，model对象已经准备好了用于文本生成的预训练参数。

In [5]:
# 显式设置 pad_token_id
tokenizer.pad_token = tokenizer.eos_token

这行代码将tokenizer的pad_token属性设置为eos_token的值。

由于GPT-2模型没有定义pad_token，我们可以将其设置为eos_token，即序列结束的token。

In [None]:
input_text = "Long time ago, "   # 要生成的文本的起始部分。

In [7]:
inputs = tokenizer(input_text, return_tensors='pt')

这行代码使用tokenizer将input_text转换为模型可以理解的tokens，并返回一个字典，其中包含PyTorch张量（由return_tensors='pt'指定）。这些张量可以输入到模型中。

In [8]:
# 生成文本
output = model.generate(**inputs, max_new_tokens=100, pad_token_id=tokenizer.pad_token_id)

这行代码调用模型的generate方法来生成文本。

**inputs 是将inputs字典解包作为关键字参数传递给generate方法。

max_new_tokens=100指定了模型应该生成的最大token数量。

pad_token_id=tokenizer.pad_token_id传递了pad_token_id，尽管在生成文本时通常不需要它。

In [9]:
# 解码输出
decoded_output = tokenizer.decode(output[0], skip_special_tokens=True)

print(decoded_output)

Once upon a time,  I was a little bit of a fan of the original series, but I was also a little bit of a fan of the original series. I was a little bit of a fan of the original series, but I was also a little bit of a fan of the original series. I was a little bit of a fan of the original series, but I was also a little bit of a fan of the original series. I was a little bit of a fan of the original series, but I


这行代码使用tokenizer的decode方法将模型生成的tokens转换为字符串。

output[0]是生成的tokens的第一个元素（因为generate方法返回一个包含多个序列的列表，但这里只有一个序列）。

skip_special_tokens=True告诉decode方法在转换过程中忽略特殊的tokens，如[PAD]、[EOS]等。