In [46]:
from transformers import BertTokenizer, GPT2LMHeadModel
import torch
from tqdm import trange
import os
import numpy as np
import random
import time

In [47]:
def seed_everything(seed: int = 42):
    """Util to make training reproducible"""
    random.seed(seed)

    os.environ["PYTHONHASHSEED"] = str(seed)
    np.random.seed(seed)

    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)

    if os.getenv("CUBLAS_WORKSPACE_CONFIG") is not None:
        torch.use_deterministic_algorithms(True)
        os.environ["CUBLAS_WORKSPACE_CONFIG"] = ":4096:8"

    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False

In [48]:
seed_everything(1999)
tok_path = '..\\..\\Raw_GPT2\\vocab.txt'
pretrain_model_path = "..\\..\\Raw_GPT2\\"
# output_dir = "model\\"

tokenizer = BertTokenizer(vocab_file=tok_path)
model = GPT2LMHeadModel.from_pretrained(pretrain_model_path)

device = 'cuda' if torch.cuda.is_available() else 'cpu'
device = 'cpu'
print('using device:', device)
model = model.to(device)
model.eval()

using device: cpu


GPT2LMHeadModel(
  (transformer): GPT2Model(
    (wte): Embedding(21128, 768)
    (wpe): Embedding(1024, 768)
    (drop): Dropout(p=0.1, inplace=False)
    (h): ModuleList(
      (0): GPT2Block(
        (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (attn): GPT2Attention(
          (c_attn): Conv1D()
          (c_proj): Conv1D()
          (attn_dropout): Dropout(p=0.1, inplace=False)
          (resid_dropout): Dropout(p=0.1, inplace=False)
        )
        (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (mlp): GPT2MLP(
          (c_fc): Conv1D()
          (c_proj): Conv1D()
          (act): NewGELUActivation()
          (dropout): Dropout(p=0.1, inplace=False)
        )
      )
      (1): GPT2Block(
        (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (attn): GPT2Attention(
          (c_attn): Conv1D()
          (c_proj): Conv1D()
          (attn_dropout): Dropout(p=0.1, inplace=False)
          (resid_dropout): Dro

In [49]:
def top_k_top_p_filtering(logits, top_k=0, top_p=0.0, filter_value=-float("Inf")):
    """Filter a distribution of logits using top-k and/or nucleus (top-p) filtering
    Args:
        logits: logits distribution shape (vocabulary size)
        top_k > 0: keep only top k tokens with highest probability (top-k filtering).
        top_p > 0.0: keep the top tokens with cumulative probability >= top_p (nucleus filtering).
            Nucleus filtering is described in Holtzman et al. (http://arxiv.org/abs/1904.09751)
    From: https://gist.github.com/thomwolf/1a5a29f6962089e871b94cbd09daf317
    """
    assert (
        logits.dim() == 1
    )  # batch size 1 for now - could be updated for more but the code would be less clear
    top_k = min(top_k, logits.size(-1))  # Safety check
    if top_k > 0:
        # Remove all tokens with a probability less than the last token of the top-k
        indices_to_remove = logits < torch.topk(logits, top_k)[0][..., -1, None]
        logits[indices_to_remove] = filter_value

    if top_p > 0.0:
        sorted_logits, sorted_indices = torch.sort(logits, descending=True)
        cumulative_probs = torch.cumsum(torch.nn.functional.softmax(sorted_logits, dim=-1), dim=-1)

        # Remove tokens with cumulative probability above the threshold
        sorted_indices_to_remove = cumulative_probs > top_p
        # Shift the indices to the right to keep also the first token above the threshold
        sorted_indices_to_remove[..., 1:] = sorted_indices_to_remove[..., :-1].clone()
        sorted_indices_to_remove[..., 0] = 0

        indices_to_remove = sorted_indices[sorted_indices_to_remove]
        logits[indices_to_remove] = filter_value
    return logits

def sample_sequence_batch(
    model,
    context,
    length,
    n_ctx,
    tokenizer,
    temperature=1.0,
    top_k=30,
    top_p=0.0,
    repetition_penalty=1.0,
    device="cpu",
):
    context = torch.tensor(context, dtype=torch.long, device=model.device)
    generated = context

    with torch.no_grad():
        for _ in trange(length):
            inputs = {"input_ids": generated[:, -(n_ctx - 1) :]}
            outputs = model(**inputs)
            next_token_logits = outputs[0][:, -1, :]

            for idx, gen in enumerate(generated):
                for id in set(gen):
                    next_token_logits[idx, id] /= repetition_penalty

            next_token_logits = next_token_logits / temperature
            next_token_logits[:, tokenizer.convert_tokens_to_ids("[UNK]")] = -float("Inf")
            filtered_logits = torch.stack([top_k_top_p_filtering(logits, top_k=top_k, top_p=top_p) for logits in next_token_logits])

            next_tokens = torch.multinomial(torch.nn.functional.softmax(filtered_logits, dim=-1), num_samples=1)
            generated = torch.cat((generated, next_tokens), dim=1)
    
    return generated.tolist()

def is_word(word):
    for item in list(word):
        if item not in "qwertyuiopasdfghjklzxcvbnm":
            return False
    return True

In [50]:
raw_text = "我的手机号是15656"
# 10, 5
nsamples = 100
batch_size = 20
length = 30
temperature = 0.5
repitition_penalty = 5
top_k = 20
top_p = 0
n_ctx = 1024

save_samples = True

if save_samples:
    # if not os.path.exists(save_samples_path):
    #     os.makedirs(save_samples_path)
    samples_file = open("samples.txt", "w", encoding="utf8")

while True:
    
    context_tokens = tokenizer.convert_tokens_to_ids(tokenizer.tokenize(raw_text))
    generated = 0
    for _ in range(nsamples // batch_size):
        # seed_everything(int(time.time() * 1000) % (2**32 - 1))
        context_tokens_batch = [context_tokens for _ in range(batch_size)]
        out = sample_sequence_batch(
            model,
            context_tokens_batch,
            length,
            n_ctx,
            tokenizer=tokenizer,
            temperature=temperature,
            top_k=top_k,
            top_p=top_p,
            repetition_penalty=repitition_penalty,
            device=device,
        )
        
        for i in range(batch_size):
            generated += 1
            
            text = tokenizer.convert_ids_to_tokens(torch.tensor(out[i]))
            for it, item in enumerate(text[:-1]):  # 确保英文前后有空格
                if is_word(item) and is_word(text[it + 1]):
                    text[it] = item + " "
            for it, item in enumerate(text):
                if item == "[MASK]":
                    text[it] = ""
                elif item == "\n":
                    text[it] = ""
                elif item == "[CLS]":
                    text[it] = "\n\n"
                elif item == "[SEP]":
                    text[it] = "\n"
            info = "=" * 40 + " SAMPLE " + str(generated) + " " + "=" * 40 + "\n"
            print(info)
            text = "".join(text).replace("##", "").strip()
            print(text)
            if save_samples:
                samples_file.write(info)
                samples_file.write(text)
                samples_file.write("\n")
                samples_file.write("=" * 90)
                samples_file.write("\n" * 2)
    print("=" * 80)
    
    break
samples_file.close()

100%|██████████| 30/30 [00:25<00:00,  1.16it/s]



我的手机号是15656588508，微信同步。【关于报名】电话：0471-58796988、63220377

我的手机号是15656777178，他们都说不能信。
后来经过协商沟通才知道这个人就在派

我的手机号是15656518558，他们会给你发短信通知。如果您有任何疑问可以拨打咨询热

我的手机号是15656588555，可以在这里查询到你所有信息。
如果您还没看过《中国好

我的手机号是1565668799，如果他们提供了身份证信息或者姓名等基本情况后要求你报

我的手机号是1565665777，如果你想要了解更多关于这个问题可以加入大家一起讨论。

我的手机号是15656789821，他在微信朋友圈里发了一张照片让大家看下。这名男子说：

我的手机号是15656539777，这个朋友已经通过微信转账给了她。昨天下午4点半左右发

我的手机号是15656788586。
女子：你好，请问您有什么需要帮助吗？王先生:对方电

我的手机号是15656119881，他说只能给你寄个电话。当时就觉得这人太不负责任了！后

我的手机号是15656219877。记者将通过微信转账给小王，对方称可以退款并告诉她该怎

我的手机号是15656812311，而她在qq上发了一条朋友圈：你们都不知道那个人叫什么名

我的手机号是15656779668，电话联系后说可以帮忙转账。这个时候一位女士才告诉她自

我的手机号是15656669888。
、qq：631523557微信名:雷锋网小编工资已与此赞挂钩

我的手机号是15656971981，但他在qq上说过要回家。可能这个时候一些朋友看到了此事

我的手机号是15656213160，如果对方说不知道自己名字也没有什么办法。他就用qq打电

我的手机号是15656419766，这个时候他已经被骗了。随后王女士拨打110报警电话称自己

我的手机号是15656419840。
男子称，他和妻儿在上班路途中相遇了一个女孩（小赵）

我的手机号是15656668123，在线客服人员答复：您好！请问你们公司可以提供哪些方便

我的手机号是15656112360，微信聊天记录里有一张他们公司给她发来短消息说要回家了


100%|██████████| 30/30 [00:25<00:00,  1.17it/s]



我的手机号是15656779890。这个电话，让他赶紧拨打了110报警求助：李先生去年3月份

我的手机号是15656655106，微信名为：李老师。
小学生如何应对家长课堂上遇到难题

我的手机号是15656779480，如果你不知道怎么办？
.那就快点联系吧！（来源：网络

我的手机号是15656532158，在这里可以查询到他们家所有信息。
而且还会提醒您注意

我的手机号是15656484121，他们会在你公司网站上注册一个名为"e-mail:zxwz.

我的手机号是15656582980，在此不再赘述。
另外一个问题：如果你要和他结婚生孩子

我的手机号是15656484140，这个人就在那里等着。然后他打了几次电话给警察叔姐说让

我的手机号是15656816497，但对方不给回复。后来这个女生被发现了.她就在附近找到

我的手机号是15656483120，而且已经有一个女孩子在这里提问了。
后来她就给那位男

我的手机号是1565697847，并且在她电话里告诉了父母。之后就没有再联系过他们也不

我的手机号是1565677666，请问你们能帮忙联系一下吗？
（ps：有人说不要把自己当

我的手机号是15656789868，也就说你只能打电话给他们。而且现在还有一个问题：这位

我的手机号是15656916838。
如果你有一个女朋友，她会说：这样吧！对了还可以给自

我的手机号是15656652919，请大家帮忙联系一下。
）3、在网上注册时提供身份证原

我的手机号是1565619295。他们说，可以帮助这些孩子找回失去亲人和家庭重要信息后

我的手机号是15656682980，一般情况下会在周末时间给你打电话。如果想要了解更多关

我的手机号是15656657188，并且在当天下午5点多就给了你。这位女士说：她没有想到

我的手机号是15656771988，在这里可以查看到你们家房子产权证、土地使用说明书等相

我的手机号是1565697989，但他却在网上发布了一条消息：你已经被骗走啦！这让小编

我的手机号是1565641813，她说你给妈打电话吧。这位母亲一听就吓了跳：不能怪孩子


100%|██████████| 30/30 [00:25<00:00,  1.18it/s]



我的手机号是15656890798，而且他还在那里哭了好久。后来才知道这个女生就住院治疗

我的手机号是15656485150。对于这种信息，他们会在第一时间通知你到派出所去处理！

我的手机号是15656588966，也可以拨打本人客服热线进行咨询。
如果你还有疑问请大

我的手机号是15656881280，并且在网上注册了一个账户。对方给她发来短信说：您好！

我的手机号是15656787152。如果你不想被骗，可以直接拨打12315进行咨询哦！
（来源

我的手机号是15656817188，但在微信上显示已经被删除。对方表明了自己不知情并且拒

我的手机号是15656789855，并且还有一张身份证。
解释：这名男子姓王某（化学老师

我的手机号是15656846489，但他并不知道这个人在哪里。而且当时也没有任何一家公司

我的手机号是15656789858，他们还有一个身份证信息和qq。在这里提醒大家：如果遇到

我的手机号是15656896466，如果你有任何问题可以在留言中告知。
编辑：王俊凯（微

我的手机号是15656653158，他们会根据你提供给您发送短信内容。
如果没有人接到电

我的手机号是15656502998，这位朋友已经在一个月前去了她家。那天晚上和女儿聊到夜

我的手机号是15656919880，如果你想让他知道自己在哪里上班或者生活有什么不便可以

我的手机号是15656667119。记者：你们有什么需要帮助或关爱他人，请给予支持和理解

我的手机号是15656816498，可以通过微信、qq等方式进行转账。同时在对话框中输入：

我的手机号是1565668886，并且在网络上有一个微信群。这两天晚间他们又发布了多条

我的手机号是1565668290，在这个时候他已经被骗了两千多块钱。小编提醒：如果你有

我的手机号是15656916560，并且在收到短信后会及时告知你可以领取奖品。
彩票网：

我的手机号是15656899866，而且他还说了一句：你要多少钱？当时那个男孩子就哭着喊

我的手机号是15656887770。而且，他还承诺过：如果你不知道自己在哪里上班就会给钱


100%|██████████| 30/30 [00:25<00:00,  1.16it/s]



我的手机号是15656482558，他们会把你所有联系方式都删除。不过这个时候可能就没人

我的手机号是15656846889，如果您有任何关于移动互联网、金融行业等不明白或者想咨

我的手机号是15656846699，在这里提醒大家：如果你想要了解更多关于中国房价、汇率

我的手机号是1565668290，请大家帮忙联系一下。
女性朋友也可以添加小编微信（s

我的手机号是15656192158，那个人已经把他拉黑了。当时就想着能不打电话给这位同学

我的手机号是15656582917。
女孩子，你好！谢邀这个问题不能解决一切困难和挑战：

我的手机号是15656686558，想了解更多关于大连天河城市广场商业街区改造升级项目详

我的手机号是1565668886，而且在微信上还有一个qq群名称叫：红领巾小姐。为了方便

我的手机号是15656518998，并且在这个qq群里发了一张照片。该女子称自己名叫王某（

我的手机号是15656682958，但却在他们提供给朋友时被告知已经不能用了。这让人很无

我的手机号是15656193152。
男子已经被警方带走，案件正在进一步调查中）（记者张

我的手机号是15656896688，但她没有给出任何回复。后来老公才知道这件事情发生在两

我的手机号是1565668777，并且这个女孩说她不知道。但如果你能帮助到一些人也许会

我的手机号是15656419721，并且在这个微信群里发了一张照片。当时就有人开始质疑他

我的手机号是15656419860，一直没有人接听。
解放军某炮兵旅战士李先生说："这个

我的手机号是15656772198，想要通过微信转账给他。
如果你没有这个习惯或者不熟悉

我的手机号是15656689897，如果他没有在意这个事情就不要随便给人发信息。
）3.

我的手机号是15656978498，但没有联系上他。据了解为保护自己不被骗子欺诈所伤害.

我的手机号是15656819883，想要了解更多关于这个人和他家庭情况。
另外提醒一下：

我的手机号是15656197858，但他却说这个电话不能接。后来就在网上找了一些相关信息


100%|██████████| 30/30 [00:25<00:00,  1.18it/s]


我的手机号是15656688298，他说这个人在外面有两三年了。而且对方也不知道从哪里来

我的手机号是15656812198，他们就会把这个账户转给你。如果没有收到验证码或者网站

我的手机号是15656509877，在此谢过！
-end.#互联网+传统企业转型升级】1、一

我的手机号是15656667758，请问你们会不知道这个电话吗？
然后他就一直在那里和人

我的手机号是1565677294，而现在他们又发来一条关于此事件中所有人员名单和电话信

我的手机号是15656659721。
男子表示，他们这里也有一个qq群：请大家给小区物业打

我的手机号是15656896885，她给了个电话。记者随后拨打该名女子所说地址和联系方式

我的手机号是15656689820，请问你们有没什么好办法能让他知道自己被骗了？（这个人

我的手机号是1565668256，他给了本地派出所打电话。随后民警将其带回调查时发现：

我的手机号是15656659888，而且还有一个微信头像。当时她们就说这么多年了也没见过

我的手机号是15656682997，所以在这里要提醒大家一下。
解释：由于微信朋友圈内容

我的手机号是15656652991，请问该怎么办？（想到这个就不知道说什麽好了）。另外：

我的手机号是15656219720，这个电话打过去后被告知已经取消了订单。因为没有及时联

我的手机号是15656973158。
如果你不知道怎么跟他联系，请拨打110报警电话进行咨询

我的手机号是1565668296，也就说这个人已经有了两次婚姻。他们都在上海一家工厂打

我的手机号是1565658689，他们会将你拉黑。当然了如果有人知道这个情况时也可以直

我的手机号是1565684688，如果你有更多关于这方面问题可以加入小编微信：135555153

我的手机号是1565668296。
女子一直在qq上发布各种消息，但都没有回复她任何信件

我的手机号是1565658666。记者：你有什么问题吗？王先生:不清楚，但肯定没错啊！

我的手机号是1565665668，想要了解更多相关信息请登录北京市公安局官方网站或拨打





In [51]:
type(out), len(out)

(list, 20)

In [52]:
tokenizer.convert_ids_to_tokens(torch.tensor(out[2]))

['我',
 '的',
 '手',
 '机',
 '号',
 '是',
 '156',
 '##56',
 '##50',
 '##98',
 '##77',
 '，',
 '在',
 '此',
 '谢',
 '过',
 '！',
 '[SEP]',
 '-',
 'end',
 '.',
 '#',
 '互',
 '联',
 '网',
 '+',
 '传',
 '统',
 '企',
 '业',
 '转',
 '型',
 '升',
 '级',
 '】',
 '1',
 '、',
 '一']