In [1]:
from transformers import BertTokenizer, GPT2LMHeadModel
import torch
from tqdm import trange
import os
import numpy as np
import random
import time

In [2]:
def seed_everything(seed: int = 42):
    """Util to make training reproducible"""
    random.seed(seed)

    os.environ["PYTHONHASHSEED"] = str(seed)
    np.random.seed(seed)

    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)

    if os.getenv("CUBLAS_WORKSPACE_CONFIG") is not None:
        torch.use_deterministic_algorithms(True)
        os.environ["CUBLAS_WORKSPACE_CONFIG"] = ":4096:8"

    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False

In [3]:
seed_everything(1999)
tok_path = '..\\..\\Raw_GPT2\\vocab.txt'
pretrain_model_path = "D:\\VSCode\\Record_By_Date\\2023_02_20\\model\\best_model\\"
# output_dir = "model\\"

tokenizer = BertTokenizer(vocab_file=tok_path)
model = GPT2LMHeadModel.from_pretrained(pretrain_model_path)

device = 'cuda' if torch.cuda.is_available() else 'cpu'
device = 'cpu'
print('using device:', device)
model = model.to(device)
model.eval()

using device: cpu


GPT2LMHeadModel(
  (transformer): GPT2Model(
    (wte): Embedding(21128, 768)
    (wpe): Embedding(1024, 768)
    (drop): Dropout(p=0.1, inplace=False)
    (h): ModuleList(
      (0): GPT2Block(
        (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (attn): GPT2Attention(
          (c_attn): Conv1D()
          (c_proj): Conv1D()
          (attn_dropout): Dropout(p=0.1, inplace=False)
          (resid_dropout): Dropout(p=0.1, inplace=False)
        )
        (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (mlp): GPT2MLP(
          (c_fc): Conv1D()
          (c_proj): Conv1D()
          (act): NewGELUActivation()
          (dropout): Dropout(p=0.1, inplace=False)
        )
      )
      (1): GPT2Block(
        (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (attn): GPT2Attention(
          (c_attn): Conv1D()
          (c_proj): Conv1D()
          (attn_dropout): Dropout(p=0.1, inplace=False)
          (resid_dropout): Dro

In [4]:
def top_k_top_p_filtering(logits, top_k=0, top_p=0.0, filter_value=-float("Inf")):
    """Filter a distribution of logits using top-k and/or nucleus (top-p) filtering
    Args:
        logits: logits distribution shape (vocabulary size)
        top_k > 0: keep only top k tokens with highest probability (top-k filtering).
        top_p > 0.0: keep the top tokens with cumulative probability >= top_p (nucleus filtering).
            Nucleus filtering is described in Holtzman et al. (http://arxiv.org/abs/1904.09751)
    From: https://gist.github.com/thomwolf/1a5a29f6962089e871b94cbd09daf317
    """
    assert (
        logits.dim() == 1
    )  # batch size 1 for now - could be updated for more but the code would be less clear
    top_k = min(top_k, logits.size(-1))  # Safety check
    if top_k > 0:
        # Remove all tokens with a probability less than the last token of the top-k
        indices_to_remove = logits < torch.topk(logits, top_k)[0][..., -1, None]
        logits[indices_to_remove] = filter_value

    if top_p > 0.0:
        sorted_logits, sorted_indices = torch.sort(logits, descending=True)
        cumulative_probs = torch.cumsum(torch.nn.functional.softmax(sorted_logits, dim=-1), dim=-1)

        # Remove tokens with cumulative probability above the threshold
        sorted_indices_to_remove = cumulative_probs > top_p
        # Shift the indices to the right to keep also the first token above the threshold
        sorted_indices_to_remove[..., 1:] = sorted_indices_to_remove[..., :-1].clone()
        sorted_indices_to_remove[..., 0] = 0

        indices_to_remove = sorted_indices[sorted_indices_to_remove]
        logits[indices_to_remove] = filter_value
    return logits

def sample_sequence_batch(
    model,
    context,
    length,
    n_ctx,
    tokenizer,
    temperature=1.0,
    top_k=30,
    top_p=0.0,
    repetition_penalty=1.0,
    device="cpu",
):
    context = torch.tensor(context, dtype=torch.long, device=model.device)
    generated = context

    with torch.no_grad():
        for _ in trange(length):
            inputs = {"input_ids": generated[:, -(n_ctx - 1) :]}
            outputs = model(**inputs)
            next_token_logits = outputs[0][:, -1, :]

            for idx, gen in enumerate(generated):
                for id in set(gen):
                    next_token_logits[idx, id] /= repetition_penalty

            next_token_logits = next_token_logits / temperature
            next_token_logits[:, tokenizer.convert_tokens_to_ids("[UNK]")] = -float("Inf")
            filtered_logits = torch.stack([top_k_top_p_filtering(logits, top_k=top_k, top_p=top_p) for logits in next_token_logits])

            next_tokens = torch.multinomial(torch.nn.functional.softmax(filtered_logits, dim=-1), num_samples=1)
            generated = torch.cat((generated, next_tokens), dim=1)
    
    return generated.tolist()

def is_word(word):
    for item in list(word):
        if item not in "qwertyuiopasdfghjklzxcvbnm":
            return False
    return True

In [6]:
raw_text = "前列腺炎的症状都有哪些？"
# 10, 5
nsamples = 100
batch_size = 20
length = 30
temperature = 1.0
repitition_penalty = 5
top_k = 40
top_p = 0
n_ctx = 1024

save_samples = True

if save_samples:
    # if not os.path.exists(save_samples_path):
    #     os.makedirs(save_samples_path)
    samples_file = open("samples.txt", "w", encoding="utf8")

while True:
    
    context_tokens = tokenizer.convert_tokens_to_ids(tokenizer.tokenize(raw_text))
    generated = 0
    for _ in range(nsamples // batch_size):
        # seed_everything(int(time.time() * 1000) % (2**32 - 1))
        context_tokens_batch = [context_tokens for _ in range(batch_size)]
        out = sample_sequence_batch(
            model,
            context_tokens_batch,
            length,
            n_ctx,
            tokenizer=tokenizer,
            temperature=temperature,
            top_k=top_k,
            top_p=top_p,
            repetition_penalty=repitition_penalty,
            device=device,
        )
        
        for i in range(batch_size):
            generated += 1
            
            text = tokenizer.convert_ids_to_tokens(torch.tensor(out[i]))
            for it, item in enumerate(text[:-1]):  # 确保英文前后有空格
                if is_word(item) and is_word(text[it + 1]):
                    text[it] = item + " "
            for it, item in enumerate(text):
                if item == "[MASK]":
                    text[it] = ""
                elif item == "\n":
                    text[it] = ""
                elif item == "[CLS]":
                    text[it] = "\n\n"
                elif item == "[SEP]":
                    text[it] = "\n"
            info = "=" * 40 + " SAMPLE " + str(generated) + " " + "=" * 40 + "\n"
            print(info)
            text = "".join(text).replace("##", "").strip()
            print(text)
            if save_samples:
                samples_file.write(info)
                samples_file.write(text)
                samples_file.write("\n")
                samples_file.write("=" * 90)
                samples_file.write("\n" * 2)
    print("=" * 80)
    
    break
samples_file.close()

100%|██████████| 30/30 [00:30<00:00,  1.01s/it]



前列腺炎的症状都有哪些？

我今年25岁，从上个多月开始发觉已经是排位赛了。这几天又犯病

前列腺炎的症状都有哪些？尿频、小腹胀痛，甚至下坠感。您好：导致男性睾丸疼应该及时检查

前列腺炎的症状都有哪些？1、久坐：常会头晕眼花，大便干燥或疼痛。

男性发病率较女士减

前列腺炎的症状都有哪些？

一定要及时治疗，根据你上传到咨询室里面是关键所在。只不过仔

前列腺炎的症状都有哪些？

如果再次出现了泌尿生殖系疾病会引发肾脏不适，建议去正规医院

前列腺炎的症状都有哪些？您好：

性交引来阴茎勃起硬度不够，而且还会时间过长或者一直持

前列腺炎的症状都有哪些？我最近好象是在早晨上厕所发现尿血，下班就没太注意过这个问题。

前列腺炎的症状都有哪些？你好，可能是肾实质发生改变：如尿液浓缩、减少及分泌物不断增多

前列腺炎的症状都有哪些？

很高兴为你解答，以上分析是个人观点。需要特别讲明原因才能帮

前列腺炎的症状都有哪些？

男性尿频,疼痛发病时间及原因:近4个月来曾做过肾检查患上了

前列腺炎的症状都有哪些？男23岁，发现自己在性生活方面力不从心。想知道一下专家早泄是咋

前列腺炎的症状都有哪些？

如何治疗好建议多喝水避免辛辣刺激食物。可以口服左氧氟沙星胶

前列腺炎的症状都有哪些？你好，可能是感染引起：如泌尿系统不适、阴部湿疹等。

在平时生

前列腺炎的症状都有哪些？

你好！慢性肾盂结石：1、隐痛及发热，2-3天一次；排尿后即

前列腺炎的症状都有哪些？你好，如果是无菌性和脓细胞比较多也容易出现尿频、下腹部疼痛等

前列腺炎的症状都有哪些？我是大三阳想知道尿路感染后如何治疗根据您所叙述目击证实，长期

前列腺炎的症状都有哪些？我应当怎么办啊。会不會引起病情严重呀！

大部分患者表现为急性

前列腺炎的症状都有哪些？1.局部不适：

以排尿异常、隐痛为主要表现出，包括腰骶棘突肌

前列腺炎的症状都有哪些？慢性肾小球直肠疾病：如尿路感染。

男子发生泌睾过快（包括急迫

前列腺炎的症状都有哪些？?阴茎硬结尿道口，分泌物较多

不能排出体外时常会引发下腹痛和


100%|██████████| 30/30 [00:30<00:00,  1.00s/it]



前列腺炎的症状都有哪些？患了慢性细菌感染，又该怎么治疗呢?1、可能会出现排尿异常。此

前列腺炎的症状都有哪些？男性疾病和长期憋尿是两种不同人类精液生化学物质沉积结构中必需

前列腺炎的症状都有哪些？

怎么才能更好地预防和治疗工作这种急性男科疾病呢?您还年轻;

前列腺炎的症状都有哪些？?

不要长久地看病。男人得了阳痿、早泄等疾会致使精神无法集中

前列腺炎的症状都有哪些？治疗方法是什么呢?主要应该多喝水,一般可以服用药物，抗生素、

前列腺炎的症状都有哪些？你好，可以进行一下分类：

看具体情况。我建议选择阴囊皮肤和龟

前列腺炎的症状都有哪些？

一般是因为长期久坐或者着凉引发上述临床综合征，多位于中老年

前列腺炎的症状都有哪些？1、尿频；

慢性附睾，结石一般无痛苦不排除是由于长期过度导致

前列腺炎的症状都有哪些？要仔细检查什么可以确定患了该病你好，急性传染给附睾会引来一连

前列腺炎的症状都有哪些？

吃什么药治疗和控制不病发才好呢指导意见：你可以口服西坦莫昔

前列腺炎的症状都有哪些？

我得了膀胱再次出现脓肿时，疼痛和尿频。如果是在排便后比较严

前列腺炎的症状都有哪些？治疗方面可以用点什么药物比较能够好，平常要注意多喝水吗。您再

前列腺炎的症状都有哪些？怎么治疗呢，想自己可以看一下医生

病情分析：你好:根据描述得

前列腺炎的症状都有哪些？

发现自己在这个期间经常会产生尿频、腰酸无力，去检查了一下医

前列腺炎的症状都有哪些？根据您所叙述情况和资料，不知道你是那种感染性疾病引来。指导意

前列腺炎的症状都有哪些？该怎么治疗?

你好，根据您所说情况来看这个要多考虑是慢性膀胱

前列腺炎的症状都有哪些？

不能够吃什么呢?想得到怎样快速解决这个问题，我还是比较推荐

前列腺炎的症状都有哪些？您好，尿频、腰痛等是常见并发病。多数患者为不洁性生活造成精神

前列腺炎的症状都有哪些？

怎么预防呢您好，从上面回答已经开始！1、忌暴饮和太过剧烈运

前列腺炎的症状都有哪些？

我不太清楚，所以想来进行咨询一下。谢啦！根据你描述得情况分


100%|██████████| 30/30 [00:29<00:00,  1.00it/s]



前列腺炎的症状都有哪些？1.尿频。

一天2-3次或两三个小时以上偶尔还伴发排泄物，大

前列腺炎的症状都有哪些？慢性男科疾病引来，常见于无菌生理卫

不排除泌尿系感染情况致使

前列腺炎的症状都有哪些？

在患病期间应该注意什么呢?怎样治疗才能比较好啊你是需要做个

前列腺炎的症状都有哪些？

一般来说，除了上述三种表现出外之后不会再增加任何痛苦。也就

前列腺炎的症状都有哪些？男性出现了泌尿系统感染，或者是精神上受到刺激后会再次发生排便

前列腺炎的症状都有哪些？

尿急，排不出来、腰酸背痛等！一般是因为患了盆腔感染引起白带

前列腺炎的症状都有哪些？你好，慢性浅表精囊液增长会出现下腹痛或小便不畅,也就是说排尿

前列腺炎的症状都有哪些？1，性生活时阴茎勃起只是一个缓慢进行而已。

可因人体器官或系

前列腺炎的症状都有哪些？您好!

你这个年龄男性会不经常复发?在什么时间可以完全自愈呢

前列腺炎的症状都有哪些？男性阴囊潮湿异常，会引起一个或几种疾病。如尿道口瘙痒、发烧等

前列腺炎的症状都有哪些？

性生活勃起时疼痛，射精快。尿频?包皮过长会引来阴茎头部或者

前列腺炎的症状都有哪些？尿不尽感，腰酸。早泄建议查个泌激素5项看下：一般来说肾虚是可

前列腺炎的症状都有哪些？患者男，45岁。这几天觉着自己小腹又痒得厉害了！去医院检查说是

前列腺炎的症状都有哪些？您好，男性疾病多表现为会阴部不适、睾丸疼痛和尿频等。同时也可

前列腺炎的症状都有哪些？我应该怎么办

性生活太近会感觉到腰酸背痛，但是过一段还没什莫

前列腺炎的症状都有哪些？

怎么治疗才不会后遗呢，还能防止工作和生活出现什方面问题吗比

前列腺炎的症状都有哪些？治疗多久后可以康复正常性功能，建议用中药调理

男人阴茎勃起和

前列腺炎的症状都有哪些？这种疾病是否要及时去检查呢?患者平常应注意局部卫生,经期防止

前列腺炎的症状都有哪些？

男人尿不完全性、阴茎硬结痛。一般由于急慢期睾丸神经系统损伤

前列腺炎的症状都有哪些？请问：治疗男性阳痿方法能医院吗您好，对于射精过快而产生不良影


100%|██████████| 30/30 [00:29<00:00,  1.01it/s]



前列腺炎的症状都有哪些？一年多了没任何征兆！每次月经后不久即射精，排尿时再也无法控制

前列腺炎的症状都有哪些？你好，治疗可以选择手术

如内服药、微波,热水坐浴等.同时注意

前列腺炎的症状都有哪些？什么时候患上比较好呢?

大概多久才能检测出来啊你可以去医院确

前列腺炎的症状都有哪些？男性阴囊内出现了许多小块，而且尿液中还含蛋白质、脂肪不仅干扰

前列腺炎的症状都有哪些？?尿频(比如:上厕所时要特别小心，这是一种很简单而容易困扰男

前列腺炎的症状都有哪些？最近总是感觉尿频，并且每次排便完以后还会出血情况吗。请问：得

前列腺炎的症状都有哪些？会不定时地疼痛吗，是一个怎样子感觉呢除了在饮食上要注意什么您

前列腺炎的症状都有哪些？

本人最近尿道口老是痒，小便多时疼。到医院做了下检查说这也可

前列腺炎的症状都有哪些？

患上了这个问题，我非常想请教医生们怎么样方才能治好你现在如

前列腺炎的症状都有哪些？第一次问题补充:请各位大夫帮忙解答。

男女之间是平等存在性生

前列腺炎的症状都有哪些？得了这个阴囊是怎么样形成啊，感觉特别像膀胱但又不明显要来大姨

前列腺炎的症状都有哪些？尿频、排便次数增多，且常伴下腹疼痛和腰酸。

请问：得了滴虫性

前列腺炎的症状都有哪些？

这是为什么，一般情况下大多数没再次出现早泄或者勃起不坚病史

前列腺炎的症状都有哪些？

我现在是这样说，不知道如何治疗因此想问一下患上了男性功能障

前列腺炎的症状都有哪些？

大多数患者一般会存在轻度、中重程或间歇性疼痛，不伴发高烧等

前列腺炎的症状都有哪些？患上了此病，请问：怎么治疗早泄1、先天性精囊萎缩术对于这种手

前列腺炎的症状都有哪些？我这需要去医院看什么科。

男性尿频是早泄吗根据你说情况主动脉

前列腺炎的症状都有哪些？

男性患上该病之后，会感染吗?这个部位出现一小块白色肿物是何

前列腺炎的症状都有哪些？?

大概什么情况下会发生尿道或者是两侧精索静脉曲张呢你好，对

前列腺炎的症状都有哪些？

感觉自己得了这个。不知晓要说什么，所以想问一下具体我现在用


100%|██████████| 30/30 [00:29<00:00,  1.00it/s]


前列腺炎的症状都有哪些？

请问治疗男性不育那种方法好呢您这两个病应该到正规医院仔细检

前列腺炎的症状都有哪些？

因为不清楚，在这里先咨询一下!你好：治疗上首选解痉药物和镇

前列腺炎的症状都有哪些？1、性功能障碍。

女孩子在月经干净后,阴道会轻度不规则疼;而

前列腺炎的症状都有哪些？你好，这种情况应该和性交过度关系没那么大。

如果担心会影响生

前列腺炎的症状都有哪些？

对于我来说，好烦!。一般患了这个病之后会比较难过自己是不孕

前列腺炎的症状都有哪些？

病情分析：您好，阴茎不能勃起来或无力、性生活时间过久是男子

前列腺炎的症状都有哪些？

在性生活时阴茎硬度和血压是否正常，尿量应该如何判断。男人患

前列腺炎的症状都有哪些？根据你所提供情况需要进行详细检查和治疗才可确诊。

患者发病时

前列腺炎的症状都有哪些？第一次问题补充:谢！你好，不知您可以看到[unused1]排尿异常：[unused2]提示音

前列腺炎的症状都有哪些？你好：

我建议患者还是先去医院做下b超检查后再考虑治疗。在诊

前列腺炎的症状都有哪些？我想理解一下这个是什么引起了男性患者再次出现尿频、排便困难，

前列腺炎的症状都有哪些？

感冒了，发烧到39℃可以多喝汤吗一般来说病毒类型不是很高所致

前列腺炎的症状都有哪些？

我就是想做个b超检查一下，看具体情况。对于这种病严重不大你

前列腺炎的症状都有哪些？1、尿频。从月经来潮,开始到停止3个小时内没一次排便，这是常

前列腺炎的症状都有哪些？1、尿频。为了保证最大流量，采取多种治疗方法；2年内禁止同房

前列腺炎的症状都有哪些？

本次发病及持续时间:1年了。这样是不好治疗还，一定要做到早

前列腺炎的症状都有哪些？

大夫你好:早泄及肾虚等病对男性功能可造成很严重影响。目之所

前列腺炎的症状都有哪些？

吃什么药救治下来比较好病情分析：对于男性而言尿路感染和早泄

前列腺炎的症状都有哪些？该如何预防工作呢你好，患了慢性盆腔腹膜疾病和内分泌功能障碍。

前列腺炎的症状都有哪些？

治疗期间应注意什么，一般在多大时小便才能正常呢?1、尿液检



