In [1]:
%pip install transformers torch

You should consider upgrading via the '/Users/danilkladnitsky/.pyenv/versions/3.10.4/bin/python -m pip install --upgrade pip' command.[0m[33m
[0mNote: you may need to restart the kernel to use updated packages.


In [30]:
from transformers import GPT2LMHeadModel, AutoTokenizer
import torch
import re

class ChineseSentenceGenerator:
    def __init__(self, model_path: str, device: str = None):
        self.tokenizer = AutoTokenizer.from_pretrained(model_path)
        self.model = GPT2LMHeadModel.from_pretrained(model_path)

        self.model.eval()
        self.device = device or ("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)

    def generate(self, word: str, max_length: int = 60, num_return_sequences: int = 1) -> list:
        prompt = f"请用词语“{word}”造句："
        inputs = self.tokenizer(prompt, return_tensors="pt").to(self.device)

        with torch.no_grad():
            outputs = self.model.generate(
                input_ids=inputs["input_ids"],
                attention_mask=inputs["attention_mask"],
                max_length=max_length,
                do_sample=True,
                top_k=50,
                top_p=0.9,
                temperature=0.4,
                num_return_sequences=num_return_sequences,
                repetition_penalty=1.2,
                pad_token_id=self.tokenizer.pad_token_id,
                eos_token_id=self.tokenizer.eos_token_id
            )

        print(self.tokenizer.pad_token_id, self.tokenizer.eos_token_id)

        results = []
        for output in outputs:
            decoded = self.tokenizer.decode(output, skip_special_tokens=True)
            print(decoded)
            sentence = decoded.replace(prompt, "").replace(" ", "").strip()
            sentence = re.split(r"[。！？]", sentence)[0] + "。"  # stop at first punctuation
            results.append(sentence)

        return results
    
generator = ChineseSentenceGenerator("../models/hsk1-gpt2-jieba")

results = generator.generate("书", max_length=60, num_return_sequences=3)
for i, sent in enumerate(results):
    print(f"📝 Sentence {i+1}: {sent}")

0 None
请 用 词语 “ 书 ” 造句 : 我 的 书 为什么 不 在 回来 。 你们 了 。 。 ” “ ! ” “ 你 很 好 。 。 呢 ? 。 , 明天 一样 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。
请 用 词语 “ 书 ” 造句 : 我 的 书 有 一些 朋友 。 。 你们 。 。 。 吗 ? ? 对 , 我 在 一个 朋友家 。 。 ” 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 对 。 。 。 。
请 用 词语 “ 书 ” 造句 : 我 的 书 为什么 不 在 回来 。 。 ? 。 。 ” “ 你 是 他们 的 。 吗 ? ” 是 我 的 。 , 你 的 。 。 ” 。 你们 认识 。 。 。 。 ” 。 。 。 。 。 。 ” 我 。 。 。 ”
📝 Sentence 1: 请用词语“书”造句:我的书为什么不在回来。
📝 Sentence 2: 请用词语“书”造句:我的书有一些朋友。
📝 Sentence 3: 请用词语“书”造句:我的书为什么不在回来。
