In [1]:
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
from collections import Counter

# 下载NLTK需要的数据
nltk.download('punkt')
nltk.download('stopwords')

def preprocess_text(text):
    # 将文本转换为小写
    text = text.lower()
    # 分词
    tokens = word_tokenize(text)
    # 去除停用词
    stop_words = set(stopwords.words('english'))
    filtered_tokens = [word for word in tokens if word.isalnum() and word not in stop_words]
    return filtered_tokens

def extract_keywords(tokens, n=5):
    # 提取出现频率最高的前n个词作为关键词
    word_freq = Counter(tokens)
    keywords = [word for word, _ in word_freq.most_common(n)]
    return keywords

def generate_prompt(text):
    tokens = preprocess_text(text)
    keywords = extract_keywords(tokens)
    # 生成基于关键词的prompt
    prompt = " ".join(keywords) + "?"
    return prompt

# 输入文本
input_text = "Natural language processing (NLP) is a subfield of linguistics, " \
             "computer science, and artificial intelligence concerned with the " \
             "interactions between computers and human language, in particular " \
             "how to program computers to process and analyze large amounts of natural language data."
# 生成prompt
prompt = generate_prompt(input_text)
print("Generated prompt:", prompt)


Generated prompt: language natural computers processing nlp?


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\lenovo\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\lenovo\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [2]:
# 生成prompt
prompt = generate_prompt("“三吏三别”指的是杜甫的六部作品，分别是《石壕吏》、《新安吏》、《潼关吏》、《石壕别》、《新婚别》、《垂老别》。这六部作品都是杜甫在安史之乱期间创作的，反映了当时社会的动荡和人民的苦难。 《石壕吏》描述的是石壕吏夜捉人，老妇随往的情境，揭示了当时政治的黑暗和官吏的残暴。 《新安吏》则写的是作者在新安道中所见的丁壮被征发的情景，表达了作者对战争的厌恶和对人民的同情。 《潼关吏》写的是作者途经潼关所见到的紧张而激烈的战争气氛，表现了诗人对国家的忠诚和对战争的无奈。 《石壕别》写的是作者在石壕村与一位老人的告别，表现了作者对老人的同情和对战争的厌恶。 《新婚别》写的是作者在新婚之夜听到征兵的消息，新娘与丈夫的诀别，表达了作者对战争的无奈和对新婚夫妇的同情。 《垂老别》写的是作者与一位老翁的告别，老翁即将奔赴战场，表达了作者对战争的厌恶和对老翁的同情。 这六部作品都是杜甫的代表作，它们反映了杜甫对社会的深刻观察和思考，也展现了他的文学才华和人文关怀。在学习这些作品时，我们应该深入理解其中的思想和情感，感受杜甫的文学魅力。")
print("Generated prompt:", prompt)


Generated prompt: 三吏三别?


In [6]:
import jieba
from collections import Counter

def preprocess_text(text):
    # 使用jieba进行分词
    tokens = jieba.cut(text)
    # 去除停用词
    stop_words = ['的', '了', '是', '在', '和', '有', '不', '我', '你', '他', '她', '它', '我们', '你们', '他们','，','。','？','《','》','！','。','、'," "]
    filtered_tokens = [word for word in tokens if word not in stop_words]
    return filtered_tokens

def extract_keywords(tokens, n=5):
    # 提取出现频率最高的前n个词作为关键词
    word_freq = Counter(tokens)
    keywords = [word for word, _ in word_freq.most_common(n)]
    return keywords

def generate_prompt(text):
    tokens = preprocess_text(text)
    keywords = extract_keywords(tokens)
    # 生成基于关键词的prompt
    prompt = "，".join(keywords)
    return prompt

# 生成prompt
prompt = generate_prompt("“三吏三别”指的是杜甫的六部作品，分别是《石壕吏》、《新安吏》、《潼关吏》、《石壕别》、《新婚别》、《垂老别》。这六部作品都是杜甫在安史之乱期间创作的，反映了当时社会的动荡和人民的苦难。 《石壕吏》描述的是石壕吏夜捉人，老妇随往的情境，揭示了当时政治的黑暗和官吏的残暴。 《新安吏》则写的是作者在新安道中所见的丁壮被征发的情景，表达了作者对战争的厌恶和对人民的同情。 《潼关吏》写的是作者途经潼关所见到的紧张而激烈的战争气氛，表现了诗人对国家的忠诚和对战争的无奈。 《石壕别》写的是作者在石壕村与一位老人的告别，表现了作者对老人的同情和对战争的厌恶。 《新婚别》写的是作者在新婚之夜听到征兵的消息，新娘与丈夫的诀别，表达了作者对战争的无奈和对新婚夫妇的同情。 《垂老别》写的是作者与一位老翁的告别，老翁即将奔赴战场，表达了作者对战争的厌恶和对老翁的同情。 这六部作品都是杜甫的代表作，它们反映了杜甫对社会的深刻观察和思考，也展现了他的文学才华和人文关怀。在学习这些作品时，我们应该深入理解其中的思想和情感，感受杜甫的文学魅力。")
print("生成的prompt:", prompt)


生成的prompt: 对，作者，别，战争，杜甫


生成的prompt: 对，作者， ，别，战争？
