In [None]:
# 基于Embedding向量进行文本聚类

In [None]:

from sklearn.datasets import fetch_20newsgroups
import pandas as pd

def twenty_newsgroup_to_csv():
    newsgroups_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))

    df = pd.DataFrame([newsgroups_train.data, newsgroups_train.target.tolist()]).T
    df.columns = ['text', 'target']

    targets = pd.DataFrame( newsgroups_train.target_names, columns=['title'])

    out = pd.merge(df, targets, left_on='target', right_index=True)
    out.to_csv('20_newsgroup.csv', index=False)
    
twenty_newsgroup_to_csv()

In [None]:
# install package
!pip install  openai;
!pip install tiktoken;
!pip install backoff;


from openai.embeddings_utils import get_embeddings
import openai, os, tiktoken, backoff

openai.api_key = os.environ.get("OPENAI_API_KEY")
embedding_model = "text-embedding-ada-002"
embedding_encoding = "cl100k_base"  # this the encoding for text-embedding-ada-002
batch_size = 2000
max_tokens = 1000  # the maximum for text-embedding-ada-002 is 8191

df = pd.read_csv('20_newsgroup.csv')
print("Number of rows before null filtering:", len(df))
df = df[df['text'].isnull() == False]
encoding = tiktoken.get_encoding(embedding_encoding)

df["n_tokens"] = df.text.apply(lambda x: len(encoding.encode(x)))
print("Number of rows before token number filtering:", len(df))
df = df[df.n_tokens <= max_tokens]
print("Number of rows data used:", len(df))

In [None]:
# 利用文本摘要支持无限轮数的聊天

In [14]:
import openai
COMPLETIONS_MODEL = "text-davinci-003"
history = """User : 你是谁？
Assistant : 我是一个人工智能语言模型，可以回答各种问题，包括做菜的问题。

User : 请问鱼香肉丝怎么做？
Assistant : 鱼香肉丝的做法：

1. 猪里脊肉切丝，加入盐、淀粉、料酒搅拌均匀，腌制10分钟
2. 胡萝卜、青椒、木耳切丝备用
3. 热锅凉油，放入蒜末、姜末煸炒出香味，加入肉丝翻炒至变色
4. 加入胡萝卜、青椒、木耳翻炒，加入酱油、糖、醋、盐、味精、水淀粉搅拌均匀，倒入锅中翻炒均匀即可。

提示：鱼香肉丝的关键是调料的配比，酱油、糖、醋、盐、味精的比例要适合自己的口味。

User : 那蚝油牛肉呢？
Assistant : 蚝油牛肉的做法：

1. 将牛肉切成薄片，加入盐、淀粉、料酒腌制10分钟
2. 葱姜切末，蒜切片，青红椒切丝备用
3. 热锅凉油，放入葱姜末、蒜片煸炒出香味，加入牛肉翻炒至变色
4. 加入蚝油、酱油、糖、水淀粉调味，加入青红椒翻炒均匀即可。

提示：蚝油牛肉的关键是牛肉要切薄，翻炒时火候要快，保证牛肉口感鲜嫩。调味时，蚝油和酱油的比例也要适合自己的口味。
"""
# this step must place on top, otherwise will get error
# %env OPENAI_API_KEY=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
# openai.api_key = os.environ["OPENAI_API_KEY"]
def summarize(text, max_tokens=200):
    response = openai.Completion.create(
        model=COMPLETIONS_MODEL,
        prompt=text + "\n\n请总结一下上面User和Assistant聊了些什么：\n",
        max_tokens=max_tokens,
    )
    return response["choices"][0]["text"]

summarized = summarize(history)
print(summarized)


User和Assistant聊了两种中餐的做法，包括鱼香肉丝和蚝油牛肉，这两种菜的做法都需要放入盐、淀粉、料酒腌制和切好蔬菜，加入调料和搅拌均匀，用快火翻炒均匀，调味时需要注意蚝油和酱


In [15]:
class Conversation:
    def __init__(self, prompt, num_of_round):
        self.prompt = prompt
        self.num_of_round = num_of_round
        self.messages = []
        self.messages.append({"role": "system", "content": self.prompt})

    def ask(self, question):
        try:
            self.messages.append( {"role": "user", "content": question})
            response = openai.ChatCompletion.create(
                model="gpt-3.5-turbo",
                messages=self.messages,
                temperature=0.5,
                max_tokens=2048,
                top_p=1,
            )
        except Exception as e:
            print(e)
            return e

        message = response["choices"][0]["message"]["content"]
        self.messages.append({"role": "assistant", "content": message})
        
        if len(self.messages) > self.num_of_round*2 + 1:
            del self.messages[1:3]
        return message

In [16]:
print(summarized)
prompt = summarized + "\n\n请你根据已经聊了的内容，继续对话："
conversation = Conversation(prompt, 5)

question = "那宫保鸡丁呢？"
answer = conversation.ask(question)
print("User : %s" % question)
print("Assistant : %s\n" % answer)


User和Assistant聊了两种中餐的做法，包括鱼香肉丝和蚝油牛肉，这两种菜的做法都需要放入盐、淀粉、料酒腌制和切好蔬菜，加入调料和搅拌均匀，用快火翻炒均匀，调味时需要注意蚝油和酱
User : 那宫保鸡丁呢？
Assistant : 宫保鸡丁也是一道很经典的中式菜肴。它的做法也比较简单，主要是将鸡肉切成丁状，用盐、淀粉、料酒腌制一下，然后将花生米炒香备用。接着将葱姜蒜爆香，加入泡辣椒炒出红油，放入鸡丁翻炒至变色，加入豆瓣酱、糖、醋、酱油、料酒、水淀粉烧开，最后加入炒香的花生米即可。



In [19]:
conversation = Conversation("请你根据已经聊了的内容，继续对话：", 5)

question = "那宫保鸡丁呢？"
answer = conversation.ask(question)
print("User : %s" % question)
print("Assistant : %s\n" % answer)

User : 那宫保鸡丁呢？
Assistant : 宫保鸡丁是一道非常经典的中式菜肴，以鸡肉丁为主料，搭配花生米、青椒等多种食材，口味鲜香微辣，非常受欢迎。你喜欢吃宫保鸡丁吗？

