In [2]:
import sklearn
from sklearn.datasets import fetch_20newsgroups
import pandas as pd

def data_to_csv():
    # 获取数据
    newsgroups_train = fetch_20newsgroups(subset = 'train', remove = {'headers', 'footers', 'quotes'})

    # 转换数据
    df = pd.DataFrame([newsgroups_train.data, newsgroups_train.target.tolist()]).T
    df.columns = ['text', 'target']

    targets = pd.DataFrame(newsgroups_train.target_names, columns = ['title'])

    out = pd.merge(df, targets, left_on = 'target', right_index = True)
    out.to_csv('./data/20_newsgroup.csv', index = False)
    
data_to_csv()

In [3]:
from openai.embeddings_utils import get_embeddings
import openai, os, tiktoken, backoff

In [50]:
openai.api_key = "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"
embedding_model = 'text-embedding-ada-002'

In [34]:
embedding_encoding = 'cl100k_base' # this the encoding for text-embedding-ada-002
batch_size = 2000
max_tokens = 8000

df = pd.read_csv('./data/20_newsgroup.csv')
print('Number of rows before null filtering:', len(df))
df = df[df['text'].isnull() == False]
encoding = tiktoken.get_encoding(embedding_encoding)

df['n_tokens'] = df.text.apply(lambda x: len(encoding.encode(x)))
print('Number of rows before token number filtering:', len(df))
df = df[df.n_tokens <= max_tokens]
print('Number of rows data used:', len(df))

Number of rows before null filtering: 11314
Number of rows before token number filtering: 11096
Number of rows data used: 11044


In [35]:
@backoff.on_exception(backoff.expo, openai.error.RateLimitError)
def get_embeddings_with_backoff(prompts, engine):
    embeddings = []
    for i in range(0, len(prompts), batch_size):
        batch = prompts[i:i+batch_size]
        embeddings += get_embeddings(list_of_text = batch, engine = engine)
    return embeddings

prompts = df.text.tolist()
prompt_batches = [prompts[i:i+batch_size] for i in range(0, len(prompts), batch_size)]

embeddings = []
for batch in prompt_batches:
    batch_embeddings = get_embeddings_with_backoff(prompts = batch, engine = embedding_model)
    embeddings += batch_embeddings

df['embedding'] = embeddings
df.to_parquet('./data/20_newsgroup_with_embedding.parquet', index = False)


In [1]:

import numpy as np
from sklearn.cluster import KMeans

embedding_df = pd.read_parquet("./data/20_newsgroup_with_embedding.parquet")

matrix = np.vstack(embedding_df.embedding.values)
num_of_clusters = 20

kmeans = KMeans(n_clusters=num_of_clusters, init="k-means++", n_init=10, random_state=42)
kmeans.fit(matrix)
labels = kmeans.labels_
embedding_df["cluster"] = labels


NameError: name 'pd' is not defined

In [37]:
# 统计每一个cluster的数量
new_df = embedding_df.groupby('cluster')['cluster'].count().reset_index(name = 'count')

# 统计这个cluster里最多的分类的数量
title_count = embedding_df.groupby(['cluster', 'title']).size().reset_index(name  = 'title_count')
first_titles = title_count.groupby('cluster').apply(lambda x: x.nlargest(1, columns=['title_count']))
first_titles = first_titles.reset_index(drop = True)
new_df = pd.merge(new_df, first_titles[['cluster', 'title', 'title_count']], on = 'cluster', how = 'left')
new_df = new_df.rename(columns = {'title': 'rank1', 'title_count':'rank1_count'})

# 统计这个cluster里第二多的分类的数量
second_titles = title_count[~title_count['title'].isin(first_titles['title'])]
second_titles = second_titles.groupby('cluster').apply(lambda x: x.nlargest(1, columns=['title_count']))
second_titles = second_titles.reset_index(drop=True)
new_df = pd.merge(new_df, second_titles[['cluster', 'title', 'title_count']], on='cluster', how='left')
new_df = new_df.rename(columns={'title': 'rank2', 'title_count': 'rank2_count'})
new_df.fillna(0, inplace=True)
new_df['per_1'] = (new_df['rank1_count'] / new_df['count']).map(lambda x: '{:.2%}'.format(x))
new_df['per_1_2'] = ((new_df['rank1_count'] + new_df['rank2_count'])/ new_df['count']).map(lambda x: '{:.2%}'.format(x))
# new_df['first_percentage'] = (new_df['rank1_count'] / new_df['count']).map(lambda x: '{:.2%}'.format(x))
# 将缺失值替换为 0
new_df.fillna(0, inplace=True)
# 输出结果
display(new_df)

Unnamed: 0,cluster,count,rank1,rank1_count,rank2,rank2_count,first_percentage
0,0,571,misc.forsale,456,comp.sys.mac.hardware,36.0,79.86%
1,1,895,soc.religion.christian,503,alt.atheism,189.0,56.20%
2,2,1199,comp.sys.ibm.pc.hardware,456,comp.sys.mac.hardware,400.0,38.03%
3,3,562,rec.autos,436,comp.sys.mac.hardware,7.0,77.58%
4,4,499,talk.politics.mideast,428,alt.atheism,27.0,85.77%
5,5,700,talk.politics.misc,266,alt.atheism,152.0,38.00%
6,6,84,comp.os.ms-windows.misc,8,comp.sys.mac.hardware,8.0,9.52%
7,7,495,rec.sport.baseball,478,0,0.0,96.57%
8,8,487,sci.space,427,alt.atheism,2.0,87.68%
9,9,464,sci.electronics,340,comp.sys.mac.hardware,31.0,73.28%


In [38]:

items_per_cluster = 10
COMPLETIONS_MODEL = "text-davinci-003"

for i in range(num_of_clusters):
    cluster_name = new_df[new_df.cluster == i].iloc[0].rank1
    print(f"Cluster {i}, Rank 1: {cluster_name}, Theme:", end=" ")

    content = "\n".join(
        embedding_df[embedding_df.cluster == i].text.sample(items_per_cluster, random_state=42).values
    )
    response = openai.Completion.create(
        model=COMPLETIONS_MODEL,
        prompt=f'''我们想要给下面的内容，分组成有意义的类别，以便我们可以对其进行总结。请根据下面这些内容的共同点，总结一个50个字以内的新闻组的名称。比如 “PC硬件”\n\n内容:\n"""\n{content}\n"""新闻组名称：''',
        temperature=0,
        max_tokens=100,
        top_p=1,
    )
    print(response["choices"][0]["text"].replace("\n", ""))

Cluster 0, Rank 1: misc.forsale, Theme: 电子产品出售
Cluster 1, Rank 1: soc.religion.christian, Theme: 宗教信仰的多样性
Cluster 2, Rank 1: comp.sys.ibm.pc.hardware, Theme: 电脑硬件
Cluster 3, Rank 1: rec.autos, Theme: 汽车维修与维护
Cluster 4, Rank 1: talk.politics.mideast, Theme: 中东冲突报道
Cluster 5, Rank 1: talk.politics.misc, Theme: 主观价值观
Cluster 6, Rank 1: comp.os.ms-windows.misc, Theme: 科技产品"""
Cluster 7, Rank 1: rec.sport.baseball, Theme: 运动员技术分析
Cluster 8, Rank 1: sci.space, Theme: 太空探索
Cluster 9, Rank 1: sci.electronics, Theme: 电脑硬件和电子设备
Cluster 10, Rank 1: talk.politics.guns, Theme: 枪支控制讨论
Cluster 11, Rank 1: rec.motorcycles, Theme: 骑行者经验分享
Cluster 12, Rank 1: sci.crypt, Theme: 公民权利与加密技术
Cluster 13, Rank 1: sci.electronics, Theme: 研究与技术
Cluster 14, Rank 1: sci.med, Theme: 

InvalidRequestError: This model's maximum context length is 4097 tokens, however you requested 4609 tokens (4509 in your prompt; 100 for the completion). Please reduce your prompt; or completion length.

In [None]:

items_per_cluster = 1
COMPLETIONS_MODEL = "text-davinci-003"

for i in range(num_of_clusters):
    cluster_name = new_df[new_df.cluster == i].iloc[0].rank1
    print(f"Cluster {i}, Rank 1: {cluster_name}, 抽样翻译:", end=" ")

    content = "\n".join(
        embedding_df[(embedding_df.cluster == i) & (embedding_df.n_tokens > 100)].text.sample(items_per_cluster, random_state=42).values
    )
    response = openai.Completion.create(
        model=COMPLETIONS_MODEL,
        prompt=f'''请把下面的内容翻译成中文\n\n内容:\n"""\n{content}\n"""翻译：''',
        temperature=0,
        max_tokens=2000,
        top_p=1,
    )
    print(response["choices"][0]["text"].replace("\n", ""))

Cluster 0, Rank 1: sci.electronics, 抽样翻译: 我开始研究一些在相当嘈杂的环境中，以及在相当远的距离上传输串行数据的设备，我看到了各种保护RS232收发器（以及其他电路）免受串行线上瞬变的方案。我想知道最佳的做法是什么？这有多必要？据我所知，保护是必要的，特别是如果你计划将电缆路由到一个未知的环境（不受控制）。像信号线和电源线之间的意外短路，甚至闪电等事情都是非常可能的，我不认为你会喜欢看到你的电脑烟消云散的景象！（即使以太网卡也受到保护。我看过我的PC中的一个连接器，它由气体放电管保护！）但是，如果你计划将串行电缆用于内部路由（即在受控环境中），则不需要它们应该是相当安全的。建议：查看RS数据手册。他们有几个RS232收发器，具有过压保护。其中包括LT1080，LT1081和MAX250和MAX251。Maxim应该是绝缘的，但仍需要光耦合器才能工作（不要问我为什么。我以前从未使用过它们。）另一种选择是RS232电涌保护器。 RS目录中列出了两个。如果您需要额外的信息（即库存号），请给我发电子邮件。
Cluster 1, Rank 1: comp.sys.ibm.pc.hardware, 抽样翻译: 如果您购买带CD配置的Centris 650，您将获得一台带有内置数学协处理器支持的68RC040处理器的Mac。我的理解是“可选fpu”是指您可以选择购买没有FPU的Centris 650 4/80或其他带有FPU的配置。Apple不提供从非FPU系统升级为FPU系统的服务。而且，目前尚不清楚非FPU系统（68LC040）上的'040处理器是否可以由另一家供应商提供的68RC040替换。苹果公司曾经发出一份备忘录，指出只有非FPU 68LC040处理器的Centris 610无法升级为支持FPU - 根据苹果的备忘录，两种芯片的引脚配置似乎不匹配，因此无法互换（再次，根据苹果的备忘录）。希望有所帮助。
Cluster 2, Rank 1: talk.politics.misc, 抽样翻译: 以下内容可以在某个FTP存档中找到，我在这封“大哥大”的恶魔般的备忘录中插入了我的评论：看！这显然是禁止我们自己的螺纹规格的第一步。如果不以牙还牙地抵制这种疯狂，使用我们无畏领袖“慷慨”定义的螺纹以外的螺纹将是一种犯罪。废话！我说！ANSI标准

ValueError: a must be greater than 0 unless no samples are taken

In [None]:
class Conversation:
    def __init__(self, prompt, num_of_round):
        self.prompt = prompt
        self.num_of_round = num_of_round
        self.messages = []
        self.messages.append({'role':'system', 'content': self.prompt})
    
    def ask(self, question):
        try:
            self.messages.append({'role':'user', 'content': question})
            response = openai.ChatCompletion.create(
                model='gpt-3.5-turbo',
                messages = self.messages,
                temperature = 0.5,
                max_tokens = 2048,
                top_p = 1,
            )
        except Exception as e:
            print(e)
            return e
        
        message  = response['choices'][0]['message']['content']
        self.messages.append({'role':'assistant', 'content': message})

        if len(self.messages) > self.num_of_round*2 + 1:
            del self.messages[1:3] # Remove the first round conversation left
        return message

In [54]:

history = """User : 你是谁？
Assistant : 我是一个AI语言模型，专门用于回答各种问题，包括法律问题。

User : 请问什么是正当防卫？
Assistant : 正当防卫是指在必要时为了保护自己、他人或者国家公共利益而采取的防御行为。在我国法律中，对于正当防卫的情况，法律规定可以免除或减轻犯罪责任。但是，正当防卫也有限制，必须符合法律规定的情形和条件，否则可能构成违法犯罪行为。

User : 那防卫过当呢？
Assistant : 防卫过当是指在正当防卫行为中，因过度防卫而超出了必要限度，对袭击者造成了严重伤害或者死亡的行为。在我国法律中，防卫过当是不被允许的，因为它已经超出了必要的防卫范围，可能构成过失犯罪或者故意犯罪。如果行为构成犯罪，防卫人需要承担相应的法律责任。
"""

def summarize(text, max_tokens=200):
    response = openai.Completion.create(
        model=COMPLETIONS_MODEL,
        prompt=text + "\n\n请总结一下上面User和Assistant聊了些什么：\n",
        max_tokens=max_tokens,
    )
    return response["choices"][0]["text"]

summarized = summarize(history)
print(summarized)


User和Assistant聊了关于正当防卫和防卫过当的内容。User询问了什么是正当防卫，Assistant回答了这是一种在必要时出于保护自身及他人公共利益的防御行为，法律中可以免除或减轻犯罪责任，但也有限制。User进一步问了防卫过当，Assistant


In [55]:
prompt = summarized + "\n\n请你根据已经聊了的内容，继续对话："
conversation = Conversation(prompt, 5)

question = "那恶意挑衅呢？"
answer = conversation.ask(question)
print("User : %s" % question)
print("Assistant : %s\n" % answer)

User : 那恶意挑衅呢？
Assistant : 恶意挑衅是指他人以言语、行为等方式故意挑衅、侮辱或者侵犯他人人身权利，如果被挑衅者出于自卫而采取防卫行为，且防卫行为符合正当防卫的要求，那么这种防卫行为也是合法的。但是如果被挑衅者的防卫行为明显超出了正当防卫的必要性和适度性，那么就可能构成防卫过当，需要承担相应的法律责任。



In [56]:

conversation = Conversation("请你根据已经聊了的内容，继续对话：", 5)

question = "那恶意挑衅呢？"
answer = conversation.ask(question)
print("User : %s" % question)
print("Assistant : %s\n" % answer)

User : 那恶意挑衅呢？
Assistant : 恶意挑衅是指有人故意挑衅、侮辱或者攻击别人，这种行为是不应该被容忍的。如果我们遇到这种情况，我们应该要保持冷静，不要过度激动或者反击，可以采取一些有效的措施来应对，比如报警或者向相关机构举报。另外，我们也可以通过教育和宣传来提高公众对于恶意挑衅的认识，让更多人知道这种行为的危害性和不可取性。

