# 构造微调训练数据集

借助 ChatGPT 和 GPT API 我们可以实现自动化批量构造训练数据集。

下面我们以中国古典哲学数据集为例，展示了自动构造训练集的主要流程：

- 使用 LangChain 构造训练数据样例
    - 基于 ChatGPT 设计 `System Role` 提示词
    - 使用 `OpenAI GPT-3.5-Turbo-1106` 生成基础数据
    - 解析 OpenAI GPT 生成的训练数据
    - 持久化存储`dataset.csv`训练数据集文件
    - 使用 ChatGPT 实现训练数据多样化
- 自动化批量生成训练数据集
    - 整理收集原始数据`raw_data.txt`
    - 自动解析原始数据样例 `raw_data_content[]`
    - 设计 `gen_data` 训练数据生成器函数
    - 设计训练数据生成流水线

最佳实践参考：

- 使用 GPT-3.5 生成基础数据：https://platform.openai.com/playground/p/2c7XNPgo6Y2iDxILiWfD3iPu?model=gpt-3.5-turbo-1106&mode=chat
- 使用 ChatGPT 生成数据处理代码和相关文本整理：https://chat.openai.com/share/cdfd2d1d-a75e-4cee-be49-539c010ca1b1
- GPT API 价格: https://openai.com/pricing

## 使用 OpenAI SDk 构造训练数据

In [4]:
!pip install openai==1.3.6

Collecting openai==1.3.6
  Downloading openai-1.3.6-py3-none-any.whl.metadata (17 kB)
Collecting anyio<4,>=3.5.0 (from openai==1.3.6)
  Downloading anyio-3.7.1-py3-none-any.whl.metadata (4.7 kB)
Collecting distro<2,>=1.7.0 (from openai==1.3.6)
  Downloading distro-1.9.0-py3-none-any.whl.metadata (6.8 kB)
Downloading openai-1.3.6-py3-none-any.whl (220 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m220.9/220.9 kB[0m [31m17.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading anyio-3.7.1-py3-none-any.whl (80 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m80.9/80.9 kB[0m [31m12.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading distro-1.9.0-py3-none-any.whl (20 kB)
Installing collected packages: distro, anyio, openai
  Attempting uninstall: anyio
    Found existing installation: anyio 4.3.0
    Uninstalling anyio-4.3.0:
      Successfully uninstalled anyio-4.3.0
Successfully installed anyio-3.7.1 distro-1.9.0 openai-1.3.6
[0m

In [2]:
import os
os.environ["OPENAI_API_TYPE"]=''
os.environ["OPENAI_API_VERSION"]=''
os.environ["OPENAI_API_BASE"]=''
os.environ["OPENAI_API_KEY"]=''

deployment = ""
model = "gpt-35-turbo"

In [6]:
# from openai import OpenAI
# client = OpenAI()

import os
from openai import AzureOpenAI
    
client = AzureOpenAI(
    api_key=os.getenv("OPENAI_API_KEY"),  
    api_version=os.getenv("OPENAI_API_VERSION"),
    azure_endpoint = os.getenv("OPENAI_API_BASE")
    )

In [12]:
response = client.chat.completions.create(
  model=deployment,
  messages=[
    {
      "role": "system",
      "content": "你是中国古典哲学大师，尤其擅长周易的哲学解读。\n\n接下来，你收到的都是关于周易卦象的解释，你需要整理润色，并生成用于大模型训练的内容和格式。\n\n示例输入：\n\n师卦，此卦是异卦相叠，下卦为坎，上卦为坤。“师”指军队。坎为水、为险；坤为地、为顺，喻寓兵于农。兵凶战危，用兵乃圣人不得已而为之，但它可以顺利无阻碍地解决矛盾，因为顺乎形势，师出有名，故能化凶为吉。占得此卦，对于军事上率师出征非常有利，必无灾祸。师卦是天马出群之卦，以寡伏众之象。\n师卦位于讼卦之后，《序卦》之中这样解释道：“讼必有众起，故受之以师。师者，众也。”争讼的人越来越多，以致形成了军队。\n\n期待结果：\n\ncontent:\"师卦\"\nsummary:\"在周易中，师卦是一个极具深意的卦象，它由两个异卦相叠组成：下卦坎（水）和上卦坤（地）。这一卦象代表“师”，即军队，寓意着兵力和农力的结合。在这里，坎卦象征着水和险难，而坤卦象征着地和顺从，暗示着通过将军事力量安置于民间，可以在必要时顺利调动。\n\n师卦的核心哲学是：虽然兵力代表着危险和战争，但其使用应当是圣人不得已而为之的最后手段。在正确的情况下，军事力量可以顺应形势，将危险转化为吉祥。因此，在军事策略上，此卦象征着出征将会顺利，无灾祸。\n\n师卦紧随讼卦（争讼卦），在《序卦》中解释为“讼必有众起，故受之以师”。这意味着争端激化至众多人群的参与，形成了类似军队的集体力量。\""
    },
    {
      "role": "user",
      "content": "蒙卦是教育启蒙的智慧，艮为山，坎为泉，山下出泉。泉水始流出山，则必将渐汇成江河,正如蒙稚渐启，又山下有险，因为有险停止不前，所以蒙昧不明。事物发展的初期阶段，必然蒙昧，所以教育是当务之急，养学生纯正无邪的品质，是治蒙之道。\n蒙卦，这个卦是异卦相叠，下卦为坎，上卦为艮。艮是山的形象，喻止；坎是水的形象，喻险。卦形为山下有险，仍不停止前进，是为蒙昧，故称蒙卦。但因把握时机，行动切合时宜;因此，具有启蒙和通达的卦象。\n《蒙》卦是《屯》卦这个始生卦之后的第二卦。《序卦》中说：“物生必蒙，故受之以蒙。蒙者，蒙也，特之稚也。”物之幼稚阶段，有如蒙昧未开的状态，在人则是指童蒙。\n《象》中这样解释蒙卦：山下出泉，蒙；君子以果行育德。"
    },
    {
      "role": "assistant",
      "content": "content:\"蒙卦\"\nsummary:\"在周易中，蒙卦象征着教育启蒙和智慧的初期阶段，由两个异卦相叠组成：下卦坎（水）和上卦艮（山）。坎象征水，艮象征山，代表了山下有水源，水流出山。这预示着在事物发展的起初阶段，人们会陷入蒙昧状态，因此教育成为当务之急。只有培养纯正无邪的品质，才能走上通达之路，如同泉水汇成江河。\n\n蒙卦的核心哲学是：事物发展的初期阶段必然处于蒙昧状态，但如果能把握时机，行动切合时宜，就能启蒙通达。蒙卦紧随始生卦《屯》之后，《序卦》中解释道：“物生必蒙，故受之以蒙。蒙者，蒙也，特之稚也。”这说明物在幼稚阶段都会经历蒙昧状态，找它蒙即是稚嫩。\n\n《象》中解释说：山下出泉，蒙；君子以果行育德，意味着像泉水从山下流出一样，启蒙教育有助于培育美德。\""
    },
    {
      "role": "user",
      "content": "需卦，本卦是异卦相叠，上卦为坎，下卦为乾。乾卦象征天空辽阔，坎卦象征乌云密布。雨水之于传统农业社会而言，是最大的需求，因此用这个意象来表现。古人引申为雨将下，万物皆待，所以叫需。\n需，古体字结构是“雨上天下”，从雨而声。如苍天下雨，滋养万物及人。从人的角度看，天下雨，则不易出行耕作，因此在家喝酒吃肉、静待天时。所以，这一卦的基本象征就是等待、不进，还有饮食之义。\n \n需卦位于蒙卦之后，《序卦》之中这样解释道：“物稚不可不养也，故受之以需。需者，饮食之道也。”有所需要，也是有所等待。\n《象》曰：云上于天，需;君子以饮食宴乐。\n《象》中这段话的意思是说：需卦的卦象是乾(天)下坎(水)上，为水在天上之表象。水汽聚集天上成为云层，密云満天，但还没有下雨，需要等待;君子在这个时候需要吃喝，饮酒作乐，即在等待的时候积蓄力量。\n需卦象征等待，启示人们守正待机的道理，属于中上卦。《象》这样评断此卦：明珠土埋日久深，无光无亮到如今，忽然大风吹土去，自然显露有重新。\n"
    }
  ],
  temperature=1,
  max_tokens=4095,
  top_p=1,
  frequency_penalty=0,
  presence_penalty=0
)

In [13]:
print(response.choices[0].message.content)
print(response)

content:"需卦"
summary:"在周易中，需卦是一个由两个异卦相叠组成的卦象：上卦为坎（水），下卦为乾（天）。乾卦象征着天空广阔，坎卦象征着乌云密布，寓意着等待雨水的降临。因此，需卦代表着等待、不进和饮食。从古人对待雨水的态度来看，雨水对传统农业社会至关重要，因此等待雨水的同时也等待丰收的到来。

需卦的核心哲学是：在某些时候，需要等待才能获得更好的结果。需卦位于蒙卦之后，《序卦》中解释道：“物稚不可不养也，故受之以需。需者，饮食之道也。”这意味着在某些情况下，需要等待和养育，才能取得成功。

《象》中解释道：云上于天，需；君子以饮食宴乐。卦象中的水汽聚集成为云层，但尚未下雨，寓意着等待。君子在这个时候需要享受饮食和欢乐，即在等待的时候积蓄力量。需卦启示人们守正待机的道理。在《象》中，需卦被评价为明珠土埋日久深，无光无亮到如今，忽然大风吹土去，自然显露，代表等待过后，事物会迎来新的转机。"
ChatCompletion(id='chatcmpl-9EHzJFV3vKb39RCAJdPAb4uefODMn', choices=[Choice(finish_reason='stop', index=0, message=ChatCompletionMessage(content='content:"需卦"\nsummary:"在周易中，需卦是一个由两个异卦相叠组成的卦象：上卦为坎（水），下卦为乾（天）。乾卦象征着天空广阔，坎卦象征着乌云密布，寓意着等待雨水的降临。因此，需卦代表着等待、不进和饮食。从古人对待雨水的态度来看，雨水对传统农业社会至关重要，因此等待雨水的同时也等待丰收的到来。\n\n需卦的核心哲学是：在某些时候，需要等待才能获得更好的结果。需卦位于蒙卦之后，《序卦》中解释道：“物稚不可不养也，故受之以需。需者，饮食之道也。”这意味着在某些情况下，需要等待和养育，才能取得成功。\n\n《象》中解释道：云上于天，需；君子以饮食宴乐。卦象中的水汽聚集成为云层，但尚未下雨，寓意着等待。君子在这个时候需要享受饮食和欢乐，即在等待的时候积蓄力量。需卦启示人们守正待机的道理。在《象》中，需卦被评价为明珠土埋日久深，无光无亮到如今，忽然大风吹土去，自然显露，代表等待过后，事物会迎来新的转机。"', role='assistant', function_call=N

In [15]:
!pip install langchain

Collecting langchain
  Downloading langchain-0.1.16-py3-none-any.whl.metadata (13 kB)
Collecting SQLAlchemy<3,>=1.4 (from langchain)
  Downloading SQLAlchemy-2.0.29-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (9.6 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain)
  Downloading dataclasses_json-0.6.4-py3-none-any.whl.metadata (25 kB)
Collecting jsonpatch<2.0,>=1.33 (from langchain)
  Downloading jsonpatch-1.33-py2.py3-none-any.whl.metadata (3.0 kB)
Collecting langchain-community<0.1,>=0.0.32 (from langchain)
  Downloading langchain_community-0.0.32-py3-none-any.whl.metadata (8.5 kB)
Collecting langchain-core<0.2.0,>=0.1.42 (from langchain)
  Downloading langchain_core-0.1.42-py3-none-any.whl.metadata (5.9 kB)
Collecting langchain-text-splitters<0.1,>=0.0.1 (from langchain)
  Downloading langchain_text_splitters-0.0.1-py3-none-any.whl.metadata (2.0 kB)
Collecting langsmith<0.2.0,>=0.1.17 (from langchain)
  Downloading langsmith-0.1.47-py3-none-any.whl.m

In [16]:
# from langchain.chat_models import ChatOpenAI
from langchain.chat_models import AzureChatOpenAI
from langchain.schema import HumanMessage, SystemMessage
from langchain.prompts.chat import (
    ChatPromptTemplate,
    HumanMessagePromptTemplate,
    SystemMessagePromptTemplate,
)

chat = AzureChatOpenAI(model=deployment,
                  temperature=1,
                  max_tokens=4095,
                  top_p=1,
                  frequency_penalty=0,
                  presence_penalty=0)

  warn_deprecated(
                    top_p was transferred to model_kwargs.
                    Please confirm that top_p is what you intended.
                    frequency_penalty was transferred to model_kwargs.
                    Please confirm that frequency_penalty is what you intended.
                    presence_penalty was transferred to model_kwargs.
                    Please confirm that presence_penalty is what you intended.


## 使用 LangChain 构造训练数据

In [17]:
system_content = """
你是中国古典哲学大师，尤其擅长周易的哲学解读。

接下来，你收到的都是关于周易卦象的解释，你需要整理润色，并生成用于大模型训练的内容和格式。

示例输入：

师卦，此卦是异卦相叠，下卦为坎，上卦为坤。“师”指军队。坎为水、为险；坤为地、为顺，喻寓兵于农。兵凶战危，用兵乃圣人不得已而为之，但它可以顺利无阻碍地解决矛盾，因为顺乎形势，师出有名，故能化凶为吉。占得此卦，对于军事上率师出征非常有利，必无灾祸。师卦是天马出群之卦，以寡伏众之象。
师卦位于讼卦之后，《序卦》之中这样解释道：“讼必有众起，故受之以师。师者，众也。”争讼的人越来越多，以致形成了军队。

期待结果：

content:"师卦"
summary:"在周易中，师卦是一个极具深意的卦象，它由两个异卦相叠组成：下卦坎（水）和上卦坤（地）。这一卦象代表“师”，即军队，寓意着兵力和农力的结合。在这里，坎卦象征着水和险难，而坤卦象征着地和顺从，暗示着通过将军事力量安置于民间，可以在必要时顺利调动。

师卦的核心哲学是：虽然兵力代表着危险和战争，但其使用应当是圣人不得已而为之的最后手段。在正确的情况下，军事力量可以顺应形势，将危险转化为吉祥。因此，在军事策略上，此卦象征着出征将会顺利，无灾祸。

师卦紧随讼卦（争讼卦），在《序卦》中解释为“讼必有众起，故受之以师”。这意味着争端激化至众多人群的参与，形成了类似军队的集体力量。"
"""


In [18]:
# 原始数据
raw_content = "蒙卦是教育启蒙的智慧，艮为山，坎为泉，山下出泉。泉水始流出山，则必将渐汇成江河,正如蒙稚渐启，又山下有险，因为有险停止不前，所以蒙昧不明。事物发展的初期阶段，必然蒙昧，所以教育是当务之急，养学生纯正无邪的品质，是治蒙之道。\n蒙卦，这个卦是异卦相叠，下卦为坎，上卦为艮。艮是山的形象，喻止；坎是水的形象，喻险。卦形为山下有险，仍不停止前进，是为蒙昧，故称蒙卦。但因把握时机，行动切合时宜;因此，具有启蒙和通达的卦象。\n《蒙》卦是《屯》卦这个始生卦之后的第二卦。《序卦》中说：“物生必蒙，故受之以蒙。蒙者，蒙也，特之稚也。”物之幼稚阶段，有如蒙昧未开的状态，在人则是指童蒙。\n《象》中这样解释蒙卦：山下出泉，蒙；君子以果行育德。"

In [19]:
messages = [
    SystemMessage(
        content=system_content
    ),
    HumanMessage(
        content=raw_content
    ),
]

In [23]:
ai_message = chat(messages)

### 解析 OpenAI GPT 生成的训练数据

In [24]:
ai_message.content

'content:"蒙卦"\nsummary:"蒙卦在周易中代表教育启蒙的智慧。这一卦象由两个异卦相叠而成，下卦为坎（水），上卦为艮（山）。艮象征山，意味着止；坎象征水，喻示险难。因此，这一卦象形成了山下有险的局面，并意味着蒙昧不明。事物发展的初期阶段，必然是蒙昧的，因此通过教育启蒙来培养学生纯正无邪的品质，是治蒙之道。"\n\n蒙卦作为第二卦，紧跟着始生卦屯卦，传达出了物生必蒙的深刻哲学思想。在《序卦》中的解释，物生必经过蒙昧阶段，所以这一卦象被称为蒙卦。在人类社会中，童蒙期也是人类经历的蒙昧阶段。\n\n通过《象》中山下出泉，蒙的解释，我们可以看到，物质进入蒙昧状态时需要有启蒙和通达的方法去引导。君子应该坚持果敢行动，进行美德培养。因此，蒙卦成为了教育启蒙的智慧。'

In [25]:
text = ai_message.content

# 分割字符串来找到content和summary的位置
content_start = text.find('content:"') + len('content:"')
content_end = text.find('"\nsummary:')
summary_start = text.find('summary:"') + len('summary:"')
summary_end = text.rfind('"')

# 提取并存储content和summary
content = text[content_start:content_end].strip()
summary = text[summary_start:summary_end].strip()

print("Content:", content)
print("Summary:", summary)


Content: 蒙卦
Summary: 蒙卦在周易中代表教育启蒙的智慧。这一卦象由两个异卦相叠而成，下卦为坎（水），上卦为艮（山）。艮象征山，意味着止；坎象征水，喻示险难。因此，这一卦象形成了山下有险的局面，并意味着蒙昧不明。事物发展的初期阶段，必然是蒙昧的，因此通过教育启蒙来培养学生纯正无邪的品质，是治蒙之道。


### 持久化存储训练数据集文件

In [26]:
import csv

# 如果没有GPT API，可以使用预定义的变量
# content = "蒙卦"
# summary = "在周易中，师卦是一个极具深意的卦象，它由两个异卦相叠组成：下卦坎（水）和上卦坤（地）。这一卦象代表“师”，即军队，寓意着兵力和农力的结合。在这里，坎卦象征着水和险难，而坤卦象征着地和顺从，暗示着通过将军事力量安置于民间，可以在必要时顺利调动。师卦的核心哲学是：虽然兵力代表着危险和战争，但其使用应当是圣人不得已而为之的最后手段。在正确的情况下，军事力量可以顺应形势，将危险转化为吉祥。因此，在军事策略上，此卦象征着出征将会顺利，无灾祸。师卦紧随讼卦（争讼卦），在《序卦》中解释为“讼必有众起，故受之以师”。这意味着争端激化至众多人群的参与，形成了类似军队的集体力量。"

# 新建CSV文件并写入数据
with open('test_dataset.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    # 写入标题行
    writer.writerow(['content', 'summary'])
    # 写入数据行
    writer.writerow([content, summary])


### 数据增强：构造多样化的提问方式

In [27]:
def generate_question_summary_pairs(content, summary):
    """
    生成20对提问和总结的配对。

    :param content: 内容（例如：“蒙卦”）。
    :param summary: 内容的总结。
    :return: 包含20对提问和总结的列表。
    """
    # 20种提问模板
    question_templates = [
        "{}代表什么？",
        "周易中的{}含义是什么？",
        "请解释一下{}。",
        "{}在周易中是什么象征？",
        "周易{}的深层含义是什么？",
        "{}和教育启蒙有什么联系？",
        "周易的{}讲述了什么？",
        "{}是怎样的一个卦象？",
        "{}在周易中怎样表达教育的概念？",
        "{}的基本意义是什么？",
        "周易中{}的解释是什么？",
        "{}在周易中代表了哪些方面？",
        "{}涉及哪些哲学思想？",
        "周易中{}的象征意义是什么？",
        "{}的主要讲述内容是什么？",
        "周易{}的核心思想是什么？",
        "{}和启蒙教育之间有何联系？",
        "在周易中，{}象征着什么？",
        "请描述{}的含义。",
        "{}在周易哲学中扮演什么角色？"
    ]

    # 使用content填充提问模板
    questions = [template.format(content) for template in question_templates]

    # 创建提问和总结的配对
    question_summary_pairs = [(question, summary) for question in questions]

    return question_summary_pairs

In [28]:
import csv

# 如果没有GPT API，可以使用预定义的变量
# content = "蒙卦"
# summary = "在周易中，师卦是一个极具深意的卦象，它由两个异卦相叠组成：下卦坎（水）和上卦坤（地）。这一卦象代表“师”，即军队，寓意着兵力和农力的结合。在这里，坎卦象征着水和险难，而坤卦象征着地和顺从，暗示着通过将军事力量安置于民间，可以在必要时顺利调动。师卦的核心哲学是：虽然兵力代表着危险和战争，但其使用应当是圣人不得已而为之的最后手段。在正确的情况下，军事力量可以顺应形势，将危险转化为吉祥。因此，在军事策略上，此卦象征着出征将会顺利，无灾祸。师卦紧随讼卦（争讼卦），在《序卦》中解释为“讼必有众起，故受之以师”。这意味着争端激化至众多人群的参与，形成了类似军队的集体力量。"
pairs = generate_question_summary_pairs(content, summary)

# 将结果写入CSV文件
with open('test_dataset.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['content', 'summary'])
    for pair in pairs:
        writer.writerow(pair)


## 自动化批量生成训练数据流水线

原始数据来源：https://www.zhouyi.cc/zhouyi/yijing64/4103.html

In [5]:
# 初始化一个空列表用于存储原始内容数据
raw_content_data = []

# 读取文件并分割数据样例
with open('./data/zhouyi/raw_data.txt', 'r', encoding='utf-8') as file:
    content = file.read()
    # 使用连续的换行符('\n\n')作为分隔符来分割文本
    data_samples = content.split('\n\n')

    # 遍历分割后的数据样例并添加到列表中
    for sample in data_samples:
        # 移除每个样例中的额外空白字符（如果有的话）
        cleaned_sample = sample.strip()
        # 仅添加非空样例
        if cleaned_sample:
            raw_content_data.append(cleaned_sample)

In [31]:
# 输出结果以验证
for i, sample in enumerate(raw_content_data[:5]):  # 打印前5个样例以检查
    print(f"样例 {i+1}:")
    print(sample)
    print("------")


样例 1:
蒙卦原文
蒙。亨。匪我求童蒙，童蒙求我。初筮告，再三渎，渎则不告。利贞。
象曰：山下出泉，蒙。君子以果行育德。
白话文解释
蒙卦：通泰。不是我有求于幼稚愚昧的人，而是幼稚愚昧的人有求于我。第一次占筮，神灵告诉了他。轻慢不敬的再三占筮，轻慢不敬的占筮，神灵就不会告诉他。但还是吉利的卜问。
《象辞》说：上卦为艮，象征山；下卦为坎，象征泉。山下有泉，泉水喷涌而出，这是蒙卦的卦象。君子观此卦象，取法于一往无前的山泉，从而以果敢坚毅的行动来培养自身的品德。
《断易天机》解
蒙卦艮上坎下，为离宫四世卦。蒙即蒙昧，主回还往复，疑惑不前，多忧愁过失，乃是凶卦。
北宋易学家邵雍解
智慧未开，蒙昧闭塞；犹豫不决，缺乏果断。
得此卦者，智慧犹如童蒙，不辨是非，迷失方向；若能顺贤师良友之教，启其聪明则亨通。
台湾国学大儒傅佩荣解
时运：蓄积德行，出而用世。
财运：矿山生意，果决则吉。
家宅：君子居吉；婚姻之始。
身体：驱去邪热，可保平安。
传统解卦
这个卦是异卦（下坎上艮）相叠，艮是山的形象，喻止；坎是水的形象，喻险。卦形为山下有险，仍不停止前进，是为蒙昧，故称蒙卦。但因把握时机，行动切合时宜，因此，具有启蒙和通达的卦象。
大象：蒙者，昏而无所见也，故宜「启蒙」。
运势：初时迷惑不知方向，须忍耐待机而动，凡事多听取别人意见，则运可通。
事业：事业开始，混乱无序，危机四伏，以勇敢坚毅的行动可以扭转局面。然而必须接受严格教育，培养这种奋发图强的精神。务必脚踏实地，最忌好高骛远，否则会陷入孤立无援的境地。
经商：务必小心谨慎，不得急功近利，尤其应树立高尚的商业道德，以良好的信誉提高竞争力而取胜。
求名：必须接受良好的基础教育，陶冶情操。且动机纯正，可以达到目的。
婚恋：注意考察对方品德，不可以金钱为诱铒。夫妻需相互宽容、理解。
决策：有时会陷入迷惘困顿的境地，加上胆小、不果断，往往误事。如能接受长辈的教诲，甚至严酷的考验，抛弃疑惧的心理，等待适当时机，必然一帆风顺。
------
样例 2:
屯卦原文
屯。元，亨，利，贞。勿用，有攸往，利建侯。
象曰：云，雷，屯；君子以经纶。
白话文解释
屯卦。大吉大利，吉利的占卜。不利于出门。有利于建国封侯。
《象辞》说：屯的上卦为坎，坎为云，下卦为震，震为雷。云行于上，雷动于下，是屯卦的卦象。君子观此卦象，取法于云雷，用云的恩泽，雷的威严来治理国

### 将以上的所有模块，整合到一起，自动化生成数据

In [3]:
# from langchain.chat_models import ChatOpenAI
from langchain.chat_models import AzureChatOpenAI
from langchain.schema import HumanMessage, SystemMessage
from langchain.prompts.chat import (
    ChatPromptTemplate,
    HumanMessagePromptTemplate,
    SystemMessagePromptTemplate,
)

# 初始化LangChain的GPT-3.5调用
chat = AzureChatOpenAI(model=deployment,
                  temperature=1,
                  max_tokens=4095,
                  top_p=1,
                  frequency_penalty=0,
                  presence_penalty=0)

def gen_data(raw_content):
    """
    使用LangChain GPT-3.5调用处理单个数据样例。

    :param raw_content: 原始数据样例。
    :return: GPT-3.5模型生成的内容。
    """
    # 系统消息定义背景和任务
    system_message = SystemMessage(
        content="""
        你是中国古典哲学大师，尤其擅长周易的哲学解读。

        接下来，你收到的都是关于周易卦象的解释，你需要整理润色，并生成用于大模型训练的内容和格式。

        示例输入：

        师卦，此卦是异卦相叠，下卦为坎，上卦为坤。“师”指军队。坎为水、为险；坤为地、为顺，喻寓兵于农。兵凶战危，用兵乃圣人不得已而为之，但它可以顺利无阻碍地解决矛盾，因为顺乎形势，师出有名，故能化凶为吉。占得此卦，对于军事上率师出征非常有利，必无灾祸。师卦是天马出群之卦，以寡伏众之象。
        师卦位于讼卦之后，《序卦》之中这样解释道：“讼必有众起，故受之以师。师者，众也。”争讼的人越来越多，以致形成了军队。

        期待结果：

        content:"师卦"
        summary:"在周易中，师卦是一个极具深意的卦象，它由两个异卦相叠组成：下卦坎（水）和上卦坤（地）。这一卦象代表“师”，即军队，寓意着兵力和农力的结合。在这里，坎卦象征着水和险难，而坤卦象征着地和顺从，暗示着通过将军事力量安置于民间，可以在必要时顺利调动。

        师卦的核心哲学是：虽然兵力代表着危险和战争，但其使用应当是圣人不得已而为之的最后手段。在正确的情况下，军事力量可以顺应形势，将危险转化为吉祥。因此，在军事策略上，此卦象征着出征将会顺利，无灾祸。

        师卦紧随讼卦（争讼卦），在《序卦》中解释为“讼必有众起，故受之以师”。这意味着争端激化至众多人群的参与，形成了类似军队的集体力量。"
        
        返回格式要求：
        content:"{卦名}"
        summary:"{内容}"
        """
    )

    # 人类消息包含原始数据样例
    human_message = HumanMessage(
        content=raw_content
    )

    # 构建消息列表并进行模型调用
    messages = [system_message, human_message]
    ai_message = chat(messages)

    return ai_message.content

  warn_deprecated(
                    top_p was transferred to model_kwargs.
                    Please confirm that top_p is what you intended.
                    frequency_penalty was transferred to model_kwargs.
                    Please confirm that frequency_penalty is what you intended.
                    presence_penalty was transferred to model_kwargs.
                    Please confirm that presence_penalty is what you intended.


In [7]:
# 示例调用（使用 raw_data.txt 中解析的数据样例）
generated_content = gen_data(raw_content_data[0])
print(generated_content)

content:"蒙卦"
summary:"《周易》中的蒙卦是由艮宫和坎宫组成的，代表了一种对于事物的困惑和迷惘。在卜问初期，神灵会相应地给予答案，但是占筮无度则会失去神灵的指引。虽然充满了不确定性，但是蒙卦还是一个非常吉利的卦象。寓意着在关键时刻一定要以果敢的行动来对待事情，以培养自身的品德和坚韧精神。"



In [9]:
def dataset_parser(ai_message_content):
    """
    解析由gen_data函数生成的ai_message.content，提取content和summary。

    :param ai_message_content: gen_data函数返回的文本。
    :return: 提取的content和summary。
    """
    # 分割字符串来找到content和summary的位置
    content_start = ai_message_content.find('content:"') + len('content:"')
    content_end = ai_message_content.find('"\nsummary:')
    summary_start = ai_message_content.find('summary:"') + len('summary:"')
    summary_end = ai_message_content.rfind('"')

    # 提取并存储content和summary
    content = ai_message_content[content_start:content_end].strip()
    summary = ai_message_content[summary_start:summary_end].strip()

    return content, summary


In [10]:
# 示例调用（使用假设的gen_data函数返回的文本）
content, summary = dataset_parser(generated_content)
print("Content:", content)
print("Summary:", summary)

Content: 蒙卦
Summary: 《周易》中的蒙卦是由艮宫和坎宫组成的，代表了一种对于事物的困惑和迷惘。在卜问初期，神灵会相应地给予答案，但是占筮无度则会失去神灵的指引。虽然充满了不确定性，但是蒙卦还是一个非常吉利的卦象。寓意着在关键时刻一定要以果敢的行动来对待事情，以培养自身的品德和坚韧精神。


In [57]:
import csv
import datetime
import os

def main():
    # 确保 data 目录存在
    if not os.path.exists('data'):
        os.makedirs('data')

    # 解析 data/raw_data.txt 得到 raw_content_data 列表
    raw_content_data = []
    with open('./data/zhouyi/raw_data.txt', 'r', encoding='utf-8') as file:
        content = file.read()
        data_samples = content.split('\n\n')
        for sample in data_samples:
            cleaned_sample = sample.strip()
            if cleaned_sample:
                raw_content_data.append(cleaned_sample)

    # 创建带有时间戳的CSV文件名
    timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
    filename = f"./data/zhouyi/zhouyi_dataset_{timestamp}.csv"

    # 创建CSV文件并写入标题行
    with open(filename, mode='w', newline='', encoding='utf-8') as file:
        writer = csv.writer(file)
        writer.writerow(['content', 'summary'])

        # 循环遍历 raw_content_data 数据样例
        for raw_content in raw_content_data:
            # 调用 gen_data 方法得到 ai_message_content
            ai_message_content = gen_data(raw_content)

            # 解析 ai_message_content 得到 content 和 summary
            content, summary = dataset_parser(ai_message_content)
            
            print("Content:", content)
            print("Summary:", summary)

            # 调用 generate_question_summary_pairs 得到20组 pairs
            pairs = generate_question_summary_pairs(content, summary)

            # 将 pairs 写入 csv 文件
            for pair in pairs:
                writer.writerow(pair)


In [58]:
# 执行主函数
main()

Content: 蒙卦
Summary: 蒙卦是一个通泰的卦象，它由艮上坎下两个异卦组成，象征着山下有泉，是由昏迷和险恶中通过行动、启蒙来通达和照亮未来的过程。尽管刚开始会犹豫不决，缺乏果断，但是接受正确引导，顺应大势就能转危为安。在事业、经商、求名和婚恋等方面，都需要耐心等待，接受指导，积蓄德行，务必脚踏实地，谨慎行事。
Content: 屯卦是一个异卦相叠的卦象，下卦为震（代表“雷”），上卦为坎（代表“水”），象征着万物开始萌生之初，环境险恶，充满艰难险阻。然而，随着时机的顺应，必将欣欣向荣。

屯卦所代表的主要哲学思想是：先劳后逸，苦尽甘来。得卦者需坚毅果敢方可克服困难，随着时机的到来迎来繁荣。

《象辞》指出，屯卦的卦象中，上震下坎，为雷雨交加，险象丛生，名为“屯”，表示万物初生之时，环境恶劣，意味着困难和障碍。

得此卦者，应当守正不宜过于冒进，因为初难之时更应该平心静气地思考，谋求有条不紊的发展方式。需要多加辛苦努力、排除磨难，才能通达，走出困境。

在事业上，初始多有不利，需要顺应时机，勇往直前，灵活机动，坚定信念。适时地抓住机遇，创造条件，获得成功。这个过程中，应该注重施恩惠，以缓和困境。

对于创业初期的人而言，屯卦提示有困难，要有坚定信念，不要被表面现象所迷惑，积极进取、行动果断，这样才能打开出路。如果一直无法摆脱困境，则应该退守保全，等待机会，再展宏图。

总之，屯卦所代表的主题是起始阶段的艰难，需要刚毅果敢，坚定前行的信念和勇往直前的精神，才能获得成功
Summary: 屯卦是一个异卦相叠的卦象，下卦为震（代表“雷”），上卦为坎（代表“水”），象征着万物开始萌生之初，环境险恶，充满艰难险阻。然而，随着时机的顺应，必将欣欣向荣。

屯卦所代表的主要哲学思想是：先劳后逸，苦尽甘来。得卦者需坚毅果敢方可克服困难，随着时机的到来迎来繁荣。

《象辞》指出，屯卦的卦象中，上震下坎，为雷雨交加，险象丛生，名为“屯”，表示万物初生之时，环境恶劣，意味着困难和障碍。

得此卦者，应当守正不宜过于冒进，因为初难之时更应该平心静气地思考，谋求有条不紊的发展方式。需要多加辛苦努力、排除磨难，才能通达，走出困境。

在事业上，初始多有不利，需要顺应时机，勇往直前，灵活机动，坚定信念。适时地抓住机遇，创造条件，获得成功。这个过程中，应该注重施恩惠，以缓和困境。

对于

### 异常分析


训练第一个 epoch 时，Training Loss 比较奇怪：

```
Step	Training Loss
1	3.594100
2	4.049100
3	3.091200
4	3.381700
5	3.547800
6	2.610200
7	2.657900
8	3.163900
```

通过解析 GPT-3.5-Turbo-1106 生成结果发现问题

In [26]:
def gen_data(raw_content):
    """
    使用LangChain GPT-3.5调用处理单个数据样例。

    :param raw_content: 原始数据样例。
    :return: GPT-3.5模型生成的内容。
    """
    # 系统消息定义背景和任务
    system_message = SystemMessage(
        content="""
        你是中国古典哲学大师，尤其擅长周易的哲学解读。

        接下来，你收到的都是关于周易卦象的解释，你需要整理润色，并生成用于大模型训练的内容和格式。

        示例输入：

        师卦，此卦是异卦相叠，下卦为坎，上卦为坤。“师”指军队。坎为水、为险；坤为地、为顺，喻寓兵于农。兵凶战危，用兵乃圣人不得已而为之，但它可以顺利无阻碍地解决矛盾，因为顺乎形势，师出有名，故能化凶为吉。占得此卦，对于军事上率师出征非常有利，必无灾祸。师卦是天马出群之卦，以寡伏众之象。
        师卦位于讼卦之后，《序卦》之中这样解释道：“讼必有众起，故受之以师。师者，众也。”争讼的人越来越多，以致形成了军队。

        期待结果：

        content:"师卦"
        summary:"在周易中，师卦是一个极具深意的卦象，它由两个异卦相叠组成：下卦坎（水）和上卦坤（地）。这一卦象代表“师”，即军队，寓意着兵力和农力的结合。在这里，坎卦象征着水和险难，而坤卦象征着地和顺从，暗示着通过将军事力量安置于民间，可以在必要时顺利调动。

        师卦的核心哲学是：虽然兵力代表着危险和战争，但其使用应当是圣人不得已而为之的最后手段。在正确的情况下，军事力量可以顺应形势，将危险转化为吉祥。因此，在军事策略上，此卦象征着出征将会顺利，无灾祸。

        师卦紧随讼卦（争讼卦），在《序卦》中解释为“讼必有众起，故受之以师”。这意味着争端激化至众多人群的参与，形成了类似军队的集体力量。"

        返回格式要求：
        content:"{卦名}"
        summary:"{内容}"
        """
    )

    # 人类消息包含原始数据样例
    human_message = HumanMessage(
        content=raw_content
    )

    # 构建消息列表并进行模型调用
    messages = [system_message, human_message]
    ai_message = chat(messages)

    return ai_message.content

In [27]:
# 执行主函数
main()

  warn_deprecated(


Content: 蒙卦
Summary: 在周易中，蒙卦是一个充满着启蒙和通达意义的卦象。它由下卦坎（水）和上卦艮（山）组成，形象为山下有险。这象征着初时迷惑不知方向，须忍耐待机而动，凡事多听取别人意见，则运可通。蒙卦代表着混乱无序的情况下，需要勇敢坚毅的行动来扭转局面，同时也需要接受严格教育，培养奋发图强的精神，务必脚踏实地，杜绝好高骛远。在事业、经商、求名、婚恋等方面，蒙卦都提示着需要基础教育的重要性，同时也需要耐心等待适当时机，并接受长辈的教诲和严酷的考验。


  warn_deprecated(


Content: 屯卦
Summary: 在周易中，屯卦代表着大吉大利，它由下卦震（雷）上卦坎（水）组成。这一卦象象征着最初的困难和阻碍，但需要坚韧不拔的品性和果敢的行动才能取得吉祥。屯卦告诫着困境中需要勇往直前，小心翼翼，才可期待后续的顺利解决。

根据《象辞》解释，屯卦的卦象是由上坎下震组成，坎象征云、震象征雷。这象征着云行于上，雷动于下，君子观此卦象，取法于云雷，以云的恩泽，雷的威严来治理国事。

屯卦的解释中强调：身处困境时需要步步为营，有初难后解之象。事业上，积极进取、行动果断、勇往直前，灵活机动，可获得大的成功；同时需要他人相助。对于经商、求名、婚恋等方面，亦应坚忍不拔、积极追求，方可获得成功。然而，需要意识到困难状态下的需要得到贤德之人的帮助才能摆脱，以乐观主义精神处世，才能取得成就。


  warn_deprecated(


Content: 需卦
Summary: 


  warn_deprecated(


Content: 讼卦
Summary: 讼卦是一卦象，由乾上坎下组成。乾代表天，坎代表水，这两者相违相異，造成了讼卦的卦象。在讼卦中，提示人们要杜绝争讼，谋事之初必须慎之又慎。讼卦虽然有利可图，但必须警惕戒惧，中间吉利，终将带来凶险。讼卦出现时，有利于会见贵族王公，但不利于涉水渡河。这表明事业起初顺利，有利可图，继而受挫，需警惕慎之又慎，不得固执已见。避免介入诉讼纠纷的争执之中，采取退让的态度，求得化解，安于正理，可避免意外之灾。在事业、经商、求名、婚恋和决策等方面，讼卦都提示人们要警惕争讼之灾，慎之又慎，以谋始，以杜绝争讼为意。


  warn_deprecated(


Content: 师卦
Summary: 师卦是一个由坎卦（水）上卦坤卦（地）所组成的卦象，代表着军队总指挥的军情占卜，预示着没有灾祸。在这个卦象中，坤为地，坎为水，象征着地中有水，君子观此卦象则取法于大地容纳江河之象，用来比喻收容和滋养大众。根据《断易天机》解，师即兵众，只有选择德高望重的长者来统率军队，才能得到吉祥无咎。而根据北宋易学家邵雍解，得到此卦者会面临困难重重，需要包容别人，排除万难。师卦象征着养兵聚众，出师攻伐之象，但也暗示着困难重重，需要以正规行事，密切合作及严于律已，方能成功。在事业、经商、求名、婚恋和决策上都需要面对困难，但可通过灵活应对和坚定意志最终取得成功。


  warn_deprecated(


Content: 比卦
Summary: 在周易中，比卦是一个吉利的卦象。它代表着同时再次卜筮，仍然大吉大利，预示长期的吉祥而没有灾祸。然而，也暗示着不愿臣服的邦国迟迟不来者将会有难。

比卦的核心哲学是：相亲相依，长期的亲密和宽容将带来吉祥。它反映了相亲相辅、亲密无间、和乐相处的道理。坎上坤下，水附大地，地纳河海，相互依赖，亲密无间，象征着和乐相处的意境。

在运势、事业、经商、求名、婚恋等方面，比卦都预示着顺利成功，得到他人的帮助和辅佐。需要待人宽厚、正直、诚实、信任，在与他人的交往中讲究道德，遵守信义。同时，也需要警惕选择朋友，避免与品行不端的人结交，而应与高明之人友好往来，并获得其帮助。


  warn_deprecated(


Content: 坤卦
Summary: 坤卦是一个大吉大利的卦象，代表着柔顺、顺应天道、承载万物、伸展无穷的特性。坤卦的核心哲学是先迷失而后得到正确方向，因此在旅行中先迷后得，财物方面宜往西南。总体而言，坤卦代表安定、顺利和安宁。在事业上，需要以静制动，不宜急进，重视内心修养，容忍负重，以诚信和大度为原则。在经商方面，应稳健经营，遇挫折要总结经验，谨慎行事。在婚恋方面，适宜以柔克刚，以温柔待人，可得美好姻缘。在决策上，需要具备忠厚、温和的性格，待人真诚，可得到他人的帮助，但也要小心提防小人的伤害。


  warn_deprecated(


Content: 乾卦
Summary: 乾卦是《易经》六十四卦之首，由六个阳爻组成，象征天，代表刚健、强健、大通的意义。在《象辞》中指出，天行健，君子应当以自强不息为行事准则。乾卦预示着吉祥如意，但需要行正道才能永远亨通。古代解卦家如邵雍和傅佩荣都认为得乾卦者宜自强不息，名利双收，但需谨慎过于刚直之嫌。在传统解卦中，乾卦预示着事业兴盛强健，但也提示了盛极必衰的道理，教诲人们谨慎小心，保持冷静谦和的态度，以保证事业成功。在经商、求名、婚恋等方面也提出了相应的建议，强调应修德养德，保持正直与公允，自强不息，才能克服困难，取得成功。
