# 软件体系结构智能助手

## 文本存储进本地数据库

In [9]:
import os
from langchain.document_loaders import TextLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain_huggingface import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma
from langchain.chains import ConversationalRetrievalChain
from langchain.memory import ConversationBufferMemory

data_dir = r"E:\一些也许有点用的文件\一些大作业\软件体系结构_大模型\myRAG\data"
file_names = [f"风格文本{i}.txt" for i in range(1, 5)]

embedding = HuggingFaceEmbeddings(
    model_name="shibing624/text2vec-base-chinese",  # 中文嵌入模型
    model_kwargs={'device': 'cpu'}
)
print("1 step")

# 初始化一个空的docs列表，用于存储所有文件的文档片段
all_docs = []

for file_name in file_names:
    file_path = os.path.join(data_dir, file_name)
    
    if not os.path.exists(file_path):
        print(f"文件不存在: {file_path}")
        continue
    
    print(f"正在处理: {file_name}")
    
    # 加载并分割文档
    loader = TextLoader(file_path, encoding="utf-8")
    documents = loader.load()
    text_splitter = CharacterTextSplitter(chunk_size=200, chunk_overlap=32, separator="\n")
    docs = text_splitter.split_documents(documents)
    all_docs.extend(docs)  # 将当前文件的文档片段添加到总列表中
    print(f"已处理: {len(docs)}个片段 | 源文件: {file_name}")

print("2 step - 开始创建向量数据库")

# 使用Chroma创建本地向量数据库
vector_db = Chroma.from_documents(
    documents=all_docs,
    embedding=embedding,
    persist_directory="./chroma_db"  # 指定本地存储目录
)

print(f"向量数据库创建完成，共入库: {len(all_docs)}个文档片段")

Created a chunk of size 304, which is longer than the specified 200
Created a chunk of size 254, which is longer than the specified 200
Created a chunk of size 272, which is longer than the specified 200
Created a chunk of size 215, which is longer than the specified 200
Created a chunk of size 247, which is longer than the specified 200
Created a chunk of size 348, which is longer than the specified 200
Created a chunk of size 234, which is longer than the specified 200
Created a chunk of size 297, which is longer than the specified 200
Created a chunk of size 234, which is longer than the specified 200
Created a chunk of size 314, which is longer than the specified 200
Created a chunk of size 243, which is longer than the specified 200
Created a chunk of size 307, which is longer than the specified 200
Created a chunk of size 279, which is longer than the specified 200
Created a chunk of size 260, which is longer than the specified 200
Created a chunk of size 265, which is longer tha

1 step
正在处理: 风格文本1.txt
已处理: 94个片段 | 源文件: 风格文本1.txt
正在处理: 风格文本2.txt
已处理: 73个片段 | 源文件: 风格文本2.txt
正在处理: 风格文本3.txt
已处理: 64个片段 | 源文件: 风格文本3.txt
正在处理: 风格文本4.txt
已处理: 80个片段 | 源文件: 风格文本4.txt
2 step - 开始创建向量数据库
向量数据库创建完成，共入库: 311个文档片段


# 过程化测试

In [54]:
import os
import time
import zhipuai
from langchain.vectorstores import Chroma
client = ZhipuAI(api_key="307fcbe86b614388a4441c6b8d677b15.Oum917APy7hoD5QH")

input_query = input("请输入您的需求：\n")
### 数据库导入
vector_db = Chroma(
    persist_directory="./chroma_db",
    embedding_function=embedding
)
### 结果拼接
whole_result = ""
results = vector_db.similarity_search(query, k=3)
for i, doc in enumerate(results):
    whole_result = whole_result + f"资料{i+1}：{doc.page_content}\n"
    
### prompt 补全为 query
query = f"假如你是一个专业的软件架构风格专家，现在需要你根据客户提出的需求，推荐俩个合适的软件架构风格，并简要作出解释。一个具体例子如下：客户输入需求：“开发一个平台的即时通讯系统，要求支持万人同时在线\n需要保证信息的真实性和可靠性，以后可能需要快速扩展视频通讯功能”，你应当输出：“1.推荐架构:事件驱动架构(核心推荐)、微服务架构(备选)\n2.推荐理由:\n高并发场景下的事件异步处理能力\n松耦合特性便于扩展视频通话模块\n3.优缺点分析:\n优点:高吞吐量、模块解耦、扩展性强\n缺点:事件溯源实现复杂度高、调试困难\n”现在，用户输入：“{input_query}”，请你参考我给出的资料做出同样格式的回答，资料如下：{whole_result}"

### 将 query 传入到大模型
response = client.chat.asyncCompletions.create(
  model="glm-4", # 调用的模型
  messages=[
      {
          "role": "user",
          "content": query
      }
  ],
)

### 从大模型取出 response
task_id = response.id
task_status = ''
get_cnt = 0
while task_status != 'SUCCESS' and task_status != 'FAILED' and get_cnt <= 200:
    result_response = client.chat.asyncCompletions.retrieve_completion_result(id=task_id)
    task_status = result_response.task_status
    if result_response.task_status == 'SUCCESS':
        content = result_response.choices[0].message.content
        print(content)
    time.sleep(2)
    get_cnt += 1

请输入您的需求：
 银行核心交易系统，要求100%数据一致性，每日处理百万级交易，必须符合PCI-DSS安全标准，系统停机时间每年小于5分钟


1.推荐架构：单体架构（核心推荐）、事件驱动架构（备选）

2.推荐理由：
   - 单体架构：在需要100%数据一致性的场景下，单体架构由于所有组件共享一个数据库，能够更容易地保证数据一致性。同时，单体架构在符合PCI-DSS安全标准方面有优势，因为所有安全措施可以集中实施。
   - 事件驱动架构：对于需要处理百万级交易的高性能要求，事件驱动架构可以提供高吞吐量和低延迟，特别是在分布式系统中。

3.优缺点分析：
   - 单体架构：
     - 优点：容易保证数据一致性，系统符合安全性要求，易于监控和维护。
     - 缺点：系统庞大可能导致维护难度增加，扩展性相对较差，部署和启动时间可能较长。
   - 事件驱动架构：
     - 优点：高吞吐量和低延迟，模块间松耦合，易于扩展。
     - 缺点：实现复杂度高，特别是确保事件顺序和同步时，可能存在资源争用和版本兼容性问题。

考虑到银行核心交易系统的严格要求，单体架构是核心推荐，因为它能够提供严格的数据一致性和安全性，符合PCI-DSS标准。然而，考虑到未来可能的扩展性和性能需求，事件驱动架构作为备选方案，可以在确保系统高性能的同时，提供一定的灵活性和扩展性。但是，需要注意事件驱动架构在实现上可能带来的复杂性和维护挑战。


# 模块化软件体系结构风格智能助手

In [5]:
import os
import time
import tqdm
import zhipuai
from zhipuai import ZhipuAI
from langchain.vectorstores import Chroma
from langchain.document_loaders import TextLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain_huggingface import HuggingFaceEmbeddings

client2 = ZhipuAI(api_key="307fcbe86b614388a4441c6b8d677b15.Oum917APy7hoD5QH")

class ResponseFromLLM:
    def ReturnResponse(self, query, client):
        response = client.chat.asyncCompletions.create(
            model="glm-4",
            messages=[
                {
                    "role": "user",
                    "content": query
                }
            ],
        )
        task_id = response.id
        task_status = ''
        get_cnt = 0
        content = ""
        while task_status != 'SUCCESS' and task_status != 'FAILED' and get_cnt <= 200:
            result_response = client.chat.asyncCompletions.retrieve_completion_result(id=task_id)
            task_status = result_response.task_status
            if result_response.task_status == 'SUCCESS':
                content = result_response.choices[0].message.content
                break
            time.sleep(2)
            get_cnt += 1
        return content

class RequirementAnalysis:
    def __init__(self):
        self.client = ZhipuAI(api_key="9ba9a27822ae40cd9d23a7b955c0ba94.d03znL96rFberM29")
    def GenerateSubQueries(self, OriginalQuery, ResponseAgent, SubQueryNumber=5):
        query = f"假如你是一个需求分析专家，请你根据客户提出的需求，提出{SubQueryNumber}个子问题用于需求拆分，从而能够让软件架构风格推荐专家更全面的考虑客户需求。一个例子如下：用户输入：“银行核心交易系统，要求100%数据一致性，每日处理百万级交易，必须符合PCI-DSS安全标准，系统停机时间每年小于5分钟”，你应当输出：“什么架构能够满足100%数据一致性？什么架构风格能够处理百万级交易？什么架构风格能够符合PCI-DDS安全标准？什么架构风格能够允许系统停机时间每年小于5分钟？什么架构能够同时满足以上标准？”现在，用户输入：“{OriginalQuery}”，请你做出与例子同样格式的需求拆分，不需要多余说明。"
        response = ResponseAgent.ReturnResponse(query, self.client)
        print("#####子问题拆分完毕#####\n拆分如下：")
        print(response)
        return response

class DataBaseTransaction:
    def __init__(self, persist_directory="./chroma_db"):
        self.embedding = HuggingFaceEmbeddings(
            model_name="shibing624/text2vec-base-chinese",  # 中文嵌入模型
            model_kwargs={'device': 'cpu'}
        )
        self.vector_db = Chroma(
            persist_directory=persist_directory,
            embedding_function=self.embedding
        )
    def RetriveReference(self, query, k=3):
        whole_result = ""
        reference = self.vector_db.similarity_search(query, k)
        for i, doc in enumerate(reference):
            whole_result = whole_result + f"资料{i+1}：{doc.page_content}\n"
        print("#####参考资料已取出#####")
        return whole_result
    def DataBaseUpdate(self, file_paths):
        all_docs = []
        for file_path in file_paths:
            if not os.path.exists(file_path):
                print(f"文件不存在: {file_path}")
                continue
            loader = TextLoader(file_path, encoding="utf-8")
            documents = loader.load()
            text_splitter = CharacterTextSplitter(chunk_size=200, chunk_overlap=32, separator="\n")
            docs = text_splitter.split_documents(documents)
            all_docs.extend(docs)
        self.vector_db.add_documents(all_docs)

class PromptProcess:
    def __init__(self):
        self.example_query = "开发一个平台的即时通讯系统，要求支持万人同时在线，需要保证信息的真实性和可靠性，以后可能需要快速扩展视频通讯功能"
        self.example_response = "1.推荐架构:事件驱动架构(核心推荐)、微服务架构(备选)\n2.推荐理由:\n高并发场景下的事件异步处理能力\n松耦合特性便于扩展视频通话模块\n3.优缺点分析:\n优点:高吞吐量、模块解耦、扩展性强\n缺点:事件溯源实现复杂度高、调试困难\n"
    def PatternChange(self, example_input, example_output):
        self.example_query = example_input
        self.example_response = example_output
    def PromptQuery(self, query, subquery, reference):
        whole_query = f"假如你是一个专业的软件架构风格专家，现在需要你根据客户提出的需求，推荐俩个合适的软件架构风格，并简要作出解释。一个具体例子如下：客户输入需求：“{self.example_query}”，你应当输出：“{self.example_response}”现在，用户输入：“{query}”，请你根据我提出的子问题：{subquery}并且参考我给出的资料，做出与例子的格式完全相同的回答，不需要多余的解释说明，也不需要你输出对子问题的回答。\n资料如下：{reference}"
        print(whole_query)
        print("#####查询加工完毕#####")
        return whole_query


def run(query):
    Response_Module = ResponseFromLLM()
    ReqAnalyze_Module = RequirementAnalysis()
    DataBase_Module = DataBaseTransaction()
    Prompt_Module = PromptProcess()

    subquery = ReqAnalyze_Module.GenerateSubQueries(query, Response_Module)
    reference = DataBase_Module.RetriveReference(query)
    whole_query = Prompt_Module.PromptQuery(query, subquery, reference)

    answer = Response_Module.ReturnResponse(whole_query, client2)
    print("需求为：",query)
    print("回答如下：\n", answer)


input_query = input("#####请输入您的需求：#####\n")
run(input_query)

#####请输入您的需求：#####
 企业资源管理系统（ERP），需整合生产、销售、库存等业务流程，支持多部门协作，要求数据一致性和高可用性


#####子问题拆分完毕#####
拆分如下：
1. 什么架构能够有效整合生产、销售、库存等业务流程？
2. 什么样的架构风格可以支持多部门协作？
3. 如何确保架构风格能够满足数据一致性需求？
4. 什么架构风格能够保障系统的高可用性？
5. 什么样的综合架构能够同时满足业务整合、多部门协作、数据一致性和高可用性要求？
#####参考资料已取出#####
假如你是一个专业的软件架构风格专家，现在需要你根据客户提出的需求，推荐俩个合适的软件架构风格，并简要作出解释。一个具体例子如下：客户输入需求：“开发一个平台的即时通讯系统，要求支持万人同时在线，需要保证信息的真实性和可靠性，以后可能需要快速扩展视频通讯功能”，你应当输出：“1.推荐架构:事件驱动架构(核心推荐)、微服务架构(备选)
2.推荐理由:
高并发场景下的事件异步处理能力
松耦合特性便于扩展视频通话模块
3.优缺点分析:
优点:高吞吐量、模块解耦、扩展性强
缺点:事件溯源实现复杂度高、调试困难
”现在，用户输入：“企业资源管理系统（ERP），需整合生产、销售、库存等业务流程，支持多部门协作，要求数据一致性和高可用性”，请你根据我提出的子问题：1. 什么架构能够有效整合生产、销售、库存等业务流程？
2. 什么样的架构风格可以支持多部门协作？
3. 如何确保架构风格能够满足数据一致性需求？
4. 什么架构风格能够保障系统的高可用性？
5. 什么样的综合架构能够同时满足业务整合、多部门协作、数据一致性和高可用性要求？并且参考我给出的资料，做出与例子的格式完全相同的回答，不需要多余的解释说明，也不需要你输出对子问题的回答。
资料如下：资料1：（三）适用场景
1.需要集中管理大量共享数据的系统，如数据库系统、数据仓库或配置注册表。
2.多个独立构件频繁访问和操作同一数据集的场景。
3.数据完整性和一致性要求高的应用，如金融系统、企业资源规划（ERP）系统或操作系统配置管理。
4.典型场景：客户关系管理（CRM）系统、短时数据交换（如剪贴板）、版本控制系统。
（四）优点
1.数据集中管理：便于维护数据完整性和一致性，所有构件访问最新数据。
资料2：(2)为何使用：高效的进程间通信，减少数据复制开销。
(3)适用时机：高性能计算、实时系统。
(4)技术选型：POSIX Shared Memory、Windows Shar