DEMO FOR MAKG

In [None]:
import csv
import faiss
import openai
import numpy as np
import pandas as pd

graph_path = 'your graph.csv'
chunks_path = 'your chunks.csv'
# 读取 graph.csv 文件
graph_df = pd.read_csv(graph_path, delimiter='|', names=['node_1', 'node_2', 'edge', 'chunk_id'])

# 读取 chunks.csv 文件
chunks_df = pd.read_csv(chunks_path, delimiter='|', names=['text', 'source', 'chunk_id'])

graph_df

In [None]:
from sentence_transformers import SentenceTransformer
from langchain.embeddings.base import Embeddings as BaseEmbeddings
from typing import List

class SentenceTransformerEmbeddings(BaseEmbeddings):
    def __init__(self, model_name: str = 'all-MiniLM-L6-v2'):
        self.model = SentenceTransformer(model_name)

    def embed_documents(self, texts: List[str]) -> List[List[float]]:
        return self.model.encode(texts, convert_to_tensor=False).tolist()

    def embed_query(self, text: str) -> List[float]:
        return self.model.encode([text], convert_to_tensor=False).tolist()[0]


embedding_model = SentenceTransformerEmbeddings(model_name='your model name')
embedding = embedding_model

In [None]:
# 为每一行生成Embedding并存储到列表
embeddings = []
triplets = []
for index, row in graph_df.iterrows():
    triplet_text = f"({row['node_1']} , {row['edge']} , {row['node_2']})"
    triplet_embedding = embedding_model.embed_query(triplet_text)
    embeddings.append((triplet_embedding, row['chunk_id']))
    triplets.append(triplet_text)


In [None]:
# 将生成的向量存储到FAISS向量数据库
dimension = len(embeddings[0][0])
index = faiss.IndexFlatL2(dimension)

# 存储chunk_id的列表
chunk_ids = []

for embedding, chunk_id in embeddings:
    embedding_array = np.array(embedding, dtype=np.float32).reshape(1, -1)  # 确保是float32类型的二维数组
    index.add(embedding_array)
    chunk_ids.append(chunk_id)

In [None]:
# 保存索引和chunk_id
faiss.write_index(index, 'vector_index.faiss')
with open('chunk_ids.csv', 'w', newline='') as f:
    writer = csv.writer(f)
    writer.writerows([[cid] for cid in chunk_ids])

Agent

In [None]:
import networkx as nx
import numpy as np

# 初始化
knowledge_graph = nx.DiGraph()
# 添加边的方法
knowledge_graph.add_edges_from([("n1", "n2"), ("n2", "n3"), ("n3", "n1")])  


def cosine_similarity(v1, v2):
    """
    计算两个向量的余弦相似度
    """
    dot_product = np.dot(v1, v2)
    norm_v1 = np.linalg.norm(v1)
    norm_v2 = np.linalg.norm(v2)
    return dot_product / (norm_v1 * norm_v2)

# 检索二跳邻居节点
def extract_subgraph(key_node):
    """
    根据关键节点提取子图（包含关键节点、一跳节点、二跳节点）的函数
    """

    # 相似度最高的节点
    max_similarity_node = key_node

    # 提取一跳节点
    one_hop_nodes = set()
    for edge in knowledge_graph.edges():
        if max_similarity_node in edge:
            other_node = edge[0] if edge[1] == max_similarity_node else edge[1]
            one_hop_nodes.add(other_node)

    # 提取二跳节点
    two_hop_nodes = set()
    for one_hop_node in one_hop_nodes:
        adjacent_nodes = set(knowledge_graph.neighbors(one_hop_node))
        adjacent_nodes.discard(max_similarity_node)
        two_hop_nodes.update(adjacent_nodes)

    # 构建子图（这里将关键节点、一跳节点、二跳节点合并作为子图的节点集合）
    subgraph_nodes = {max_similarity_node} | one_hop_nodes | two_hop_nodes
    subgraph = knowledge_graph.subgraph(subgraph_nodes)
    return subgraph

In [None]:
import faiss
import numpy as np
import csv
import os
import pandas as pd

# 检查是否已经存在保存的索引和chunk_id文件
index_file = 'vector_index.faiss'
chunk_ids_file = 'chunk_ids.csv'

def load_or_create_index():
    if os.path.exists(index_file) and os.path.exists(chunk_ids_file):
        # 如果文件存在，直接读取
        index = faiss.read_index(index_file)
        with open(chunk_ids_file, 'r') as f:
            reader = csv.reader(f)
            next(reader)  # 跳过第一行（列名）
            chunk_ids = [row[0] for row in reader]  # 直接读取字符串
        triplets = []
        for indexs,row in graph_df.iterrows():
            triplet_text = f"({row['node_1']} , {row['edge']} , {row['node_2']})"
            triplets.append(triplet_text)
    else:
        # 如果文件不存在，生成并保存嵌入向量和chunk_id
        embeddings = []
        triplets = []
        for index, row in graph_df.iterrows():
            triplet_text = f"({row['node_1']} , {row['edge']} , {row['node_2']})"
            triplet_embedding = embedding_model.embed_query(triplet_text)
            embeddings.append((triplet_embedding, row['chunk_id']))
            triplets.append(triplet_text)

        # 将生成的向量存储到FAISS向量数据库
        dimension = len(embeddings[0][0])
        index = faiss.IndexFlatL2(dimension)

        # 存储chunk_id的列表
        chunk_ids = []

        for embedding, chunk_id in embeddings:
            embedding_array = np.array(embedding, dtype=np.float32).reshape(1, -1)  # 确保是float32类型的二维数组
            index.add(embedding_array)
            chunk_ids.append(str(chunk_id))  # 确保chunk_id是字符串

        # 保存索引和chunk_id
        faiss.write_index(index, index_file)
        with open(chunk_ids_file, 'w', newline='') as f:
            writer = csv.writer(f)
            writer.writerow(['chunk_id'])  # 写入列名
            writer.writerows([[cid] for cid in chunk_ids])
    
    return index, chunk_ids,triplets

# 加载或创建索引
index, chunk_ids ,triplets= load_or_create_index()

# 步骤2: 向量相似度查询
def query_database(querys, index=index, chunk_ids=chunk_ids,triplets=triplets):
    unique_triplets = set()
    unique_chunk_ids = set()
    for query in querys:
        query_embedding = embedding_model.embed_query(query)
        query_embedding_array = np.array(query_embedding, dtype=np.float32).reshape(1, -1)  # 确保是float32类型的二维数组
        D, I = index.search(query_embedding_array, k=5)  # 找到最相似的5个向量
        similar_chunk_ids = [chunk_ids[i] for i in I[0] if i < len(chunk_ids)]  # 检查索引有效性
        unique_chunk_ids.update(similar_chunk_ids)                                       

        # 步骤4: 查找对应的三元组并添加到集合
        matching_triplets = [triplets[i] for i in I[0] if i < len(triplets)]  # 检查索引有效性
        unique_triplets.update(matching_triplets)

    matching_chunks = chunks_df[chunks_df['chunk_id'].isin(unique_chunk_ids)]['text']
    sub_graphs = extract_subgraph(unique_triplets)

    return sub_graphs, matching_chunks

In [None]:
import os
from langchain_openai import OpenAIEmbeddings,ChatOpenAI
#可替换为本地模型
os.environ['OPENAI_API_KEY'] = "your api key"
os.environ['OPENAI_API_BASE'] = "your api base"
llm = ChatOpenAI(model='local_model or online_model')

In [None]:
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
from langchain.embeddings import OpenAIEmbeddings
from langchain.llms import OpenAI
import re
def rewrite_and_split_query(query):
    # 使用智能体来重写和拆分查询
    prompt = PromptTemplate(
        input_variables=["query"],
        template="""
        你是个智能体助手，我给你给你一个query，你需要把问题拆解为便于用于在知识图谱向量数据库中查询的短语，提升在向量数据库中匹配的准确率。
        你只需要回答出拆解后的短语即可，不要添加或者修改，中文回答。
        接下来给你一个例子：
        例子1:
            问题:
                在直动式顺序阀是如何通过控制油液压力来实现缸Ⅰ和缸Ⅱ按顺序动作的？
            短语: 
                直通式顺序阀\n
                油液压力\n
                缸Ⅰ和缸Ⅱ按顺序动作\n
        例子2：
            问题:
                在液压系统中，如何通过故障诊断来确定并解决‘系统压力波动’的问题？
            短语：
                液压系统\n
                故障诊断\n
                系统压力波动\n
        请把下面的问题拆解为短语，你必须严格按照上述规定的短语格式输出。
        问题: {query}
        短语:
        """
    )
    chain = LLMChain(llm=llm, prompt=prompt)
    result = chain.run(query)
    sub_queries = result.split('\n')  # 假设结果是按行分隔的
    sub_queries.append(query)  # 最后一行是query本身
    return sub_queries

# 步骤2: 优化查询结果并回答
def optimize_contexts(query,contexts):
    # 利用智能体优化三元组和chunks
    prompt = PromptTemplate(
        input_variables=["query, contexts"],
        template="""
        你是一个智能体助手，我给你一个query和一些相关的上下文contexts,由于上下文过长，你需要从中提炼出对于解答query相关的，直接的，有用的信息。
        query: {query}
        contexts: {contexts}
        首先你需要对query进行分析，明确query的意图，以及分析出解答query所需要的可能的信息。
        然后需要对contexts进行分析，提炼出所有有用的信息，最终输出一个优化的上下文，用来解答query。输出的结果需要包含三元组和context，确保这些三元组和context是与query相关的。
        你需要输出三元组及其对三元组的解释，以及context。
        你只需要提炼出与query相关的信息！！！尽量保持原文信息一致性，不用描述和概括。
        不允许出现英文回答，只能用中文回答。
        你的输出必须符合下述格式！不允许输出别的内容。
        请一句一句分析，不能跳过任何一句，一步一步思考。
        输出格式如下：
        Triplets:
        (node1,relation,node2)，后面是对形成三元组和解答query有用的信息的解释。
        Context: 
        优化提炼之后的上下文。
        请开始提炼:
        """
    )
    input = {
        "query": query,
        "contexts": contexts
    }
    chain = LLMChain(llm=llm, prompt=prompt)
    optimized_contexts = chain.run(input)
    
    return optimized_contexts

# 步骤3: 思考，纠正，再次优化
goal = 0.85 #设定一个评分阈值，如果子问题答案评分小于这个阈值，则继续迭代评估
def evaluate_answers(sub_questions, total_answer, reflect = "") -> str:
    """
    根据子问题和总问题答案评估子问题答案评分，并计算综合得分的函数
    """
    scores = []
    weights = []
    eval = ""
    for sub_q_info in sub_questions:
        sub_question = sub_q_info["question"]
        weight = sub_q_info["weight"]
        # 构造提示语，让LLM去评估子问题答案与总答案的匹配度等情况给出评分（这里评分范围假设是0到1），实际上可以提供适当的例子和提示，让LLM更好地理解评分的意义
        prompt = f"请根据总问题的答案：{total_answer}，评估子问题 '{sub_question}' 的答案符合程度，并给出一个0到1之间的评分，越符合评分越高。并且请放回你的的评价。"
        chain = LLMChain(llm=llm)
        response = chain.run(prompt)
        # 从LLM回复中提取评分，这里假设回复格式是比较规范的，包含了评分数字，实际可能需要更严谨的解析处理
        score_text = response.choices[0].text.strip()
        try:
            score = float(score_text)
            scores.append(score)
            weights.append(weight)
            eval = response.choices[1].text.strip()
        except ValueError:
            print(f"无法从回复中解析出子问题 '{sub_question}' 的有效评分，回复内容为: {score_text}")
            scores.append(0)
            weights.append(weight)

    # 根据权重计算综合得分
    total_score = sum(s * w for s, w in zip(scores, weights))
    return total_score, eval


def iterative_evaluation(sub_questions, total_answer, goal=0.9):
    """
    迭代评估子问题答案的主函数，如果得分小于指定目标值（默认为0.9）就继续迭代评估
    """
    score, eval = evaluate_answers(sub_questions, total_answer)
    iteration_count = 0
    while score < goal:
        print(f"当前得分: {score}，小于{goal}，开始第 {iteration_count + 1} 次迭代评估...")
        score = evaluate_answers(sub_questions, total_answer, eval)
        iteration_count += 1
    print(f"最终得分: {score}，满足要求，结束评估。")
    return score

In [None]:
# def answer(query,context):
#     prompt = PromptTemplate(
#     input_variables=["query, contexts"],
#     template="""
#     你是一个智能体助手，我给你一个query和一些相关的上下文contexts,由于上下文过长，你需要从中提炼出对于解答query相关的，直接的，有用的信息。
#     query: {query}
#     contexts: {contexts}
#     首先你需要对query进行分析，明确query的意图，以及分析出解答query所需要的可能的信息。
#     然后需要对contexts进行分析，提炼出所有有用的信息，最终输出一个优化的上下文，用来解答query。输出的结果需要包含三元组和context，确保这些三元组和context是与query相关的。
#     你需要输出三元组及其对三元组的解释，以及context。
#     你只需要提炼出与query相关的信息！！！尽量保持原文信息一致性，不用描述和概括。
#     不允许出现英文回答，只能包含英文。
#     你的输出必须符合下述格式！不允许输出别的内容。
#     请一句一句分析，不能跳过任何一句，一步一步思考。
#     输出格式如下：
#     Triplets:
#     (node1,relation,node2)，后面是对形成三元组和解答query有用的信息的解释。
#     Context: 
#     优化提炼之后的上下文。
#     请开始提炼:
#     """
#     )
#     input = {
#         'query': query,
#         'contexts': context
#     }
#     chain = LLMChain(llm=llm, prompt=prompt)
#     output = chain.run(input)
#     print(output)

In [None]:
from langchain.prompts import ChatPromptTemplate
import pandas as pd
df = pd.read_csv("dataset.csv")
query= df['question']

求rag系统平均时间

In [None]:
from langchain.prompts import ChatPromptTemplate
# Combine all contexts into a single string
#final_context = "\n\n".join(all_contexts)
#print(final_context)

# Create prompt template
PROMPT_TEMPLATE = """
根据以下提供的Triplets,context的信息来回答问题：
information:{context}
根据上述上下文回答问题：
query：{question}。
首先分析问题，明确解答问题的信息，然后在提供的information中寻找答案，请一步一步思考。
答案不要分段和分点！！！
必须完整的回答问题，包括query中可能的多个问题！
答案必须和query高度相关！确保是能够回答问题的最直接、准确、明了的答案。
不要为你的答案提供理由！！！
不要提供上下文信息中未提到的信息，不要胡编乱造。
请提供与解决问题最直接相关的答案，不需要推理过程！！！
不要说“根据上下文”或“在上下文中提到”或类似的话。
你只需要生成回答的答案，不能出现别的无关的语句！！！
"""

prompt_template = ChatPromptTemplate.from_template(PROMPT_TEMPLATE)

In [None]:
import time
total_time = 0
query_count = 0
for q in query:
    start_time = time.time() 
    sub_q = rewrite_and_split_query(q)
    triplex,chunks = query_database(sub_q)
    triples = "\n".join(triplex)
    text = ''
    for content in chunks:
        text += str(content)
    combined_context = f"Triplets:\n{triplex}\n\nContext:\n{text}"
    final_context = optimize_contexts(q, combined_context)
    prompt = prompt_template.format(context=final_context, question=q)
    model = llm 
    response_text = model.predict(prompt)
    iterative_evaluation(sub_questions=sub_q, total_answer=response_text, goal=goal)
    end_time = time.time()  # 记录结束时间
    elapsed_time = end_time - start_time  # 计算单次查询的时间
    total_time += elapsed_time
    query_count += 1

    # print(f"Query: {q}")
    # print(f"Response: {response_text}")
    print(f"Time taken: {elapsed_time:.4f} seconds\n")

average_time = total_time / query_count  # 计算平均时间
print(f"Average time taken per query: {average_time:.4f} seconds")
    


In [None]:
results = []
all_contexts = []

# Loop through each query, retrieve context, and store it
for q in query:
    sub_querys =rewrite_and_split_query(q)
    tripes, chunks = query_database(sub_querys)
    triples = "\n".join(tripes)
    text = ''
    for content in chunks:
        text += str(content)
    combined_context = f"Triplets:\n{tripes}\n\nContext:\n{text}"
    final_context = optimize_contexts(q, combined_context)
    all_contexts.append(final_context)

In [None]:
responses = []
for i, q in enumerate(query):
    prompt = prompt_template.format(context=all_contexts[i], question=q)
    model = llm 
    response_text = model.predict(prompt)
    responses.append(response_text)


In [None]:
df['answer'] = responses

In [None]:
df['answer'] = responses
df["retrival_contexts"] = all_contexts
print("Existing columns:", df.columns)
df.to_csv("output.csv", index=False)