[BUG] 启用上下文关联，每次embedding搜索到的内容都会比前一次多一段 #613

guangyuanyu · 2023-06-13T08:55:24Z

问题描述 / Problem Description
启用上下文关联 chunk_conent，每次embedding搜索到的内容都会比前一次多一段

复现问题的步骤 / Steps to Reproduce

知识库里有这样一段文字：“问：账户最多创建几个？答：账户最多创建5个”
用的GanymedeNil_text2vec-large-chinese embedding模型
获取知识库条数设置的2
每段最大长度设置的100
勾选启用上下文关联

预期的结果 / Expected Result
每次搜索到的内容是一致的

实际结果 / Actual Result
每次搜索到的内容都比之前要多一段，如上图

环境信息 / Environment Information

langchain-ChatGLM 版本/commit 号：fef22e3133d8de8f06382149f4303c66afd637cb
是否使用 Docker 部署（是/否）：否，macbook cpu运行
使用的模型（ChatGLM-6B / ClueAI/ChatYuan-large-v2 等）：ChatGLM-6B
使用的 Embedding 模型（GanymedeNil/text2vec-large-chinese 等）：GanymedeNil/text2vec-large-chinese
操作系统及版本 / Operating system and version: macos 13.3.1
Python 版本 / Python version: 3.10.9

jkmchinese · 2023-06-14T04:45:41Z

该问题的主要原因是MyFAISS.py文件再搜索上下文关联文档后，修改了缓存的doc文档，导致的。

简单修改的话，就只需要做下deepcopy即可：doc = copy.deepcopy(self.docstore.search(_id))

        for id_seq in id_lists:
            for id in id_seq:
                if id == id_seq[0]:
                    _id = self.index_to_docstore_id[id]
                    doc = copy.deepcopy(self.docstore.search(_id))
                else:
                    _id0 = self.index_to_docstore_id[id]
                    doc0 = self.docstore.search(_id0)
                    doc.page_content += " " + doc0.page_content
            if not isinstance(doc, Document):
                raise ValueError(f"Could not find document for id {_id}, got {doc}")
            doc_score = min([scores[0][id] for id in [indices[0].tolist().index(i) for i in id_seq if i in indices[0]]])
            doc.metadata["score"] = int(doc_score)
            docs.append(doc)
        return docs

@imClumsyPanda FYI

guangyuanyu · 2023-06-14T08:56:53Z

谢谢，已解决

imClumsyPanda · 2023-06-14T13:26:35Z

该问题的主要原因是MyFAISS.py文件再搜索上下文关联文档后，修改了缓存的doc文档，导致的。

简单修改的话，就只需要做下deepcopy即可：doc = copy.deepcopy(self.docstore.search(_id))

        for id_seq in id_lists:
            for id in id_seq:
                if id == id_seq[0]:
                    _id = self.index_to_docstore_id[id]
                    doc = copy.deepcopy(self.docstore.search(_id))
                else:
                    _id0 = self.index_to_docstore_id[id]
                    doc0 = self.docstore.search(_id0)
                    doc.page_content += " " + doc0.page_content
            if not isinstance(doc, Document):
                raise ValueError(f"Could not find document for id {_id}, got {doc}")
            doc_score = min([scores[0][id] for id in [indices[0].tolist().index(i) for i in id_seq if i in indices[0]]])
            doc.metadata["score"] = int(doc_score)
            docs.append(doc)
        return docs

@imClumsyPanda FYI

已在master分支中按照评论中方法进行修复，感谢反馈。

guangyuanyu added the bug Something isn't working label Jun 13, 2023

guangyuanyu closed this as completed Jun 14, 2023

imClumsyPanda added a commit that referenced this issue Jun 14, 2023

update MyFAISS with method mentioned in #613 (comment)

58d6a9a

zfanswer mentioned this issue Jun 19, 2023

[BUG] 批量添加文件或整个文件夹添加到知识库时，第一个文件下会包含其他文件的内容。 #667

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[BUG] 启用上下文关联，每次embedding搜索到的内容都会比前一次多一段 #613

[BUG] 启用上下文关联，每次embedding搜索到的内容都会比前一次多一段 #613

guangyuanyu commented Jun 13, 2023

jkmchinese commented Jun 14, 2023

guangyuanyu commented Jun 14, 2023

imClumsyPanda commented Jun 14, 2023

[BUG] 启用上下文关联，每次embedding搜索到的内容都会比前一次多一段 #613

[BUG] 启用上下文关联，每次embedding搜索到的内容都会比前一次多一段 #613

Comments

guangyuanyu commented Jun 13, 2023

jkmchinese commented Jun 14, 2023

guangyuanyu commented Jun 14, 2023

imClumsyPanda commented Jun 14, 2023