# 安装必要依赖

In [1]:
%pip install sqlalchemy
%pip install llama-index-core 
%pip install llama-index-llms-openai-like 
%pip install llama-index-readers-file 
%pip install llama-index-vector-stores-milvus
%pip install llamaindex-py-client
%pip install openai
%pip install supabase
%pip install llama-index-embeddings-instructor
%pip install psycopg2-binary

# 设置环境变量和加载模型

In [2]:
# 导入os模块
import os

# 设置环境变量
os.environ['ZHIPU_API_KEY'] = '你的APIKEY'

In [3]:
from llama_index.llms.openai_like import OpenAILike

LLM = OpenAILike(
    model = "glm-4-flash",
    api_base="https://open.bigmodel.cn/api/paas/v4/",
    api_key = os.getenv("ZHIPU_API_KEY"),
    is_chat_model=True
)

In [4]:
# 导入必要的库和模块
from openai import OpenAI 
from typing import Any, List  # 导入类型注解，用于函数参数和返回值的类型提示
from llama_index.core.embeddings import BaseEmbedding  # 导入基类，用于继承创建嵌入模型
from pydantic import Field  # 导入Field，用于Pydantic模型中定义字段的元数据

# 定义ZhipuEmbeddings类，继承自BaseEmbedding基类
class ZhipuEmbeddings(BaseEmbedding):
    # 类属性client，使用Field定义，并且通过lambda函数设置默认值
    # 默认值是一个ZhipuAI实例，使用环境变量ZHIPU_API_KEY作为API密钥
    client: OpenAI = Field(default_factory=lambda: OpenAI(api_key=os.environ['ZHIPU_API_KEY'], base_url="https://open.bigmodel.cn/api/paas/v4/"))

    # 类的构造函数，初始化模型名称和其他参数
    def __init__(
        self,
        model_name: str = "embedding-2",  # 默认使用"embedding-2"模型
        **kwargs: Any,  # 其他关键字参数
    ) -> None:
        super().__init__(model_name=model_name, **kwargs)  # 调用基类的构造函数
        self._model = model_name  # 保存模型名称

    # 调用Zhipu AI服务进行嵌入的方法
    def invoke_embedding(self, query: str) -> List[float]:
        # 使用client调用Zhipu AI服务的嵌入接口
        response = self.client.embeddings.create(model=self._model, input=[query])
        # 检查响应是否成功
        if response.data and len(response.data) > 0:
            return response.data[0].embedding  # 返回嵌入结果
        else:
            raise ValueError("Failed to get embedding from ZhipuAI API")  # 如果失败，抛出异常

    # 获取查询嵌入的方法，调用invoke_embedding
    def _get_query_embedding(self, query: str) -> List[float]:
        return self.invoke_embedding(query)

    # 获取文本嵌入的方法，调用invoke_embedding
    def _get_text_embedding(self, text: str) -> List[float]:
        return self.invoke_embedding(text)

    # 获取多个文本嵌入的方法，对每个文本调用_get_text_embedding
    def _get_text_embeddings(self, texts: List[str]) -> List[List[float]]:
        return [self._get_text_embedding(text) for text in texts]

    # 异步获取查询嵌入的方法，调用_get_query_embedding
    async def _aget_query_embedding(self, query: str) -> List[float]:
        return self._get_query_embedding(query)

    # 异步获取文本嵌入的方法，调用_get_text_embedding
    async def _aget_text_embedding(self, text: str) -> List[float]:
        return self._get_text_embedding(text)

    # 异步获取多个文本嵌入的方法，调用_get_text_embeddings
    async def _aget_text_embeddings(self, texts: List[str]) -> List[List[float]]:
        return self._get_text_embeddings(texts)
embedding = ZhipuEmbeddings()

# 配置SQL_llamaindex连接

In [5]:
# 导入所需的库
from sqlalchemy import create_engine  # SQLAlchemy库，用于创建数据库连接引擎
from llama_index.core import SQLDatabase  # 用于创建和管理SQL数据库的llama-index库的核心组件
from llama_index.core import Settings  # 用于配置llama-index的设置

# https://data.sh.gov.cn/view/detail/index.html?type=cp&&id=AA5002015022 数据下载
# https://supabase.com/ SQL数据库
# 创建一个连接到SQL数据库的引擎
engine = create_engine('postgresql://postgres.fpowouuctpaicslyrwjb:你的SQL数据库@aws-0-ap-southeast-1.pooler.supabase.com:6543/postgres')

# 使用创建的引擎初始化SQLDatabase对象，并指定数据库架构和要包含的表
# 这里的"schema"参数指定了数据库的架构，"include_tables"参数指定了要包含的表名
sql_database = SQLDatabase(engine, schema="public", include_tables=["company"])

Settings.llm = LLM # 需要配置

Settings.embed_model = embedding # 需要配置

In [6]:
from llama_index.core.prompts.base import PromptTemplate
from llama_index.core.prompts.prompt_type import PromptType

MODIFIED_TEXT_TO_SQL_TMPL = (
    "输入详细信息: SELECT 企业名称 FROM company Where 证书编号 = {query_str}\n"
    "SQLQuery: "
)

# 使用 PromptTemplate 类创建一个提示模板对象 MODIFIED_TEXT_TO_SQL_PROMPT，
# 传入前面定义的模板字符串 MODIFIED_TEXT_TO_SQL_TMPL 和提示类型 PromptType.TEXT_TO_SQL
MODIFIED_TEXT_TO_SQL_PROMPT = PromptTemplate(
    MODIFIED_TEXT_TO_SQL_TMPL,
    prompt_type=PromptType.TEXT_TO_SQL,
)

In [7]:
from llama_index.core.query_engine import NLSQLTableQueryEngine

query_engine = NLSQLTableQueryEngine(
    sql_database=sql_database, 
    tables=["company"],
    llm=Settings.llm,
    response_mode="context"
)
query_engine.update_prompts(
    {"sql_retriever:text_to_sql_prompt": MODIFIED_TEXT_TO_SQL_PROMPT}
)

# 配置llamaindex_RAG 连接（使用标识切块）

In [11]:
# 从指定文件读取，输入为List
from llama_index.core import SimpleDirectoryReader,Document
documents = SimpleDirectoryReader(input_files=['/mnt/workspace/llamaindex_SQL_RAG-/高企.txt']).load_data()

## 创建索引并加载（第一次执行）

In [28]:
from llama_index.core.node_parser import TextSplitter
from llama_index.core.ingestion.pipeline import run_transformations
from typing import List
from llama_index.core import VectorStoreIndex, StorageContext
from llama_index.vector_stores.milvus import MilvusVectorStore

class CodeBlockSplitter(TextSplitter):
    def split_text(self, text: str) -> List[str]:
        return text.split("```")
    def __init__(self, **kwargs):
          super().__init__(**kwargs)


transformations = [CodeBlockSplitter(chunk_size=0, chunk_overlap=0)]

# 导入用于执行转换操作的函数
from llama_index.core.ingestion.pipeline import run_transformations
# 执行转换操作，将文档转换为节点
# documents是待处理的文档列表
# transformations是我们定义的转换操作列表
nodes = run_transformations(documents, transformations=transformations)

# 设置向量维度，这里是1024维
dimensions = 1024
vector_store = MilvusVectorStore(uri="/mnt/workspace/llamaindex_SQL_RAG-/index/milvus_demo.db", dim=1024, overwrite=True)
storage_context = StorageContext.from_defaults(vector_store=vector_store)
index = VectorStoreIndex.from_documents(documents, storage_context=storage_context, embed_model=embedding)


# 创建向量存储索引，将节点、存储上下文和嵌入模型作为参数
# nodes是我们之前创建的节点列表
# storage_context是我们创建的存储上下文
# embed_model是用于生成节点嵌入的模型，这里需要提前定义
index = VectorStoreIndex(
    nodes=nodes,
    storage_context=storage_context,
    embed_model=embedding,
)



## 保存索引并加载（之后执行）

In [12]:
from llama_index.core import VectorStoreIndex, StorageContext
from llama_index.core import StorageContext, load_index_from_storage
from llama_index.vector_stores.milvus import MilvusVectorStore

# 定义一个字符串变量persist_dir，用于指定存储索引的目录路径
persist_dir = "/mnt/workspace/llamaindex_SQL_RAG-/index/milvus_demo.db"

vector_store = MilvusVectorStore(uri=persist_dir, dim=1024, overwrite=False)
storage_context = StorageContext.from_defaults(vector_store=vector_store)
index = VectorStoreIndex.from_documents(documents, storage_context=storage_context, embed_model=embedding)



# 测试结果

In [13]:
# 假设query_engine和index是已经定义好的对象，且Settings.llm也是可用的
query_str = "GR202131000001"
# 使用第一个查询引擎进行查询
response = query_engine.query(query_str)
# 初始化第二个查询引擎
query_engine2 = index.as_query_engine(llm=Settings.llm)

# 使用第二个查询引擎进行查询，并将第一个查询的结果作为查询内容
response2 = query_engine2.query(f"请给出{response}的详细介绍")
print(response2)


上海蜂果网络科技有限公司成立于2014年，是一家专注于网络游戏研发和运营的公司。该公司由一群热爱游戏的80后创办，并得到了国内上市公司的投资。员工主要来自完美、腾讯、Intel、高通等国内外知名的互联网/IT企业，其中核心成员拥有至少5年以上的成功网游研发和运营经验。蜂果团队致力于手机游戏研发，以扎实的技术基础、热情的创业精神以及对移动玩家的深刻理解为基础，秉持“用心做好游戏”的原则，并将其作为团队的目标。


In [14]:
response = LLM.complete("GR202131000001")
print(response)

GR202131000001 这个编号看起来像是一个特定的代码或标识符，可能是用于某个项目、订单、合同、文件或其他实体。由于没有具体的上下文信息，很难确定这个编号的确切含义。

以下是一些可能的解释：

1. **项目编号**：可能是某个项目或工程的编号，用于跟踪和管理。
2. **订单编号**：可能是某个订单的编号，用于跟踪订单状态和物流信息。
3. **合同编号**：可能是某个合同或协议的编号，用于法律和财务记录。
4. **文件编号**：可能是某个文件或报告的编号，用于归档和检索。
5. **产品编号**：可能是某个产品或服务的编号，用于库存管理和销售。

如果您能提供更多关于这个编号的信息或上下文，我可以尝试给出更准确的解释。
