In [3]:
import os

# Clash、VPN、V2Ray常用端口
os.environ["HTTPS_PROXY"] = "http://127.0.0.1:7890"
os.environ["ALL_PROXY"] = "socks5://127.0.0.1:7890"


In [29]:
os.environ.pop("HTTPS_PROXY", None)
os.environ.pop("ALL_PROXY", None)

'socks5://127.0.0.1:7890'

In [45]:
import os
from langchain_community.chat_models import ChatZhipuAI
from dotenv import load_dotenv

load_dotenv()
glm_model = ChatZhipuAI(model="glm-4-air-250414", temperature=0.5)

def recognise_intent(question):
    os.environ.pop("HTTPS_PROXY", None)
    os.environ.pop("ALL_PROXY", None)
    prompt = f"""
    你是一个用户意图识别专家，擅长分析用户对话，并识别出用户的意图。作为一个智能问答系统的关键组件，你的工作是：
    
    1. 分析用户对话，识别出用户的意图。
    2. 根据用户的意图，准确输出对应的意图标签。
    
    问答系统支持以下意图：
    
    - 查询政策信息
    - 查询招标信息
    - 查询商品信息
    - 查询企业信息
    
    ## 限制
    
    - 只输出意图标签，不要输出任何解释。
    - 不要输出意图标签之外的任何内容。
    - 如果无法识别出意图，请输出 `unknown`。
    """
    systemPrompts = [
        ("system", prompt),
    ]
    
    samples = [
        ("user", "香蕉可以空腹吃吗？"),
        ("assistant", "unknown"),
      
        # 积分查询
        ("user", "最新的三条政府采购公告"),
        ("assistant", "查询招标信息"),

        ("user", "招标失败怎么办"),
        ("assistant", "查询政策信息"),
        # 还可以在这继续将样本
        # 大模型会从样本中总结出规律，并应用到新对话中
    ]

    response = glm_model.invoke(systemPrompts + samples + [("user", question)]).content
    print(f"意图：{response.strip()}")
    return response.strip()

def if_sql(question):
    os.environ.pop("HTTPS_PROXY", None)
    os.environ.pop("ALL_PROXY", None)
    prompt = """
    你是一个数据库管理机器人，我需要你根据用户提出的问题，判断是否需要检索SQL数据库。你的工作是：

    1、分析用户问题，判断是否是语义问题，或者是逻辑/条件问题。
    2、准确输出判断结果：
        - 若需要使用SQL语句检索数据库，输出"True"
        - 若**不**需要使用SQL数据库，输出"False"
    
    通常来说，问题只要涉及多条数据（搜索整个表）可能需要sql检索，如果只是针对某一条数据（搜索一条数据）不需要查询SQL数据库。
    仅供参考，具体以实际问题为主。
    
    ## 限制
    
    - 只输出判断结果，不要输出任何解释
    - 不要输出结果之外的任何内容，确保输出内容可以直接作为Bool值在python语句中运行
    """
    
    systemPrompts = [
        ("system", prompt),
    ]
    samples = [
        ("user", "告诉我最新的三条政府采购公告"),
        ("assistant", "True"),
      
        ("user", "上海静安音乐节项目的具体信息"),
        ("assistant", "False"),

        ("user", "上海市政府采购中心代理了哪些项目？"),
        ("assistant", "True"),

        ("user", "有关教育的政府采购公告有哪些？"),
        ("assistant", "True"),
        # 还可以在这继续将样本
    ]

    response = glm_model.invoke(systemPrompts + samples + [("user", question)]).content
    print(f'是否需要SQL: {response.strip()}')
    return response.strip()

def str2bool(s):
    if s == 'False':
        return False
    else:
        return bool(s)

In [34]:
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_community.utilities import SQLDatabase
from langchain.chains.sql_database.query import create_sql_query_chain

db = SQLDatabase.from_uri("mysql+pymysql://readonly:1234@localhost:3306/xunfei")
gemini_model = ChatGoogleGenerativeAI(model="gemini-2.0-flash", temperature=0)
sql_chain = create_sql_query_chain(gemini_model, db, k=10)

def create_sql_query(question, k=10):
    os.environ["HTTPS_PROXY"] = "http://127.0.0.1:7890"
    os.environ["ALL_PROXY"] = "socks5://127.0.0.1:7890"
    sql_chain = create_sql_query_chain(gemini_model, db, k=k)
    response = sql_chain.invoke({"question": question})
    return response

def validate_sql_query(query):
    os.environ["HTTPS_PROXY"] = "http://127.0.0.1:7890"
    os.environ["ALL_PROXY"] = "socks5://127.0.0.1:7890"
    
    system = """Double check the user's {dialect} query for common mistakes, including:
    - Only return SQL Query not anything else like ```sql ... ```
    - Using NOT IN with NULL values
    - Using UNION when UNION ALL should have been used
    - Using BETWEEN for exclusive ranges
    - Data type mismatch in predicates\
    - Using the correct number of arguments for functions
    - Casting to the correct data type
    - Using the proper columns for joins
    
    If there are any of the above mistakes, rewrite the query.
    If there are no mistakes, just reproduce the original query with no further commentary.
    
    Output the final SQL query only."""
    
    prompt = ChatPromptTemplate.from_messages(
        [("system", system), ("human", "{query}")]
    ).partial(dialect=db.dialect)
    
    validation_chain = prompt | gemini_model | StrOutputParser()
    query = validation_chain.invoke({"query": query})
    query = query.replace('```sql', '').replace('```', '')
    print(f'SQL Query: {query}')
    return query

def recognise(question, intent, ifsql=False):
    if ('unknown' or '政策') in intent:
        query = question
    else:
        if ifsql:
            query = validate_sql_query(create_sql_query(question))
        else:
            query = question
    print("query: ", query)
    return query
    
def load_database(intent):
    if '政策' in intent:
        col = AllPolicies
    elif '招标' in intent:
        col = AllBiddings
    elif '商品' in intent:
        col = Allbiddings
    elif '企业' in intent:
        col = AllCompanies
    else:
        col = AllBiddings
    print(col)
    col.load()

In [18]:
def format_sql_docs(docs):
    return '\n'.join(doc for doc in docs)
    
def run_sql(query):
    return db.run(query)

In [29]:
def RAG(query, ifsql=False):
    if ifsql:
        context_chain = RunnableLambda(run_sql) | RunnableLambda(format_sql_docs)
    else:
        context_chain = RunnableLambda(hybrid_search_pipeline) | RunnableLambda(rerank) | RunnableLambda(format_docs)
    # llm = RunnableLambda(qwen_llm)
    rag_chain = (
        {"context": context_chain, "question": RunnablePassthrough()}
        | prompt
        | llm
        | StrOutputParser()
    )
    for s in rag_chain.stream(query):
        print(s, end="", flush=True)

    

In [27]:
query = recognise(question, intent, ifsql=ifsql)

SQL Query: 
SELECT DISTINCT `项目名称` FROM `上海政府采购公告` WHERE `项目名称` LIKE "%医疗%" LIMIT 10

query:  
SELECT DISTINCT `项目名称` FROM `上海政府采购公告` WHERE `项目名称` LIKE "%医疗%" LIMIT 10



In [30]:
RAG(query, ifsql=ifsql)

Qwen...
user

Human: You are an AI assistant, and provides answers to questions by using fact based and statistical information when possible.
Use the following pieces of information to provide a concise answer to the question enclosed in <question> tags.
If you don't know the answer, just say that you don't know, don't try to make up an answer.
<context>
[
(
'
嘉
定
区
中
心
医
院
医
疗
设
备
'
,
)
,
 
(
'
上
海
市
嘉
定
区
医
疗
急
救
中
心
转
运
呼
吸
机
采
购
项
目
'
,
)
,
 
(
'
中
国
福
利
会
国
际
和
平
妇
幼
保
健
院
2
0
2
5
年
医
疗
设
备
（
一
）
'
,
)
,
 
(
'
安
亭
医
联
体
医
疗
试
剂
采
购
'
,
)
,
 
(
'
安
亭
医
联
体
医
疗
耗
材
采
购
'
,
)
,
 
(
'
上
海
市
养
志
康
复
医
院
（
上
海
市
阳
光
康
复
中
心
）
医
疗
设
备
1
'
,
)
,
 
(
'
上
海
市
第
一
妇
婴
保
健
院
医
疗
设
备
采
购
'
,
)
,
 
(
'
徐
汇
区
南
部
医
疗
中
心
地
下
机
械
车
库
'
,
)
,
 
(
'
2
0
2
5
年
静
安
区
精
神
卫
生
中
心
特
殊
安
全
护
理
和
医
疗
生
活
护
理
项
目
'
,
)
,
 
(
'
上
海
市
闵
行
区
生
态
环
境
局
2
0
2
5
年
小
型
医
疗
机
构
医
疗
废
物
收
运
采
购
招
标
项
目
'
,
)
]
</context>

<question>

SELECT DISTINCT `项目名称` FROM `上海政府采购公告` WHERE `项目名称` LIKE "%医疗%" LIMIT 10

</ques

In [6]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnableLambda, RunnablePassthrough
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_community.utilities import SQLDatabase
from langchain.chains.sql_database.query import create_sql_query_chain
import os
from langchain_community.chat_models import ChatZhipuAI
from dotenv import load_dotenv

load_dotenv()
glm_model = ChatZhipuAI(model="glm-4-air-250414", temperature=0.5)
db = SQLDatabase.from_uri("mysql+pymysql://readonly:1234@localhost:3306/xunfei")
gemini_model = ChatGoogleGenerativeAI(model="gemini-2.0-flash", temperature=0)
sql_chain = create_sql_query_chain(gemini_model, db, k=10)
os.environ["HTTPS_PROXY"] = "http://127.0.0.1:7890"
os.environ["ALL_PROXY"] = "socks5://127.0.0.1:7890"
sql_chain = create_sql_query_chain(gemini_model, db, k=10)
response = sql_chain.invoke({"question": '有关教育的政府采购公告有哪些？'})

system = """Double check the user's {dialect} query for common mistakes, including:
- Only return SQL Query not anything else like ```sql ... ```
- DELETE ```sql IN THE BEGINNING AND ``` AT END
- NOT USING MARKDOWN FORMAT
- Using NOT IN with NULL values
- Using UNION when UNION ALL should have been used
- Using BETWEEN for exclusive ranges
- Data type mismatch in predicates\
- Using the correct number of arguments for functions
- Casting to the correct data type
- Using the proper columns for joins

If there are any of the above mistakes, rewrite the query.
If there are no mistakes, just reproduce the original query with no further commentary.

Output the final SQL query only."""

prompt = ChatPromptTemplate.from_messages(
    [("system", system), ("human", "{query}")]
).partial(dialect=db.dialect)

validation_chain = prompt | gemini_model | StrOutputParser()

In [7]:
response

"```sql\nSELECT\n  `公告标题`\nFROM `上海政府采购公告`\nWHERE\n  `公告标题` LIKE '%教育%';\n```"

In [8]:
full_chain = {"query": sql_chain} | validation_chain
query = full_chain.invoke({"question": "有关教育的政府采购公告有哪些？"})
query = query.replace('```sql', '').replace('```', '')
print(query)


SELECT
  `公告标题`
FROM `上海政府采购公告`
WHERE
  `公告标题` LIKE '%教育%';



In [48]:
results = db.run(query)
results

"[('嘉定区中心医院医疗设备',), ('上海市嘉定区医疗急救中心转运呼吸机采购项目',), ('中国福利会国际和平妇幼保健院2025年医疗设备（一）',), ('安亭医联体医疗试剂采购',), ('安亭医联体医疗耗材采购',), ('上海市养志康复医院（上海市阳光康复中心）医疗设备1',), ('上海市第一妇婴保健院医疗设备采购',), ('徐汇区南部医疗中心地下机械车库',), ('2025年静安区精神卫生中心特殊安全护理和医疗生活护理项目',), ('上海市闵行区生态环境局2025年小型医疗机构医疗废物收运采购招标项目',)]"

In [55]:
import ast

# s = "[('嘉定区中心医院医疗设备',), ('上海市嘉定区医疗急救中心转运呼吸机采购项目',)]"
data = ast.literal_eval(results)

for item in data:
    print(item[0])



嘉定区中心医院医疗设备
上海市嘉定区医疗急救中心转运呼吸机采购项目
中国福利会国际和平妇幼保健院2025年医疗设备（一）
安亭医联体医疗试剂采购
安亭医联体医疗耗材采购
上海市养志康复医院（上海市阳光康复中心）医疗设备1
上海市第一妇婴保健院医疗设备采购
徐汇区南部医疗中心地下机械车库
2025年静安区精神卫生中心特殊安全护理和医疗生活护理项目
上海市闵行区生态环境局2025年小型医疗机构医疗废物收运采购招标项目


In [57]:
data

[('嘉定区中心医院医疗设备',),
 ('上海市嘉定区医疗急救中心转运呼吸机采购项目',),
 ('中国福利会国际和平妇幼保健院2025年医疗设备（一）',),
 ('安亭医联体医疗试剂采购',),
 ('安亭医联体医疗耗材采购',),
 ('上海市养志康复医院（上海市阳光康复中心）医疗设备1',),
 ('上海市第一妇婴保健院医疗设备采购',),
 ('徐汇区南部医疗中心地下机械车库',),
 ('2025年静安区精神卫生中心特殊安全护理和医疗生活护理项目',),
 ('上海市闵行区生态环境局2025年小型医疗机构医疗废物收运采购招标项目',)]

In [58]:
text = '\n'.join(doc[0] for doc in data)
text

'嘉定区中心医院医疗设备\n上海市嘉定区医疗急救中心转运呼吸机采购项目\n中国福利会国际和平妇幼保健院2025年医疗设备（一）\n安亭医联体医疗试剂采购\n安亭医联体医疗耗材采购\n上海市养志康复医院（上海市阳光康复中心）医疗设备1\n上海市第一妇婴保健院医疗设备采购\n徐汇区南部医疗中心地下机械车库\n2025年静安区精神卫生中心特殊安全护理和医疗生活护理项目\n上海市闵行区生态环境局2025年小型医疗机构医疗废物收运采购招标项目'

In [None]:
from langchain_community.chat_models import ChatZhipuAI

# 设置接口地址常量，这里使用的是阿里云的接口地址
OPENAI_BASE_URL = "https://dashscope.aliyuncs.com/compatible-mode/v1"

# 设置 API Key 常量（注意保密）
OPENAI_API_KEY = "sk-..."

llm = ChatOpenAI(
    base_url=OPENAI_BASE_URL,
    api_key=OPENAI_API_KEY,
    model="deepseek-v3",
)

prompt = """
你是一个用户意图识别专家，擅长分析用户对话，并识别出用户的意图。作为一个智能客户系统的关键组件，你的工作是：

1. 分析用户对话，识别出用户的意图。
2. 根据用户的意图，准确输出对应的意图标签。

客服系统支持以下意图：

- 查询订单
- 查询物流
- 查询账户余额
- 查询积分
- 查询优惠券
- 查询商品

## 限制

- 只输出意图标签，不要输出任何解释。
- 不要输出意图标签之外的任何内容。
- 如果无法识别出意图，请输出 `unknown`。
"""

systemPrompts = [
  ("system", prompt),
]

samples = [
  # 积分兑换不支持
  ("user", "积分怎么兑换？"),
  ("assistant", "unknown"),

  # 积分查询
  ("user", "积分什么时候过期？"),
  ("assistant", "查询积分"),

  # 还可以在这继续将样本
  # 大模型会从样本中总结出规律，并应用到新对话中
]

history = []

while True:
    # 获取用户输入
    user_input = input("你：")

    # 调用大模型接口
    result = llm.invoke(systemPrompts + samples + history + [("user", user_input)])

    # 输出大模型接口的返回结果
    print("AI：", result.content)

    # 更新对话历史（只保留最后10条，即5轮对话历史）
    history.extend([
      ("user", user_input),
      ("assistant", result.content),
    ])