# 概括一下这个database的类的功能是什么
这个Database类是一个用于与SQL Server数据库进行交互的工具类，它提供了执行SQL查询、解析SQL查询并保存结果到Excel文件等功能。它的主要方法和功能包括：

1. __init__：初始化方法，设置数据库服务器地址、用户名、密码、数据库名和OpenAI的API密钥。

2. decode_columns：这个方法用于解码指定列的数据。它接收一个Pandas DataFrame和一个列名列表作为参数，然后对这些列的数据进行解码。

3. execute_sql：这个方法用于执行SQL查询并返回结果。它接收一个SQL查询字符串、一个列名列表和一个标志（指示是否将结果保存到Excel文件）作为参数。如果指定了列名列表，那么它会对这些列的数据进行解码。如果设置了保存到Excel的标志，那么它会将结果保存到一个Excel文件中。

4. parse_sql：这个方法用于解析SQL查询并返回解析结果。它接收一个SQL查询字符串作为参数，然后使用OpenAI模型来解析这个查询。解析的结果是一个字典，包含了SQL查询的背景信息、目标列名、筛选条件和相关表名。

5. save_sql_and_result：这个方法用于保存SQL查询和解析结果到一个文本文件中。它接收一个SQL查询字符串作为参数，然后将查询字符串和解析结果保存到一个文本文件中。

这个类的主要用途是帮助用户更方便地与SQL Server数据库进行交互，特别是执行和解析SQL查询。


In [1]:
import pymssql
import pandas as pd
import datetime
import random
from langchain.output_parsers import StructuredOutputParser, ResponseSchema
from langchain.prompts import PromptTemplate
from langchain.llms import OpenAI
import asyncio
import hashlib
class Database:
    def __init__(self, server, user, password, database, openai_api_key):
        self.server = server
        self.user = user
        self.password = password
        self.database = database
        self.openai_api_key = openai_api_key

    def decode_columns(self, df, column_names):
        if column_names:
            for column_name in column_names:
                mask = df[column_name].notnull()
                df.loc[mask, column_name] = df.loc[mask, column_name].apply(lambda x: x.encode('latin1').decode('gbk'))
        return df

    def execute_sql(self, sql, column_names=None, save_to_excel=False):
        if '*' in sql:
            raise ValueError("Please specify column names in your SQL query instead of using '*'.")

        with pymssql.connect(self.server, self.user, self.password, self.database) as conn:
            with conn.cursor(as_dict=True) as cursor:
                cursor.execute(sql)
                data = pd.DataFrame(cursor.fetchall())
                data = self.decode_columns(data, column_names)
                if save_to_excel:
                    now = datetime.datetime.now()
                    # 使用SHA256算法生成哈希值
                    hash_object = hashlib.sha256(sql.encode())
                    hex_dig = hash_object.hexdigest()
                    # 取哈希值的前4位作为文件ID
                    file_id = hex_dig[:4]
                    filename = f"{now.strftime('%Y%m%d')}_id_{file_id}"
                    data.to_excel(f"{filename}.xlsx", index=False)
                    with open(f"{filename}.txt", "w") as f:
                        f.write(sql)
                return data

    async def parse_sql(self, sql):
        response_schemas = [
            ResponseSchema(name="bg", description="解析这个SQL获取的信息是什么？结合他筛选的条件和内容，回答这个问题。"),
            ResponseSchema(name="target_columns", description="这个sql最终要返回的列名是什么？"),
            ResponseSchema(name="fliter_conditions", description="这个sql的筛选条件是什么？"),
            ResponseSchema(name="relative_tables", description="这个sql查询涉及到的表是什么？")
        ]
        output_parser = StructuredOutputParser.from_response_schemas(response_schemas)
        format_instructions = output_parser.get_format_instructions()
        prompt = PromptTemplate(
            template="\n{sql} 记住你是一个sqlserver高手，尽你最大的能力用中文通俗地分析这个sql语句 \n{format_instructions}",
            input_variables=["sql"],
            partial_variables={"format_instructions": format_instructions}
        )
        model = OpenAI(temperature=0, openai_api_key=self.openai_api_key)
        _input = prompt.format_prompt(sql=sql)
        output = model(_input.to_string())
        return output_parser.parse(output)

    async def save_sql_and_result(self, sql):
        result = await self.parse_sql(sql)
        now = datetime.datetime.now()
        # 使用SHA256算法生成哈希值
        hash_object = hashlib.sha256(sql.encode())
        hex_dig = hash_object.hexdigest()
        # 取哈希值的前4位作为文件ID
        file_id = hex_dig[:4]
        filename = f"{now.strftime('%Y%m%d')}_id_{file_id}"
        with open(f"{filename}.txt", "w") as f:
            f.write(f"SQL: {sql}\n\nResult: {result}")



In [10]:
# 创建一个Database对象
db = Database(
    server="192.168.0.169",
    user="chjreport",
    password="Chj@12345",
    database="ChjBidb",
    openai_api_key="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"
)
sql = "select count(distinct c.会员号) as 会员数量,sum(c.金额) as 消费总金额 from bi_business_member as m join bi_business_consume as c on m.会员号=c.会员号 where c.消费时间 >= '2023-06-01'"
# 解析SQL查询并打印结果
await db.save_sql_and_result(sql)

In [4]:
# 定义一个SQL查询
sql = "select count(distinct c.会员号) as 会员数量,sum(c.金额) as 消费总金额 from bi_business_member as m join bi_business_consume as c on m.会员号=c.会员号 where c.消费时间 >= '2023-06-01'"
# 执行SQL查询并保存结果到Excel文件
data = db.execute_sql(sql, save_to_excel=True)

Unnamed: 0,会员数量,消费总金额
0,89159,305220416.44


In [13]:
# K金近期消费情况
sql1 = "select g.一级大类,count(distinct 会员号) as 消费人数, sum(金额) as 消费总金额 from bi_business_consume as c join v_btgoods as g on c.商品代码 = g.商品代码 where c.消费时间 >= '2023-06-01' and 一级大类 in ('h')group by g.一级大类 order by 消费总金额 desc"
data = db.execute_sql(sql1,save_to_excel=False)
data

Unnamed: 0,一级大类,消费人数,消费总金额
0,黄金,69899,244819687.41
1,素金,18624,32766913.02
2,镶嵌,5520,27082682.23
3,裸石,37,503092.13
4,配饰,3089,67683.63
5,银饰,1865,28931.41
6,其他,1433,15920.62
