In [1]:
import numpy as np
import pandas as pd
import json
import io

import os
import openai
openai.api_key = os.getenv("OPENAI_API_KEY")

In [9]:
# 创建一个稍微复杂的DataFrame，包含多种数据类型
df_complex = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'Salary': [50000.0, 100000.5, 150000.75],
    'IsMarried': [True, False, True]
})

In [10]:
df_complex

Unnamed: 0,Name,Age,Salary,IsMarried
0,Alice,25,50000.0,True
1,Bob,30,100000.5,False
2,Charlie,35,150000.75,True


In [12]:
response = openai.ChatCompletion.create(
  model="gpt-3.5-turbo-16k-0613",
  messages=[
    {"role": "system", "content": "你是一位优秀的数据分析师，现在有这样一份数据集：'%s'" % df_complex},
    {"role": "user", "content": "请解释一下这个数据集的分布情况"}
  ]
)

'这个数据集中有4列，分别是Name、Age、Salary和IsMarried。\n\n1. Name列包含了三个人的名字，分别是Alice、Bob和Charlie。这一列是离散型数据，每个值代表一个不同的姓名。\n\n2. Age列包含了三个人的年龄，分别是25、30和35。这一列是离散型数据，每个值代表一个不同的年龄。\n\n3. Salary列包含了三个人的薪水，分别是50000.00、100000.50和150000.75。这一列是连续型数据，每个值代表一个不同的薪水数额。\n\n4. IsMarried列包含了三个人的婚姻状况，分别是True、False和True。这一列是离散型数据，每个值代表婚姻状况的不同状态。\n\n综上所述，这个数据集中的Name和IsMarried列是离散型数据，Age列是离散型数据，而Salary列是连续型数据。'

In [15]:
response.choices[0].message['content']

'这个数据集包含三个特征变量和一个目标变量，分别是Name、Age、Salary和IsMarried。\n\n1. Name：这是一个名字的特征变量。由于每个人的姓名都是唯一的，因此该列的取值应该是不重复的。\n\n2. Age：这是一个年龄的特征变量。根据给定的数据，可以看出年龄范围在25到35之间，共有三个人的数据。\n\n3. Salary：这是一个薪水的特征变量。根据给定的数据，可以看出薪水范围在50000.00到150000.75之间，共有三个人的数据。\n\n4. IsMarried：这是一个婚姻状态的特征变量。根据给定的数据，有两个人为已婚，一个人为未婚。\n\n综上所述，这个数据集的分布情况为：名字是唯一的，年龄范围在25到35之间，薪水范围在50000.00到150000.75之间，已婚人数为两个，未婚人数为一个。'

In [13]:
# 函数输出的结构都必须是字符串类型才能够被大模型正常的识别
df_complex_string = df_complex.to_string()

df_complex_string

'      Name  Age     Salary  IsMarried\n0    Alice   25   50000.00       True\n1      Bob   30  100000.50      False\n2  Charlie   35  150000.75       True'

In [16]:
df_complex_string

'      Name  Age     Salary  IsMarried\n0    Alice   25   50000.00       True\n1      Bob   30  100000.50      False\n2  Charlie   35  150000.75       True'

In [14]:
response = openai.ChatCompletion.create(
  model="gpt-3.5-turbo-16k-0613",
  messages=[
    {"role": "system", "content": "你是一位优秀的数据分析师，现在有这样一份数据集：'%s'" % df_complex_string},
    {"role": "user", "content": "请解释一下这个数据集的分布情况"}
  ]
)

response.choices[0].message['content']

'这个数据集包含三个特征变量和一个目标变量，分别是Name、Age、Salary和IsMarried。\n\n1. Name：这是一个名字的特征变量。由于每个人的姓名都是唯一的，因此该列的取值应该是不重复的。\n\n2. Age：这是一个年龄的特征变量。根据给定的数据，可以看出年龄范围在25到35之间，共有三个人的数据。\n\n3. Salary：这是一个薪水的特征变量。根据给定的数据，可以看出薪水范围在50000.00到150000.75之间，共有三个人的数据。\n\n4. IsMarried：这是一个婚姻状态的特征变量。根据给定的数据，有两个人为已婚，一个人为未婚。\n\n综上所述，这个数据集的分布情况为：名字是唯一的，年龄范围在25到35之间，薪水范围在50000.00到150000.75之间，已婚人数为两个，未婚人数为一个。'

In [17]:
# 将DataFrame转换为JSON格式
df_complex_json = df_complex.to_json(orient='split')

print(df_complex_json)

{"columns":["Name","Age","Salary","IsMarried"],"index":[0,1,2],"data":[["Alice",25,50000.0,true],["Bob",30,100000.5,false],["Charlie",35,150000.75,true]]}


In [18]:
df_complex_json

'{"columns":["Name","Age","Salary","IsMarried"],"index":[0,1,2],"data":[["Alice",25,50000.0,true],["Bob",30,100000.5,false],["Charlie",35,150000.75,true]]}'

In [21]:
response = openai.ChatCompletion.create(
  model="gpt-3.5-turbo-16k-0613",
  messages=[
    {"role": "system", "content": "你是一位优秀的数据分析师，现在有这样一份数据集：'%s'" % df_complex_json},
    {"role": "user", "content": "请解释一下这个数据集的分布情况"}
  ]
)
response.choices[0].message['content']

'这个数据集包含3个观测值（行）和4个变量（列）。下面是每个变量的解释：\n\n1. Name：员工的姓名，取值为字符串类型。\n2. Age：员工的年龄，取值为整数类型。\n3. Salary：员工的工资，取值为浮点数类型。\n4. IsMarried：员工的婚姻状态，取值为布尔型（true或false）。\n\n根据这些变量的取值，我们可以得出以下分布情况：\n\n1. Name：由于每个员工都有一个唯一的姓名，因此这一变量在数据集中是不重复的。\n2. Age：数据集中的年龄值分别为25、30和35岁，呈现了一个递增的趋势。\n3. Salary：数据集中的工资值分别为50000.0、100000.5和150000.75，也呈现了一个递增的趋势。\n4. IsMarried：数据集中的婚姻状态分别为true和false，代表已婚和未婚。\n\n通过分析数据的分布情况，我们可以对员工的基本信息和薪资情况有一定的了解。'

In [22]:
response.choices[0].message['content']

'这个数据集包含3个观测值（行）和4个变量（列）。下面是每个变量的解释：\n\n1. Name：员工的姓名，取值为字符串类型。\n2. Age：员工的年龄，取值为整数类型。\n3. Salary：员工的工资，取值为浮点数类型。\n4. IsMarried：员工的婚姻状态，取值为布尔型（true或false）。\n\n根据这些变量的取值，我们可以得出以下分布情况：\n\n1. Name：由于每个员工都有一个唯一的姓名，因此这一变量在数据集中是不重复的。\n2. Age：数据集中的年龄值分别为25、30和35岁，呈现了一个递增的趋势。\n3. Salary：数据集中的工资值分别为50000.0、100000.5和150000.75，也呈现了一个递增的趋势。\n4. IsMarried：数据集中的婚姻状态分别为true和false，代表已婚和未婚。\n\n通过分析数据的分布情况，我们可以对员工的基本信息和薪资情况有一定的了解。'

In [141]:
# 示例DataFrame
df_complex = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'Salary': [50000.0, 100000.5, 150000.75],
    'IsMarried': [True, False, True]
})

# 将DataFrame转换为JSON格式（按'split'方向）
df_complex_json = df_complex.to_json(orient='split')

In [142]:
df_complex_json

'{"columns":["Name","Age","Salary","IsMarried"],"index":[0,1,2],"data":[["Alice",25,50000.0,true],["Bob",30,100000.5,false],["Charlie",35,150000.75,true]]}'

In [143]:
import pandas as pd
import json

def calculate_total_age_from_split_json(input_json):
    """
    从给定的JSON格式字符串（按'split'方向排列）中解析出DataFrame，计算所有人的年龄总和，并以JSON格式返回结果。

    参数:
    input_json (str): 包含个体数据的JSON格式字符串。

    返回:
    str: 所有人的年龄总和，以JSON格式返回。
    """

    # 将JSON字符串转换为DataFrame
    df = pd.read_json(input_json, orient='split')

    # 计算所有人的年龄总和
    total_age = df['Age'].sum()

    # 将结果转换为字符串形式，然后使用json.dumps()转换为JSON格式
    return json.dumps({"total_age": str(total_age)})

In [144]:
# 使用函数计算年龄总和，并以JSON格式输出
result = calculate_total_age_from_split_json(df_complex_json)
print("The JSON output is:", result)

The JSON output is: {"total_age": "90"}


In [145]:
function_repository = {
            "calculate_total_age_from_split_json": calculate_total_age_from_split_json,
        }

In [146]:
calculate_total_age_from_split_json = {"name": "calculate_total_age_from_split_json",
                      "description": "计算年龄总和的函数，从给定的JSON格式字符串（按'split'方向排列）中解析出DataFrame，计算所有人的年龄总和，并以JSON格式返回结果。",
                      "parameters": {"type": "object",
                                     "properties": {"input_json": {"type": "string",
                                                             "description": "执行计算年龄总和的数据集"},
                                                   },
                                     "required": ["input_json"],
                                    },
                     }

In [147]:
calculate_total_age_from_split_json

{'name': 'calculate_total_age_from_split_json',
 'description': "计算年龄总和的函数，从给定的JSON格式字符串（按'split'方向排列）中解析出DataFrame，计算所有人的年龄总和，并以JSON格式返回结果。",
 'parameters': {'type': 'object',
  'properties': {'input_json': {'type': 'string',
    'description': '执行计算年龄总和的数据集'}},
  'required': ['input_json']}}

In [120]:
calculate_total_age_from_split_json["parameters"]

{'type': 'object',
 'properties': {'input_json': {'type': 'string',
   'description': '执行计算年龄总和的数据集'}},
 'required': ['input_json']}

In [148]:
functions = [calculate_total_age_from_split_json]

In [149]:
functions

[{'name': 'calculate_total_age_from_split_json',
  'description': "计算年龄总和的函数，从给定的JSON格式字符串（按'split'方向排列）中解析出DataFrame，计算所有人的年龄总和，并以JSON格式返回结果。",
  'parameters': {'type': 'object',
   'properties': {'input_json': {'type': 'string',
     'description': '执行计算年龄总和的数据集'}},
   'required': ['input_json']}}]

In [150]:
messages=[
    {"role": "system", "content": "你是一位优秀的数据分析师, 现在有这样一个数据集input_json：%s，数据集以JSON形式呈现" % df_complex_json},
    {"role": "user", "content": "请在数据集input_json上执行计算所有人年龄总和函数"}
]

In [151]:
messages

[{'role': 'system',
  'content': '你是一位优秀的数据分析师, 现在有这样一个数据集input_json：{"columns":["Name","Age","Salary","IsMarried"],"index":[0,1,2],"data":[["Alice",25,50000.0,true],["Bob",30,100000.5,false],["Charlie",35,150000.75,true]]}，数据集以JSON形式呈现'},
 {'role': 'user', 'content': '请在数据集input_json上执行计算所有人年龄总和函数'}]

In [152]:
response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo-16k-0613",
        messages=messages,
        functions=functions,
        function_call="auto",  
    )

response

<OpenAIObject chat.completion id=chatcmpl-7qc5SB4Co22j2TozoihRs3mJG7knD at 0x1cb78cd53a0> JSON: {
  "id": "chatcmpl-7qc5SB4Co22j2TozoihRs3mJG7knD",
  "object": "chat.completion",
  "created": 1692773818,
  "model": "gpt-3.5-turbo-16k-0613",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": null,
        "function_call": {
          "name": "calculate_total_age_from_split_json",
          "arguments": "{\n  \"input_json\": \"{\\\"columns\\\":[\\\"Name\\\",\\\"Age\\\",\\\"Salary\\\",\\\"IsMarried\\\"],\\\"index\\\":[0,1,2],\\\"data\\\":[[\\\"Alice\\\",25,50000.0,true],[\\\"Bob\\\",30,100000.5,false],[\\\"Charlie\\\",35,150000.75,true]]}\"\n}"
        }
      },
      "finish_reason": "function_call"
    }
  ],
  "usage": {
    "prompt_tokens": 222,
    "completion_tokens": 82,
    "total_tokens": 304
  }
}

In [153]:
response

<OpenAIObject chat.completion id=chatcmpl-7qc5SB4Co22j2TozoihRs3mJG7knD at 0x1cb78cd53a0> JSON: {
  "id": "chatcmpl-7qc5SB4Co22j2TozoihRs3mJG7knD",
  "object": "chat.completion",
  "created": 1692773818,
  "model": "gpt-3.5-turbo-16k-0613",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": null,
        "function_call": {
          "name": "calculate_total_age_from_split_json",
          "arguments": "{\n  \"input_json\": \"{\\\"columns\\\":[\\\"Name\\\",\\\"Age\\\",\\\"Salary\\\",\\\"IsMarried\\\"],\\\"index\\\":[0,1,2],\\\"data\\\":[[\\\"Alice\\\",25,50000.0,true],[\\\"Bob\\\",30,100000.5,false],[\\\"Charlie\\\",35,150000.75,true]]}\"\n}"
        }
      },
      "finish_reason": "function_call"
    }
  ],
  "usage": {
    "prompt_tokens": 222,
    "completion_tokens": 82,
    "total_tokens": 304
  }
}

In [158]:
# 保存交互过程中的函数名称
function_name = response["choices"][0]["message"]["function_call"]["name"]
function_name

'calculate_total_age_from_split_json'

In [159]:
# 加载交互过程中的参数
function_args = json.loads(response["choices"][0]["message"]["function_call"]["arguments"])

function_args

{'input_json': '{"columns":["Name","Age","Salary","IsMarried"],"index":[0,1,2],"data":[["Alice",25,50000.0,true],["Bob",30,100000.5,false],["Charlie",35,150000.75,true]]}'}

In [160]:
# 保存具体的函数对象
local_fuction_call = function_repository[function_name]
local_fuction_call

<function __main__.calculate_total_age_from_split_json(input_json)>

In [161]:
local_fuction_call

<function __main__.calculate_total_age_from_split_json(input_json)>

In [162]:
final_response = local_fuction_call(**function_args)

In [163]:
final_response

'{"total_age": "90"}'

In [164]:
# 追加第一次模型返回结果消息
messages.append(response["choices"][0]["message"])

In [165]:
messages

[{'role': 'system',
  'content': '你是一位优秀的数据分析师, 现在有这样一个数据集input_json：{"columns":["Name","Age","Salary","IsMarried"],"index":[0,1,2],"data":[["Alice",25,50000.0,true],["Bob",30,100000.5,false],["Charlie",35,150000.75,true]]}，数据集以JSON形式呈现'},
 {'role': 'user', 'content': '请在数据集input_json上执行计算所有人年龄总和函数'},
 <OpenAIObject at 0x1cb78cc4b80> JSON: {
   "role": "assistant",
   "content": null,
   "function_call": {
     "name": "calculate_total_age_from_split_json",
     "arguments": "{\n  \"input_json\": \"{\\\"columns\\\":[\\\"Name\\\",\\\"Age\\\",\\\"Salary\\\",\\\"IsMarried\\\"],\\\"index\\\":[0,1,2],\\\"data\\\":[[\\\"Alice\\\",25,50000.0,true],[\\\"Bob\\\",30,100000.5,false],[\\\"Charlie\\\",35,150000.75,true]]}\"\n}"
   }
 }]

In [54]:
response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo-16k-0613",
        messages=messages,
        functions=functions,
        function_call="auto",  
    )

In [166]:
response

<OpenAIObject chat.completion id=chatcmpl-7qc5SB4Co22j2TozoihRs3mJG7knD at 0x1cb78cd53a0> JSON: {
  "id": "chatcmpl-7qc5SB4Co22j2TozoihRs3mJG7knD",
  "object": "chat.completion",
  "created": 1692773818,
  "model": "gpt-3.5-turbo-16k-0613",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": null,
        "function_call": {
          "name": "calculate_total_age_from_split_json",
          "arguments": "{\n  \"input_json\": \"{\\\"columns\\\":[\\\"Name\\\",\\\"Age\\\",\\\"Salary\\\",\\\"IsMarried\\\"],\\\"index\\\":[0,1,2],\\\"data\\\":[[\\\"Alice\\\",25,50000.0,true],[\\\"Bob\\\",30,100000.5,false],[\\\"Charlie\\\",35,150000.75,true]]}\"\n}"
        }
      },
      "finish_reason": "function_call"
    }
  ],
  "usage": {
    "prompt_tokens": 222,
    "completion_tokens": 82,
    "total_tokens": 304
  }
}

In [168]:
# 追加function返回消息
messages.append({"role": "function", "name": function_name, "content": final_response,})

In [170]:
messages

[{'role': 'system',
  'content': '你是一位优秀的数据分析师, 现在有这样一个数据集input_json：{"columns":["Name","Age","Salary","IsMarried"],"index":[0,1,2],"data":[["Alice",25,50000.0,true],["Bob",30,100000.5,false],["Charlie",35,150000.75,true]]}，数据集以JSON形式呈现'},
 {'role': 'user', 'content': '请在数据集input_json上执行计算所有人年龄总和函数'},
 <OpenAIObject at 0x1cb78cc4b80> JSON: {
   "role": "assistant",
   "content": null,
   "function_call": {
     "name": "calculate_total_age_from_split_json",
     "arguments": "{\n  \"input_json\": \"{\\\"columns\\\":[\\\"Name\\\",\\\"Age\\\",\\\"Salary\\\",\\\"IsMarried\\\"],\\\"index\\\":[0,1,2],\\\"data\\\":[[\\\"Alice\\\",25,50000.0,true],[\\\"Bob\\\",30,100000.5,false],[\\\"Charlie\\\",35,150000.75,true]]}\"\n}"
   }
 },
 {'role': 'function',
  'name': 'calculate_total_age_from_split_json',
  'content': '{"total_age": "90"}'}]

In [172]:
last_response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo-16k-0613",
        messages=messages,  
    )

last_response["choices"][0]["message"]["content"]

'在数据集input_json中，所有人的年龄总和为90岁。'

In [173]:
last_response["choices"][0]["message"]["content"]

'在数据集input_json中，所有人的年龄总和为90岁。'