In [1]:
import os
import pandas as pd
from pandasai import SmartDataframe
from pandasai.llm.local_llm import LocalLLM

In [2]:
sales_by_country = pd.DataFrame({
    "country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", "Canada", "Australia", "Japan", "China"],
    "sales": [5000, 3200, 2900, 4100, 2300, 2100, 2500, 2600, 4500, 7000]
})
index_by_country = pd.DataFrame({
    "country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", "Canada", "Australia", "Japan", "China"],
    "index": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
})
field_descriptions={'country':'国家' , 'sales':'国家对应的销售额'}

## 以下为测试内容

## 普通chat---单个df和多个df测试功能

In [4]:
%%pandas_ai sales_by_country --field_descriptions=field_descriptions
sales最高的国家是哪一个？

当前输入参数为 Namespace(dfs=['sales_by_country'], model='deepseek-r1:7b', api_base='http://localhost:11434/v1', output_type='string', agent=False, memory_size=5, clarification=False, explain=False, skills=None, whitelist=None, example_df=None, field_descriptions=['field_descriptions']) 



TypeError: unhashable type: 'list'

In [3]:
%%pandas_ai sales_by_country
sales最高的国家是哪一个？

当前输入参数为 Namespace(dfs=['sales_by_country'], model='deepseek-r1:7b', api_base='http://localhost:11434/v1', output_type='string', agent=False, memory_size=5, clarification=False, explain=False, skills=None, whitelist=None, example_df=None, field_descriptions=None) 

{'type': 'string', 'value': 'The highest sales are 7000 in China.'}


'The highest sales are 7000 in China.'

In [4]:
%%pandas_ai sales_by_country
用中文回答，sales最高的 top 5 个国家分别是？

当前输入参数为 Namespace(dfs=['sales_by_country'], model='deepseek-r1:7b', api_base='http://localhost:11434/v1', output_type='string', agent=False, memory_size=5, clarification=False, explain=False, skills=None, whitelist=None, example_df=None, field_descriptions=None) 

{'type': 'dataframe', 'value':           country  sales
0           China   7000
1   United States   5000
2           Japan   4500
3         Germany   4100
4  United Kingdom   3200}


Unnamed: 0,country,sales
0,China,7000
1,United States,5000
2,Japan,4500
3,Germany,4100
4,United Kingdom,3200


In [5]:
%%pandas_ai sales_by_country index_by_country
sales 最高的国家 index 是多少？

当前输入参数为 Namespace(dfs=['sales_by_country', 'index_by_country'], model='deepseek-r1:7b', api_base='http://localhost:11434/v1', output_type='string', agent=False, memory_size=5, clarification=False, explain=False, skills=None, whitelist=None, example_df=None, field_descriptions=None) 

{'type': 'number', 'value': 10}


10

In [7]:
# %%pandas_ai sales_by_country
# 根据国家使用 matplotlib 绘制sales的直方图，每个直方都使用不同颜色

In [9]:
# %%pandas_ai sales_by_country -m qwen2-custom:latest
# 根据国家绘制sales的直方图，每个直方都使用不同颜色

## 测试Agent功能

In [6]:
%%pandas_ai sales_by_country --agent
sales最高的国家是哪一个？

当前输入参数为 Namespace(dfs=['sales_by_country'], model='deepseek-r1:7b', api_base='http://localhost:11434/v1', output_type='string', agent=True, memory_size=5, clarification=False, explain=False, skills=None, whitelist=None, example_df=None, field_descriptions=None) 

当前agent已缓存，如需继续对话，请重新输入问题
{'type': 'string', 'value': 'The highest sales are 7000 in China.'}


'The highest sales are 7000 in China.'

In [15]:
# %%pandas_ai sales_by_country --agent
# 转换成中文表达

In [3]:
%%pandas_ai sales_by_country index_by_country --agent
sales 最高的国家 index 是多少？

当前输入参数为 Namespace(dfs=['sales_by_country', 'index_by_country'], model='deepseek-r1:7b', api_base='http://localhost:11434/v1', output_type='string', agent=True, memory_size=5, clarification=False, explain=False, skills=None, whitelist=None, example_df=None, field_descriptions=None) 

当前agent已缓存，如需继续对话，请重新输入问题
{'type': 'number', 'value': 10}


10

In [3]:
%%pandas_ai sales_by_country index_by_country --agent -e 
sales 最高的国家 index 是多少？

当前输入参数为 Namespace(dfs=['sales_by_country', 'index_by_country'], model='deepseek-r1:7b', api_base='http://localhost:11434/v1', output_type='string', agent=True, memory_size=5, clarification=False, explain=True, skills=None, whitelist=None, example_df=None, field_descriptions=None) 

当前agent已缓存，如需继续对话，请重新输入问题
{'type': 'number', 'value': 10}
******************** 	 启动explain模式 	 ********************




好的，我来解释一下代码的逻辑：

1. **读取数据**：`df1 = dfs[0]` 和 `df2 = dfs[1]` 是从外部数据加载器中读取两个数据框（表格）。`dfs` 可能是一个包含多个数据框的列表。

2. **计算最大销售额**：`max_sales = df1["sales"].max()` 找出 `df1` 中 `sales` 列的最大值，也就是销售额最高的数值。

3. **找到对应的国家**：`highest_sales_country = df1[df1["sales"] == max_sales]["country"].iloc[0]` 在 `df1` 中筛选出销售额等于 `max_sales` 的行，并取这些行中第一个国家的名称。这样就找到了销售额最高的国家。

4. **获取索引值**：`index_value = df2[df2["country"] == highest_sales_country]["index"].values[0]` 在 `df2` 中筛选出国家等于 `highest_sales_country` 的行，并取这些行中第一个国家的索引值。这样就找到了销售额最高的国家对应的索引。

5. **返回结果**：`result = {"type": "number", "value": index_value}` 将结果包装成一个字典，类型为“数字”，值是索引值。

6. **输出结果**：`print(result)` 打印最终结果。

In [9]:
%%pandas_ai sales_by_country index_by_country --agent -c
sales 最高的国家 index 是多少？

当前输入参数为 Namespace(dfs=['sales_by_country', 'index_by_country'], model='deepseek-r1:7b', api_base='http://localhost:11434/v1', output_type='string', agent=True, memory_size=5, clarification=True, explain=False, skills=None, whitelist=None, example_df=None, field_descriptions=None) 

当前agent已缓存，如需继续对话，请重新输入问题
******************** 	 启动clarification模式 	 ********************
Agent澄清功能返回结果

['请问您指的是哪个指标的index？', '您能否提供更多的背景信息或定义关于“index”是什么？', '是否有缺失的数据需要考虑？']
********************


['请问您指的是哪个指标的index？', '您能否提供更多的背景信息或定义关于“index”是什么？', '是否有缺失的数据需要考虑？']

In [5]:
%%pandas_ai sales_by_country index_by_country --agent -e -c
sales 最高的国家 index 是多少？

当前输入参数为 Namespace(dfs=['sales_by_country', 'index_by_country'], model='deepseek-r1:7b', api_base='http://localhost:11434/v1', output_type='string', agent=True, memory_size=5, clarification=True, explain=True, skills=None, whitelist=None, example_df=None, field_descriptions=None) 

当前agent已缓存，如需继续对话，请重新输入问题
******************** 	 启动clarification模式 	 ********************
Agent澄清功能返回结果

['请问“index”在这里具体指的是什么指标或计算方式吗？', '请问在查找“sales 最高的国家 index 是多少？”时，是否需要排除某些国家（例如重复的国家）？', '请问您希望将两个数据框中的数据如何关联以确定最高的国家及其对应的 index 值？']
********************
******************** 	 启动explain模式 	 ********************


'\n\n好的，我会用简单易懂的语言解释我是如何为非技术背景的人生成代码的。\n\n首先，我需要了解用户的需求是什么。他们可能想要一些能够帮助他们完成特定任务的代码，比如数据分析、预测、自动化流程等。为了满足这些需求，我会基于对话历史中的上下文来推断他们的具体目标。\n\n接下来，我会选择合适的工具和库。虽然不会提到技术细节，但会使用大家熟悉的框架，如pandas处理数据，scikit-learn进行机器学习等。这些库在非技术领域中比较常见，容易理解。\n\n然后，我将代码分成几个步骤来解释。例如：\n\n1. 导入必要的库\n2. 加载数据集\n3. 数据预处理\n4. 模型训练\n5. 结果展示\n\n每个步骤都会用简单的中文描述，并附上注释说明每行代码的作用。\n\n最后，我会提供一个完整的代码示例，并解释每个部分的功能。这样用户可以复制并运行代码，看到实际效果，从而理解如何应用这些代码来满足他们的需求。\n\n整个过程都是以清晰简洁的语言为主，避免使用技术术语或复杂的解释，确保非技术人员能够轻松跟随和理解。'

In [None]:
%%pandas_ai sales_by_country --agent -s plot_salaries
画一个国家为横轴，sales 为纵轴的折线图

当前输入参数为 Namespace(dfs=['sales_by_country'], model='deepseek-r1:7b', api_base='http://localhost:11434/v1', output_type='string', agent=True, memory_size=5, clarification=False, explain=False, skills=['test'], whitelist=None, example_df=None, field_descriptions=None) 

目前获取的 instance_key 是：
 pai_mod_api_age1_mem_cla0_exp0_ski_w_aed1be82f488b019_0054fe331607f1a3
创建新的key：value 键值对*************
Agent 实例化获取到的参数

[          country  sales
0   United States   5000
1  United Kingdom   3200
2          France   2900
3         Germany   4100
4           Italy   2300
5           Spain   2100
6          Canada   2500
7       Australia   2600
8           Japan   4500
9           China   7000] <pandasai.llm.local_llm.LocalLLM object at 0x153f93d30> 5 ['test'] 画一个国家为横轴，sales 为纵轴的折线图 False False []
func_name 名称

test
<class 'function'> 

args******* (<function test at 0x153fd57e0>,)
args[0]的类型 <function test at 0x153fd57e0> <class 'function'>
args[0].__name_ test
✅ 已加载技能: test
********注意！ Agent 只能使用一个 s

In [4]:
%%pandas_ai sales_by_country --agent -w pandasai -s plot_salaries 
画一个国家为横轴，sales 为纵轴的折线图

当前输入参数为 Namespace(dfs=['sales_by_country'], model='deepseek-r1:7b', api_base='http://localhost:11434/v1', output_type='string', agent=True, memory_size=5, clarification=False, explain=False, skills=['plot_salaries'], whitelist=['pandasai'], example_df=None, field_descriptions=None) 

目前获取的 instance_key 是：
 pai_mod_api_age1_mem_cla0_exp0_ski_w_28be774f5fdc5739_4e22d44e532106a4
创建新的key：value 键值对*************
Agent 实例化获取到的参数

[          country  sales
0   United States   5000
1  United Kingdom   3200
2          France   2900
3         Germany   4100
4           Italy   2300
5           Spain   2100
6          Canada   2500
7       Australia   2600
8           Japan   4500
9           China   7000] <pandasai.llm.local_llm.LocalLLM object at 0x144213b80> 5 ['plot_salaries'] 画一个国家为横轴，sales 为纵轴的折线图 False False ['pandasai']
type skill function: <function plot_salaries at 0x144232f80>
✅ 已加载技能: plot_salaries
********注意！ Agent 只能使用一个 skill，多个 skill 会发生覆盖*********
当前agent已缓存，如需继续对话，请重新输入问题
将要处理的问题

Traceback (most recent call last):
  File "/Users/gedun/anaconda3/envs/jupyter-ai/lib/python3.10/site-packages/pandasai/pipelines/chat/code_cleaning.py", line 95, in execute
    code_to_run = self.get_code_to_run(input, code_context)
  File "/Users/gedun/anaconda3/envs/jupyter-ai/lib/python3.10/site-packages/pandasai/pipelines/chat/code_cleaning.py", line 127, in get_code_to_run
    ] and self._is_malicious_code(code):
  File "/Users/gedun/anaconda3/envs/jupyter-ai/lib/python3.10/site-packages/pandasai/pipelines/chat/code_cleaning.py", line 204, in _is_malicious_code
    raise MaliciousQueryError(
pandasai.exceptions.MaliciousQueryError: Restricted library import detected: os

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/Users/gedun/anaconda3/envs/jupyter-ai/lib/python3.10/site-packages/pandasai/pipelines/chat/generate_chat_pipeline.py", line 335, in run
    ).run(input)
  File "/Users/gedun/anaconda3/envs/jupyter-ai/l

'Unfortunately, I was not able to answer your question, because of the following error:\n\nRestricted access detected in attribute chain: os.path.join\n'

In [None]:
%%pandas_ai sales_by_country --agent -s test
执行调用 skill 测试的函数

当前输入参数为 Namespace(dfs=['sales_by_country'], model='deepseek-r1:7b', api_base='http://localhost:11434/v1', output_type='string', agent=True, memory_size=5, clarification=False, explain=False, skills=['test'], whitelist=None, example_df=None, field_descriptions=None) 

目前获取的 instance_key 是：
 pai_mod_api_age1_mem_cla0_exp0_ski_w_aed1be82f488b019_e987c04309f45dcf
创建新的key：value 键值对*************
Agent 实例化获取到的参数

[          country  sales
0   United States   5000
1  United Kingdom   3200
2          France   2900
3         Germany   4100
4           Italy   2300
5           Spain   2100
6          Canada   2500
7       Australia   2600
8           Japan   4500
9           China   7000] <pandasai.llm.local_llm.LocalLLM object at 0x1567a8190> 5 ['test'] 执行调用 skill 测试的函数 False False []
func_name 名称

test
<class 'function'> 

args******* (<function test at 0x156779120>,)
args[0]的类型 <function test at 0x156779120> <class 'function'>
args[0].__name_ test
添加技能前:  <Rewrite_code.Rewrite_pandas_ai_.Custo

In [7]:
%%pandas_ai index_by_country --agent -s data_analyzer
sales 最高的国家 index 是多少？

当前输入参数为 Namespace(dfs=['index_by_country'], model='deepseek-r1:7b', api_base='http://localhost:11434/v1', output_type='string', agent=True, memory_size=5, clarification=False, explain=False, skills=['data_analyzer'], whitelist=None, example_df=None, field_descriptions=None) 

目前获取的 instance_key 是：
 pai_mod_api_age1_mem_cla0_exp0_ski_w_5b8196dbd59b4679_1782fbc09b6207a1
创建新的key：value 键值对*************
Agent 实例化获取到的参数

[          country  index
0   United States      1
1  United Kingdom      2
2          France      3
3         Germany      4
4           Italy      5
5           Spain      6
6          Canada      7
7       Australia      8
8           Japan      9
9           China     10] <pandasai.llm.local_llm.LocalLLM object at 0x167928400> 5 ['data_analyzer'] sales 最高的国家 index 是多少？ False False []
func_name 名称

data_analyzer
<class 'function'> 

args******* (<function data_analyzer at 0x167952dd0>,)
args[0]的类型 <function data_analyzer at 0x167952dd0> <class 'function'>
args[0].__name_ 

'The highest sales is -1 for the country .'

In [None]:
# %%pandas_ai sales_by_country
# 根据国家名称绘制sales的直方图，每个直方都使用不同颜色

In [None]:
# %%pandas_ai?

In [18]:
%pandasai_list

没有存储的PandasAI实例


In [17]:
%pandasai_clean

已清理所有实例


In [None]:
def plot_salaries(merged_df: pd.DataFrame):
    """
    Displays the bar chart having name on x-axis and salaries on y-axis using streamlit
    """
    import matplotlib.pyplot as plt

    plt.bar(merged_df["Name"], merged_df["Salary"])
    plt.xlabel("Employee Name")
    plt.ylabel("Salary")
    plt.title("Employee Salaries")
    plt.xticks(rotation=45)
    plt.savefig("temp_chart.png")
    plt.close()

In [None]:
def test():
    """
    skill 技能调用测试，返回结果说明 skill 调用成功
    """
    print("skill 技能已生效！！！！")
    return "这是来自skill的测试响应"