# autoStudy

1 跑通阶段

In [24]:
from zxftools_dev.llms import get_llm
from IPython.display import Markdown
llm = get_llm(model='gpt-4o')

In [5]:
target = "pandas多表处理的技巧"

In [4]:
result = llm.complete(f"""
我希望对'{target}'进行深度研究,我已经了解了其功能和安装,可以列一个清单来帮我梳理我应该学习哪些内容吗?
""")

In [5]:
Markdown(result.text)

当然可以！以下是一个详细的清单，帮助你系统地学习和研究Pandas多表处理的技巧：

### 1. 基础知识复习
- **Pandas基本操作**
  - DataFrame和Series的创建与操作
  - 基本数据选择与过滤
  - 数据清洗与预处理

### 2. 数据合并与连接
- **合并（Merge）**
  - `pd.merge()`函数的使用
  - 不同类型的合并（内连接、外连接、左连接、右连接）
  - 多键合并
  - 处理重复列名

- **连接（Join）**
  - `DataFrame.join()`方法
  - 与`pd.merge()`的区别与联系

- **连接轴（Concatenation）**
  - `pd.concat()`函数的使用
  - 沿不同轴（行、列）进行连接
  - 处理索引

### 3. 数据透视表与交叉表
- **数据透视表（Pivot Table）**
  - `pd.pivot_table()`函数的使用
  - 聚合函数的应用
  - 多层索引与分组

- **交叉表（Crosstab）**
  - `pd.crosstab()`函数的使用
  - 频率表与关联分析

### 4. 重塑与透视
- **重塑（Reshape）**
  - `pd.melt()`函数的使用
  - 宽表与长表的转换

- **透视（Pivot）**
  - `DataFrame.pivot()`方法
  - 与`pd.pivot_table()`的区别

### 5. 分组与聚合
- **分组操作（GroupBy）**
  - `DataFrame.groupby()`方法
  - 分组后的聚合、过滤、转换与应用
  - 多层分组与多重聚合

### 6. 时间序列数据处理
- **时间序列数据**
  - 日期时间索引
  - 时间序列的合并与连接
  - 滚动窗口与时间重采样

### 7. 高级数据处理技巧
- **条件合并**
  - 基于条件的合并与连接
  - 使用`np.where()`进行条件选择

- **自定义函数与应用**
  - 使用`apply()`、`map()`、`applymap()`等方法
  - 自定义聚合函数

### 8. 性能优化
- **性能调优**
  - 数据处理的性能瓶颈
  - 使用`dask`进行大数据处理
  - 内存优化与数据类型优化

### 9. 实战案例与项目
- **实战案例**
  - 多表数据的实际业务场景应用
  - 数据清洗、合并、分析与可视化的完整流程

- **项目实践**
  - 选择一个实际项目进行多表处理的综合应用
  - 从数据获取、清洗、处理到分析与报告的完整流程

### 10. 参考资料与社区资源
- **官方文档**
  - Pandas官方文档与API参考

- **书籍与教程**
  - 推荐阅读的书籍与在线教程

- **社区与论坛**
  - 参与Pandas社区，关注最新动态与最佳实践

通过以上清单，你可以系统地学习和研究Pandas多表处理的各个方面。希望这些内容对你有所帮助，祝你学习顺利！

In [6]:
result2 = llm.complete(f"""
我希望对'{target}'进行深度研究,我这里有一个学习清单:

{result.text}

可以基于这个清单,仅针对可以代码实现的部分,编写一个教程吗?

""")

In [7]:
Markdown(result2.text)

当然可以！以下是基于你的学习清单，针对可以代码实现的部分编写的详细教程。每个部分都包含了示例代码和解释。

### 1. 基础知识复习

#### Pandas基本操作

```python
import pandas as pd

# 创建DataFrame
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)
print(df)

# 数据选择与过滤
print(df['A'])  # 选择列
print(df[df['A'] > 1])  # 过滤行

# 数据清洗与预处理
df['C'] = df['A'] + df['B']  # 新增列
df.dropna(inplace=True)  # 删除缺失值
print(df)
```

### 2. 数据合并与连接

#### 合并（Merge）

```python
# 创建两个DataFrame
df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value1': [1, 2, 3]})
df2 = pd.DataFrame({'key': ['B', 'C', 'D'], 'value2': [4, 5, 6]})

# 内连接
merged_inner = pd.merge(df1, df2, on='key', how='inner')
print(merged_inner)

# 外连接
merged_outer = pd.merge(df1, df2, on='key', how='outer')
print(merged_outer)

# 左连接
merged_left = pd.merge(df1, df2, on='key', how='left')
print(merged_left)

# 右连接
merged_right = pd.merge(df1, df2, on='key', how='right')
print(merged_right)
```

#### 连接（Join）

```python
# 创建两个DataFrame
df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value1': [1, 2, 3]}).set_index('key')
df2 = pd.DataFrame({'key': ['B', 'C', 'D'], 'value2': [4, 5, 6]}).set_index('key')

# 使用join进行连接
joined = df1.join(df2, how='inner')
print(joined)
```

#### 连接轴（Concatenation）

```python
# 创建两个DataFrame
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'], 'B': ['B0', 'B1', 'B2']})
df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'], 'B': ['B3', 'B4', 'B5']})

# 沿行连接
concat_rows = pd.concat([df1, df2], axis=0)
print(concat_rows)

# 沿列连接
concat_cols = pd.concat([df1, df2], axis=1)
print(concat_cols)
```

### 3. 数据透视表与交叉表

#### 数据透视表（Pivot Table）

```python
# 创建DataFrame
data = {'A': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'],
        'B': ['one', 'one', 'two', 'two', 'one', 'one'],
        'C': ['small', 'large', 'large', 'small', 'small', 'large'],
        'D': [1, 2, 2, 3, 3, 4]}
df = pd.DataFrame(data)

# 创建数据透视表
pivot_table = pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'], aggfunc='sum')
print(pivot_table)
```

#### 交叉表（Crosstab）

```python
# 创建交叉表
crosstab = pd.crosstab(df['A'], df['C'])
print(crosstab)
```

### 4. 重塑与透视

#### 重塑（Reshape）

```python
# 创建DataFrame
data = {'A': ['foo', 'bar', 'baz'], 'B': [1, 2, 3], 'C': [4, 5, 6]}
df = pd.DataFrame(data)

# 使用melt函数
melted = pd.melt(df, id_vars=['A'], value_vars=['B', 'C'])
print(melted)
```

#### 透视（Pivot）

```python
# 创建DataFrame
data = {'A': ['foo', 'foo', 'bar', 'bar'], 'B': ['one', 'two', 'one', 'two'], 'C': [1, 2, 3, 4]}
df = pd.DataFrame(data)

# 使用pivot方法
pivoted = df.pivot(index='A', columns='B', values='C')
print(pivoted)
```

### 5. 分组与聚合

#### 分组操作（GroupBy）

```python
# 创建DataFrame
data = {'A': ['foo', 'bar', 'foo', 'bar'], 'B': ['one', 'one', 'two', 'two'], 'C': [1, 2, 3, 4]}
df = pd.DataFrame(data)

# 分组并聚合
grouped = df.groupby('A').sum()
print(grouped)

# 多层分组与多重聚合
multi_grouped = df.groupby(['A', 'B']).agg({'C': ['sum', 'mean']})
print(multi_grouped)
```

### 6. 时间序列数据处理

#### 时间序列数据

```python
# 创建时间序列DataFrame
date_rng = pd.date_range(start='2023-01-01', end='2023-01-10', freq='D')
df = pd.DataFrame(date_rng, columns=['date'])
df['data'] = pd.Series(range(1, len(df)+1))

# 设置日期时间索引
df.set_index('date', inplace=True)
print(df)

# 时间重采样
resampled = df.resample('2D').sum()
print(resampled)
```

### 7. 高级数据处理技巧

#### 条件合并

```python
import numpy as np

# 创建两个DataFrame
df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value1': [1, 2, 3]})
df2 = pd.DataFrame({'key': ['B', 'C', 'D'], 'value2': [4, 5, 6]})

# 条件合并
merged = pd.merge(df1, df2, on='key', how='outer')
merged['value'] = np.where(pd.notnull(merged['value1']), merged['value1'], merged['value2'])
print(merged)
```

#### 自定义函数与应用

```python
# 创建DataFrame
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)

# 使用apply方法
df['C'] = df['A'].apply(lambda x: x * 2)
print(df)

# 自定义聚合函数
def custom_agg(x):
    return x.max() - x.min()

grouped = df.groupby('A').agg(custom_agg)
print(grouped)
```

### 8. 性能优化

#### 性能调优

```python
import dask.dataframe as dd

# 创建大数据集
large_df = pd.DataFrame({'A': range(1000000), 'B': range(1000000)})

# 使用dask进行大数据处理
dask_df = dd.from_pandas(large_df, npartitions=10)
result = dask_df.groupby('A').sum().compute()
print(result)
```

### 9. 实战案例与项目

#### 实战案例

```python
# 示例：多表数据的实际业务场景应用
# 假设有两个表：订单表和客户表

# 创建订单表
orders = pd.DataFrame({
    'order_id': [1, 2, 3, 4],
    'customer_id': [1, 2, 1, 3],
    'amount': [100, 200, 150, 300]
})

# 创建客户表
customers = pd.DataFrame({
    'customer_id': [1, 2, 3],
    'customer_name': ['Alice', 'Bob', 'Charlie']
})

# 合并订单表和客户表
merged_data = pd.merge(orders, customers, on='customer_id')
print(merged_data)

# 分析每个客户的总订单金额
customer_total = merged_data.groupby('customer_name')['amount'].sum().reset_index()
print(customer_total)
```

### 10. 参考资料与社区资源

#### 官方文档

- [Pandas官方文档](https://pandas.pydata.org/pandas-docs/stable/)

#### 书籍与教程

- 《Python for Data Analysis》 by Wes McKinney
- [Pandas官方教程](https://pandas.pydata.org/pandas-docs/stable/getting_started/tutorials.html)

#### 社区与论坛

- [Stack Overflow上的Pandas标签](https://stackoverflow.com/questions/tagged/pandas)
- [Pandas GitHub社区](https://github.com/pandas-dev/pandas)

通过以上代码示例和解释，你可以更深入地理解和掌握Pandas多表处理的技巧。希望这些内容对你有所帮助，祝你学习顺利！

In [8]:
%run utils.ipynb

In [6]:
file_name = f'{target}.ipynb'

In [10]:
create_notebook_from_string(result2.text,file_name)

In [11]:
%run {file_name}

   A  B
0  1  4
1  2  5
2  3  6
0    1
1    2
2    3
Name: A, dtype: int64
   A  B
1  2  5
2  3  6
   A  B  C
0  1  4  5
1  2  5  7
2  3  6  9
  key  value1  value2
0   B       2       4
1   C       3       5
  key  value1  value2
0   A     1.0     NaN
1   B     2.0     4.0
2   C     3.0     5.0
3   D     NaN     6.0
  key  value1  value2
0   A       1     NaN
1   B       2     4.0
2   C       3     5.0
  key  value1  value2
0   B     2.0       4
1   C     3.0       5
2   D     NaN       6
     value1  value2
key                
B         2       4
C         3       5
    A   B
0  A0  B0
1  A1  B1
2  A2  B2
0  A3  B3
1  A4  B4
2  A5  B5
    A   B   A   B
0  A0  B0  A3  B3
1  A1  B1  A4  B4
2  A2  B2  A5  B5
C        large  small
A   B                
bar one    4.0    3.0
    two    NaN    3.0
foo one    2.0    1.0
    two    2.0    NaN
C    large  small
A                
bar      1      2
foo      2      1
     A variable  value
0  foo        B      1
1  bar        B      2
2  baz    

ModuleNotFoundError: No module named 'dask'

ModuleNotFoundError: No module named 'dask'

In [None]:
# 执行大概率会异常,就会需要异常处理框架

In [9]:
ttx = """
当然可以！以下是基于你的学习清单，针对可以代码实现的部分编写的详细教程。每个部分都包含了示例代码和解释。

1. 基础知识复习

Pandas基本操作

import pandas as pd

# 创建DataFrame
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)
print(df)

# 数据选择与过滤
print(df['A'])  # 选择列
print(df[df['A'] > 1])  # 过滤行

# 数据清洗与预处理
df['C'] = df['A'] + df['B']  # 新增列
df.dropna(inplace=True)  # 删除缺失值
print(df)
2. 数据合并与连接

合并（Merge）

# 创建两个DataFrame
df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value1': [1, 2, 3]})
df2 = pd.DataFrame({'key': ['B', 'C', 'D'], 'value2': [4, 5, 6]})

# 内连接
merged_inner = pd.merge(df1, df2, on='key', how='inner')
print(merged_inner)

# 外连接
merged_outer = pd.merge(df1, df2, on='key', how='outer')
print(merged_outer)

# 左连接
merged_left = pd.merge(df1, df2, on='key', how='left')
print(merged_left)

# 右连接
merged_right = pd.merge(df1, df2, on='key', how='right')
print(merged_right)
连接（Join）

# 创建两个DataFrame
df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value1': [1, 2, 3]}).set_index('key')
df2 = pd.DataFrame({'key': ['B', 'C', 'D'], 'value2': [4, 5, 6]}).set_index('key')

# 使用join进行连接
joined = df1.join(df2, how='inner')
print(joined)
连接轴（Concatenation）

# 创建两个DataFrame
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'], 'B': ['B0', 'B1', 'B2']})
df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'], 'B': ['B3', 'B4', 'B5']})

# 沿行连接
concat_rows = pd.concat([df1, df2], axis=0)
print(concat_rows)

# 沿列连接
concat_cols = pd.concat([df1, df2], axis=1)
print(concat_cols)
3. 数据透视表与交叉表

数据透视表（Pivot Table）

# 创建DataFrame
data = {'A': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'],
        'B': ['one', 'one', 'two', 'two', 'one', 'one'],
        'C': ['small', 'large', 'large', 'small', 'small', 'large'],
        'D': [1, 2, 2, 3, 3, 4]}
df = pd.DataFrame(data)

# 创建数据透视表
pivot_table = pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'], aggfunc='sum')
print(pivot_table)
交叉表（Crosstab）

# 创建交叉表
crosstab = pd.crosstab(df['A'], df['C'])
print(crosstab)
4. 重塑与透视

重塑（Reshape）

# 创建DataFrame
data = {'A': ['foo', 'bar', 'baz'], 'B': [1, 2, 3], 'C': [4, 5, 6]}
df = pd.DataFrame(data)

# 使用melt函数
melted = pd.melt(df, id_vars=['A'], value_vars=['B', 'C'])
print(melted)
透视（Pivot）

# 创建DataFrame
data = {'A': ['foo', 'foo', 'bar', 'bar'], 'B': ['one', 'two', 'one', 'two'], 'C': [1, 2, 3, 4]}
df = pd.DataFrame(data)

# 使用pivot方法
pivoted = df.pivot(index='A', columns='B', values='C')
print(pivoted)
5. 分组与聚合

分组操作（GroupBy）

# 创建DataFrame
data = {'A': ['foo', 'bar', 'foo', 'bar'], 'B': ['one', 'one', 'two', 'two'], 'C': [1, 2, 3, 4]}
df = pd.DataFrame(data)

# 分组并聚合
grouped = df.groupby('A').sum()
print(grouped)

# 多层分组与多重聚合
multi_grouped = df.groupby(['A', 'B']).agg({'C': ['sum', 'mean']})
print(multi_grouped)
6. 时间序列数据处理

时间序列数据

# 创建时间序列DataFrame
date_rng = pd.date_range(start='2023-01-01', end='2023-01-10', freq='D')
df = pd.DataFrame(date_rng, columns=['date'])
df['data'] = pd.Series(range(1, len(df)+1))

# 设置日期时间索引
df.set_index('date', inplace=True)
print(df)

# 时间重采样
resampled = df.resample('2D').sum()
print(resampled)
7. 高级数据处理技巧

条件合并

import numpy as np

# 创建两个DataFrame
df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value1': [1, 2, 3]})
df2 = pd.DataFrame({'key': ['B', 'C', 'D'], 'value2': [4, 5, 6]})

# 条件合并
merged = pd.merge(df1, df2, on='key', how='outer')
merged['value'] = np.where(pd.notnull(merged['value1']), merged['value1'], merged['value2'])
print(merged)
自定义函数与应用

# 创建DataFrame
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)

# 使用apply方法
df['C'] = df['A'].apply(lambda x: x * 2)
print(df)

# 自定义聚合函数
def custom_agg(x):
    return x.max() - x.min()

grouped = df.groupby('A').agg(custom_agg)
print(grouped)
8. 性能优化

性能调优

import dask.dataframe as dd

# 创建大数据集
large_df = pd.DataFrame({'A': range(1000000), 'B': range(1000000)})

# 使用dask进行大数据处理
dask_df = dd.from_pandas(large_df, npartitions=10)
result = dask_df.groupby('A').sum().compute()
print(result)
9. 实战案例与项目

实战案例

# 示例：多表数据的实际业务场景应用
# 假设有两个表：订单表和客户表

# 创建订单表
orders = pd.DataFrame({
    'order_id': [1, 2, 3, 4],
    'customer_id': [1, 2, 1, 3],
    'amount': [100, 200, 150, 300]
})

# 创建客户表
customers = pd.DataFrame({
    'customer_id': [1, 2, 3],
    'customer_name': ['Alice', 'Bob', 'Charlie']
})

# 合并订单表和客户表
merged_data = pd.merge(orders, customers, on='customer_id')
print(merged_data)

# 分析每个客户的总订单金额
customer_total = merged_data.groupby('customer_name')['amount'].sum().reset_index()
print(customer_total)
10. 参考资料与社区资源

官方文档

Pandas官方文档
书籍与教程

《Python for Data Analysis》 by Wes McKinney
Pandas官方教程
社区与论坛

Stack Overflow上的Pandas标签
Pandas GitHub社区
通过以上代码示例和解释，你可以更深入地理解和掌握Pandas多表处理的技巧。希望这些内容对你有所帮助，祝你学习顺利！"""

In [11]:
print(ttx)


当然可以！以下是基于你的学习清单，针对可以代码实现的部分编写的详细教程。每个部分都包含了示例代码和解释。

1. 基础知识复习

Pandas基本操作

import pandas as pd

# 创建DataFrame
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)
print(df)

# 数据选择与过滤
print(df['A'])  # 选择列
print(df[df['A'] > 1])  # 过滤行

# 数据清洗与预处理
df['C'] = df['A'] + df['B']  # 新增列
df.dropna(inplace=True)  # 删除缺失值
print(df)
2. 数据合并与连接

合并（Merge）

# 创建两个DataFrame
df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value1': [1, 2, 3]})
df2 = pd.DataFrame({'key': ['B', 'C', 'D'], 'value2': [4, 5, 6]})

# 内连接
merged_inner = pd.merge(df1, df2, on='key', how='inner')
print(merged_inner)

# 外连接
merged_outer = pd.merge(df1, df2, on='key', how='outer')
print(merged_outer)

# 左连接
merged_left = pd.merge(df1, df2, on='key', how='left')
print(merged_left)

# 右连接
merged_right = pd.merge(df1, df2, on='key', how='right')
print(merged_right)
连接（Join）

# 创建两个DataFrame
df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value1': [1, 2, 3]}).set_index('key')
df2 = pd.DataFrame({'key': ['B', 'C', 'D'], 'va

In [20]:
print(e)

None


In [None]:
# 报错如何处理

In [None]:
# 未报错 执行下一步

In [21]:
ttx

"\n当然可以！以下是基于你的学习清单，针对可以代码实现的部分编写的详细教程。每个部分都包含了示例代码和解释。\n\n1. 基础知识复习\n\nPandas基本操作\n\nimport pandas as pd\n\n# 创建DataFrame\ndata = {'A': [1, 2, 3], 'B': [4, 5, 6]}\ndf = pd.DataFrame(data)\nprint(df)\n\n# 数据选择与过滤\nprint(df['A'])  # 选择列\nprint(df[df['A'] > 1])  # 过滤行\n\n# 数据清洗与预处理\ndf['C'] = df['A'] + df['B']  # 新增列\ndf.dropna(inplace=True)  # 删除缺失值\nprint(df)\n2. 数据合并与连接\n\n合并（Merge）\n\n# 创建两个DataFrame\ndf1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value1': [1, 2, 3]})\ndf2 = pd.DataFrame({'key': ['B', 'C', 'D'], 'value2': [4, 5, 6]})\n\n# 内连接\nmerged_inner = pd.merge(df1, df2, on='key', how='inner')\nprint(merged_inner)\n\n# 外连接\nmerged_outer = pd.merge(df1, df2, on='key', how='outer')\nprint(merged_outer)\n\n# 左连接\nmerged_left = pd.merge(df1, df2, on='key', how='left')\nprint(merged_left)\n\n# 右连接\nmerged_right = pd.merge(df1, df2, on='key', how='right')\nprint(merged_right)\n连接（Join）\n\n# 创建两个DataFrame\ndf1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value1': [1, 2, 3]}).set_index('key'

In [25]:
1

1

In [30]:
result3 = llm.complete(f"""
我这里有一些对于{target}的研究文档,我希望将其进行适当的编写,使其成为方便好用且拓展性好的工具包.
----
{ttx}
----
我希望函数更具拓展性和通用性,  其中具体的例子可以改为注释的形式.
""")

In [31]:
Markdown(result3.text)

好的，为了使这些函数更具拓展性和通用性，我们可以将每个操作封装成函数，并添加参数以便用户自定义操作。以下是改进后的代码：

```python
import pandas as pd
import numpy as np
import dask.dataframe as dd

# 基础知识复习
def create_dataframe(data):
    """
    创建DataFrame
    :param data: 字典形式的数据
    :return: DataFrame
    """
    return pd.DataFrame(data)

def select_and_filter(df, column, condition=None):
    """
    数据选择与过滤
    :param df: DataFrame
    :param column: 选择的列
    :param condition: 过滤条件
    :return: 过滤后的DataFrame
    """
    if condition:
        return df[df[column] > condition]
    return df[column]

def clean_and_preprocess(df, new_column, operation, dropna=True):
    """
    数据清洗与预处理
    :param df: DataFrame
    :param new_column: 新增列名
    :param operation: 新增列的操作
    :param dropna: 是否删除缺失值
    :return: 处理后的DataFrame
    """
    df[new_column] = operation(df)
    if dropna:
        df.dropna(inplace=True)
    return df

# 数据合并与连接
def merge_dataframes(df1, df2, key, how='inner'):
    """
    合并两个DataFrame
    :param df1: 第一个DataFrame
    :param df2: 第二个DataFrame
    :param key: 合并键
    :param how: 合并方式
    :return: 合并后的DataFrame
    """
    return pd.merge(df1, df2, on=key, how=how)

def join_dataframes(df1, df2, how='inner'):
    """
    使用join连接两个DataFrame
    :param df1: 第一个DataFrame
    :param df2: 第二个DataFrame
    :param how: 连接方式
    :return: 连接后的DataFrame
    """
    return df1.join(df2, how=how)

def concatenate_dataframes(dfs, axis=0):
    """
    沿指定轴连接多个DataFrame
    :param dfs: DataFrame列表
    :param axis: 连接轴
    :return: 连接后的DataFrame
    """
    return pd.concat(dfs, axis=axis)

# 数据透视表与交叉表
def create_pivot_table(df, values, index, columns, aggfunc='sum'):
    """
    创建数据透视表
    :param df: DataFrame
    :param values: 透视表值
    :param index: 行索引
    :param columns: 列索引
    :param aggfunc: 聚合函数
    :return: 数据透视表
    """
    return pd.pivot_table(df, values=values, index=index, columns=columns, aggfunc=aggfunc)

def create_crosstab(df, row, col):
    """
    创建交叉表
    :param df: DataFrame
    :param row: 行变量
    :param col: 列变量
    :return: 交叉表
    """
    return pd.crosstab(df[row], df[col])

# 重塑与透视
def reshape_dataframe(df, id_vars, value_vars):
    """
    使用melt函数重塑DataFrame
    :param df: DataFrame
    :param id_vars: 保持不变的列
    :param value_vars: 需要重塑的列
    :return: 重塑后的DataFrame
    """
    return pd.melt(df, id_vars=id_vars, value_vars=value_vars)

def pivot_dataframe(df, index, columns, values):
    """
    使用pivot方法透视DataFrame
    :param df: DataFrame
    :param index: 行索引
    :param columns: 列索引
    :param values: 透视值
    :return: 透视后的DataFrame
    """
    return df.pivot(index=index, columns=columns, values=values)

# 分组与聚合
def group_and_aggregate(df, by, aggfunc='sum'):
    """
    分组并聚合DataFrame
    :param df: DataFrame
    :param by: 分组键
    :param aggfunc: 聚合函数
    :return: 聚合后的DataFrame
    """
    return df.groupby(by).agg(aggfunc)

def multi_group_and_aggregate(df, by, agg_dict):
    """
    多层分组与多重聚合
    :param df: DataFrame
    :param by: 分组键
    :param agg_dict: 聚合字典
    :return: 聚合后的DataFrame
    """
    return df.groupby(by).agg(agg_dict)

# 时间序列数据处理
def create_time_series(start, end, freq='D'):
    """
    创建时间序列DataFrame
    :param start: 开始日期
    :param end: 结束日期
    :param freq: 频率
    :return: 时间序列DataFrame
    """
    date_rng = pd.date_range(start=start, end=end, freq=freq)
    df = pd.DataFrame(date_rng, columns=['date'])
    df['data'] = pd.Series(range(1, len(df)+1))
    df.set_index('date', inplace=True)
    return df

def resample_time_series(df, rule, aggfunc='sum'):
    """
    时间重采样
    :param df: 时间序列DataFrame
    :param rule: 重采样规则
    :param aggfunc: 聚合函数
    :return: 重采样后的DataFrame
    """
    return df.resample(rule).agg(aggfunc)

# 高级数据处理技巧
def conditional_merge(df1, df2, key, condition_column, new_column):
    """
    条件合并两个DataFrame
    :param df1: 第一个DataFrame
    :param df2: 第二个DataFrame
    :param key: 合并键
    :param condition_column: 条件列
    :param new_column: 新列名
    :return: 合并后的DataFrame
    """
    merged = pd.merge(df1, df2, on=key, how='outer')
    merged[new_column] = np.where(pd.notnull(merged[condition_column[0]]), merged[condition_column[0]], merged[condition_column[1]])
    return merged

def apply_custom_function(df, column, func):
    """
    使用自定义函数处理DataFrame
    :param df: DataFrame
    :param column: 需要处理的列
    :param func: 自定义函数
    :return: 处理后的DataFrame
    """
    df[column] = df[column].apply(func)
    return df

def custom_aggregate(df, by, func):
    """
    自定义聚合函数
    :param df: DataFrame
    :param by: 分组键
    :param func: 自定义聚合函数
    :return: 聚合后的DataFrame
    """
    return df.groupby(by).agg(func)

# 性能优化
def optimize_performance(df, npartitions=10):
    """
    使用Dask进行大数据处理
    :param df: 大数据集DataFrame
    :param npartitions: 分区数
    :return: 处理后的DataFrame
    """
    dask_df = dd.from_pandas(df, npartitions=npartitions)
    return dask_df.groupby('A').sum().compute()

# 实战案例与项目
def merge_orders_and_customers(orders, customers):
    """
    合并订单表和客户表
    :param orders: 订单表DataFrame
    :param customers: 客户表DataFrame
    :return: 合并后的DataFrame
    """
    return pd.merge(orders, customers, on='customer_id')

def analyze_customer_total(merged_data):
    """
    分析每个客户的总订单金额
    :param merged_data: 合并后的DataFrame
    :return: 每个客户的总订单金额DataFrame
    """
    return merged_data.groupby('customer_name')['amount'].sum().reset_index()

# 参考资料与社区资源
def get_official_docs():
    """
    获取Pandas官方文档链接
    :return: 官方文档链接
    """
    return "https://pandas.pydata.org/pandas-docs/stable/"

def get_books_and_tutorials():
    """
    获取推荐书籍与教程
    :return: 推荐书籍与教程列表
    """
    return [
        "《Python for Data Analysis》 by Wes McKinney",
        "Pandas官方教程"
    ]

def get_community_resources():
    """
    获取社区与论坛资源
    :return: 社区与论坛资源列表
    """
    return [
        "Stack Overflow上的Pandas标签",
        "Pandas GitHub社区"
    ]
```

以上代码将每个操作封装成了函数，并添加了参数以便用户自定义操作。具体的例子被注释掉，用户可以根据需要调用这些函数并传入相应的参数。这样可以提高代码的可读性和可维护性，同时也增强了代码的通用性和拓展性。

In [33]:
import re

In [46]:
a = re.search(r"\n\n```python(.*?)```",result3.text,re.DOTALL)

In [50]:
print(a.group(1))


import pandas as pd
import numpy as np
import dask.dataframe as dd

# 基础知识复习
def create_dataframe(data):
    """
    创建DataFrame
    :param data: 字典形式的数据
    :return: DataFrame
    """
    return pd.DataFrame(data)

def select_and_filter(df, column, condition=None):
    """
    数据选择与过滤
    :param df: DataFrame
    :param column: 选择的列
    :param condition: 过滤条件
    :return: 过滤后的DataFrame
    """
    if condition:
        return df[df[column] > condition]
    return df[column]

def clean_and_preprocess(df, new_column, operation, dropna=True):
    """
    数据清洗与预处理
    :param df: DataFrame
    :param new_column: 新增列名
    :param operation: 新增列的操作
    :param dropna: 是否删除缺失值
    :return: 处理后的DataFrame
    """
    df[new_column] = operation(df)
    if dropna:
        df.dropna(inplace=True)
    return df

# 数据合并与连接
def merge_dataframes(df1, df2, key, how='inner'):
    """
    合并两个DataFrame
    :param df1: 第一个DataFrame
    :param df2: 第二个DataFrame
    :param key: 合并键
    :param how: 合并方式
    :

In [32]:
result3.text

'好的，为了使这些函数更具拓展性和通用性，我们可以将每个操作封装成函数，并添加参数以便用户自定义操作。以下是改进后的代码：\n\n```python\nimport pandas as pd\nimport numpy as np\nimport dask.dataframe as dd\n\n# 基础知识复习\ndef create_dataframe(data):\n    """\n    创建DataFrame\n    :param data: 字典形式的数据\n    :return: DataFrame\n    """\n    return pd.DataFrame(data)\n\ndef select_and_filter(df, column, condition=None):\n    """\n    数据选择与过滤\n    :param df: DataFrame\n    :param column: 选择的列\n    :param condition: 过滤条件\n    :return: 过滤后的DataFrame\n    """\n    if condition:\n        return df[df[column] > condition]\n    return df[column]\n\ndef clean_and_preprocess(df, new_column, operation, dropna=True):\n    """\n    数据清洗与预处理\n    :param df: DataFrame\n    :param new_column: 新增列名\n    :param operation: 新增列的操作\n    :param dropna: 是否删除缺失值\n    :return: 处理后的DataFrame\n    """\n    df[new_column] = operation(df)\n    if dropna:\n        df.dropna(inplace=True)\n    return df\n\n# 数据合并与连接\ndef merge_dataframes(df1, df2, key, how=\'inner\'):\n    """\n   

In [52]:
target

'pandas多表处理的技巧'

In [53]:
with open(f"{target}.py",'w') as f:
    f.write(a.group(1))

In [54]:
!ls

auto research.ipynb               pandas多表处理的技巧.ipynb
auto_coder-Copy1.ipynb            pandas多表处理的技巧.py
auto_coder-Copy2.ipynb            projects_auto.ipynb
auto_coder.ipynb                  puppeteer的使用技巧.ipynb
autostudy.ipynb                   utils.ipynb
[34mfunction[m[m                          xxxx.ipynb
[34mpandas_styler[m[m


In [55]:
a.group(1)

'\nimport pandas as pd\nimport numpy as np\nimport dask.dataframe as dd\n\n# 基础知识复习\ndef create_dataframe(data):\n    """\n    创建DataFrame\n    :param data: 字典形式的数据\n    :return: DataFrame\n    """\n    return pd.DataFrame(data)\n\ndef select_and_filter(df, column, condition=None):\n    """\n    数据选择与过滤\n    :param df: DataFrame\n    :param column: 选择的列\n    :param condition: 过滤条件\n    :return: 过滤后的DataFrame\n    """\n    if condition:\n        return df[df[column] > condition]\n    return df[column]\n\ndef clean_and_preprocess(df, new_column, operation, dropna=True):\n    """\n    数据清洗与预处理\n    :param df: DataFrame\n    :param new_column: 新增列名\n    :param operation: 新增列的操作\n    :param dropna: 是否删除缺失值\n    :return: 处理后的DataFrame\n    """\n    df[new_column] = operation(df)\n    if dropna:\n        df.dropna(inplace=True)\n    return df\n\n# 数据合并与连接\ndef merge_dataframes(df1, df2, key, how=\'inner\'):\n    """\n    合并两个DataFrame\n    :param df1: 第一个DataFrame\n    :param df2: 第二个DataFram

In [56]:
result4 = llm.complete(f"""
我这里有一些写好的函数,我希望你针对这些函数编写它们对应的api文档.
----
{a.group(1)}
----
""")

In [61]:
with open('api.md','w') as f:
    f.write(result4.text)

In [59]:
Markdown(result4.text)

以下是针对您提供的函数编写的API文档：

### 基础知识复习

#### `create_dataframe(data)`
创建一个DataFrame。

- **参数**
  - `data` (dict): 字典形式的数据。
- **返回**
  - `pd.DataFrame`: 创建的DataFrame。

#### `select_and_filter(df, column, condition=None)`
选择和过滤DataFrame中的数据。

- **参数**
  - `df` (pd.DataFrame): 输入的DataFrame。
  - `column` (str): 选择的列名。
  - `condition` (optional, any): 过滤条件，默认为None。
- **返回**
  - `pd.DataFrame` 或 `pd.Series`: 过滤后的DataFrame或选择的列。

#### `clean_and_preprocess(df, new_column, operation, dropna=True)`
清洗和预处理DataFrame。

- **参数**
  - `df` (pd.DataFrame): 输入的DataFrame。
  - `new_column` (str): 新增列名。
  - `operation` (function): 新增列的操作函数。
  - `dropna` (bool): 是否删除缺失值，默认为True。
- **返回**
  - `pd.DataFrame`: 处理后的DataFrame。

### 数据合并与连接

#### `merge_dataframes(df1, df2, key, how='inner')`
合并两个DataFrame。

- **参数**
  - `df1` (pd.DataFrame): 第一个DataFrame。
  - `df2` (pd.DataFrame): 第二个DataFrame。
  - `key` (str): 合并键。
  - `how` (str): 合并方式，默认为'inner'。
- **返回**
  - `pd.DataFrame`: 合并后的DataFrame。

#### `join_dataframes(df1, df2, how='inner')`
使用join连接两个DataFrame。

- **参数**
  - `df1` (pd.DataFrame): 第一个DataFrame。
  - `df2` (pd.DataFrame): 第二个DataFrame。
  - `how` (str): 连接方式，默认为'inner'。
- **返回**
  - `pd.DataFrame`: 连接后的DataFrame。

#### `concatenate_dataframes(dfs, axis=0)`
沿指定轴连接多个DataFrame。

- **参数**
  - `dfs` (list of pd.DataFrame): DataFrame列表。
  - `axis` (int): 连接轴，默认为0。
- **返回**
  - `pd.DataFrame`: 连接后的DataFrame。

### 数据透视表与交叉表

#### `create_pivot_table(df, values, index, columns, aggfunc='sum')`
创建数据透视表。

- **参数**
  - `df` (pd.DataFrame): 输入的DataFrame。
  - `values` (str): 透视表值。
  - `index` (str): 行索引。
  - `columns` (str): 列索引。
  - `aggfunc` (str): 聚合函数，默认为'sum'。
- **返回**
  - `pd.DataFrame`: 数据透视表。

#### `create_crosstab(df, row, col)`
创建交叉表。

- **参数**
  - `df` (pd.DataFrame): 输入的DataFrame。
  - `row` (str): 行变量。
  - `col` (str): 列变量。
- **返回**
  - `pd.DataFrame`: 交叉表。

### 重塑与透视

#### `reshape_dataframe(df, id_vars, value_vars)`
使用melt函数重塑DataFrame。

- **参数**
  - `df` (pd.DataFrame): 输入的DataFrame。
  - `id_vars` (list of str): 保持不变的列。
  - `value_vars` (list of str): 需要重塑的列。
- **返回**
  - `pd.DataFrame`: 重塑后的DataFrame。

#### `pivot_dataframe(df, index, columns, values)`
使用pivot方法透视DataFrame。

- **参数**
  - `df` (pd.DataFrame): 输入的DataFrame。
  - `index` (str): 行索引。
  - `columns` (str): 列索引。
  - `values` (str): 透视值。
- **返回**
  - `pd.DataFrame`: 透视后的DataFrame。

### 分组与聚合

#### `group_and_aggregate(df, by, aggfunc='sum')`
分组并聚合DataFrame。

- **参数**
  - `df` (pd.DataFrame): 输入的DataFrame。
  - `by` (str or list of str): 分组键。
  - `aggfunc` (str or dict): 聚合函数，默认为'sum'。
- **返回**
  - `pd.DataFrame`: 聚合后的DataFrame。

#### `multi_group_and_aggregate(df, by, agg_dict)`
多层分组与多重聚合。

- **参数**
  - `df` (pd.DataFrame): 输入的DataFrame。
  - `by` (str or list of str): 分组键。
  - `agg_dict` (dict): 聚合字典。
- **返回**
  - `pd.DataFrame`: 聚合后的DataFrame。

### 时间序列数据处理

#### `create_time_series(start, end, freq='D')`
创建时间序列DataFrame。

- **参数**
  - `start` (str): 开始日期。
  - `end` (str): 结束日期。
  - `freq` (str): 频率，默认为'D'。
- **返回**
  - `pd.DataFrame`: 时间序列DataFrame。

#### `resample_time_series(df, rule, aggfunc='sum')`
时间重采样。

- **参数**
  - `df` (pd.DataFrame): 时间序列DataFrame。
  - `rule` (str): 重采样规则。
  - `aggfunc` (str): 聚合函数，默认为'sum'。
- **返回**
  - `pd.DataFrame`: 重采样后的DataFrame。

### 高级数据处理技巧

#### `conditional_merge(df1, df2, key, condition_column, new_column)`
条件合并两个DataFrame。

- **参数**
  - `df1` (pd.DataFrame): 第一个DataFrame。
  - `df2` (pd.DataFrame): 第二个DataFrame。
  - `key` (str): 合并键。
  - `condition_column` (list of str): 条件列。
  - `new_column` (str): 新列名。
- **返回**
  - `pd.DataFrame`: 合并后的DataFrame。

#### `apply_custom_function(df, column, func)`
使用自定义函数处理DataFrame。

- **参数**
  - `df` (pd.DataFrame): 输入的DataFrame。
  - `column` (str): 需要处理的列。
  - `func` (function): 自定义函数。
- **返回**
  - `pd.DataFrame`: 处理后的DataFrame。

#### `custom_aggregate(df, by, func)`
自定义聚合函数。

- **参数**
  - `df` (pd.DataFrame): 输入的DataFrame。
  - `by` (str or list of str): 分组键。
  - `func` (function): 自定义聚合函数。
- **返回**
  - `pd.DataFrame`: 聚合后的DataFrame。

### 性能优化

#### `optimize_performance(df, npartitions=10)`
使用Dask进行大数据处理。

- **参数**
  - `df` (pd.DataFrame): 大数据集DataFrame。
  - `npartitions` (int): 分区数，默认为10。
- **返回**
  - `pd.DataFrame`: 处理后的DataFrame。

### 实战案例与项目

#### `merge_orders_and_customers(orders, customers)`
合并订单表和客户表。

- **参数**
  - `orders` (pd.DataFrame): 订单表DataFrame。
  - `customers` (pd.DataFrame): 客户表DataFrame。
- **返回**
  - `pd.DataFrame`: 合并后的DataFrame。

#### `analyze_customer_total(merged_data)`
分析每个客户的总订单金额。

- **参数**
  - `merged_data` (pd.DataFrame): 合并后的DataFrame。
- **返回**
  - `pd.DataFrame`: 每个客户的总订单金额DataFrame。

### 参考资料与社区资源

#### `get_official_docs()`
获取Pandas官方文档链接。

- **返回**
  - `str`: 官方文档链接。

#### `get_books_and_tutorials()`
获取推荐书籍与教程。

- **返回**
  - `list of str`: 推荐书籍与教程列表。

#### `get_community_resources()`
获取社区与论坛资源。

- **返回**
  - `list of str`: 社区与论坛资源列表。

In [None]:
保存到obstain 中

In [None]:
然后再用知识库管理调用obstain的数据


In [None]:
3 拓展眼界,自动化的收集和推送新信息, 自动化聊天沟通
4 具备对于能力的管理能力,查询能力,以及智慧问答能力(可以方便的知道我的,能力范围,能力边界,研究方向等)

In [62]:
!ls

api.md                            [34mpandas_styler[m[m
auto research.ipynb               pandas多表处理的技巧.ipynb
auto_coder-Copy1.ipynb            pandas多表处理的技巧.py
auto_coder-Copy2.ipynb            projects_auto.ipynb
auto_coder.ipynb                  puppeteer的使用技巧.ipynb
autostudy.ipynb                   utils.ipynb
[34mfunction[m[m                          xxxx.ipynb


In [152]:
%%writefile information_cloud.js
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
const path = require('path');
const fs = require('fs');

puppeteer.use(StealthPlugin());

function sleep(ms) {
  return new Promise(resolve => setTimeout(resolve, ms));
}

(async () => {
    // code 
    // Launch the browser and open a new blank page
    const browser = await puppeteer.launch({
      headless: false, // 非无头模式
    executablePath: '/Users/zhaoxuefeng/.cache/puppeteer/chrome/mac_arm-121.0.6167.85/chrome-mac-arm64/Google Chrome for Testing.app/Contents/MacOS/Google Chrome for Testing',
    userDataDir: './engine',
    });
    const page = await browser.newPage('https://www.qbitai.com/category/资讯');
    await page.setViewport({
        width: 1200,
        height: 1200,
        deviceScaleFactor: 1,
    });
    // Navigate the page to a URL
    await page.goto('https://www.qbitai.com/category/资讯');
    console.log('open')
    const infos = await page.$$("xpath//html/body/div[1]/div[1]/div/div");

    console.log("xxx")      
    console.log(infos.length)
    let myList = [];
    for (let i = 0; i< infos.length; i++) {
        const html = await page.evaluate(element => element.innerHTML, infos[i]);
               
        console.log(html)
        console.log('xxxxxxxxxxxxxx')
        
        const titleMatch = html.match(/<h4><a href="([^"]*)" [^>]*>([^<]*)<\/a><\/h4>/);
        const title = titleMatch ? titleMatch[2] : '';
        const titleLink = titleMatch ? titleMatch[1] : '';

        // 使用正则表达式提取作者
        const authorMatch = html.match(/<span class="author"><a [^>]*>([^<]*)<\/a><\/span>/);
        const author = authorMatch ? authorMatch[1] : '';

        // 使用正则表达式提取发布时间
        const timeMatch = html.match(/<span class="time">([^<]*)<\/span>/);
        const time = timeMatch ? timeMatch[1] : '';

        // 使用正则表达式提取标签
        const tagsMatch = html.match(/<div class="tags_s">([\s\S]*?)<\/div>/);
        const tags = tagsMatch ? tagsMatch[1].match(/<a [^>]*>([^<]*)<\/a>/g).map(tag => tag.replace(/<a [^>]*>([^<]*)<\/a>/, '$1')) : [];

        console.log({
            title,
            titleLink,
            author,
            time,
            tags
        });
        myList.push({
            title,
            titleLink,
            author,
            time,
            tags
        })
        const newPage = await browser.newPage();
        await newPage.goto(titleLink);
        await page.waitForTimeout(100); // 等待页面加载完成
        await page.pdf({path:`${title}.pdf`,});

        await newPage.close();
        await page.bringToFront();

        
        
    }
    console.log(myList);
    
    
    
    
    
    const fs = require('fs');
    
    const jsonString = JSON.stringify(myList, null, 2);

    fs.writeFile('articles.json', jsonString, (err) => {
      if (err) {
        console.error('Error writing file', err);
      } else {
        console.log('Successfully wrote file');
      }
    });
    

    
    
    // const htmlContent = await page.$eval('xpath//html/body/div[1]/div[1]/div', element => element.innerHTML);
    // console.log(htmlContent)
    
    
    // await browser.close();
    
})();

Overwriting information_cloud.js


In [153]:
# https://www.jiqizhixin.com/categories/basic

In [154]:
!node ./information_cloud.js

[1m[43m[30m
  Launching Chrome on Mac Silicon (arm64) from an x64 Node installation results in
  Rosetta translating the Chrome binary, even if Chrome is already arm64. This would
  result in huge performance issues. To resolve this, you must run Puppeteer with
  a version of Node built for arm64.
open
xxx
[33m21[39m

                <div class="picture"><a href="https://www.qbitai.com/2024/08/173950.html" target="_blank"><img width="204" height="136" src="https://www.qbitai.com/wp-content/uploads/replace/2c05c1a54bd12081c0e3e3a609f8ad2a.png" class="attachment-744x136 size-744x136 wp-post-image" alt="" srcset="https://www.qbitai.com/wp-content/uploads/replace/2c05c1a54bd12081c0e3e3a609f8ad2a.png 832w, https://www.qbitai.com/wp-content/uploads/replace/2c05c1a54bd12081c0e3e3a609f8ad2a-300x200.png 300w, https://www.qbitai.com/wp-content/uploads/replace/2c05c1a54bd12081c0e3e3a609f8ad2a-768x511.png 768w" sizes="(max-width: 204px) 85vw, 204px"></a></div>
                <div class="text

In [None]:
1

In [None]:
3 拓展眼界,自动化的收集和推送新信息, 自动化聊天沟通
4 具备对于能力的管理能力,查询能力,以及智慧问答能力(可以方便的知道我的,能力范围,能力边界,研究方向等)

In [None]:
1 保存到知识库中 可以调用和搜索
2 总结,归纳,每日推荐

In [158]:
from zxftools_dev.rag import LoadData

In [160]:
docuemnts = LoadData('pdfs')

In [163]:
from zxftools_dev.rag import SplitterFactory,SplitterType

In [167]:
splits = SplitterFactory(SplitterType.TOKEN_TEXT,chunk_size=1000,chunk_overlap=100)

In [169]:
nodes = splits.get_nodes_from_documents(docuemnts)

In [171]:
len(nodes)

45

In [172]:
nodes

[TextNode(id_='438cef6c-d95e-4439-9ac4-2880153145e0', embedding=None, metadata={'page_label': '1', 'file_name': 'AI加持创作，「小说-剧本-视频」只需一人全搞定｜对话波形智能.pdf', 'file_path': '/Users/zhaoxuefeng/Documents/Project/docs/zxfpro.github.io/slc/研究者/gpt_coder/pdfs/AI加持创作，「小说-剧本-视频」只需一人全搞定｜对话波形智能.pdf', 'file_type': 'application/pdf', 'file_size': 3212876, 'creation_date': '2024-08-01', 'last_modified_date': '2024-08-01'}, excluded_embed_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], excluded_llm_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], relationships={<NodeRelationship.SOURCE: '1'>: RelatedNodeInfo(node_id='/Users/zhaoxuefeng/Documents/Project/docs/zxfpro.github.io/slc/研究者/gpt_coder/pdfs/AI加持创作，「小说-剧本-视频」只需一人全搞定｜对话波形智能.pdf_part_0', node_type=<ObjectType.DOCUMENT: '4'>, metadata={'page_label': '1', 'file_name': 'AI加持创作，「小说-剧本-视频」只需一人全搞定｜对话波形智能.pdf', 'file_path': '/

In [173]:
from zxftools_dev.rag import IndexMaker

In [176]:
index = IndexMaker(nodes)

In [177]:
from zxftools_dev.rag.utils import set_global

In [179]:
set_global(llm=llm)

In [185]:
qengine = index.as_query_engine()

In [187]:
resu1 = qengine.query('我想知道关于gpt的最新消息')

In [191]:
resu1.response

'最新消息显示，360 ISC发布了国内首个免费安全大模型，其安全能力已经超过了GPT-4。此外，OpenAI推出了新AI搜索功能，并且微软也更新了Bing。'

In [192]:
resu1.source_nodes

[NodeWithScore(node=TextNode(id_='node-30', embedding=None, metadata={'page_label': '1', 'file_name': '超精细开放世界藏进小程序，他们用游戏技术复刻北京中轴线，穿越古今的那种.pdf', 'file_path': '/Users/zhaoxuefeng/Documents/Project/docs/zxfpro.github.io/slc/研究者/gpt_coder/pdfs/超精细开放世界藏进小程序，他们用游戏技术复刻北京中轴线，穿越古今的那种.pdf', 'file_type': 'application/pdf', 'file_size': 3212876, 'creation_date': '2024-08-01', 'last_modified_date': '2024-08-01'}, excluded_embed_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], excluded_llm_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], relationships={<NodeRelationship.SOURCE: '1'>: RelatedNodeInfo(node_id='/Users/zhaoxuefeng/Documents/Project/docs/zxfpro.github.io/slc/研究者/gpt_coder/pdfs/超精细开放世界藏进小程序，他们用游戏技术复刻北京中轴线，穿越古今的那种.pdf_part_0', node_type=<ObjectType.DOCUMENT: '4'>, metadata={'page_label': '1', 'file_name': '超精细开放世界藏进小程序，他们用游戏技术复刻北京中轴线，穿越古今的那种.pdf', 'file_pat

In [195]:
resu1.metadata

{'node-30': {'page_label': '1',
  'file_name': '超精细开放世界藏进小程序，他们用游戏技术复刻北京中轴线，穿越古今的那种.pdf',
  'file_path': '/Users/zhaoxuefeng/Documents/Project/docs/zxfpro.github.io/slc/研究者/gpt_coder/pdfs/超精细开放世界藏进小程序，他们用游戏技术复刻北京中轴线，穿越古今的那种.pdf',
  'file_type': 'application/pdf',
  'file_size': 3212876,
  'creation_date': '2024-08-01',
  'last_modified_date': '2024-08-01'},
 'node-33': {'page_label': '1',
  'file_name': '阿里云修复100年前巴黎奥运珍贵影像，国际奥委会主席巴赫致谢！.pdf',
  'file_path': '/Users/zhaoxuefeng/Documents/Project/docs/zxfpro.github.io/slc/研究者/gpt_coder/pdfs/阿里云修复100年前巴黎奥运珍贵影像，国际奥委会主席巴赫致谢！.pdf',
  'file_type': 'application/pdf',
  'file_size': 3212876,
  'creation_date': '2024-08-01',
  'last_modified_date': '2024-08-01'}}

In [None]:
# 搜索引擎 假如说,这个搜索引擎很准,

In [196]:
Markdown(resu1.response)

最新消息显示，360 ISC发布了国内首个免费安全大模型，其安全能力已经超过了GPT-4。此外，OpenAI推出了新AI搜索功能，并且微软也更新了Bing。

In [None]:
## 询问

In [198]:
from IPython.display import JSON

In [199]:
JSON(resu1.source_nodes)

<IPython.core.display.JSON object>

In [201]:
JSON(resu1.metadata)

<IPython.core.display.JSON object>

In [203]:
docus = LoadData('api.md')

In [205]:
spl = splits.get_nodes_from_documents( docus)

In [208]:
index2 = IndexMaker(spl)

In [210]:
qes  =index2.as_query_engine()

In [212]:
resp1 = qes.query('合并')

In [217]:
resp1.source_nodes[0].text

'数据合并与连接'

In [None]:
获得对应功能的API

In [None]:
信息推送

In [218]:
from zxftools_dev.project import IO

In [220]:
aa = IO.load_json('articles.json')

In [221]:
aa # 可以先把这个框架推荐给我就行 增量的推

[{'title': '周鸿祎ISC发布国内首个免费安全大模型 安全能力超越GPT-4',
  'titleLink': 'https://www.qbitai.com/2024/08/173950.html',
  'author': '量子位',
  'time': '3分钟前',
  'tags': ['360', 'isc']},
 {'title': '想跑千亿大模型？算力厂商放大招！CPU通用服务器成为新选择',
  'titleLink': 'https://www.qbitai.com/2024/08/173952.html',
  'author': '克雷西',
  'time': '9分钟前',
  'tags': ['CPU', '服务器']},
 {'title': '吴恩达弟子打造arXiv弹幕版，每篇论文都能自由讨论了！',
  'titleLink': 'https://www.qbitai.com/2024/08/173863.html',
  'author': '明敏',
  'time': '1小时前 ',
  'tags': ['arXiv', '公开评审', '斯坦福']},
 {'title': 'ChatGPT版「Her」被玩疯：哭着读诗，中文表现也很亮',
  'titleLink': 'https://www.qbitai.com/2024/08/173624.html',
  'author': '十三',
  'time': '1小时前 ',
  'tags': ['ChatGPT', 'GPT-4o', 'OpenAI']},
 {'title': '飞桨框架进阶3.0！一文讲透“大模型训推一体”等五大新特性',
  'titleLink': 'https://www.qbitai.com/2024/08/173804.html',
  'author': '十三',
  'time': '2小时前 ',
  'tags': ['大模型', '文心一言', '百度', '飞桨']},
 {'title': '首届陈景润奖颁发！90后山大教授和84年中科院研究员研究成果获奖',
  'titleLink': 'https://www.qbitai.com/2024/08/173647.html',
  'aut

![image.png](attachment:2ad6cde1-23cd-4d8b-b1ef-b5497d75b1ef.png)

In [26]:
import nbformat as nbf

# 创建一个新的Notebook对象
nb = nbf.v4.new_notebook()

# 添加Markdown单元格
markdown_cell = nbf.v4.new_markdown_cell("# 这是一个Markdown单元格\n\n以下是一些关于如何写一个好的Prompt的指南。")
nb.cells.append(markdown_cell)

# 添加代码单元格
code_cell = nbf.v4.new_code_cell("""# 示例Prompt
prompt = \"\"\"
请撰写一份关于人工智能未来发展的详细报告。报告应包括以下几个方面：
1. 人工智能的历史背景。
2. 当前的主要应用领域。
3. 未来五年的发展趋势预测。
4. 人工智能可能带来的社会和经济影响。
5. 相关的伦理和法律问题。

报告应使用学术写作风格，长度为3000字左右，并引用最新的研究和数据。
\"\"\"
print(prompt)
""")
nb.cells.append(code_cell)

# 保存为一个新的ipynb文件
with open('example_notebook.ipynb', 'w', encoding='utf-8') as f:
    nbf.write(nb, f)


In [36]:
import nbformat as nbf
from nbconvert.preprocessors import ExecutePreprocessor
import io

# 创建一个新的Notebook对象
nb = nbf.v4.new_notebook()

# 添加Markdown单元格
markdown_cell = nbf.v4.new_markdown_cell("# 这是一个Markdown单元格\n\n以下是一些关于如何写一个好的Prompt的指南。")
nb.cells.append(markdown_cell)

# 添加代码单元格
code_cell = nbf.v4.new_code_cell("""# 示例Prompt
prompt = \"\"\"
请撰写一份关于人工智能未来发展的详细报告。报告应包括以下几个方面：
1. 人工智能的历史背景。
2. 当前的主要应用领域。
3. 未来五年的发展趋势预测。
4. 人工智能可能带来的社会和经济影响。
5. 相关的伦理和法律问题。

报告应使用学术写作风格，长度为3000字左右，并引用最新的研究和数据。
\"\"\"
print(prompt)
""")
nb.cells.append(code_cell)
nb.cells.append(nbf.v4.new_code_cell('sdfsdf'))

# 保存为一个新的ipynb文件
notebook_filename = 'example_notebook.ipynb'
with open(notebook_filename, 'w', encoding='utf-8') as f:
    nbf.write(nb, f)

# 运行Notebook并捕获输出和错误信息
def run_notebook(notebook_filename):
    global xx
    with open(notebook_filename) as f:
        nb = nbf.read(f, as_version=4)
        
    ep = ExecutePreprocessor(timeout=600, kernel_name='python3')
    
    try:
        ep.preprocess(nb, {'metadata': {'path': './'}})
    except Exception as e:
        xx = e
        print("Error during execution:", e)
        
    # 捕获输出和错误信息
    output_stream = io.StringIO()
    for cell in nb.cells:
        if 'outputs' in cell:
            for output in cell['outputs']:
                if output.output_type == 'stream':
                    output_stream.write(output.text)
                elif output.output_type == 'error':
                    output_stream.write('\n'.join(output.traceback))
    
    return output_stream.getvalue()

output = run_notebook(notebook_filename)
print(output)




Error during execution: An error occurred while executing the following cell:
------------------
sdfsdf
------------------


[0;31m---------------------------------------------------------------------------[0m
[0;31mNameError[0m                                 Traceback (most recent call last)
Cell [0;32mIn[2], line 1[0m
[0;32m----> 1[0m [43msdfsdf[49m

[0;31mNameError[0m: name 'sdfsdf' is not defined


请撰写一份关于人工智能未来发展的详细报告。报告应包括以下几个方面：
1. 人工智能的历史背景。
2. 当前的主要应用领域。
3. 未来五年的发展趋势预测。
4. 人工智能可能带来的社会和经济影响。
5. 相关的伦理和法律问题。

报告应使用学术写作风格，长度为3000字左右，并引用最新的研究和数据。

[0;31m---------------------------------------------------------------------------[0m
[0;31mNameError[0m                                 Traceback (most recent call last)
Cell [0;32mIn[2], line 1[0m
[0;32m----> 1[0m [43msdfsdf[49m

[0;31mNameError[0m: name 'sdfsdf' is not defined


In [37]:
print(xx)

An error occurred while executing the following cell:
------------------
sdfsdf
------------------


[0;31m---------------------------------------------------------------------------[0m
[0;31mNameError[0m                                 Traceback (most recent call last)
Cell [0;32mIn[2], line 1[0m
[0;32m----> 1[0m [43msdfsdf[49m

[0;31mNameError[0m: name 'sdfsdf' is not defined



In [44]:
import os
import nbformat

def search_notebooks(directory, keyword):
    result = []
    for root, _, files in os.walk(directory):
        for file in files:
            if file.endswith(".ipynb"):
                notebook_path = os.path.join(root, file)
                with open(notebook_path, 'r', encoding='utf-8') as f:
                    notebook = nbformat.read(f, as_version=4)
                    for cell in notebook.cells:
                        if cell.cell_type == 'markdown' or cell.cell_type == 'code':
                            if keyword.lower() in cell.source.lower():
                                result.append((notebook_path, cell.source))
    return result

directory_to_search = './'  # 修改为你想搜索的目录
keyword_to_search = 'DD_TOKEN'  # 修改为你要搜索的关键词

results = search_notebooks(directory_to_search, keyword_to_search)

for notebook_path, cell_content in results:
    print(f"Found in {notebook_path}:\n{cell_content}\n{'-'*80}\n")


Found in ./auto_coder-Copy2.ipynb:
%env DD_TOKEN=https://oapi.dingtalk.com/robot/send?access_token=1003a3d8a6e724e255d9b28b5d4a540cd8dbdd2d2fa2163ed09cc77f7c46841d
--------------------------------------------------------------------------------

Found in ./auto_coder.ipynb:
%env DD_TOKEN=https://oapi.dingtalk.com/robot/send?access_token=1003a3d8a6e724e255d9b28b5d4a540cd8dbdd2d2fa2163ed09cc77f7c46841d
--------------------------------------------------------------------------------

Found in ./auto_coder-Copy1.ipynb:
%env DD_TOKEN=https://oapi.dingtalk.com/robot/send?access_token=1003a3d8a6e724e255d9b28b5d4a540cd8dbdd2d2fa2163ed09cc77f7c46841d
--------------------------------------------------------------------------------

Found in ./.ipynb_checkpoints/auto_coder-Copy1-checkpoint.ipynb:
%env DD_TOKEN=https://oapi.dingtalk.com/robot/send?access_token=1003a3d8a6e724e255d9b28b5d4a540cd8dbdd2d2fa2163ed09cc77f7c46841d
--------------------------------------------------------------------------

In [16]:
Markdown(result.text)

当然可以！在这个教程中，我将详细介绍如何控制DataFrame（简称df）的颜色和特效。我们将使用Python的pandas库和Styler对象来实现这些效果。以下是你需要掌握的知识和步骤：

### 1. 基础知识
在开始之前，你需要具备以下基础知识：
- **Python编程基础**：了解基本的Python语法和数据结构。
- **pandas库**：熟悉pandas库的基本操作，如创建DataFrame、数据选择和操作等。
- **Jupyter Notebook**（可选）：虽然不是必须，但在Jupyter Notebook中操作pandas会更加直观和方便。

### 2. 安装和导入必要的库
首先，确保你已经安装了pandas库。如果没有安装，可以使用以下命令进行安装：
```bash
pip install pandas
```

然后，在你的Python脚本或Jupyter Notebook中导入pandas：
```python
import pandas as pd
```

### 3. 创建一个示例DataFrame
我们先创建一个简单的DataFrame作为示例：
```python
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [24, 27, 22, 32],
    'Score': [85, 92, 78, 88]
}
df = pd.DataFrame(data)
```

### 4. 使用Styler对象
pandas的Styler对象允许我们对DataFrame进行样式设置。我们可以通过`df.style`来访问Styler对象。

### 5. 基本样式设置
#### 5.1 设置背景颜色
我们可以使用`background_gradient`方法为DataFrame设置背景颜色渐变：
```python
styled_df = df.style.background_gradient(cmap='viridis')
styled_df
```
`cmap`参数指定颜色映射，可以选择其他颜色映射，如`'coolwarm'`、`'plasma'`等。

#### 5.2 设置字体颜色
使用`applymap`方法可以为DataFrame中的每个元素设置字体颜色：
```python
def color_negative_red(val):
    color = 'red' if val < 0 else 'black'
    return f'color: {color}'

styled_df = df.style.applymap(color_negative_red)
styled_df
```
在这个例子中，我们定义了一个函数`color_negative_red`，它根据值的大小设置颜色。

### 6. 条件格式化
#### 6.1 根据值设置背景颜色
我们可以使用`apply`方法根据条件设置背景颜色：
```python
def highlight_max(s):
    is_max = s == s.max()
    return ['background-color: yellow' if v else '' for v in is_max]

styled_df = df.style.apply(highlight_max, subset=['Score'])
styled_df
```
在这个例子中，我们定义了一个函数`highlight_max`，它为最大值设置背景颜色。

#### 6.2 根据值设置字体颜色
类似地，我们可以根据条件设置字体颜色：
```python
def highlight_min(s):
    is_min = s == s.min()
    return ['color: red' if v else '' for v in is_min]

styled_df = df.style.apply(highlight_min, subset=['Score'])
styled_df
```

### 7. 综合示例
我们可以将多种样式结合起来使用：
```python
def highlight_max(s):
    is_max = s == s.max()
    return ['background-color: yellow' if v else '' for v in is_max]

def color_negative_red(val):
    color = 'red' if val < 0 else 'black'
    return f'color: {color}'

styled_df = df.style.apply(highlight_max, subset=['Score']).applymap(color_negative_red)
styled_df
```

### 8. 保存样式
如果你希望将样式保存为HTML文件，可以使用`to_html`方法：
```python
html = styled_df.render()
with open('styled_df.html', 'w') as f:
    f.write(html)
```

### 9. 其他高级特性
pandas的Styler对象还支持许多其他高级特性，如：
- **隐藏索引**：`hide_index()`
- **设置表头样式**：`set_table_styles()`
- **添加工具提示**：`set_tooltips()`

你可以参考[pandas官方文档](https://pandas.pydata.org/pandas-docs/stable/user_guide/style.html)获取更多信息和示例。

### 总结
通过掌握上述知识和技巧，你可以灵活地控制DataFrame的颜色和特效，使数据展示更加直观和美观。希望这个教程对你有所帮助！

In [9]:
Markdown(result.text)

当然可以！在这个教程中，我将向你展示如何使用Python中的Pandas库和Styler对象来控制DataFrame的颜色和特效。我们将使用一些示例数据，并通过不同的方法来改变DataFrame的外观。

### 1. 安装必要的库

首先，确保你已经安装了Pandas库。如果没有安装，可以使用以下命令进行安装：

```bash
pip install pandas
```

### 2. 导入库并创建示例DataFrame

```python
import pandas as pd
import numpy as np

# 创建一个示例DataFrame
data = {
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8],
    'C': [9, 10, 11, 12]
}

df = pd.DataFrame(data)
print(df)
```

### 3. 使用Styler对象进行基本样式设置

Pandas的Styler对象允许我们对DataFrame进行样式设置。我们可以使用`df.style`来访问Styler对象。

#### 3.1 设置背景颜色

```python
# 设置背景颜色
styled_df = df.style.applymap(lambda x: 'background-color: yellow')
styled_df
```

#### 3.2 设置字体颜色

```python
# 设置字体颜色
styled_df = df.style.applymap(lambda x: 'color: red')
styled_df
```

#### 3.3 条件格式化

我们可以根据条件来设置样式。例如，将值大于5的单元格背景设置为绿色。

```python
def highlight_greater_than_5(val):
    color = 'green' if val > 5 else ''
    return f'background-color: {color}'

styled_df = df.style.applymap(highlight_greater_than_5)
styled_df
```

### 4. 使用内置样式函数

Pandas提供了一些内置的样式函数，例如`highlight_max`和`highlight_min`。

#### 4.1 高亮最大值

```python
styled_df = df.style.highlight_max(axis=0, color='lightgreen')
styled_df
```

#### 4.2 高亮最小值

```python
styled_df = df.style.highlight_min(axis=0, color='lightcoral')
styled_df
```

### 5. 添加条形图

我们还可以在DataFrame中添加条形图来直观地展示数据。

```python
styled_df = df.style.bar(subset=['A', 'B'], color='lightblue')
styled_df
```

### 6. 多重样式设置

我们可以将多种样式组合在一起。

```python
styled_df = df.style \
    .applymap(lambda x: 'color: red' if x > 5 else 'color: black') \
    .highlight_max(axis=0, color='lightgreen') \
    .highlight_min(axis=0, color='lightcoral') \
    .bar(subset=['A', 'B'], color='lightblue')
styled_df
```

### 7. 保存样式化的DataFrame

最后，我们可以将样式化的DataFrame保存为HTML文件，以便在网页中查看。

```python
styled_df.to_html('styled_dataframe.html')
```

### 总结

通过使用Pandas的Styler对象，我们可以轻松地对DataFrame进行样式设置，包括背景颜色、字体颜色、条件格式化、高亮最大值和最小值、添加条形图等。希望这个教程对你有所帮助！

如果你有任何问题或需要进一步的帮助，请随时告诉我。