# <center> 交互式智能编程助手MateGen       
# <center>    功能介绍与入门使用教程

### MateGen简介

&emsp;&emsp;MateGen是一款由九天老师团队开发的交互式智能编程助手，可以在Python代码环境中运行，核心功能如下

- **多轮对话与无限上下文记忆**：可以在对话过程中逐渐深入理解你的需求，并长期记住上下文信息。
- **基于RAG的本地知识库问答**：支持在海量文本中进行高精度检索，围绕本地文本进行知识库问答。
- **本地代码解释器**：可以连接本地Python环境，编写和执行Python代码，辅助完成编程任务。
- **NL2SQL**：能够连接本地MySQL环境，根据需求编写和执行SQL代码，帮助完成数据查询和提取任务。
- **图像识别**：可以处理用户提供的图片，并针对图片内容进行信息识别和回答问题。
- **联网功能**：可以在互联网、知乎或GitHub上搜索相关信息，回答用户提出的问题。
- **Kaggle竞赛辅导**：能够搜索Kaggle竞赛相关信息，下载热门Kernel，并进行知识库问答，辅导参与竞赛。
- **论文解读和数据分析报告编写**：可以帮助解读学术论文或编写数据分析报告。

而在实际使用过程中，九天老师团队秉持实用性优先的原则设计的MateGen还具备如下特性：

- **易用性**：MateGen为在线Agent，无需任何网络工具和硬件门槛即可使用，各项功能不用进行参数设置，MateGen会自动根据用户需求开启不同功能；
- **强悍的RAG系统**：支持本地文件夹一键同步创建云端词向量数据库，且最大支持1000份文档、10G体量的文本搜索问答；
- **复杂问题拆解与自动debug**：面对复杂任务，MateGen会自动进行任务拆解，并在不同环节调用不同工具进行处理，同时，若部分环节运行出问题，MateGen会首先尝试自动优化运行流程，并在多次尝试无法解决问题时向用户寻求帮助；
- **高效率Function calling**：MateGen同时具备Multi Function calling（一个任务开启多个功能）和Parallel Function calling（一个功能开多个执行器），借此提高响应效率。

本文将详细介绍MateGen的安装和调用方法。

## <center> 一、MateGen下载与API-KEY获取

### 1.虚拟环境创建与MateGen安装

&emsp;&emsp;MateGen安装非常简单，可以直接通过`pip install mategen`进行安装，需要注意的是，MateGen运行所需依赖较多，因此推荐借助虚拟环境进行安装。首先创建一个名为`mategen`的虚拟环境：        
```bash
conda create -n mategen python=3.8
```       
然后使用如下指令激活虚拟环境：
```bash
conda activate mategen
```       
接着在虚拟环境中安装MateGen：
```bash
pip install mategen
```     
安装完成之后，考虑到需要在Jupyter中调用MateGen，我们还需要在虚拟环境中安装IPython Kernel：
```bash
pip install ipykernel
```
并且将这个虚拟环境添加到Jupyter的Kernel列表中：
```bash
python -m ipykernel install --user --name mategen --display-name "mategen"
```     
然后开启Jupyter服务：     
```bash
jupyter lab
```

若要更新MateGen，则可输入如下命令：
```bash
pip install --upgrade mategen --index-url https://pypi.org/simple --no-cache-dir
```

> 以上代码需要在命令行环境中运行

然后在Jupyter的Kernel中选择mategen，即可进入到对应虚拟环境运行MateGen：

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240706230000498.png" alt="image-20240706230000498" style="zoom:30%;" />

然后运行如下代码测试是否安装成功：

In [1]:
import MateGen
from MateGen import *

安装后按照如下方式导入即可：

In [2]:
# 查看MateGen版本号
MateGen.__version__

'0.1.78'

> 注：最新版本可能随时发生变化，大家安装最新版即可。

### 2.MateGen API-KEY获取

&emsp;&emsp;MateGen目前只开放了在线服务版本，借助在线大模型来完成各项服务，无需本地硬件、无需网络环境要求即可零门槛使用。调用MateGen需要通过API-KEY进行身份验证，**目前MateGen正在公测，限量开放200个内测名额，每个名额包含100万token使用额度，每位用户限领一个API-KEY，若需继续使用，也可按需充值token额度。API-KEY领取、加入技术交流群、其他任何问题，<span style="color:red;">扫码添加客服小可爱(微信：littlelion_1215)，回复“MG”详询哦👇</span>**

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240706225245612.png" alt="image-20240706225245612" style="zoom:50%;" />

获取了API-KEY之后，即可调用MateGen了。

## <center> 二、MateGen对话功能与本地知识库问答功能介绍

- MateGen实例化

&emsp;&emsp;MateGen的调用流程和sklearn模型调用流程类似，都是先需要实例化一个MateGen聊天机器人，然后再执行对话。实例化过程如下：

In [5]:
mategen = MateGenClass(api_key = 'YOUR_API_KEY')

正在初始化MateGen，请稍后...
成功连接服务器，API-KEY通过验证！
首次使用MateGen，正在进行Agent基础设置...
正在同步Agent基础文件，这会需要一些时间，请耐心等待...
正在创建知识库，请稍后...
正在创建知识库的向量存储，请稍后...
知识库创建完成！
已完成初始化，MateGen可随时调用！


每个新的API-KEY实例化MateGen时，需要同步基础指令和调度流程等，因此需要等待一小段时间。此后若不更换API-KEY，则无需重复这个流程。

### 1.MateGen基础对话功能介绍

- MateGen对话方式与无限上下文

&emsp;&emsp;我们可以使用MateGen.chat()的方式开启对话，MateGen支持单次对话和多次对话两种模式，无论哪种模式，MateGen都具备多轮对话记忆以及拥有无限对话上下文。用户无需担心多轮对话内容总量超出模型最大对话上下文，MateGen会根据用户对话情况，智能截取聊天内容带入模型，并且采用时间衰减和未知信息增加权重等策略，实现无限上下文。

&emsp;&emsp;当MateGen.chat()带入对话文本时，即可实现单次对话：

In [11]:
mategen.chat("你好，很高兴见到你！")

▌ MateGen初始化完成，欢迎使用！

你好！很高兴见到你！有什么我可以帮助你的吗？

而若不带入对话文本，则可以实现多轮对话：

In [12]:
mategen.chat()

▌ MateGen初始化完成，欢迎使用！

你好，我是MateGen，你的个人交互式编程助理，有任何问题都可以问我哦~


请输入您的问题(输入退出以结束对话):  你好，请介绍下你自己


你好！我是MateGen，一个由九天老师大模型技术团队开发的交互式智能编程助手。以下是我的一些主要功能：

1. **无限对话上下文记忆**：可以在对话过程中逐渐深入理解你的需求，并长期记住上下文信息。
2. **本地知识库问答**：支持在海量文本中进行高精度检索，围绕本地文本进行知识库问答。
3. **本地代码解释器**：可以连接你的本地Python环境，编写和执行Python代码，辅助完成编程任务。
4. **NL2SQL**：能够连接你的MySQL环境，根据需求编写和执行SQL代码，帮助完成数据查询和提取任务。
5. **图像识别**：可以处理用户提供的图片，并针对图片内容进行信息识别和回答问题。
6. **联网功能**：可以在互联网、知乎或GitHub上搜索相关信息，回答你提出的问题。
7. **Kaggle竞赛辅导**：能够搜索Kaggle竞赛相关信息，下载热门Kernel，并进行知识库问答，辅导参与竞赛。
8. **论文解读和数据分析报告编写**：可以帮助解读学术论文或编写数据分析报告。

如果你有任何编程、数据分析、图像识别等相关问题，随时告诉我，我会尽力帮助你！有什么具体问题需要我解决吗？

请输入您的问题(输入退出以结束对话):  好的，那么我应该如何获取MateGen的API-KEY和更多的token额度呢？


目前MateGen项目处于内测阶段，只开放了在线服务版本。如果你想要获取API-KEY或者需要更多token额度，你可以联系MateGen的客服小可爱。

具体步骤如下：

1. **添加微信**：添加客服小可爱的微信，微信号是：`littlelion_1215`
2. **发送信息**：在微信中发送“MG”给客服小可爱。
3. **获取API-KEY**：客服小可爱会帮助你获取API-KEY，并提供更多的token额度信息。

如有任何其他问题，我也可以尽力帮助你解决！

请输入您的问题(输入退出以结束对话):  退出


并且随时开启MateGen，都拥有多轮对话记忆：

In [13]:
mategen.chat('好的，请问我的上一个问题是？')

▌ MateGen初始化完成，欢迎使用！

你上一个问题是：“好的，那么我应该如何获取MateGen的API-KEY和更多的token额度呢？”。

如果还有其他问题或者需要进一步的帮助，请随时告诉我！

甚至当我们删除MateGen或重启代码环境，MateGen仍然可以读取保存在服务器上的对话记录，实现多轮对话：

In [14]:
del mategen

In [5]:
mategen = MateGenClass(api_key = 'YOUR_API_KEY')

正在初始化MateGen，请稍后...
成功连接服务器，API-KEY通过验证！
已完成初始化，MateGen可随时调用！


In [16]:
mategen.chat("请你帮我总结下咱俩之前的对话内容。")

▌ MateGen初始化完成，欢迎使用！

当然可以！以下是我们之前对话的总结：

1. **问候和介绍**：
   - 你向我问好，并希望了解更多关于我的信息。
   - 我详细介绍了自己是MateGen，一个由九天老师大模型技术团队开发的智能编程助手，具备无限对话上下文记忆、本地知识库问答、本地代码解释器、NL2SQL、图像识别、联网功能、Kaggle竞赛辅导以及论文解读和数据分析报告编写等多种强大功能。

2. **获取API-KEY和token额度**：
   - 你询问如何获取MateGen的API-KEY和更多的token额度。
   - 我建议你添加客服小可爱的微信（微信号：`littlelion_1215`）并发送“MG”来获取API-KEY和更多token额度的信息。

3. **回顾上一个问题**：
   - 你询问了上一个问题的内容，我回答你上一个问题是关于如何获取MateGen的API-KEY和更多token额度。

如果你还有其他问题或需要进一步的帮助，请随时告诉我！

- 清理消息

&emsp;&emsp;若不想保存历史消息，也可调用mategen.clear_messages()清理历史消息：

In [17]:
mategen.clear_messages()

已经清理历史消息


- token消耗统计

&emsp;&emsp;同时，无论是否清理消息，MateGen都能实时统计token消耗总量。

In [19]:
mategen.print_usage()

今日已消耗的 token 数量：16137
总共消耗的 token 数量：16137
本地token计数可能有误，token消耗实际情况以服务器数据为准哦~


> 本地token技术可能会因为硬件环境变化而统计有误，实际每个MateGen的token消耗量都会由服务器进行更加准确的统计。

### 2.借助MateGen进行本地知识库问答

&emsp;&emsp;MateGen自带先进的知识库检索（RAG）功能，能够围绕海量文本进行高精度检索问答、文本总结、文本翻译改写等。MateGen为每位用户提供了10G的在线文档存储空间，允许用户上传1000份文档，并且可以围绕PDF、md、ppt、word、txt等主流文档格式进行词向量化存储和读取。在设置了知识库问答的时候，**MateGen会根据用户提问，自动判断是否需要进行知识库检索，并不会强制检索再进行回答**。

#### 2.1 设置本地知识库地址

&emsp;&emsp;MateGen的知识库问答允许用户把本地文件夹的内容批量上传，同时允许创建多个知识库（一个文件夹对应一个知识库），并且可以在问答过程随时切换知识库。首次开启知识库问答之前建议先设置本地知识库的根目录地址，便于存储各个知识库文件夹，若不设置，则MateGen会默认在系统根目录下创建一个知识库文件夹。

&emsp;&emsp;我们可以借助如下函数指定知识库根目录地址，例如我们设置E盘下work文件夹为知识库根目录地址:

In [4]:
mategen.set_knowledge_base_url('E:\\work')

知识库地址修改为：E:\work


> 注意，Windows下需要通过两个反斜杠来表示文件夹层级关系。

#### 2.2 开启知识库对话

&emsp;&emsp;设置完成后即可开启知识库问答，首次开启知识库问答时需要输入知识库名称，例如此处创建一个名为'OpenML'的知识库：

In [3]:
mategen = MateGenClass(api_key = 'YOUR_API_KEY', 
                       knowledge_base_chat=True)

正在初始化MateGen，请稍后...
成功连接服务器，API-KEY通过验证！


请输入知识库名称，输入0查询当前知识库列表。 OpenML


E:\work\knowledge_base\main_vector_db_mapping.json 不存在。
正在创建知识库文件夹
当前问答知识库文件夹路径：E:\work\knowledge_base\OpenML，请在文件夹中放置知识库文件。
目前支持PDF、Word、PPT、md等格式读取与检索。
已完成初始化，MateGen可随时调用！


> 注，此处我们重新实例化了一个MateGen，但正如此前所说，MateGen并不会因为重新实例化而丢失多轮对话记忆，这个实例化过程也可以看成是重新设置参数的过程。

然后即可在`E:\work`下查看知识库地址，目前知识库地址为`E:\work\knowledge_base\OpenML`，其中knowledge_base是知识库根目录：

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240707152757132.png" alt="image-20240707152757132" style="zoom:33%;" />

接下来我们将九天老师机器学习公开课课件全部放进去，公开课课件总共636页，属于海量文本专业知识检索：

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240707153507902.png" alt="image-20240707153507902" style="zoom:33%;" />

> MateGen知识库问答测试文档下载：链接：https://pan.baidu.com/s/1Gn7vpDHWQYp_x601r5R4yQ?pwd=sst0  提取码：sst0 

当然，哪怕是开启了知识库，MateGen也会根据用户提问的内容，决定是否进行知识库检索：

- 自主判断是否需要检索

In [16]:
# 提一个机器学习之外的问题
mategen.chat('请帮我简单介绍下Transformer基本原理')

▌ MateGen初始化完成，欢迎使用！

Transformer架构是一种旨在解决序列到序列任务（如机器翻译）的深度学习模型。它在自然语言处理（NLP）领域取得了极大的成功，并广泛应用于各种任务中。以下是Transformer基本原理的简单介绍：

### 基本组成部分

1. **编码器（Encoder）和解码器（Decoder）**
    - Transformer模型通常由一个编码器和一个解码器组成。编码器的任务是将输入序列转换为一个表示序列，而解码器则将这个表示序列转换为输出序列。
    - 编码器和解码器各自包含多个层（通常是6个或更多），每一层由两个子层组成：多头自注意力机制和前馈神经网络。

2. **自注意力机制（Self-Attention Mechanism）**
    - 自注意力机制允许模型在处理给定输入序列时关注到该序列的不同部分。这种机制可以捕捉到远距离词汇之间的依赖关系。
    - 注意力操作通过计算"查询"（Query）、"键"（Key）和"值"（Value）之间的相关性来实现。

3. **多头注意力机制（Multi-Head Attention Mechanism）**
    - 通过并行地执行多个自注意力操作，模型可以在不同的“注意力头”上关注到输入序列的不同部分。然后，将这些头的输出拼接在一起并通过一个线性变换以获得最终的输出。
    - 这种机制增强了模型捕捉不同特征的能力。

4. **前馈神经网络（Feed-Forward Network, FFN）**
    - 在每一层的多头自注意力机制之后，还会通过一个前馈神经网络（两层全连接网络），这有助于模型学习更复杂的变换。

5. **位置编码（Positional Encoding）**
    - 由于Transformer架构中不包含卷积或递归操作，因此不能直接捕捉到序列中位置信息。为了引入位置信息，位置编码被加到输入嵌入（embedding）上。

### 工作流程

1. **输入嵌入**：首先，将输入序列中的每一个词转换为固定维度的向量表示，这些向量通过嵌入层获得。
2. **加位置编码**：将位置编码加到输入嵌入上，以包含位置信息。
3. **编码过程**：经过多个编码器层，每层执行多头自注意力和前馈神经网络操作，逐层处理输入序列。
4. **解码过程**：解码器同样经过多层，每层执行多头注意力（包括自注意力和对编码器输出的注意力）和前馈神经网络操作，逐渐生成输出序列。

### 主要优势

1. **并行处理**：与RNN不同，Transformer能够并行处理序列中的所有词，这显著提高了训练速度。
2. **捕捉长期依赖**：自注意力机制允许模型在处理时关注到远距离的词汇，提高了捕捉长期依赖关系的能力。

这种设计使得Transformer模型在处理大规模数据并训练复杂模型时表现优异。如果你有具体问题或需要更详细的解释，请告诉我。

接下来进一步测试MateGen RAG性能。我们分别从专业知识点（类似大海捞针）、大规模文本总结以及情感判断分析三个方面测试MateGen的RAG性能：

- 知识点提取

首次围绕某知识库对话，系统会先上传知识库文档，并进行词向量化处理，因此首次开启对话会略微耗费一点时间，之后再次开启对话则无需再次进行词向量化处理。

In [5]:
# 专业知识点提取
mategen.chat('请帮我检索下知识库，并详细总结Mini Batch K-Means聚类算法的建模流程。')

正在创建知识库，请稍后...
正在创建知识库的向量存储，请稍后...
知识库创建完成！
已成功更新知识库OpenML


▌ MateGen初始化完成，欢迎使用！

Mini Batch K-Means是一种在K-Means算法基础上增强的聚类算法。它通过采用小批量数据来更新质心位置，从而加快计算速度。下面详细总结Mini Batch K-Means聚类算法的建模流程。

### 1. 算法原理
Mini Batch K-Means算法通过在每次迭代中随机抽取一个小批量的数据进行计算来更新质心，而不是使用全部数据。这样的计算方式类似于在梯度下降算法中使用小批量数据来更新参数。这样一来，Mini Batch K-Means可以显著减少计算时间，特别适用于大数据集 【4:1†source】。

### 2. 基本步骤
1. **初始化**：随机初始化质心。
2. **迭代更新**：
   - 随机抽取一个小批量数据，并分配给最近的质心。
   - 根据小批量数据的划分情况，更新质心位置【4:4†source】【4:5†source】。

### 3. 具体实现
#### 数据准备
```python
import numpy as np
from sklearn.cluster import MiniBatchKMeans

# 设置随机种子，生成数据
np.random.seed(23)
X, y = arrayGenCla(num_examples=1000000, num_inputs=10, num_class=5, deg_dispersion=[4, 1])
```
#### 模型训练
```python
from sklearn.cluster import MiniBatchKMeans

# 设置模型参数并训练
mbk = MiniBatchKMeans(n_clusters=5, batch_size=100)
mbk.fit(X)
```
#### 结果展示
```python
import matplotlib.pyplot as plt

# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=mbk.labels_)
plt.scatter(mbk.cluster_centers_[:, 0], mbk.cluster_centers_[:, 1], marker='o', c='red')
plt.show()

# 计算SSE（Sum of Squared Errors）评估模型精度
km.inertia_
mbk.inertia_
```
通过较大数据集的聚类对比，可以看出Mini Batch K-Means在速度上显著快于普通K-Means，但精度略低 【4:6†source】。

### 4. 参数设置
- **batch_size**：小批量数据大小。
- **max_iter**：最大迭代次数。
- **reassignment_ratio**：用于提升聚类精度的参数，通过设置该参数可以增加重新分配质心的概率，但会增加计算时间【4:7†source】【4:8†source】。

### 5. 优缺点分析
#### 优势
- 可以显著减少计算时间，特别适用于大数据集。对于超过2万条数据集时，其速度优势更加显著。

#### 劣势
- 精度略低于普通K-Means，但在大多数应用场景下，这种精度差异可以忽略不计 【4:8†source】。

总结以上，Mini Batch K-Means提供了一种高效的聚类方法，特别适合于处理大规模数据集，可以在实际应用中大幅提升计算效率。 【4:7†source】【4:8†source】

- 海量文本总结

In [22]:
# 海量文本总结
mategen.chat('现在你的知识库OpenML包含的文档，是九天老师机器学习公开课课件。请帮我总结下，九天老师在公开课中讲解了几种决策树算法呢？')

▌ MateGen初始化完成，欢迎使用！

在九天老师的公开课中，决策树算法的内容详细讲解了以下几种经典的决策树算法：

1. **ID3决策树**：
   - ID3决策树是经典的决策树算法之一，主要应用于离散型变量的分类问题。
   - ID3决策树通过信息熵作为评估指标，基于列的不同取值对数据集进行划分【8:3†source】【8:5†source】。

2. **C4.5决策树**：
   - C4.5是ID3决策树的改进版本，由Ross Quinlan提出，能够处理连续型特征，并且可以进行回归问题的处理。
   - C4.5树在生长上更类似于机器学习算法，并且在对树模型进行剪枝防止过拟合时，采用了统计学方法【8:5†source】【8:15†source】。

3. **CART决策树**：
   - CART全称为Classification and Regression Trees（分类与回归决策树），它既可以解决分类问题，也可以解决回归问题。
   - CART树的构建过程类似于C4.5，但通用性更强，并且扩展包括连续变量的处理和回归预测【8:9†source】【8:14†source】。

通过以上内容，可以看到九天老师的公开课详细讲解了ID3、C4.5及CART三种经典的决策树算法。每种算法不仅具备其独特的建模流程，也有其特定的应用场景和优势。

- 情感判别

In [23]:
mategen.chat('根据知识库所存储的课件，你觉得九天老师的机器学习公开课质量如何？')

▌ MateGen初始化完成，欢迎使用！

根据知识库中九天老师的机器学习公开课课件，九天老师的公开课质量非常高，以下几点可以充分说明：

1. **深入的理论分析**：
   - 九天老师涵盖了丰富的理论内容，包括机器学习基本概念与建模流程【12:8†source】、 sklearn调参的理论基础与网格搜索【12:1†source】、梯度下降优化基础【12:12†source】等，涉及广泛且细致入微。

2. **详细的建模流程**：
   - 课程涵盖了实际的建模步骤和实验过程，如线性回归的手动建模实验【12:5†source】、决策树的核心思想与建模流程【12:3†source】等，不仅提供了理论基础，还指导了实际操作的具体步骤。

3. **丰富的算法内容**：
   - 九天老师的课程不仅介绍了基本的线性回归和决策树算法，还详细讨论了分类模型的决策边界与评估指标【12:17†source】，特别是在决策树算法方面，还讨论了不同版本的决策树算法如ID3、C4.5和CART等【12:4†source】。

4. **高级话题与实践指导**：
   - 课程还涉及了高级话题，如机器学习中的模型结果可信度与交叉验证方法【12:16†source】，以及数据归一化与学习率调度等优化步骤【12:13†source】。

5. **理论结合实践**：
   - 课程中所涉及的每个理论 都有对应的实践环节，每章的pdf课件详细列出了具体的实验步骤和所需的数据集生成、模型训练等操作，确保学员能够在实际操作中理解并应用所学的理论知识【12:19†source】。

从以上各方面来看，九天老师的机器学习公开课无论是在理论深度、实践指导，还是在内容的广度和细致程度上，都显示出极高的教学质量，是非常值得学习的课程。

&emsp;&emsp;不难看出**MateGen的RAG系统稳定高效，适合各种问答场景。**除了日常问答外，带有课件知识库的MateGen还可以进行教学辅导，例如指导学生课前预习、课中答疑、课后复习等。

#### 2.3 更新知识库

&emsp;&emsp;对于相同的知识库，若想增删一些文件，可以先在本地文件夹内操作，然后再调用`upload_knowledge_base`更新知识库即可：

In [6]:
mategen.upload_knowledge_base(knowledge_base_name='OpenML')

#### 2.4 切换知识库问答

&emsp;&emsp;MateGen还支持随时切换知识库进行问答。例如此时我们再创建一个知识库，用于存储MateGen的使用指南文档：

In [7]:
mategen = MateGenClass(api_key = 'YOUR_API_KEY', 
                       knowledge_base_chat=True)

正在初始化MateGen，请稍后...
成功连接服务器，API-KEY通过验证！


请输入知识库名称，输入0查询当前知识库列表。 MateGen


正在创建知识库文件夹
当前问答知识库文件夹路径：E:\work\knowledge_base\MateGen，请在文件夹中放置知识库文件。
目前支持PDF、Word、PPT、md等格式读取与检索。
已完成初始化，MateGen可随时调用！


系统会自动创建MateGen文件夹：

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240707155027222.png" alt="image-20240707155027222" style="zoom:33%;" />

我们在MateGen文件夹中放置MateGen使用指南：

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240707155211341.png" alt="image-20240707155211341" style="zoom:33%;" />

然后开启对话，这里需要注意的是，在切换知识库后，我们需要先清理MateGen历史对话消息，以免历史对话消息影响后续RAG质量：

In [26]:
mategen.clear_messages()

已经清理历史消息


清理完历史消息后再进行知识库问答：

In [8]:
mategen.chat('请检索你的知识库，并告诉我MateGen应该如何查看token消耗情况。')

正在创建知识库，请稍后...
正在创建知识库的向量存储，请稍后...
知识库创建完成！
已成功更新知识库MateGen


▌ MateGen初始化完成，欢迎使用！

为了查看MateGen的token消耗情况，您可以按照以下步骤进行操作：

1. **调用`print_usage`函数**：
   您可以通过调用 `mategen.print_usage()` 函数来查看当前token的消耗情况。此函数会打印出今日和总共消耗的token数量。

### 示例代码：

```python
# 初始化MateGen
api_key = 'your-api-key'
mategen = MateGenClass(api_key=api_key)

# 查看token使用情况
mategen.print_usage()
```

2. **查看输出**：
   运行上述代码后，系统将会输出类似如下的信息：
   ```
   今日已消耗的 token 数量：8952
   总共消耗的 token 数量：8952
   ```

通过这些步骤，MateGen能够有效地统计和展示token的使用情况，帮助用户更好地管理和优化资源【8:0†source】。

&emsp;&emsp;然后随时可以切换回OpenML知识库进行问答，我们可以直接输入0，然后在知识库序号中选择OpenML进行问答即可：

In [9]:
mategen = MateGenClass(api_key = 'YOUR_API_KEY', 
                       knowledge_base_chat=True)

正在初始化MateGen，请稍后...
成功连接服务器，API-KEY通过验证！


请输入知识库名称，输入0查询当前知识库列表。 0


知识库列表：
1. OpenML
2. MateGen


请选择一个知识库的序号： 1


知识库已存在，已启用该知识库
已完成初始化，MateGen可随时调用！


In [10]:
mategen.chat('请检索你的知识库，并帮我介绍下网格搜索优化算法的优劣势')

▌ MateGen初始化完成，欢迎使用！

### 网格搜索优化算法的优劣势

#### 优势
1. **全面搜索**：
   - 网格搜索（Grid Search）通过在指定参数空间内的每一个可能组合上进行评估，从而确保找到相对最优的参数组合。这样的方法能确保不遗漏任何可能的最佳参数组合【8:0†source】。
  
2. **适用范围广泛**：
   - 网格搜索对所有类型的超参数调整均适用，无论是线性模型中的正则化系数，还是树模型中的最大深度参数，都可以使用网格搜索进行优化【8:0†source】。

3. **易于理解和实现**：
   - 网格搜索算法相对简单，便于理解和实现。用户只需要定义好评估器和参数空间，并设置交叉验证的方法，就可以自动化完成参数调整工作【8:1†source】。

4. **可视化与分析**：
   - 由于其遍历所有参数组合的特点，网格搜索的结果可以被用于绘制参数空间的性能图，对于理解参数对模型性能的影响非常有帮助【8:0†source】。

#### 劣势
1. **计算开销大**：
   - 网格搜索需要对参数空间内的每个组合进行评估，且在每个组合上都要执行交叉验证。因此其计算开销非常大，特别是在参数空间较大或数据集较大时【8:0†source】【8:1†source】。

2. **扩展性差**：
   - 随着参数空间的渐增，计算时间会呈指数增长。对于高维参数空间，网格搜索的方法显得过于笨重且难以扩展【8:1†source】。

3. **无随机性**：
   - 网格搜索会穷举所有可能的参数组合，这意味着计算资源被分配到所有的点，而不能集中在有潜力的参数组合上，可能会浪费大量的计算资源在一些不太可能是最佳解的参数组合上【8:0†source】。

4. **鲁棒性差**：
   - 网格搜索在参数取值范围和步长选择上可能需要大量的经验，如果范围设置不合理，匹配到的参数组合可能并非最优，导致性能不如随机搜索或进化算法【8:0†source】。

总结来说，网格搜索优化算法是一种确保全面探索参数空间的方法，但其高计算开销和扩展性缺点也限制了其在大型任务中的应用。在复杂或高维度的问题上，可以考虑使用更高效的随机搜索或贝叶斯优化方法【8:0†source】【8:1†source】。

并且由于MateGen本身是无限对话长度，因此哪怕现在没有调用MateGen使用方法知识库，但MateGen仍然可以读取此前对话记忆进行回答：

In [11]:
mategen.chat('很好，你是否还记得MateGen应该如何查看token消耗来着？')

▌ MateGen初始化完成，欢迎使用！

记得，MateGen查看token消耗情况的步骤如下：

1. **调用`print_usage`函数**：
   您可以通过调用 `mategen.print_usage()` 函数来查看当前token的消耗情况。此函数会打印出今日和总共消耗的token数量。

### 示例代码：

```python
# 初始化MateGen
api_key = 'your-api-key'
mategen = MateGenClass(api_key=api_key)

# 查看token使用情况
mategen.print_usage()
```

2. **查看输出**：
   运行上述代码后，系统将会输出类似如下的信息：
   ```
   今日已消耗的 token 数量：8952
   总共消耗的 token 数量：8952
   ```

通过这些步骤，MateGen能够有效地统计和展示token的使用情况，帮助用户更好地管理和优化资源【8:0†source】。

#### 2.4 切换知识库问答

&emsp;&emsp;关闭知识库问答功能也非常简单，再次实例化MateGen，并取消knowledge_base_chat设置：

In [17]:
mategen = MateGenClass(api_key = 'YOUR_API_KEY')

正在初始化MateGen，请稍后...
成功连接服务器，API-KEY通过验证！
已完成初始化，MateGen可随时调用！


In [18]:
mategen.clear_messages()

已经清理历史消息


### 3.借助MateGen实现NL2SQL

&emsp;&emsp;MateGen可以连接MySQL数据库，并且可以稳定高效实现NL2SQL。无需额外手动设置，当系统检测到用户需要进行数据库相关操作时，MateGen就会自动开启NL2SQL功能，完成SQL代码编写和运行：

- 输入数据库基本参数

In [19]:
mategen.chat('请帮我查看当前数据库中，总共有几张表。')

▌ MateGen初始化完成，欢迎使用！

请提供你当前使用的MySQL数据库连接信息，我将帮你获取所有表的信息。需要以下参数：
- 主机名（host）
- 用户名（user）
- 密码（password）
- 数据库名（database）
- 端口（port）

In [20]:
mategen.chat('好的，host:localhost,port:3306,ueser:root,password:19920229,database name:telco_db')

▌ MateGen初始化完成，欢迎使用！

即将执行以下代码：


```sql
SHOW TABLES;
```

在数据库 `telco_db` 中，总共有 8 张表。具体表名如下：

1. user_churn
2. user_churn_new
3. user_demographics
4. user_demographics_new
5. user_payments
6. user_payments_new
7. user_services
8. user_services_new

> 目前MateGen只支持MySQL数据库，更多数据库种类连接方式正在开发中。

- 数据库查询

In [19]:
mategen.chat('请帮我查看下，这八张表中，四个不带_new尾缀的数据集，数据量是否相同。')

▌ MateGen初始化完成，欢迎使用！

即将执行以下代码：


```sql
SELECT COUNT(*) FROM user_churn;
```

即将执行以下代码：


```sql
SELECT COUNT(*) FROM user_demographics;
```

即将执行以下代码：


```sql
SELECT COUNT(*) FROM user_payments;
```

即将执行以下代码：


```sql
SELECT COUNT(*) FROM user_services;
```

这里是四个不带 `_new` 尾缀的数据集的数据量：

1. `user_churn`：5684 条记录
2. `user_demographics`：5353 条记录
3. `user_payments`：5634 条记录
4. `user_services`：5734 条记录

由此可见，这四个数据集的数据量并不相同。

如果你需要对这些数据集进行进一步的分析或查询，请告诉我！

- 数据查询

In [21]:
mategen.chat('你做得很好，接下来请帮我在user_payments表中，查看月消费金额最高的用户ID，以及对应的总消费金额是多少。')

▌ MateGen初始化完成，欢迎使用！

即将执行以下代码：


```sql
SELECT customerID, MonthlyCharges FROM user_payments ORDER BY MonthlyCharges DESC LIMIT 1;
```

在 `user_payments` 表中，月消费金额最高的用户ID是 `5734-EJKXG`，其对应的月消费金额是 `118.6`。

如果你需要进一步的查询或分析，请随时告诉我！

- 数据读取

In [25]:
mategen.chat('很好，接下来请帮我将user_churn表读取到当前文件夹中，并命名为user_churn.csv')

▌ MateGen初始化完成，欢迎使用！

即将执行以下代码：


```python
user_churn.to_csv('user_churn.csv', index=False)
```

操作已完成，`user_churn` 表已保存为 `user_churn.csv` 文件，并放置在当前文件夹中。

如果还有其他需要，请随时告诉我！

然后即可在当前代码运行文件夹内找到这个数据集：

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240707174225784.png" alt="image-20240707174225784" style="zoom:33%;" />

### 4.借助MateGen实现NL2Python：本地代码解释器实现流程

&emsp;&emsp;MateGen还可以实现NL2Python，可以连接本地Python环境进行自动编程，进而辅助用户完成数据读取、数据预处理、数据建模、数据可视化等事项。

- 读取数据集

In [26]:
mategen.chat('好的，接下来请帮我将当前文件夹内的user_churn.csv读取到当前Python环境中。')

▌ MateGen初始化完成，欢迎使用！

即将执行以下代码：


```python
import pandas as pd
user_churn_df = pd.read_csv('user_churn.csv')
user_churn_df.head()
```

`user_churn.csv` 文件已成功读取到当前 Python 环境中，并存储在 `user_churn_df` 变量中。显示的数据前几行如下：

| customerID | Churn |
|------------|-------|
| 0002-ORFBO | No    |
| 0003-MKNFE | No    |
| 0004-TLHLJ | Yes   |
| 0011-IGKFF | Yes   |
| 0013-EXCHZ | Yes   |

如果你还有其他需求或者问题，请随时告诉我！

然后我们即可在当前操作空间中查看读取到的数据集：

In [29]:
# 更新命名空间，即可在本地调用代码操作结果
globals().update(MateGen.export_variables())
user_churn_df.head()

Unnamed: 0,customerID,Churn
0,0002-ORFBO,No
1,0003-MKNFE,No
2,0004-TLHLJ,Yes
3,0011-IGKFF,Yes
4,0013-EXCHZ,Yes


- 数据可视化

In [27]:
mategen.chat('好的，请用可视化的方式帮我分析下Churn字段的取值分布。')

▌ MateGen初始化完成，欢迎使用！

即将执行以下代码：


```python
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(8, 6))
sns.countplot(data=user_churn_df, x='Churn', palette='viridis')
plt.title('Distribution of Churn Values')
plt.xlabel('Churn')
plt.ylabel('Count')
fig = plt.gcf()
```


Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `x` variable to `hue` and set `legend=False` for the same effect.



Figure uploaded to OSS as fig_5d60cbe9997b4626965676c2c87a66c0.png
已经成功运行代码，并已将代码创建的图片存储至：https://ml2022.oss-cn-hangzhou.aliyuncs.com/fig_5d60cbe9997b4626965676c2c87a66c0.png


下面是 `Churn` 字段的取值分布可视化图：

![Churn Distribution](https://ml2022.oss-cn-hangzhou.aliyuncs.com/fig_5d60cbe9997b4626965676c2c87a66c0.png)

从图中可以看到，`Churn` 字段的取值分布。共有两类值，分别是"Yes"（表示用户流失）和"No"（表示用户未流失）。从图中可以对比出每类值的计数分布情况。

如果还有其他需求或分析，请随时告诉我！

&emsp;&emsp;这里需要注意，当涉及到绘图任务的时候，若设置了阿里云图床，则MateGen会自动将图片上传至oss图床，并保存每张图片的公开访问网址，方便后续组合图片形成数据分析报告。

> 在没有图床的情况下MateGen绘图功能也可正常使用，阿里云oss图床设置方法见下文《MateGen联网方式设置》部分。

> 除了可以进行数据清洗和数据可视化相关工作之外，MateGen还可以来进行机器学习建模或深度学习建模等复杂编程任务，并且，若带入企业代码库文档，MateGen还可以模仿企业代码习惯来进行编程。

### 5.MateGen复杂任务规划执行与自动debug功能

&emsp;&emsp;截止目前，我们介绍了MateGen的知识库问答、NL2SQL和NL2Python等功能，在继续介绍MateGen其他进阶功能之前，需要说明的是，MateGen的各项功能支持组合使用。当面对复杂任务的时候，MateGen会自动组合各项功能来构建执行流程，自动逐步执行任务，同时每一步遇到了任何问题都会自动debug。

- NL2SQL+NL2Python联动

&emsp;&emsp;例如，我们可以让MateGen直接从MySQL中读取数据集到Python中并本地进行保存，这个简单的例子中就涉及到NL2SQL和NL2Python两个功能的串联实现。

In [28]:
mategen.chat('接下来请帮我将数据库中user_payments读取到当前Python环境中，并在当前文件夹中保存一份user_payments.csv文件')

▌ MateGen初始化完成，欢迎使用！

即将执行以下代码：


```sql
SELECT * FROM user_payments
```

  g[df_name] = pd.read_sql(sql_query, connection)


即将执行以下代码：


```python
user_payments_df.to_csv('user_payments.csv', index=False)
```

`user_payments` 表已成功读取到当前 Python 环境中，并存储在 `user_payments_df` 变量中。同时，该表已保存为 `user_payments.csv` 文件，并放置在当前文件夹中。

如果你有其他需求或问题，请随时告诉我！

- 知识库问答+NL2SQL+NL2Python

&emsp;&emsp;同时，MateGen也支持在任何处理的环节即时查询知识库，这里我们创建一个telco_db知识库，然后保存一份md文件，其中包含了各数据集字段信息和`重要字段`列表。我们尝试让MateGen先读取这个知识库，获取`重要字段`列表信息，然后再从各个数据集中获取`重要字段`列表组成一个新的数据集，并读取到本地：

In [21]:
mategen = MateGenClass(api_key = 'YOUR_API_KEY', 
                       knowledge_base_chat=True)

正在初始化MateGen，请稍后...
成功连接服务器，API-KEY通过验证！


请输入知识库名称，输入0查询当前知识库列表。 telco_db


正在创建知识库文件夹
当前问答知识库文件夹路径：E:\work\knowledge_base\telco_db，请在文件夹中放置知识库文件。
目前支持PDF、Word、PPT、md等格式读取与检索。
已完成初始化，MateGen可随时调用！


其中telco_db文件夹中放置如下文件：

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240707211246277.png" alt="image-20240707211246277" style="zoom:33%;" />

其中`telco_data_dictionary`内容包含了数据库中每个数据集中所包含的字段情况、以及`重要字段说明`如下：

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240707211336385.png" alt="image-20240707211336385" style="zoom:33%;" />

接下来让MateGen在这一系列数据集中提取关键字段：

In [22]:
mategen.chat('请查阅你的知识库，确认数据集中最重要的字段，并帮我从不带尾缀_new的几张表中，挑选这些字段组成一张新的表，并保存在MySQL中，取名为telco')

正在创建知识库，请稍后...
正在创建知识库的向量存储，请稍后...
知识库创建完成！
已成功更新知识库telco_db


▌ MateGen初始化完成，欢迎使用！

即将执行以下代码：


```sql
SELECT customerID, Churn FROM user_churn
```

即将执行以下代码：


  g[df_name] = pd.read_sql(sql_query, connection)


```sql
SELECT customerID, Dependents FROM user_demographics
```

即将执行以下代码：


```sql
SELECT customerID, Contract, PaperlessBilling, PaymentMethod, MonthlyCharges FROM user_payments
```

即将执行以下代码：


```sql
SELECT customerID, InternetService, OnlineSecurity, OnlineBackup, TechSupport FROM user_services
```

即将执行以下代码：


```python
import pandas as pd

# 合并表格
telco_df = pd.merge(user_churn, user_demographics, on='customerID', how='left')
telco_df = pd.merge(telco_df, user_payments, on='customerID', how='left')
telco_df = pd.merge(telco_df, user_services, on='customerID', how='left')

telco_df.to_csv('telco.csv', index=False)

telco_df.head()
```

即将执行以下代码：


```python
import pymysql

# 连接数据库
connection = pymysql.connect(
    host='localhost',
    user='root',
    password='19920229',
    db='telco_db'
)

try:
    with connection.cursor() as cursor:
        # 创建表telco
        create_table_query = '''
        CREATE TABLE telco (
            customerID VARCHAR(255) PRIMARY KEY,
            Churn VARCHAR(255),
            Dependents VARCHAR(255),
            Contract VARCHAR(255),
            PaperlessBilling VARCHAR(255),
            PaymentMethod VARCHAR(255),
            MonthlyCharges FLOAT,
            InternetService VARCHAR(255),
            OnlineSecurity VARCHAR(255),
            OnlineBackup VARCHAR(255),
            TechSupport VARCHAR(255)
        );
        '''
        cursor.execute(create_table_query)
        connection.commit()

        # 导入数据
        for index, row in telco_df.iterrows():
            insert_query = '''
            INSERT INTO telco (
                customerID, Churn, Dependents, Contract, PaperlessBilling, 
                PaymentMethod, MonthlyCharges, InternetService, 
                OnlineSecurity, OnlineBackup, TechSupport
            ) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
            '''
            cursor.execute(insert_query, (
                row['customerID'], row['Churn'], row['Dependents'], row['Contract'], row['PaperlessBilling'], 
                row['PaymentMethod'], row['MonthlyCharges'], row['InternetService'], 
                row['OnlineSecurity'], row['OnlineBackup'], row['TechSupport']
            ))
        connection.commit()
finally:
    connection.close()

'Complete'
```

即将执行以下代码：


```python
import numpy as np

# 将NaN替换为None
cleaned_df = telco_df.replace({np.nan: None})
```

即将执行以下代码：


```python
import pymysql

# 连接数据库
connection = pymysql.connect(
    host='localhost',
    user='root',
    password='19920229',
    db='telco_db'
)

try:
    with connection.cursor() as cursor:
        # 创建表telco
        create_table_query = '''
        CREATE TABLE telco (
            customerID VARCHAR(255) PRIMARY KEY,
            Churn VARCHAR(255),
            Dependents VARCHAR(255),
            Contract VARCHAR(255),
            PaperlessBilling VARCHAR(255),
            PaymentMethod VARCHAR(255),
            MonthlyCharges FLOAT,
            InternetService VARCHAR(255),
            OnlineSecurity VARCHAR(255),
            OnlineBackup VARCHAR(255),
            TechSupport VARCHAR(255)
        );
        '''
        cursor.execute(create_table_query)
        connection.commit()

        # 导入数据
        for index, row in cleaned_df.iterrows():
            insert_query = '''
            INSERT INTO telco (
                customerID, Churn, Dependents, Contract, PaperlessBilling, 
                PaymentMethod, MonthlyCharges, InternetService, 
                OnlineSecurity, OnlineBackup, TechSupport
            ) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
            '''
            cursor.execute(insert_query, (
                row['customerID'], row['Churn'], row['Dependents'], row['Contract'], row['PaperlessBilling'], 
                row['PaymentMethod'], row['MonthlyCharges'], row['InternetService'], 
                row['OnlineSecurity'], row['OnlineBackup'], row['TechSupport']
            ))
        connection.commit()
finally:
    connection.close()

'Complete'
```

即将执行以下代码：


```python
import pymysql

# 连接数据库
connection = pymysql.connect(
    host='localhost',
    user='root',
    password='19920229',
    db='telco_db'
)

try:
    with connection.cursor() as cursor:
        # 删除已存在表telco
        cursor.execute("DROP TABLE IF EXISTS telco")
        connection.commit()

        # 创建表telco
        create_table_query = '''
        CREATE TABLE telco (
            customerID VARCHAR(255) PRIMARY KEY,
            Churn VARCHAR(255),
            Dependents VARCHAR(255),
            Contract VARCHAR(255),
            PaperlessBilling VARCHAR(255),
            PaymentMethod VARCHAR(255),
            MonthlyCharges FLOAT,
            InternetService VARCHAR(255),
            OnlineSecurity VARCHAR(255),
            OnlineBackup VARCHAR(255),
            TechSupport VARCHAR(255)
        );
        '''
        cursor.execute(create_table_query)
        connection.commit()

        # 导入数据
        for index, row in cleaned_df.iterrows():
            insert_query = '''
            INSERT INTO telco (
                customerID, Churn, Dependents, Contract, PaperlessBilling, 
                PaymentMethod, MonthlyCharges, InternetService, 
                OnlineSecurity, OnlineBackup, TechSupport
            ) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
            '''
            cursor.execute(insert_query, (
                row['customerID'], row['Churn'], row['Dependents'], row['Contract'], row['PaperlessBilling'], 
                row['PaymentMethod'], row['MonthlyCharges'], row['InternetService'], 
                row['OnlineSecurity'], row['OnlineBackup'], row['TechSupport']
            ))
        connection.commit()
finally:
    connection.close()

'Complete'
```

所有步骤已完成，新表 `telco` 已成功创建并导入数据。

如果你有其他需求或问题，请随时告诉我！

上述流程中，不仅涉及到RAG、NL2SQL、NL2Python，还涉及到自动debug过程，上述过程中第一次将新数据集写入MySQL时遇到了缺失值、第二次操作时由遇到了重名数据集、第三次才顺利将数据集写入。

> MateGen会即时自主根据执行结果来调整执行流程，若反复多次都无法尝试成功，并不会无限尝试下去，而是会向用户求助。

然后即可查看当前操作空间中是否已经顺利读取该数据集：

In [24]:
# 更新命名空间，即可在本地调用代码操作结果
globals().update(MateGen.export_variables())
telco_df.head()

Unnamed: 0,customerID,Churn,Dependents,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,InternetService,OnlineSecurity,OnlineBackup,TechSupport
0,0002-ORFBO,No,,One year,Yes,Mailed check,65.6,DSL,No,Yes,Yes
1,0003-MKNFE,No,No,Month-to-month,No,Mailed check,59.9,DSL,No,No,No
2,0004-TLHLJ,Yes,No,Month-to-month,Yes,Electronic check,73.9,Fiber optic,No,No,No
3,0011-IGKFF,Yes,No,Month-to-month,Yes,Electronic check,98.0,Fiber optic,No,Yes,No
4,0013-EXCHZ,Yes,No,Month-to-month,Yes,,83.9,Fiber optic,No,No,Yes


数据集中关键字段和知识库中列举关键字段一致：

In [30]:
telco_df.columns

Index(['customerID', 'Churn', 'Dependents', 'Contract', 'PaperlessBilling',
       'PaymentMethod', 'MonthlyCharges', 'InternetService', 'OnlineSecurity',
       'OnlineBackup', 'TechSupport'],
      dtype='object')

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240707211928265.png" alt="image-20240707211928265" style="zoom:33%;" />

数据库中也成功保存了telco数据集：

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240707212050570.png" alt="image-20240707212050570" style="zoom:33%;" />

> 除此之外，MateGen还支持Multi Function calling（一个任务开启多个功能）和Parallel Function calling（一个功能开多个执行器），借此提高响应效率。

In [31]:
mategen.clear_messages()

已经清理历史消息


### 6.MateGen视觉能力

&emsp;&emsp;MateGen具备视觉能力，只需要在提问时附带图片连接，就可以调用MateGen的视觉能力、围绕图片进行识别再进行回答：

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240707212637973.png" alt="image-20240707212637973" style="zoom:33%;" />

In [32]:
mategen.chat('请帮我描述下这张图片上的内容：https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240707212637973.png')

▌ MateGen初始化完成，欢迎使用！

正在对图像内容进行识别...


这张图片展示了在海滩上演奏音乐的场景。左边和右边的两个人分别拿着吉他，而摆在中间的人站在麦克风前唱歌。背景是一片美丽的海景，有一些绿树和海水。天色看起来是傍晚或者清晨，光线柔和，整体氛围显得非常轻松愉快。

- MateGen视觉+NL2Python联动

&emsp;&emsp;同样，MateGen的视觉功能可以和别的功能联动，例如我们可以给MateGen输入一张图片，然后让其模仿绘制一张新的图，并且可以直接通过对话来修改图片。例如有张图片如下：

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/fig_b92cda8f15534922a7ef72ff329146fb.png" alt="image-20240630215206479" style="zoom:40%;" />

接下来让MateGen先读取该图片，再借助其Python代码解释器，绘制一张一样的图片。

In [5]:
mategen.chat('请帮我描述下这张图片上的内容：https://ml2022.oss-cn-hangzhou.aliyuncs.com/fig_b92cda8f15534922a7ef72ff329146fb.png')

▌ MateGen初始化完成，欢迎使用！

正在对图像内容进行识别...


这张图片展示了一个关于“任期价值分布”（Tenure Value Distribution）的直方图，用以显示不同月份的用户任期分布情况。具体内容如下：

- **X轴 （横轴）**：代表“任期（月）”（Tenure (months)），范围从0到70。
- **Y轴 （纵轴）**：代表“计数”（Count），范围从0到700以上。

图中主要部分包含：
1. **蓝色柱状图**：表示不同任期长度的计数。任期在0到5个月之间的用户数量最多，超过700人。随着任期的增加，用户数量逐渐减少。任期达到70个月及以上的用户数量最少。
2. **光滑曲线**：蓝色光滑曲线表示数据的分布趋势。曲线在任期为0到5个月处达到峰值，然后逐渐下降，与柱状图的趋势一致。

从整体上看，图表反映了短期任期（如0到5个月）的用户数量远远多于长期任期的用户。短期用户的集中度非常高，而中长期用户显著减少。

这展示出用户在短期内流失较为严重。

In [6]:
mategen.chat('非常好！现在，请基于你对这张图片的理解，使用Python代码帮我创建一组数据，使其满足图片上的数据分布，并编写一段Python绘图代码，绘制类似的图片，并直接运行你编写的代码。')

▌ MateGen初始化完成，欢迎使用！

即将执行以下代码：


```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 设置随机种子
np.random.seed(42)

# 自定义概率分布，多数集中在短期
prob = np.concatenate([
    np.linspace(0.2, 0.1, 10),  # 0-9个月
    np.linspace(0.1, 0.05, 10),  # 10-19个月
    np.linspace(0.05, 0.02, 10), # 20-29个月
    np.ones(40) * 0.01            # 30-69个月
])

# 标准化，使总和为1
prob /= prob.sum()

# 创建数据分布
tenure_data = np.random.choice(np.arange(70), size=1100, p=prob)

# 创建 DataFrame
df_tenure = pd.DataFrame(tenure_data, columns=['Tenure'])

# 绘图
fig, ax = plt.subplots(figsize=(10, 6))
sns.histplot(df_tenure['Tenure'], bins=70, kde=True, color='blue', ax=ax)
ax.set_title('Tenure Value Distribution')
ax.set_xlabel('Tenure (months)')
ax.set_ylabel('Count')
ax.grid(True)
plt.show()
```



Figure uploaded to OSS as fig_000fb565989f4bfc862c77ccd5d977a9.png
已经成功运行代码，并已将代码创建的图片存储至：https://ml2022.oss-cn-hangzhou.aliyuncs.com/fig_000fb565989f4bfc862c77ccd5d977a9.png


根据这个图片的理解，我已经创建了一组满足类似分布的数据，并绘制了相应的图表。点击以下链接查看生成的图片：

[任期值分布图](https://ml2022.oss-cn-hangzhou.aliyuncs.com/fig_000fb565989f4bfc862c77ccd5d977a9.png)

如果还有其他需要，随时告诉我！

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/fig_000fb565989f4bfc862c77ccd5d977a9.png" alt="image-20240630215206479" style="zoom:40%;" />

可以看出基本能够对原图进行模仿绘制。接下来尝试对其进行修改，同样，我们让MateGen先参考一张图的配色，然后修改原图。参考图片如下：

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240701222610915.png" alt="image-20240701222610915" style="zoom:33%;" />

In [8]:
mategen.chat('我觉这张图片颜色不够好看，请帮我参考这张图片上的主配色：https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240701222610915.png，调整原图配色。')

▌ MateGen初始化完成，欢迎使用！

正在对图像内容进行识别...
即将执行以下代码：


```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 设置随机种子
np.random.seed(42)

# 自定义概率分布，多数集中在短期
prob = np.concatenate([
    np.linspace(0.2, 0.1, 10),  # 0-9个月
    np.linspace(0.1, 0.05, 10),  # 10-19个月
    np.linspace(0.05, 0.02, 10), # 20-29个月
    np.ones(40) * 0.01            # 30-69个月
])

# 标准化，使总和为1
prob /= prob.sum()

# 创建数据分布
tenure_data = np.random.choice(np.arange(70), size=1100, p=prob)

# 创建 DataFrame
df_tenure = pd.DataFrame(tenure_data, columns=['Tenure'])

# 设置配色风格
purple_pink = sns.color_palette("ch:s=-.2,r=.6", 10)

# 绘图
fig, ax = plt.subplots(figsize=(10, 6))
sns.histplot(df_tenure['Tenure'], bins=70, kde=True, color=purple_pink[2], ax=ax)
ax.set_title('Tenure Value Distribution', fontsize=16)
ax.set_xlabel('Tenure (months)', fontsize=14)
ax.set_ylabel('Count', fontsize=14)
ax.tick_params(axis='both', which='major', labelsize=12)
ax.grid(True)
plt.show()
```



Figure uploaded to OSS as fig_cbff2d672db84074bd5fb6795e309818.png
已经成功运行代码，并已将代码创建的图片存储至：https://ml2022.oss-cn-hangzhou.aliyuncs.com/fig_cbff2d672db84074bd5fb6795e309818.png


我已经参考了图片中的淡紫色和粉红色的配色，并重新生成了新的图表。点击以下链接查看新的图片：

[任期值分布图（新的配色）](https://ml2022.oss-cn-hangzhou.aliyuncs.com/fig_cbff2d672db84074bd5fb6795e309818.png)

请查看并告诉我是否符合你的期望，或者需要进一步调整。

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240701223909424.png" alt="image-20240701223909424" style="zoom:33%;" />

### 7.MateGen联网能力

> 注意，由于MateGen会借助爬虫爬取公开数据，爬虫需要用到的cookies经常会失效，因此以下功能`不一定`能顺利运行，推荐先使用`check_network_environment()`函数测试下各项联网功能能否正常运行，并使用`internet_config_assistant()`获取联网设置帮助，并将自己的cookie输入作为参数，以便顺利实现联网功能。

#### 7.1 MateGen联网功能实现

&emsp;&emsp;MateGen自带联网功能，当用户的问题超出MateGen知识库时，MategGen就会开启联网功能，从互联网上获取答案。MateGen的互联网搜索由谷歌搜索API驱动（但无需联网工具即可使用），会从知乎、Github获取相关信息，更适合获取技术相关信息。同时，MateGen还可以调用Kaggle API，若用户有需求，可以从Kaggle上获取竞赛说明和热门Kernel方案构建知识库再来进行问答。

In [5]:
mategen.chat('请帮我介绍下阿里云最新发布的Qwen2大模型。')

▌ MateGen初始化完成，欢迎使用！

正在接入谷歌搜索，并在GitHub上搜索相关项目...
正在读取相关项目说明文档...
正在进行最后的整理...


阿里云最新发布的Qwen2大模型是Qwen1.5的演变后续，提供了一系列增强和优化。以下是概述：

### Qwen2大模型的主要特点

1. **多尺寸预训练和指令微调模型**：
   - Qwen2-0.5B
   - Qwen2-1.5B
   - Qwen2-7B
   - Qwen2-57B-A14B
   - **Qwen2-72B**

2. **多语言支持**：
   - 训练数据涵盖了除英语和中文外的**27种**额外语言。

3. **性能提升**：
   - 在大多数基准评估中，性能达到了世界领先水平。
   - 在编程和数学方面的性能显著提升。

4. **上下文长度支持**：
   - Qwen2-7B-Instruct和Qwen2-72B-Instruct模型支持上下文长度扩展到**128K** tokens。

### 最新发布

- **2024年6月6日**：发布Qwen2系列。详细信息可参考[博客](https://qwenlm.github.io/blog/qwen2/)。
- **2024年3月28日**：发布Qwen1.5-MoE-A2.7B，这是Qwen系列中的首个MoE模型，目前支持HF transformers和vLLM。

### 使用说明
#### Hugging Face Transformers

```python
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen2-7B-Instruct"
device = "cuda"  # 加载模型的设备

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
```

#### 部署支持
Qwen2模型支持多种推理框架，包括vLLM和SGLang。

更多详细信息可以参考[Qwen的文档](https://qwen.readthedocs.io)以及使用示例中的代码片段。

### 其他资源

- Hugging Face: [Qwen](https://huggingface.co/Qwen)
- ModelScope: [Qwen2](https://modelscope.cn/organization/qwen)
- 博客: [Qwen Blog](https://qwenlm.github.io)
- 文档: [Qwen Documentation](https://qwen.readthedocs.io)

若需进一步了解Qwen2的详细信息，建议直接参考上述资源，以获取最新和最全面的信息。

In [6]:
mategen.chat('Qwen2可以用vLLM部署么？流程是什么样的呢？')

▌ MateGen初始化完成，欢迎使用！

Qwen2可以使用vLLM进行部署。以下是使用vLLM部署Qwen2模型的详细步骤：

### 步骤1：安装vLLM
首先，确保你已经安装了最新版本的vLLM（建议使用vLLM>=0.4.0），可以通过pip进行安装：

```bash
pip install -U vllm
```

### 步骤2：启动vLLM API服务
你需要启动一个API服务器来提供OpenAI兼容的API服务。使用Qwen2-7B-Instruct模型作为示例，运行以下命令：

```bash
python -m vllm.entrypoints.openai.api_server --served-model-name Qwen2-7B-Instruct --model Qwen/Qwen2-7B-Instruct
```

### 步骤3：使用Chat API进行交互
一旦API服务启动，你可以通过HTTP请求与其交互。例如，可以使用curl命令向API服务器发送请求：

```bash
curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
    "model": "Qwen2-7B-Instruct",
    "messages": [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Tell me something about large language models."}
    ]
    }'
```

也可以在Python中使用OpenAI库进行调用，这里演示如何调用API并进行交互：

```python
import openai

# 设置OpenAI的API密钥和API基地址以使用vLLM的API服务器
openai.api_key = "EMPTY"  # 需要设置一个任意字符串，因为这是必需的但会被忽略
openai.api_base = "http://localhost:8000/v1"

response = openai.ChatCompletion.create(
    model="Qwen2-7B-Instruct",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Tell me something about large language models."},
    ]
)

print("Chat response:", response.choices[0].message["content"])
```

### 注意事项
- 确保在启动API服务器时，指定的模组名称（如`Qwen2-7B-Instruct`）正确，无任何拼写错误。
- 运行Python脚本或curl命令前，请确保vLLM API服务正在运行且可以访问。

通过以上步骤，你就可以成功在本地环境中使用vLLM部署并访问Qwen2大模型。若遇到任何问题或有进一步的需求，请随时告诉我。

&emsp;&emsp;搜索问答的本质是爬取信息创建本地知识库，然后再进行回答，只要开启搜索就会创建一个临时文件夹，并取名为`auto_search`，保存在`knowledge_base`中：

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240701231035060.png" alt="image-20240701231035060" style="zoom:50%;" />

> 若有需要，也可以将其设置为永久知识库。

#### 7.2 MateGen Kaggle竞赛辅导功能

&emsp;&emsp;除了能够适时开启联网功能并进行搜索问答外，MateGen还专门围绕Kaggle竞赛信息获取进行了优化。当用户希望了解某项竞赛信息时，只需要在MateGen参数位上输入`kaggle_competition_guidance=True`即可，并在弹出的对话框中输入感兴趣的Kaggle竞赛名称，MateGen就会自动使用Kaggle API，获取该项比赛的Overview（概览信息）、Data（数据集信息）以及热门Kernels（其他参赛者热门竞赛方案），并在本地创建竞赛同名知识库，并自动开启围绕当前竞赛知识库的问答功能。例如我们想要了解Kaggle上的一项名为`House Prices - Advanced Regression Techniques`比赛，即可按照如下方式执行：

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240702004111331.png" alt="image-20240702004111331" style="zoom:50%;" />

In [4]:
mategen = MateGenClass(api_key=api_key, 
                       kaggle_competition_guidance=True)

正在初始化，请稍后...
成功连接服务器，API-KEY通过验证，已完成初始化，祝使用愉快！


请输入竞赛名称 House Prices - Advanced Regression Techniques


已找到指定竞赛House Prices - Advanced Regression Techniques，正在检索支持库是否存在竞赛信息...
正在准备构建知识库...
正在获取竞赛说明及数据集说明...
正在获取House Prices - Advanced Regression Techniques竞赛热门kernel...
知识文档创建完成，正在进行词向量化处理与存储，请稍后...
正在创建知识库，请稍后...
正在创建知识库的向量存储，请稍后...
知识库创建完成！
已顺利完成Kaggle竞赛知识库创建，后续可调用知识库回答。


此时当前竞赛的本地知识库位置如下：

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240702005129111.png" alt="image-20240702005129111" style="zoom:50%;" />

获取的竞赛知识库文件如下，其中包含了比赛介绍、数据集介绍和热门竞赛方案：

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240702005219380.png" alt="image-20240702005219380" style="zoom:50%;" />

接下来MateGen会自动带入该知识库进行问答，从而顺利完成竞赛辅导工作：

In [7]:
mategen.chat('请检索知识库，帮我详细介绍下House Prices这个竞赛')

▌ MateGen初始化完成，欢迎使用！

九天老师的公开课中提到的“House Prices”竞赛是一个经典的回归问题竞赛。以下是该竞赛的详细介绍：

### 竞赛背景
“House Prices”竞赛致力于通过分析各种房屋特征，建立一个模型来预测房屋的销售价格。竞赛提供了一组训练数据集，包含房屋的各种属性和相应的销售价格，以及一组测试数据集，需要根据训练好的模型来预测这些测试集房屋的价格。

### 特征和数据
数据集中包含79个解释变量，它们描述了埃姆斯市（Ames, Iowa）住宅属性的几乎所有方面。这些变量包括总体建筑面积、年份、房间数量、地块面积、内部条件等。

### 评价指标
该竞赛采用均方根误差（Root Mean Squared Error, RMSE）作为评价指标。即：
\[ \text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (\hat{y}_i - y_i)^2} \]
其中，\(\hat{y}_i\)表示预测值，\(y_i\)表示实际值，\(n\)表示样本数量。

### 建模过程
1. **数据预处理**：
   - 缺失值处理：对数据集中存在的缺失值进行填补或删除；
   - 特征工程：包括特征选择、特征提取及特征变换等。
   
2. **模型构建与训练**：
   - 基于训练数据，利用不同的机器学习算法（如线性回归、决策树、随机森林和梯度提升树等）进行模型的训练。

3. **模型评估与优化**：
   - 利用交叉验证（Cross-Validation）对模型进行评估；
   - 利用网格搜索等超参数优化方法，对模型的参数进行调优，以获得最优的模型性能。

4. **模型预测与提交**：
   - 利用训练好的模型，对测试集进行预测，生成提交文件进行评分。

### 具体实现示例
下面是利用Python和sklearn进行House Prices预测的一个简单示例：

```python
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
import numpy as np

# 读取数据
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

# 特征选择和数据预处理
X = train.drop(['SalePrice', 'Id'], axis=1)
y = train['SalePrice']

# 简单的数值型特征填充
X = X.select_dtypes(include=[np.number]).fillna(X.mean())

# 数据集拆分
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# 模型训练
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 模型评估
y_pred = model.predict(X_val)
rmse = np.sqrt(mean_squared_error(y_val, y_pred))
print(f'Validation RMSE: {rmse}')

# 预测测试集
test = test.select_dtypes(include=[np.number]).fillna(X.mean())
predictions = model.predict(test.drop('Id', axis=1))

# 生成提交文件
submission = pd.DataFrame({'Id': test['Id'], 'SalePrice': predictions})
submission.to_csv('submission.csv', index=False)
```

### 竞赛优点
- 丰富的数据集：丰富的特征变量，为特征工程和模型构建提供了充分的数据支持；
- 实践性强：房价预测是一个现实中的常见问题，通过该竞赛可以很好地将理论与实践结合；
- 对模型能力的全面考察：竞赛不仅考察选手的数据预处理和特征工程能力，还深入考察模型构建、参数调优及结果分析能力。

### 结论
通过参与“House Prices”竞赛，选手能够完整地体验一个机器学习项目的全流程，有助于提升其实践能力和理论水平。

【12:2†source】【12:16†source】【12:19†source】

In [8]:
mategen.chat('在你的知识库中，有什么比较精彩的高分竞赛方案么？能帮我分享下他们的思路么？')

▌ MateGen初始化完成，欢迎使用！

九天老师的公开课课件中提供了几份高分竞赛方案，每个方案均有其独特的思路和方法。这里以其中一份竞赛方案为例，详细介绍其思路。

### 高分竞赛方案思路

**竞赛名称**：House Prices: Advanced Regression Techniques

1. **特征工程**：
   - **缺失值处理**：处理数据集中缺失值的部分，例如使用中位数或均值填补数值型变量的缺失值，使用众数填补类别型变量的缺失值。
   - **特征变换**：对数值型特征进行变换，包括对数变换、Box-Cox变换等，以减少特征的偏态分布。
   - **构造新特征**：结合现有特征生成新特征，例如将每个房屋的建成年份和翻新年份结合生成“房龄”特征。

2. **模型选择与训练**：
   - **单模型训练**：
     - 使用多种回归算法训练模型，包括线性回归、Ridge回归、Lasso回归、弹性网络回归、随机森林回归、梯度提升树（Gradient Boosting Machine, GBM）等。
   - **集成学习**：
     - 采用Stacking的方法，将多个基础模型的预测结果作为新特征，进一步训练元模型（Meta Learner），常用Logistic Regression或GBR作为元模型训练。
   
3. **模型评估与选择**：
   - **交叉验证**：使用交叉验证（Cross-Validation）评估模型性能，选择性能最佳的模型。
   - **模型调优**：通过网格搜索（Grid Search）或随机搜索（Random Search）等方法优化模型超参数，进一步提升模型性能。

4. **预测与结果提交**：
   - 使用训练好的最优模型对测试数据集进行预测，生成预测结果。
   - 预测结果与实际销售价格进行比较，计算均方根误差（Root Mean Squared Error, RMSE）作为评价指标。

5. **代码示例**：
   ```python
   import pandas as pd
   import numpy as np
   from sklearn.model_selection import train_test_split, cross_val_score
   from sklearn.linear_model import Ridge, Lasso
   from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
   from sklearn.metrics import mean_squared_error
   from sklearn.pipeline import make_pipeline
   from sklearn.preprocessing import RobustScaler

   # 读取数据
   train = pd.read_csv('train.csv')
   test = pd.read_csv('test.csv')

   # 特征工程示例
   train['TotalSF'] = train['TotalBsmtSF'] + train['1stFlrSF'] + train['2ndFlrSF']
   test['TotalSF'] = test['TotalBsmtSF'] + test['1stFlrSF'] + test['2ndFlrSF']
   y = train['SalePrice']

   # 特征选择及划分训练与验证集
   X = train.drop(['SalePrice', 'Id'], axis=1).select_dtypes(include=[np.number]).fillna(0)
   X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

   # 构建模型
   models = [
       make_pipeline(RobustScaler(), Lasso(alpha=0.0005, random_state=1)),
       make_pipeline(RobustScaler(), Ridge(alpha=1.0)),
       RandomForestRegressor(n_estimators=100, random_state=1),
       GradientBoostingRegressor(n_estimators=3000, learning_rate=0.05, max_depth=4, 
                                 max_features='sqrt', min_samples_leaf=15, min_samples_split=10, 
                                 loss='huber', random_state =5)
   ]

   # 评估模型
   for model in models:
       model.fit(X_train, y_train)
       score = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')
       print(f"{model.steps[0][0]} RMSE: {np.sqrt(-score.mean())}")

   # 最优模型预测
   final_model = models[3]
   final_model.fit(X_train, y_train)
   y_pred = final_model.predict(X_val)
   rmse = np.sqrt(mean_squared_error(y_val, y_pred))
   print(f'Validation RMSE: {rmse}')

   # 测试集预测及生成提交文件
   X_test = test.drop(['Id'], axis=1).select_dtypes(include=[np.number]).fillna(0)
   test_preds = final_model.predict(X_test)
   submission = pd.DataFrame({'Id': test['Id'], 'SalePrice': test_preds})
   submission.to_csv('submission.csv', index=False)
   ```

### 小结
通过以上竞赛思路，可以看到：
- 详细的特征工程处理和高效的特征选择是高分方案的基础。
- 多模型训练和集成学习提升了模型的预测能力和稳健性。
- 通过交叉验证和网格搜索等方法调整模型超参数，确保模型的最优性能。

这种系统化的方法不仅适用于House Prices竞赛，亦可适用于其他类似的回归问题。    

#### 7.3 MateGen联网测试与设置

&emsp;&emsp;不过需要注意的是，MateGen的联网功能有一定使用门槛，有时会因为Cookie失效等原因无法顺利联网，因此MateGen自带了联网检测工具和设置函数，若原始Cookie失效，则可以调用相关实用函数手动输入新的Cookie来重启联网功能。

- MateGen联网检测函数：check_network_environment

In [4]:
check_network_environment()

正在检测MateGen联网环境。MateGen支持连接谷歌搜索、知乎、Github和Kaggle，且可以借助阿里云oss对象存储，将生成的图片存储到oss上。
    默认配置文件下除oss外上述功能可以正常运行，但伴随时间推移，部分cookie可能会失效。
    因此，MateGen也支持用户自定义修改相关配置。即将开启联网功能检测...
即将检测谷歌搜索API能否正常运行
测试成功：API响应包含预期的数据。
谷歌搜索API可正常运行
即将检测能否连接知乎进行问答
测试成功：爬虫响应正常。
可以连接知乎进行问答
即将检测能否连接Github进行问答
测试成功：GitHub token 正常工作。
可以连接Github进行问答
即将检测能否连接Kaggle进行问答
测试成功：Kaggle API 响应正常。
可以连接Kaggle进行问答
即将检测阿里云oss对象存储设置是否成功
请先设置相关变量取值
阿里云oss对象存储设置不成功，，请调用internet_config_assistant()函数获取帮助文档并进行设置


&emsp;&emsp;check_network_environment会进行5项联网功能检测，首次使用MateGen时会发现oss对象存储设置不成功，是因为oss对象存储没有设置初始变量值，需要用户自行注册阿里云并获取oss存储相关信息，才能开启MateGen的oss存储功能。不过oss设置并不影响MateGen的联网功能，没有oss只会影响MateGen绘图功能无法自动保存到图床上。

- MateGen联网设置函数：internet_config_assistant

&emsp;&emsp;当然，我们可以调用internet_config_assistant函数获取各类不同网络环境设置指南和设置入口，例如，如果我们希望设置阿里云oss对象存储，则可以按照如下方式进行操作：

In [33]:
# 获取帮助
internet_config_assistant()

你好，欢迎MateGen互联网配置助手，请输入你希望获取的帮助类型：1.获取帮助文档；2.进行互联网参数配置；0.退出 1
请输入想要获得的帮助文档类型:        1.谷歌搜索API获取与配置方法；
        2.知乎搜索cookie获取与配置方法；
        3.Github token获取与配置方法； 
        4.Kaggle搜索cookie获取与配置方法；
        5.阿里云oss对象存储配置方法；
        6.返回上一级 
        0.退出 5


以下是《阿里云oss对象存储配置方法》详情


# 阿里云oss设置

​	首先，注册并登录阿里云，并点击右上方控制台：

<img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240706190716644.png" alt="image-20240706190716644" style="zoom:50%;" />

然后搜索oss对象存储：https://oss.console.aliyun.com/overview，点击创建Bucket：

<img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240706190820973.png" alt="image-20240706190820973" style="zoom:50%;" />

然后即可获得ENDPOINT='https://oss-cn-hangzhou.aliyuncs.com' （杭州地区，若是北京地区，则是https://oss-cn-beijing.aliyuncs.com） ，以及BUCKET_NAME（即创建的bucket名称）。

接下来创建ACCESS_KEY_ID和ACCESS_KEY_SECRET，点击Access管理，创建账户及API-KEY即可。

<img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240706191115348.png" alt="image-20240706191115348" style="zoom:50%;" />





然后再进行设置即可：

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240707222652585.png" alt="image-20240707222652585" style="zoom:33%;" />

&emsp;&emsp;至此MateGen核心功能全部介绍完毕，欢迎各位用户参与使用并提交反馈。**目前MateGen正在公测，限量开放200个内测名额，每个名额包含100万token使用额度，每位用户限领一个API-KEY，若需继续使用，也可按需充值token额度。API-KEY领取、加入技术交流群、其他任何问题，<span style="color:red;">扫码添加客服小可爱(微信：littlelion_1215)，回复“MG”详询哦👇</span>**

<center><img src="https://ml2022.oss-cn-hangzhou.aliyuncs.com/img/image-20240706225245612.png" alt="image-20240706225245612" style="zoom:50%;" />