# <center>模型压力测试</center>

## 一 Ollama OpenAI API风格代码实践

安装对应依赖

In [2]:
! pip install openai

Collecting openai
  Downloading openai-1.71.0-py3-none-any.whl.metadata (25 kB)
Collecting distro<2,>=1.7.0 (from openai)
  Downloading distro-1.9.0-py3-none-any.whl.metadata (6.8 kB)
Collecting jiter<1,>=0.4.0 (from openai)
  Downloading jiter-0.9.0-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (5.2 kB)
Collecting pydantic<3,>=1.9.0 (from openai)
  Downloading pydantic-2.10.6-py3-none-any.whl.metadata (30 kB)
Collecting tqdm>4 (from openai)
  Downloading tqdm-4.67.1-py3-none-any.whl.metadata (57 kB)
Collecting annotated-types>=0.6.0 (from pydantic<3,>=1.9.0->openai)
  Downloading annotated_types-0.7.0-py3-none-any.whl.metadata (15 kB)
Collecting pydantic-core==2.27.2 (from pydantic<3,>=1.9.0->openai)
  Downloading pydantic_core-2.27.2-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.6 kB)
Downloading openai-1.71.0-py3-none-any.whl (598 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m599.0/599.0 kB[0m [31m163.3 kB/s[0m eta [3

&emsp;&emsp;本 `OpenAI` 的 `API` 接口是大模型应用开发中最常用、且集成度最高的 `API` 接口规范，其兼容接口主要包括：

- `chat/completions`
- `completions`
- `models`
- `embeddings`

- **非流式调用**

In [21]:
from openai import OpenAI # type: ignore

client = OpenAI(
    base_url='http://localhost:11434/v1/',     # 这里可以修改成可访问的 IP
    api_key='ollama',   # 这里随便写，但是api_key字段一定要有
)

chat_completion = client.chat.completions.create(
    model='deepseek-r1:32b',
    messages=[
        {
            'role': 'user',
            'content': '什么是机器学习？',
        }
    ],
)

print(chat_completion.choices[0].message.content)

<think>
嗯，今天我在想机器学习到底是什么。好像这个词经常被提到，特别是在科技新闻里。首先，我记得以前学过一些计算机相关的内容，但对这个概念还是有点模糊。

机器学习，听起来像是让机器自己学习东西吧。那和普通的编程有什么不同呢？普通的编程是你给程序写一堆指令，让它按照你的指示去执行任务。比如，想让电脑计算两个数的和，你得先输入这两个数，然后用加法运算符。结果出来了，对不对。

可是机器学习好像不是这样子的。我记得以前听说过AlphaGo击败了围棋冠军，那时候觉得太神奇了，因为程序自己学会了下棋，而没有被明确地教导每一步该怎么做。那这是怎么做到的呢？是不是不需要写那么多指令？

然后想到，机器学习应该是一种让计算机通过数据来自动改进的方法。比如，给它一堆图片和标签，告诉它是猫还是狗，然后让它自己学着识别。这样就不需要手动编程每个特征了。

不过，机器学习具体是怎么工作的呢？是不是有一些算法？听说有监督 learning、无监督 learning这些术语。不知道它们之间有什么区别。也许有监督的是用已知的数据去训练模型，让模型预测未知的结果；而无监督的学习是用于发现数据中的模式或结构，像聚类分析之类的。

还有强化学习，听起来像是通过奖励和惩罚来让模型做出更好的决策。比如游戏AI在试错中找到最优策略。这种方法可能更接近人类的学习方式，不断地尝试，根据结果调整行为。

然后，机器学习的应用非常广泛，比如图像识别、语音助手，甚至是医疗诊断。这让我觉得这个技术真的很强大，能够处理很多复杂的问题。可是，要实施这些应用，是否需要大量的数据呢？听说数据是机器学习的核心，没有足够的数据模型可能学不好。

那机器学习和人工智能的关系是什么呢？是不是所有的人工智能都用到了机器学习？或者只是其中的一部分？好像有的AI系统是基于规则的，比如专家系统，而机器学习则是另一种实现方式。所以，可以说机器学习是人工智能的一个子集，主要通过数据驱动的方式来实现智能行为。

不过，我可能有点弄混了。比如深度学习也是机器学习的一种，它用多层神经网络来自动提取特征，处理更复杂的数据模式。这也解释了为什么近年来机器学习取得了很大的进展，尤其是图像和自然语言处理方面。

回到机器学习的基础概念，就是让计算机通过经验（数据）改善性能。这就需要有算法能够从数据中发现规律，并利用这些规律做预测或决策。这听起来像是统

- **流式调用**

In [22]:
from openai import OpenAI

client = OpenAI(
    base_url='http://localhost:11434/v1/',
    api_key='ollama',
)

messages = [
    {
        'role': 'user',
        'content': '什么是机器学习？',
    }
]

try:
    # 调用聊天接口
    stream = client.chat.completions.create(
        model='deepseek-r1:32b',
        messages=messages,
        stream=True
    )
    
    # 处理流式响应
    for chunk in stream:
        if chunk.choices[0].delta.content is not None:
            print(chunk.choices[0].delta.content, end='', flush=True)
            
except Exception as e:
    print(f"发生错误: {str(e)}")

<think>
嗯，今天用户问“什么是机器学习？”这个问题看起来很基础，但可能他刚接触这个领域，我得用简单易懂的语言来解释。

首先，我要明确机器学习的基本概念。它属于人工智能的一部分，这点要说明清楚。然后讲讲它是怎么从经验数据中进行学习的，让计算机通过例子自己找出规律，而不是直接编程。

接下来，可以举个例子让用户更容易理解，比如垃圾邮件分类或者图像识别，这样他能联想到实际应用。

还要提到机器学习的不同类型，比如监督学习、无监督学习和强化学习。每种类型简单介绍，帮助用户形成基本框架。

可能的话，再讲一下它的关键要素，数据是基础，模型很重要，算法是实现方法。最后强调机器学习广泛的应用领域，让用户知道它的价值。

要注意不要用太多专业术语，尽量口语化，让他觉得容易懂。
</think>

### 什么是机器学习？

**机器学习（Machine Learning）** 是人工智能（Artificial Intelligence, AI）的一个重要分支，它使计算机系统能够通过数据和经验来自动改进和适应。简单来说，它是让计算机从数据中“学习”规律或模式，而无需显式地进行编程。

### 核心概念
1. **模型（Model）**：
   - 机器学习的核心是一个模型。这个模型是从大量数据中训练出来的，用于对未知数据进行预测、分类或其他任务。
   
2. **数据驱动**：
   - 与传统的程序不同，机器学习依赖于数据。模型的性能主要取决于数据的质量和数量。

3. **训练（Training）**：
   - 训练是模型从数据中提取规律或模式的过程。在这个过程中，模型会调整内部参数以更好地拟合数据。

4. **泛化能力（Generalization）**：
   - 机器学习的目标不仅仅是记住已有的数据，而是能够对以前从未见过的新数据做出准确的预测。泛化能力是衡量模型性能的重要指标。

### 主要类型
1. **监督学习（Supervised Learning）**：
   - 使用带有标签的数据进行训练，模型学会根据输入预测输出。
   - 常见任务包括分类（如垃圾邮件识别）和回归（如房价预测）。

2. **无监督学习（Unsupervised Learning）**：
   - 输入数据没有标签，模型需要自己发现数据中的结构或模式。
   - 常见任务包

&emsp;&emsp;在`OpenAI Compatibility` 规范下，目前`Ollama` 支持的模型参数如下：

<style>
.center 
{
  width: auto;
  display: table;
  margin-left: auto;
  margin-right: auto;
}
</style>

<p align="center"><font face="黑体" size=4>支持的功能</font></p>
<div class="center">

| 功能                     | 描述               |
|--------------------------|--------------------|
| 聊天                | Chat completions    |
| 流媒体                   | Streaming           |
| JSON模式                 | JSON mode           |
| 可再现的输出             | Reproducible outputs |
| 视觉                     | Vision              |
| 工具                     | Tools               |

</div>

<p align="center"><font face="黑体" size=4>支持的请求字段</font></p>
<div class="center">

| 请求字段                | 描述                     |
|-------------------------|--------------------------|
| model                   | 模型                     |
| messages                | 消息                     |
| frequency_penalty       | 频率惩罚                 |
| presence_penalty        | 存在惩罚                 |
| response_format         | 响应格式                 |
| seed                    | 种子                     |
| stop                    | 停止                     |
| stream                  | 流式输出                 |
| stream_options          | 流式选项                 |
| include_usage           | 包含使用情况             |
| temperature             | 温度                     |
| top_p                  | Top-p 采样              |
| max_tokens              | 最大令牌数               |
| tools                   | 工具                     |
</div>

In [23]:
from openai import OpenAI

client = OpenAI(
    base_url='http://localhost:11434/v1/',
    api_key='ollama',
)

messages = [
    {
        'role': 'user',
        'content': '什么是机器学习？',
    }
]

try:
    # 调用聊天接口
    stream = client.chat.completions.create(
        model='deepseek-r1:32b',
        messages=messages,
        stream=True,
        temperature=0.7,
        max_tokens=1024,
    )
    
    # 处理流式响应
    for chunk in stream:
        if chunk.choices[0].delta.content is not None:
            print(chunk.choices[0].delta.content, end='', flush=True)
            
except Exception as e:
    print(f"发生错误: {str(e)}")

<think>
嗯，我最近在学习一些计算机科学的知识，今天老师提到了“机器学习”这个词。我对这个概念有点模糊，所以决定好好思考一下，弄清楚它到底是什么。

首先，机器学习听起来像是让机器自己学习，对吧？那它和普通的编程有什么不同呢？我想，普通的程序是根据明确的规则来执行任务的，比如if-else语句或者循环结构。而机器学习可能不是这样，而是让机器通过数据来“学习”规律或模式，然后做出预测或决策。

那我再想想，机器学习是不是属于人工智能的一部分？以前学过人工智能的概念，它包括很多方面，比如自然语言处理、计算机视觉等等。机器学习好像是其中的一个分支，专注于如何让系统从数据中自动学习，而不是通过手动编程来实现特定任务。

接下来，我想起老师提到的两种主要类型：监督学习和无监督学习。监督学习听起来像有“监督”，也就是说需要有标记的数据。比如说，如果我们想教机器识别狗的照片，我们需要给它很多带有标签（比如“是狗”或“不是狗”）的照片，然后让机器通过这些数据来学习特征，最后能够识别新的图片是否是狗。

而无监督学习好像不需要标记的数据，更多的是发现数据中的结构或者模式。比如聚类分析，把相似的数据点分组，这样可以帮助我们发现数据中隐藏的结构，适用于像市场细分这样的场景。

还有强化学习，这个词有点难理解。好像是通过奖励和惩罚机制让机器在环境中不断尝试，逐渐找到最优策略。就像训练一只狗一样，当它做对了动作就会得到奖励，做错了就没有，这样它就会学会正确的行为模式。

那机器学习的核心是什么呢？应该是模型的构建和优化吧。模型是根据数据训练出来的，用来预测或分类。然后我们通过一些评估指标来判断模型的表现，并不断调整参数以提高准确率。数据预处理也是关键步骤之一，包括清洗数据、标准化或者归一化，这样可以让模型更好地学习。

机器学习的应用场景有很多啊，像推荐系统，比如 Netflix 根据用户的历史观看记录推荐电影，这也是用机器学习算法来分析用户的喜好，然后给出建议。还有语音识别，比如 Siri 或者 Alexa，它们能听懂我们的指令并做出回应，背后应该也是用了机器学习的技术。

不过，机器学习也有一些挑战和限制。比如说，数据的质量对结果影响很大，如果训练数据有偏见，模型可能会学到不公正的东西。另外，模型的可解释性也是一个问题，特别是像深度学习这样的复杂模型，有时候很难理解它们是怎么做出决

## 二  ollama /api/generate API实践

- `/api/generate` 接口对应 `OpenAI` 的 `completions` 接口；
- `/api/chat` 接口对应 `OpenAI` 的 `chat/completions` 接口；

&emsp;&emsp;Ollama 服务启动后会提供一系列原生 ` REST API` 端点。通过这些`Endpoints`可以在代码环境下与`ollama`启动的大模型进行交互、管理模型和获取相关信息。其中两个`endpoint` 是最重要的，分别是：
  - <font color="red">**POST /api/generate**</font>
  - <font color="red">**POST /api/chat**</font>

&emsp;&emsp;其他端点情况：
  - POST /api/create   
  - POST /api/tags
  - POST /api/show
  - POST /api/copy
  - DELETE /api/delete
  - POST /api/pull
  - POST /api/push
  - POST /api/embed
  - GET /api/ps

---

### 2.1. /api/generate 接口参数概览

&emsp;&emsp;该接口使用提供的模型为给定提示生成响应。这是一个流式端点，因此会有一系列响应。最终响应对象将包括统计信息和请求中的其他数据。其中比较重要的参数我做了标红处理，大家重点理解。



<style>
.center 
{
  width: auto;
  display: table;
  margin-left: auto;
  margin-right: auto;
}
</style>

<p align="center"><font face="黑体" size=4>常规参数</font></p>
<div class="center">

| 参数名      | 类型      | 描述                                                         |
| ----------- | --------- | ------------------------------------------------------------ |
| <font color="red">**model**</font>   | *(必需)*  | 模型名称，必须遵循 `model:tag` 格式，如果不提供，则将默认为 `latest`。 |
| <font color="red">**prompt**</font>  | *(必需)*  | 用于生成响应的提示。                                         |
| **suffix**  | *(可选)*  | 模型响应后的文本。                                         |
| **images**  | *(可选)*  | base64 编码图像的列表（适用于多模态模型，如 llava）。      |

</div>


<p align="center"><font face="黑体" size=4> 高级参数 (可选)</font></p>
<div class="center">

| 参数名      | 类型      | 描述                                                         |
| ----------- | --------- | ------------------------------------------------------------ |
| <font color="red">**format**</font>  | *(可选)*  | 返回响应的格式。格式可以是 `json` 或 JSON 模式。<font color="red">最主要的问题是避免产生大量空格</font>         |
| <font color="red">**options**</font> | *(可选)*  | 文档中列出的其他模型参数，例如 `temperature`。              |
| <font color="red">**system**</font>  | *(可选)*  | 系统消息，用于覆盖 Modelfile 中定义的内容。                 |
| **template**| *(可选)*  | 要使用的提示模板，覆盖 Modelfile 中定义的内容。             |
| <font color="red">**stream**</font>  | *(可选)*  | 如果为 `false`，响应将作为单个响应对象返回，而不是对象流。 |
| **raw**     | *(可选)*  | 如果为 `true`，则不会对提示应用格式。                       |
| <font color="red">**keep_alive**</font> | *(可选)* | 控制模型在请求后保持加载的时间（默认：5分钟）。             |
| **context** | *(可选)*  | *(已弃用)* 从先前请求返回的上下文参数，用于保持简短的对话记忆。 |

</div>

&emsp;&emsp;其中，Options参数详细解释如下，同样我对重点参数做了标红处理，大家重点理解。

| 参数名 | 描述 | 值类型 | 示例用法 |
| --------------- | ------------------------------------------------------------ | ------ | ---------------------- |
| mirostat | 启用 Mirostat 采样以控制困惑度。（默认：0，0 = 禁用，1 = Mirostat，2 = Mirostat 2.0） | int | mirostat 0 |
| mirostat_eta| 影响算法对生成文本反馈的响应速度。较低的学习率会导致调整较慢，而较高的学习率会使算法更具响应性。（默认：0.1） | float | mirostat_eta 0.1 |
| mirostat_tau| 控制输出的连贯性和多样性之间的平衡。较低的值会导致更集中和连贯的文本。（默认：5.0） | float | mirostat_tau 5.0 |
| <font color="red">num_ctx</font> | 设置用于生成下一个标记的上下文窗口大小。（默认：2048）, 影响的是模型可以一次记住的最大 token 数量。 | int | num_ctx 4096|
| repeat_last_n| 设置模型回溯的范围以防止重复。（默认：64，0 = 禁用，-1 = num_ctx） | int | repeat_last_n 64 |
| repeat_penalty| 设置惩罚重复的强度。较高的值（例如 1.5）会更强烈地惩罚重复，而较低的值（例如 0.9）会更宽松。（默认：1.1） | float | repeat_penalty 1.1 |
| <font color="red">temperature</font> | 模型的温度。增加温度会使模型的回答更具创造性。（默认：0.8） | float | temperature 0.7 |
| seed | 设置用于生成的随机数种子。将其设置为特定数字将使模型对相同提示生成相同的文本。（默认：0） | int | seed 42 |
| <font color="red">stop</font> | 设置使用的停止序列。当遇到此模式时，LLM 将停止生成文本并返回。可以通过在 modelfile 中指定多个单独的停止参数来设置多个停止模式。 | string | stop "AI assistant:" |
| <font color="red">num_predict</font> | 生成文本时要预测的最大标记数。（默认：-1，无限生成）,影响模型最大可以生成的 token 数量。 | int | num_predict 42 |
| top_k | 降低生成无意义文本的概率。较高的值（例如 100）会给出更多样化的答案，而较低的值（例如 10）会更保守。（默认：40） | int | top_k 40 |
| top_p | 与 top-k 一起工作。较高的值（例如 0.95）会导致更具多样性的文本，而较低的值（例如 0.5）会生成更集中和保守的文本。（默认：0.9） | float | top_p 0.9 |
| min_p | top_p 的替代方案，旨在确保质量和多样性之间的平衡。参数 p 表示考虑标记的最小概率，相对于最可能标记的概率。例如，p=0.05 时，最可能的标记概率为 0.9，值小于 0.045 的 logits 会被过滤掉。（默认：0.0） | float | min_p 0.05 |


&emsp;&emsp;对于`endpoints`来说，如果使用代码调用，常规的调用方式是通`requests`库进行调用。如下所示：

In [6]:
import requests # type: ignore
import json

# 设置 API 端点
generate_url = "http://localhost:11434/api/generate"    # 这里需要根据实际情况进行修改

# 示例数据
generate_payload = {
    "model": "deepseek-r1:32b", 
    "prompt": "什么是机器学习？",  # 这里需要根据实际情况进行修改
    "stream": False,       # 默认使用的是True
}

# 调用生成接口
response_generate = requests.post(generate_url, json=generate_payload)
if response_generate.status_code == 200:
    generate_response = response_generate.json()
    print("生成响应:", json.dumps(generate_response, ensure_ascii=False, indent=2))
else:
    print("生成请求失败:", response_generate.status_code, response_generate.text)

生成响应: {
  "model": "deepseek-r1:32b",
  "created_at": "2025-04-08T01:33:20.470656272Z",
  "response": "<think>\n嗯，我现在要弄清楚什么是机器学习。这对我来说是一个全新的概念，所以我得一步一步慢慢理清楚。\n\n首先，我记得机器学习和人工智能有关，对吧？人工智能是让计算机像人一样思考或行动的领域，而机器学习应该是其中的一部分。不过具体是什么呢？\n\n听说机器学习涉及数据和模型。可能就是用大量的数据来训练模型，然后让模型自己去预测或者做出决策。那这跟传统编程有什么不同呢？传统编程是程序员写好规则，计算机按部就班执行，而机器学习是不是让计算机从数据中自己发现规律？\n\n举个例子，比如分类问题，像是识别图片中的猫和狗。传统方法可能需要手动设定很多特征，比如猫有胡须、尖耳朵等等，然后编写规则来判断。但机器学习可能是用很多带标签的图像喂给模型，让它自己学出这些特征，这样更高效。\n\n那机器学习有什么应用场景呢？比如推荐系统，像 Netflix 给你推荐电影；或者是语音识别，比如 Siri 或者 Alexa 能听懂我说的话。还有像自动驾驶汽车，它们需要处理大量的传感器数据来做决策。\n\n然后是机器学习的不同类型，我记得有监督学习、无监督学习和强化学习。有监督学习应该是用带标签的数据来训练模型，预测新的数据结果；无监督学习可能是在没有标签的情况下发现数据中的结构，比如聚类；强化学习则是通过试错，根据奖励信号调整策略。\n\n那机器学习的流程大概是怎样的呢？首先是收集数据，然后清洗处理，接着选择合适的算法，训练模型，调优参数，最后评估和部署。这些步骤听起来有点复杂，可能需要很多时间和计算资源。\n\n不过，机器学习也有挑战，比如数据的质量和数量，模型可能会过拟合或者欠拟合，解释性的问题，以及隐私和伦理问题。这些都是需要考虑的因素。\n\n我还记得一些常用的算法，比如线性回归、支持向量机、决策树、神经网络等等。深度学习是机器学习的一个子集，使用多层的神经网络来处理复杂的数据模式。\n\n总的来说，机器学习是一种通过数据让计算机自动学习并做出预测或决策的方法，它在很多领域都有广泛的应用，但同时也面临一些技术和伦理上的挑战。\n</think>\n\n机器学习（Machi

&emsp;&emsp;返回的响应中包含以下参数，其对应的描述如下：

<style>
.center 
{
  width: auto;
  display: table;
  margin-left: auto;
  margin-right: auto;
}
</style>

<p align="center"><font face="黑体" size=4>响应参数</font></p>
<div class="center">

| 参数名                  | 描述                                                         |
| ----------------------- | ------------------------------------------------------------ |
| **total_duration**      | 单次响应花费的总时间                                          |
| **load_duration**       | 加载模型花费的时间                                   |
| **prompt_eval_count**   | 提示中的token数                                               |
| **prompt_eval_duration**| 评估提示所花费的时间（以纳秒为单位）                                 |
| **eval_count**          | 响应中的token数                                               |
| **eval_duration**       | 生成响应的时间（以纳秒为单位）                              |
| **context**             | 在此响应中使用的对话的编码，可以在下一个请求中发送以保持对话记忆 |
| **response**            | 空响应是流的，如果未流式传输，则将包含完整的响应             |

</div>

&emsp;&emsp;返回的响应体中重点关注以下几个参数：

### 2.2. response 参数格式化解析

&emsp;&emsp;`response` 字段指的是模型生成的实际输出内容。对于 `DeepSeek-R1` 模型来说，`response` 字段中包含<think> 标签和正常文本，<think> 标签用于表示模型的思考过程或内部推理，而正常的文本则是模型生成的实际输出内容。注意：非推理类模型的返回结果中没有<think></think>标识。


In [25]:
generate_response["response"]

'<think>\n嗯，我现在要理解一下什么是机器学习。好像机器学习是现在很热门的一个领域，但我对它的了解还不深。首先，我记得机器学习和人工智能有关系，但具体是什么样的关系呢？\n\n我好像听说过，机器学习让计算机能够从数据中学习，而不是通过明确的编程指令来完成任务。这有点像人类通过经验学习一样，对吧？比如说，当我们要识别图片中的猫时，传统的编程方法可能需要手动编写很多规则和条件来判断一张图是不是猫，但这样做可能很繁琐，而且效果不一定好。而机器学习的方法则是让计算机自己分析大量的猫的图片，从中找出规律，然后自己学会如何识别猫。\n\n那机器学习具体是怎么工作的呢？我记得有个过程叫做训练模型，也就是用大量数据来调整算法的参数，使得它能够准确地预测或分类新的数据。比如，在图像识别中，使用卷积神经网络（CNN）这样的模型，通过训练，让它能够识别各种不同的图像类别。\n\n机器学习还有监督学习和无监督学习的区别，对吗？监督学习是用有标签的数据来训练模型，比如给定很多图片并告诉计算机哪些是猫、哪些不是，然后它学会分类。而无监督学习则是在没有标签的情况下，让模型自己发现数据中的结构或模式，比如聚类分析，把相似的数据点分组在一起。\n\n还有强化学习，这好像是通过奖励和惩罚机制来训练模型，让它在环境中做出决策，最大化某种累积奖励。比如游戏AI在玩一个游戏时，会根据得分来调整自己的策略，逐渐变得更强。\n\n机器学习的应用场景很广泛，我听说可以用它来做预测，比如房价预测、股票走势分析；也可以用于自然语言处理，比如翻译和文本生成；还有推荐系统，像 Netflix 或 Amazon 用机器学习来推荐用户可能喜欢的内容。当然，图像识别也是一个大领域，比如人脸识别和自动驾驶汽车的视觉系统。\n\n不过，机器学习也有它的挑战。首先，数据的质量非常重要，如果训练数据有偏差或者不够多样，模型可能会表现不佳。另外，模型的可解释性也是一个问题，有些复杂的模型，如深度神经网络，虽然效果好，但很难理解它们是如何做出决策的。还有计算资源的问题，训练大型模型需要大量的算力和时间。\n\n机器学习的发展历程应该是从经典的算法开始，比如线性回归、支持向量机（SVM），再到近年来深度学习的兴起，使用多层神经网络取得了显著的进步。现在，随着计算能力的提升和大数据的普及，机器学习的应用范围越来越广，解决的问题也越来越

In [26]:
print(generate_response["response"])

<think>
嗯，我现在要理解一下什么是机器学习。好像机器学习是现在很热门的一个领域，但我对它的了解还不深。首先，我记得机器学习和人工智能有关系，但具体是什么样的关系呢？

我好像听说过，机器学习让计算机能够从数据中学习，而不是通过明确的编程指令来完成任务。这有点像人类通过经验学习一样，对吧？比如说，当我们要识别图片中的猫时，传统的编程方法可能需要手动编写很多规则和条件来判断一张图是不是猫，但这样做可能很繁琐，而且效果不一定好。而机器学习的方法则是让计算机自己分析大量的猫的图片，从中找出规律，然后自己学会如何识别猫。

那机器学习具体是怎么工作的呢？我记得有个过程叫做训练模型，也就是用大量数据来调整算法的参数，使得它能够准确地预测或分类新的数据。比如，在图像识别中，使用卷积神经网络（CNN）这样的模型，通过训练，让它能够识别各种不同的图像类别。

机器学习还有监督学习和无监督学习的区别，对吗？监督学习是用有标签的数据来训练模型，比如给定很多图片并告诉计算机哪些是猫、哪些不是，然后它学会分类。而无监督学习则是在没有标签的情况下，让模型自己发现数据中的结构或模式，比如聚类分析，把相似的数据点分组在一起。

还有强化学习，这好像是通过奖励和惩罚机制来训练模型，让它在环境中做出决策，最大化某种累积奖励。比如游戏AI在玩一个游戏时，会根据得分来调整自己的策略，逐渐变得更强。

机器学习的应用场景很广泛，我听说可以用它来做预测，比如房价预测、股票走势分析；也可以用于自然语言处理，比如翻译和文本生成；还有推荐系统，像 Netflix 或 Amazon 用机器学习来推荐用户可能喜欢的内容。当然，图像识别也是一个大领域，比如人脸识别和自动驾驶汽车的视觉系统。

不过，机器学习也有它的挑战。首先，数据的质量非常重要，如果训练数据有偏差或者不够多样，模型可能会表现不佳。另外，模型的可解释性也是一个问题，有些复杂的模型，如深度神经网络，虽然效果好，但很难理解它们是如何做出决策的。还有计算资源的问题，训练大型模型需要大量的算力和时间。

机器学习的发展历程应该是从经典的算法开始，比如线性回归、支持向量机（SVM），再到近年来深度学习的兴起，使用多层神经网络取得了显著的进步。现在，随着计算能力的提升和大数据的普及，机器学习的应用范围越来越广，解决的问题也越来越复杂。

不过，我还是有点困惑，

&emsp;&emsp;可以通过简单的字符串操作来分离 <think> 标签中的思考内容和正常的文本内容，代码如下：

In [27]:
# 提取 <think> 标签中的内容
think_start = generate_response["response"].find("<think>")
think_end = generate_response["response"].find("</think>")

if think_start != -1 and think_end != -1:
    think_content = generate_response["response"][think_start + len("<think>"):think_end].strip()
else:
    think_content = "No think content found."

# 提取正常的文本内容
normal_content = generate_response["response"][think_end + len("</think>"):].strip()

# 打印结果
print("思考文本:\n", think_content)
print("\n正式文本:\n", normal_content)

思考文本:
 嗯，我现在要理解一下什么是机器学习。好像机器学习是现在很热门的一个领域，但我对它的了解还不深。首先，我记得机器学习和人工智能有关系，但具体是什么样的关系呢？

我好像听说过，机器学习让计算机能够从数据中学习，而不是通过明确的编程指令来完成任务。这有点像人类通过经验学习一样，对吧？比如说，当我们要识别图片中的猫时，传统的编程方法可能需要手动编写很多规则和条件来判断一张图是不是猫，但这样做可能很繁琐，而且效果不一定好。而机器学习的方法则是让计算机自己分析大量的猫的图片，从中找出规律，然后自己学会如何识别猫。

那机器学习具体是怎么工作的呢？我记得有个过程叫做训练模型，也就是用大量数据来调整算法的参数，使得它能够准确地预测或分类新的数据。比如，在图像识别中，使用卷积神经网络（CNN）这样的模型，通过训练，让它能够识别各种不同的图像类别。

机器学习还有监督学习和无监督学习的区别，对吗？监督学习是用有标签的数据来训练模型，比如给定很多图片并告诉计算机哪些是猫、哪些不是，然后它学会分类。而无监督学习则是在没有标签的情况下，让模型自己发现数据中的结构或模式，比如聚类分析，把相似的数据点分组在一起。

还有强化学习，这好像是通过奖励和惩罚机制来训练模型，让它在环境中做出决策，最大化某种累积奖励。比如游戏AI在玩一个游戏时，会根据得分来调整自己的策略，逐渐变得更强。

机器学习的应用场景很广泛，我听说可以用它来做预测，比如房价预测、股票走势分析；也可以用于自然语言处理，比如翻译和文本生成；还有推荐系统，像 Netflix 或 Amazon 用机器学习来推荐用户可能喜欢的内容。当然，图像识别也是一个大领域，比如人脸识别和自动驾驶汽车的视觉系统。

不过，机器学习也有它的挑战。首先，数据的质量非常重要，如果训练数据有偏差或者不够多样，模型可能会表现不佳。另外，模型的可解释性也是一个问题，有些复杂的模型，如深度神经网络，虽然效果好，但很难理解它们是如何做出决策的。还有计算资源的问题，训练大型模型需要大量的算力和时间。

机器学习的发展历程应该是从经典的算法开始，比如线性回归、支持向量机（SVM），再到近年来深度学习的兴起，使用多层神经网络取得了显著的进步。现在，随着计算能力的提升和大数据的普及，机器学习的应用范围越来越广，解决的问题也越来越复杂。

不过，我还是有点困惑，比

&emsp;&emsp;当然也可以用相同的方式提取返回的响应中所有参数的值：

In [28]:
# 打印每个参数的值
print("Model:", generate_response["model"])
print("Created At:", generate_response["created_at"])
print("Response:", generate_response["response"])
print("Done:", generate_response["done"])
print("Done Reason:", generate_response["done_reason"])
print("Context:", generate_response["context"])
print("Total Duration:", generate_response["total_duration"])
print("Load Duration:", generate_response["load_duration"])
print("Prompt Eval Count:", generate_response["prompt_eval_count"])
print("Prompt Eval Duration:", generate_response["prompt_eval_duration"])
print("Eval Count:", generate_response["eval_count"])
print("Eval Duration:", generate_response["eval_duration"])

Model: deepseek-r1:32b
Created At: 2025-04-08T04:27:39.067830227Z
Response: <think>
嗯，我现在要理解一下什么是机器学习。好像机器学习是现在很热门的一个领域，但我对它的了解还不深。首先，我记得机器学习和人工智能有关系，但具体是什么样的关系呢？

我好像听说过，机器学习让计算机能够从数据中学习，而不是通过明确的编程指令来完成任务。这有点像人类通过经验学习一样，对吧？比如说，当我们要识别图片中的猫时，传统的编程方法可能需要手动编写很多规则和条件来判断一张图是不是猫，但这样做可能很繁琐，而且效果不一定好。而机器学习的方法则是让计算机自己分析大量的猫的图片，从中找出规律，然后自己学会如何识别猫。

那机器学习具体是怎么工作的呢？我记得有个过程叫做训练模型，也就是用大量数据来调整算法的参数，使得它能够准确地预测或分类新的数据。比如，在图像识别中，使用卷积神经网络（CNN）这样的模型，通过训练，让它能够识别各种不同的图像类别。

机器学习还有监督学习和无监督学习的区别，对吗？监督学习是用有标签的数据来训练模型，比如给定很多图片并告诉计算机哪些是猫、哪些不是，然后它学会分类。而无监督学习则是在没有标签的情况下，让模型自己发现数据中的结构或模式，比如聚类分析，把相似的数据点分组在一起。

还有强化学习，这好像是通过奖励和惩罚机制来训练模型，让它在环境中做出决策，最大化某种累积奖励。比如游戏AI在玩一个游戏时，会根据得分来调整自己的策略，逐渐变得更强。

机器学习的应用场景很广泛，我听说可以用它来做预测，比如房价预测、股票走势分析；也可以用于自然语言处理，比如翻译和文本生成；还有推荐系统，像 Netflix 或 Amazon 用机器学习来推荐用户可能喜欢的内容。当然，图像识别也是一个大领域，比如人脸识别和自动驾驶汽车的视觉系统。

不过，机器学习也有它的挑战。首先，数据的质量非常重要，如果训练数据有偏差或者不够多样，模型可能会表现不佳。另外，模型的可解释性也是一个问题，有些复杂的模型，如深度神经网络，虽然效果好，但很难理解它们是如何做出决策的。还有计算资源的问题，训练大型模型需要大量的算力和时间。

机器学习的发展历程应该是从经典的算法开始，比如线性回归、支持向量机（SVM），再到近年来深度学习的兴起，

&emsp;&emsp;`Ollama` 返回的响应中，采用的时间单位均以纳秒返回。纳秒（nanosecond）和秒（second）之间的关系是：<font color="red">1 秒 = 10⁹ 纳秒</font>



In [12]:
# 将纳秒转换为秒
total_duration_s = generate_response["total_duration"] / 1_000_000_000
load_duration_s = generate_response["load_duration"] / 1_000_000_000
prompt_eval_duration_s = generate_response["prompt_eval_duration"] / 1_000_000_000
eval_duration_s = generate_response["eval_duration"] / 1_000_000_000

# 打印转换后的秒值
print("单次调用总花费时间:", total_duration_s)
print("加载模型花费时间:", load_duration_s)
print("评估提示所花费的时间:", prompt_eval_duration_s)
print("生成响应的时间:", eval_duration_s)

单次调用总花费时间: 22.038704856
加载模型花费时间: 0.016130235
评估提示所花费的时间: 0.023614533
生成响应的时间: 21.99854325


### 2.3. num_ctx / num_predict 输入输出控制

&emsp;&emsp;`num_ctx` 和 `num_predict`参数都是需要放置在 `options` 参数中的，其中：

- `num_ctx`该参数指的是大模型在一次对话中能够"看到"和"记住"的最大上下文长度，默认配置 2048，相当于一次只能向模型输入 2k `token`，超过 2k 模型就无法记住。当 `prompt` 特别长时往往会出现问题。并且现在开源模型往往支持长上下文，默认配置会严重限制本地模型能力。

- `num_predict` 参数指的是模型响应返回的最大 token 数据量。

&emsp;&emsp;我们可以这样测试：

In [29]:
import requests # type: ignore
import json

# 设置 API 端点
generate_url = "http://localhost:11434/api/generate"    # 这里需要根据实际情况进行修改

# 示例数据
generate_payload = {
    "model": "deepseek-r1:32b",   # 这里需要根据实际情况进行修改
    "prompt": "请生成一个关于机器学习的简短介绍。",  # 这里需要根据实际情况进行修改
    "stream": False,       # 默认使用的是True，如果设置为False，则返回的是一个完整的响应，而不是一个流式响应
    "options": {
        "num_predict": 15
    }
}

# 调用生成接口
response_generate = requests.post(generate_url, json=generate_payload)
if response_generate.status_code == 200:
    generate_response = response_generate.json()
    print("生成响应:", json.dumps(generate_response, ensure_ascii=False, indent=2))
else:
    print("生成请求失败:", response_generate.status_code, response_generate.text)

生成响应: {
  "model": "deepseek-r1:32b",
  "created_at": "2025-04-08T04:34:43.057340406Z",
  "response": "<think>\n好，我现在需要帮用户生成一个关于机器学习的简",
  "done": true,
  "done_reason": "length",
  "context": [
    151644,
    14880,
    43959,
    46944,
    101888,
    102182,
    100134,
    9370,
    98237,
    99534,
    100157,
    1773,
    151645,
    151648,
    198,
    52801,
    3837,
    107520,
    85106,
    99663,
    20002,
    43959,
    46944,
    101888,
    102182,
    100134,
    9370,
    98237
  ],
  "total_duration": 4277421416,
  "load_duration": 3700784828,
  "prompt_eval_count": 14,
  "prompt_eval_duration": 189977724,
  "eval_count": 15,
  "eval_duration": 386130974
}


### 2.4. 流式输出功能

&emsp;&emsp;接下来看流式输出输出，其参数和如上代码保持一致，只需要在 `response_generate` 中添加 `stream=True`，最后再通过流式的方式进行响应结果处理即可。代码如下所示：

> 这里有一个使用`DeepSeek-R1`的小技巧，将温度即`temperature`设置在0.5-0.7（建议0.6）的范围内，可以有效防止无尽的重复或不连贯的输出。

In [30]:
import requests # type: ignore
import json

# 设置 API 端点
generate_url = "http://localhost:11434/api/generate"

# 示例数据
generate_payload = {
    "model": "deepseek-r1:32b",
    "prompt": "请生成一个关于机器学习的简短介绍。",
    "options": {
        "temperature": 0.6, 
    }
}

# 调用生成接口
response_generate = requests.post(generate_url, json=generate_payload, stream=True)  # 在这里添加stream=True
if response_generate.status_code == 200:
    # 处理流式响应
    for line in response_generate.iter_lines(): 
        if line:
            try:
                # 解码并解析每一行的 JSON
                response_json = json.loads(line.decode('utf-8'))
                if 'response' in response_json:
                    print(response_json['response'], end='', flush=True)

                # 检查 response_json 字典中是否存在键 'done'，并且其值是否为 True。如果这个条件成立，表示生成的响应已经完成。
                if response_json.get('done', False):
                    print('\n\n完整响应:', json.dumps(response_json, ensure_ascii=False, indent=2))
            except json.JSONDecodeError as e:
                print(f"JSON 解析错误: {e}")
else:
    print("生成请求失败:", response_generate.status_code, response_generate.text)

<think>
嗯，用户让我生成一个关于机器学习的简短介绍。首先，我得理解什么是机器学习，然后用简单明了的语言表达出来。

机器学习是人工智能的一部分，对吧？它主要通过数据让计算机自己学习，而不是被明确编程。这点要强调一下，因为很多人可能以为AI就是程序直接给出答案，其实不是，它是从数据中学习的模式和规律。

接下来，我应该提到它的核心概念，比如模型、训练、特征这些术语。但用户要求简短介绍，所以不需要太详细展开每个概念，只需要点到为止。

然后，可以举几个应用的例子，比如图像识别、自然语言处理和推荐系统。这样可以让读者更容易理解机器学习的实际用途。

最后，总结一下它的目标，就是让计算机能够自动改进并适应新数据。这样整个介绍就比较完整了，既解释了基本概念，又给出了实际应用，还说明了目的。
</think>

机器学习是人工智能领域的一个重要分支，旨在通过数据和算法使计算机系统能够从经验中学习，并逐步提高其性能。它利用统计学方法和模型，让计算机在没有明确编程的情况下自动改进任务执行能力。核心概念包括模型、训练、特征和损失函数等。机器学习广泛应用于图像识别、自然语言处理、推荐系统等领域，目标是帮助计算机通过数据发现规律并做出决策。

完整响应: {
  "model": "deepseek-r1:32b",
  "created_at": "2025-04-08T04:35:36.086899604Z",
  "response": "",
  "done": true,
  "done_reason": "stop",
  "context": [
    151644,
    14880,
    43959,
    46944,
    101888,
    102182,
    100134,
    9370,
    98237,
    99534,
    100157,
    1773,
    151645,
    151648,
    198,
    106287,
    3837,
    20002,
    104029,
    43959,
    46944,
    101888,
    102182,
    100134,
    9370,
    98237,
    99534,
    100157,


### 2.5. Ollama 模型生命周期管理

&emsp;&emsp;默认情况下，<font color="red">**通过`Ollama run`启动一个模型后，会将其在VRAM(显存)中保存5分钟**</font>。主要作用是为了做性能优化，通过保持模型在显存中，可以避免频繁的加载和卸载操作，从而提高响应速度，特别是在连续请求的情况下。

- <font color="red">**keep_alive**</font>

&emsp;&emsp;我们可以通过`ollama stop` 命令立即卸载某个模型。而在生成请求中，一种高效的方式是通过`keep_alive`参数来控制模型在请求完成后保持加载在内存中的时间。其可传入的参数规则如下：

<style>
.center 
{
  width: auto;
  display: table;
  margin-left: auto;
  margin-right: auto;
}
</style>

<p align="center"><font face="黑体" size=4>keep_alive 参数类型</font></p>
<div class="center">

| 参数类型               | 示例         | 描述                                       |
|------------------------|--------------|--------------------------------------------|
| 持续时间字符串         | "10m" 或 "24h" | 表示保持模型在内存中的时间，单位可以是分钟（m）或小时（h）。 |
| 以秒为单位的数字       | 3600         | 表示保持模型在内存中的时间，单位为秒。   |
| 任何负数               | -1 或 "-1m"  | 表示保持模型在内存中，负数值将使模型持续加载。 |
| '0'                    | 0            | 表示在生成响应后立即卸载模型。             |

</div>


In [31]:
import requests # type: ignore
import json

# 设置 API 端点
generate_url = "http://localhost:11434/api/generate"

# 示例数据
generate_payload = {
    "model": "deepseek-r1:32b",
    "prompt": "请生成一个关于机器学习的简短介绍。",
    "stream": False,
    "keep_alive": "10m",   # 设置模型在请求后保持加载的时间
    "options": {
        "temperature": 0.6,
    }
}

# 调用生成接口
response_generate = requests.post(generate_url, json=generate_payload)
if response_generate.status_code == 200:
    generate_response = response_generate.json()
    print("生成响应:", json.dumps(generate_response, ensure_ascii=False, indent=2))
else:
    print("生成请求失败:", response_generate.status_code, response_generate.text)



if generate_response["eval_duration"] != 0:
    tokens_per_second = generate_response["eval_count"] / generate_response["eval_duration"] * 10**9
    print(f"Tokens per second: {tokens_per_second}")
else:
    print("eval_duration is zero, cannot calculate tokens per second.")

生成响应: {
  "model": "deepseek-r1:32b",
  "created_at": "2025-04-08T04:37:08.277615273Z",
  "response": "<think>\n好，我现在需要帮用户生成一个关于机器学习的简短介绍。首先，我得理解用户的需求是什么。他们可能对机器学习不太了解，想要一个简洁明了的解释。\n\n接下来，我要考虑机器学习的基本定义和核心概念。机器学习是人工智能的一部分，使用算法让模型从数据中学习并做出预测或决策。这点很重要，要简明扼要地表达出来。\n\n然后，我应该提到一些常见的应用场景，比如图像识别、语音助手等，这样用户能更好地理解它的实际应用。同时，还要说明监督学习和无监督学习这两种主要的学习方法，让内容更全面。\n\n最后，强调机器学习带来的好处，如提高效率和自动化水平，但也要提醒数据隐私和伦理问题，这样显得介绍更加全面和客观。\n\n整体结构应该是先定义，再讲应用场景，接着是学习方法，最后是影响和挑战。这样逻辑清晰，容易理解。\n</think>\n\n当然！以下是一个关于机器学习的简短介绍：\n\n---\n\n**机器学习（Machine Learning）**是人工智能领域的一个重要分支，通过设计算法让计算机从数据中自动学习并改进性能，而无需显式编程。它利用统计学、概率论和优化方法，帮助模型发现数据中的模式和规律，从而实现预测、分类、聚类等任务。\n\n机器学习广泛应用于图像识别、自然语言处理、推荐系统、语音助手等领域。常见的技术包括监督学习（如线性回归、支持向量机）、无监督学习（如聚类分析）和强化学习。随着数据量的增加和计算能力的提升，机器学习正不断推动技术进步，但也带来了隐私保护和伦理挑战。\n\n---\n\n希望对你有帮助！",
  "done": true,
  "done_reason": "stop",
  "context": [
    151644,
    14880,
    43959,
    46944,
    101888,
    102182,
    100134,
    9370,
    98237,
    99534,
    100157,
    1773,
    151645,
    151648,
    198,
   

&emsp;&emsp;此时就可以在服务器控制台查看到，`deepseek-r1:32b`模型将可以在显存中保持10分钟。

&emsp;&emsp;`keep_alive` 在工程化的项目中，往往需要根据请求的频率来设置，如果请求不频繁，可以使用默认值或较短的时间，以便在不使用时释放内存。而如果应用程序需要频繁调用模型，可以设置较长的 `keep_alive` 时间，以减少加载时间。很关键，非常影响服务器的性能和应用程序的用户体验。大家一定要注意。

# 三 Ollama REST API - api/chat

&emsp;&emsp;Ollama 服务启动后会提供一系列原生 ` REST API` 端点。通过这些`Endpoints`可以在代码环境下与`ollama`启动的大模型进行交互、管理模型和获取相关信息。其中两个`endpoint` 是最重要的，分别是：
  - <font color="red">**POST /api/generate**</font>
  - <font color="red">**POST /api/chat**</font>

&emsp;&emsp;其他端点情况：
  - POST /api/create   
  - POST /api/tags
  - POST /api/show
  - POST /api/copy
  - DELETE /api/delete
  - POST /api/pull
  - POST /api/push
  - POST /api/embed
  - GET /api/ps

### 3.1. /api/chat 接口参数概览

&emsp;&emsp;该接口使用提供的模型在聊天中生成下一条消息。与 `/api/generate` 的参数基本一致，但是在请求的参数上会根据聊天场景进行调整。主要调整的是：
- 不再使用 `prompt` 参数，而是使用 `messages` 参数。
- 新增了 `tools` 参数，用于支持工具调用。

&emsp;&emsp;其可以使用的具体参数如下所示，

<style>
.center 
{
  width: auto;
  display: table;
  margin-left: auto;
  margin-right: auto;
}
</style>

<p align="center"><font face="黑体" size=4>常规参数</font></p>
<div class="center">

| 参数名       | 类型      | 描述                                                         |
| ------------ | --------- | ------------------------------------------------------------ |
| **model**    | *(必需)*  | 模型名称。                                                   |
| <font color="red">**messages**</font> | *(必需)*  | 聊天的消息，用于保持聊天记忆。                               |
| <font color="red">**tools**</font>    | *(可选)*  | JSON 中的工具列表，供模型使用（如果支持）。                 |

</div>


<p align="center"><font face="黑体" size=4>消息对象字段</font></p>
<div class="center">

| 字段名       | 描述                                                         |
| ------------ | ------------------------------------------------------------ |
| <font color="red">**role**</font>     | 消息的角色，可以是 `system`、`user`、`assistant` 或 `tool`。 |
| <font color="red">**content**</font>  | 消息的内容。                                                 |
| **images**   | *(可选)* 要在消息中包含的图像列表（适用于多模态模型，如 llava）。 |
| **tool_calls** | *(可选)* 模型希望使用的 JSON 中的工具列表。               |

</div>


<p align="center"><font face="黑体" size=4>高级参数 (可选)</font></p>
<div class="center">

| 参数名       | 描述                                                         |
| ------------ | ------------------------------------------------------------ |
| **format**   | 返回响应的格式。格式可以是 `json` 或 JSON 模式。            |
| <font color="red">**options**</font>  | 文档中列出的其他模型参数，例如 `temperature`。              |
| **stream**   | 如果为 `false`，响应将作为单个响应对象返回，而不是对象流。  |
| <font color="red">**keep_alive**</font> | 控制模型在请求后保持加载的时间（默认：5分钟）。           |

</div>

其中，Options参数说明：

| 参数名 | 描述 | 值类型 | 示例用法 |
| --------------- | ------------------------------------------------------------ | ------ | ---------------------- |
| mirostat | 启用 Mirostat 采样以控制困惑度。（默认：0，0 = 禁用，1 = Mirostat，2 = Mirostat 2.0） | int | mirostat 0 |
| mirostat_eta| 影响算法对生成文本反馈的响应速度。较低的学习率会导致调整较慢，而较高的学习率会使算法更具响应性。（默认：0.1） | float | mirostat_eta 0.1 |
| mirostat_tau| 控制输出的连贯性和多样性之间的平衡。较低的值会导致更集中和连贯的文本。（默认：5.0） | float | mirostat_tau 5.0 |
| <font color="red">num_ctx</font> | 设置用于生成下一个标记的上下文窗口大小。（默认：2048）, 影响的是模型可以一次记住的最大 token 数量。 | int | num_ctx 4096|
| repeat_last_n| 设置模型回溯的范围以防止重复。（默认：64，0 = 禁用，-1 = num_ctx） | int | repeat_last_n 64 |
| repeat_penalty| 设置惩罚重复的强度。较高的值（例如 1.5）会更强烈地惩罚重复，而较低的值（例如 0.9）会更宽松。（默认：1.1） | float | repeat_penalty 1.1 |
| <font color="red">temperature</font> | 模型的温度。增加温度会使模型的回答更具创造性。（默认：0.8） | float | temperature 0.7 |
| seed | 设置用于生成的随机数种子。将其设置为特定数字将使模型对相同提示生成相同的文本。（默认：0） | int | seed 42 |
| <font color="red">stop</font> | 设置使用的停止序列。当遇到此模式时，LLM 将停止生成文本并返回。可以通过在 modelfile 中指定多个单独的停止参数来设置多个停止模式。 | string | stop "AI assistant:" |
| <font color="red">num_predict</font> | 生成文本时要预测的最大标记数。（默认：-1，无限生成）,影响模型最大可以生成的 token 数量。 | int | num_predict 42 |
| top_k | 降低生成无意义文本的概率。较高的值（例如 100）会给出更多样化的答案，而较低的值（例如 10）会更保守。（默认：40） | int | top_k 40 |
| top_p | 与 top-k 一起工作。较高的值（例如 0.95）会导致更具多样性的文本，而较低的值（例如 0.5）会生成更集中和保守的文本。（默认：0.9） | float | top_p 0.9 |
| min_p | top_p 的替代方案，旨在确保质量和多样性之间的平衡。参数 p 表示考虑标记的最小概率，相对于最可能标记的概率。例如，p=0.05 时，最可能的标记概率为 0.9，值小于 0.045 的 logits 会被过滤掉。（默认：0.0） | float | min_p 0.05 |


### 3.2. requests 调用方法

&emsp;&emsp; `/api/chat` 依然还是可以`requests`库进行调用。如下所示：

In [32]:
import requests
import json

# 设置 API 端点
chat_url = "http://localhost:11434/api/chat"    # 这里需要根据实际情况进行修改

# 示例数据
chat_payload = {
    "model": "deepseek-r1:32b",   # 这里需要根据实际情况进行修改
    "messages": [
        {
            "role": "user",  # 消息角色，用户发送的消息
            "content": "请生成一个关于机器学习的简短介绍。"  # 用户的消息内容
        }
    ],
    "tools": [],  # 如果有工具可以在这里添加
    "stream": False,  # 默认使用的是True，如果设置为False，则返回的是一个完整的响应，而不是一个流式响应
}

# 调用聊天接口
response_chat = requests.post(chat_url, json=chat_payload)
if response_chat.status_code == 200:
    chat_response = response_chat.json()
    print("生成响应:", json.dumps(chat_response, ensure_ascii=False, indent=2))
else:
    print("生成请求失败:", response_chat.status_code, response_chat.text)

生成响应: {
  "model": "deepseek-r1:32b",
  "created_at": "2025-04-08T04:42:26.675386596Z",
  "message": {
    "role": "assistant",
    "content": "<think>\n嗯，用户让我生成一个关于机器学习的简短介绍。首先，我得弄清楚用户的具体需求是什么。他可能是一个刚开始接触这个领域的人，或者是想快速了解机器学习的基本概念。\n\n接下来，我要考虑用什么样的语言和结构来表达这个介绍。应该简洁明了，避免使用太多专业术语，但又要涵盖关键点，比如定义、方法、应用以及面临的挑战。\n\n然后，我得回忆一下机器学习的核心内容。它属于人工智能，让系统通过数据学习，而不是硬编码指令。主要的方法包括监督学习、无监督学习和强化学习。这些都需要简要提及。\n\n还要提到它的广泛应用领域，如图像识别、自然语言处理等，这样用户能理解其实际应用价值。同时，别忘了指出当前的发展状况和一些挑战，比如数据需求和模型解释性问题。\n\n最后，我要确保整个介绍连贯流畅，逻辑清晰，让用户能够快速抓住机器学习的要点。\n</think>\n\n当然！以下是一个关于机器学习的简短介绍：\n\n---\n\n**机器学习（Machine Learning, ML）**是人工智能领域的一个重要分支，旨在通过算法让计算机从数据中自动学习规律和模式，从而做出预测或决策。与传统的基于规则编程不同，机器学习系统能够通过大量数据训练模型，并逐步优化性能。\n\n常见的机器学习方法包括**监督学习**（如分类、回归）、**无监督学习**（如聚类、降维）和**强化学习**等。其应用广泛涉及图像识别、自然语言处理、推荐系统、数据分析等领域。\n\n近年来，随着计算能力的提升和数据量的爆炸式增长，机器学习在推动技术进步和社会发展方面发挥了重要作用，但也面临数据隐私、算法偏见等挑战。\n\n--- \n\n希望这对你有所帮助！"
  },
  "done_reason": "stop",
  "done": true,
  "total_duration": 9845839108,
  "load_duration": 16021805,
  "prompt_eval_count": 14,
  "

&emsp;&emsp;返回的响应中包含以下参数，其对应的描述如下：

<style>
.center 
{
  width: auto;
  display: table;
  margin-left: auto;
  margin-right: auto;
}
</style>

<p align="center"><font face="黑体" size=4>响应参数</font></p>
<div class="center">

| 参数名                  | 描述                                                         |
| ----------------------- | ------------------------------------------------------------ |
| **total_duration**      | 单次响应花费的总时间                                          |
| **load_duration**       | 加载模型花费的时间                                   |
| **prompt_eval_count**   | 提示中的token数                                               |
| **prompt_eval_duration**| 评估提示所花费的时间（以纳秒为单位）                                 |
| **eval_count**          | 响应中的token数                                               |
| **eval_duration**       | 生成响应的时间（以纳秒为单位）                              |
| **context**             | 在此响应中使用的对话的编码，可以在下一个请求中发送以保持对话记忆 |
| **response**            | 空响应是流的，如果未流式传输，则将包含完整的响应             |

</div>

&emsp;&emsp;重点关注以下几个参数：

- <font color="red">**message**</font> 

&emsp;&emsp;在 `/chat` 接口中，返回的模型响应结果存放在 `message` 中， 同样对于 `DeepSeek-R1` 模型，`response` 字段中包含<think> 标签和正常文本，<think> 标签用于表示模型的思考过程或内部推理，而正常的文本则是模型生成的实际输出内容。注意：非推理类模型的返回结果中没有<think></think>标识。

In [33]:
chat_response["message"]['content']

'<think>\n嗯，用户让我生成一个关于机器学习的简短介绍。首先，我得弄清楚用户的具体需求是什么。他可能是一个刚开始接触这个领域的人，或者是想快速了解机器学习的基本概念。\n\n接下来，我要考虑用什么样的语言和结构来表达这个介绍。应该简洁明了，避免使用太多专业术语，但又要涵盖关键点，比如定义、方法、应用以及面临的挑战。\n\n然后，我得回忆一下机器学习的核心内容。它属于人工智能，让系统通过数据学习，而不是硬编码指令。主要的方法包括监督学习、无监督学习和强化学习。这些都需要简要提及。\n\n还要提到它的广泛应用领域，如图像识别、自然语言处理等，这样用户能理解其实际应用价值。同时，别忘了指出当前的发展状况和一些挑战，比如数据需求和模型解释性问题。\n\n最后，我要确保整个介绍连贯流畅，逻辑清晰，让用户能够快速抓住机器学习的要点。\n</think>\n\n当然！以下是一个关于机器学习的简短介绍：\n\n---\n\n**机器学习（Machine Learning, ML）**是人工智能领域的一个重要分支，旨在通过算法让计算机从数据中自动学习规律和模式，从而做出预测或决策。与传统的基于规则编程不同，机器学习系统能够通过大量数据训练模型，并逐步优化性能。\n\n常见的机器学习方法包括**监督学习**（如分类、回归）、**无监督学习**（如聚类、降维）和**强化学习**等。其应用广泛涉及图像识别、自然语言处理、推荐系统、数据分析等领域。\n\n近年来，随着计算能力的提升和数据量的爆炸式增长，机器学习在推动技术进步和社会发展方面发挥了重要作用，但也面临数据隐私、算法偏见等挑战。\n\n--- \n\n希望这对你有所帮助！'

&emsp;&emsp;可以通过简单的字符串操作来分离 <think> 标签中的思考内容和正常的文本内容，代码如下：

In [18]:
# 提取 <think> 标签中的内容
think_start = chat_response["message"]['content'].find("<think>")
think_end = chat_response["message"]['content'].find("</think>")

if think_start != -1 and think_end != -1:
    think_content = chat_response["message"]['content'][think_start + len("<think>"):think_end].strip()
else:
    think_content = "No think content found."

# 提取正常的文本内容
normal_content = chat_response["message"]['content'][think_end + len("</think>"):].strip()

# 打印结果
print("思考文本:\n", think_content)
print("\n正式文本:\n", normal_content)

思考文本:
 嗯，用户让我生成一个关于机器学习的简短介绍。首先，我得想想机器学习到底是什么。它是人工智能的一部分，对吧？是用数据让计算机自己学习模型，而不是靠人工编程指令。

那我应该从哪里开始呢？可能先解释一下机器学习的基本概念，然后说明它在不同领域中的应用，最后提到它的核心目标，比如提高准确性和适应性。这样结构比较清晰。

用户可能是刚开始接触机器学习的人，或者是需要一个简洁的介绍用于某种场合，比如演讲或者报告。所以内容要简明扼要，涵盖主要点，但不需要太深入的技术细节。

我还应该考虑使用什么样的例子来说明它的应用？比如图像识别、语音助手这些大家熟悉的例子，这样更容易理解。同时，提到监督学习和无监督学习的基本概念，帮助读者建立初步的分类认知。

最后，强调一下机器学习的重要性，因为它正在改变很多行业，并且技术还在不断进步中。这样可以让介绍更有深度，也展示出机器学习的前景。

正式文本:
 机器学习是人工智能领域的一个重要分支，它通过让计算机从数据中学习模式和规律，从而实现任务的自动化决策或预测。不同于传统的基于规则的编程，机器学习依赖于大量数据和算法（如监督学习、无监督学习等），使模型能够不断优化性能并适应新的输入。

机器学习广泛应用于图像识别、自然语言处理、推荐系统、医疗诊断等领域，并正在改变我们的生活方式和工作方式。其核心目标是通过数据驱动的方法，帮助计算机模拟人类的学习能力，从而解决复杂的实际问题。


&emsp;&emsp;其他的重点参数和 `/generation` 参数使用方法也保持一致，示例代码如下：

In [34]:
import requests # type: ignore
import json

# 设置 API 端点
chat_url = "http://localhost:11434/api/chat"    # 这里需要根据实际情况进行修改

# 示例数据
chat_payload = {
    "model": "deepseek-r1:32b",   # 这里需要根据实际情况进行修改
    "messages": [
        {
            "role": "user",  # 消息角色，用户发送的消息
            "content": "请生成一个关于机器学习的简短介绍。"  # 用户的消息内容
        }
    ],
    "tools": [],  # 如果有工具可以在这里添加
    "stream": False,  # 默认使用的是True，如果设置为False，则返回的是一个完整的响应，而不是一个流式响应
    "keep_alive": "10m",   # 设置模型在请求后保持加载的时间
    "options":{
        "temperature": 0.7,   
        "num_ctx":2048,
        "num_predict": 4096,
    }
}

# 调用聊天接口
response_chat = requests.post(chat_url, json=chat_payload)
if response_chat.status_code == 200:
    chat_response = response_chat.json()
    print("生成响应:", json.dumps(chat_response, ensure_ascii=False, indent=2))
else:
    print("生成请求失败:", response_chat.status_code, response_chat.text)

生成响应: {
  "model": "deepseek-r1:32b",
  "created_at": "2025-04-08T04:44:16.28869517Z",
  "message": {
    "role": "assistant",
    "content": "<think>\n嗯，用户让我生成一个关于机器学习的简短介绍。首先，我得弄清楚用户是谁，可能是一个刚开始接触这个领域的人，或者是对科技感兴趣的学生或者专业人士。他们需要的是简洁明了的信息，所以不需要太深入的技术细节。\n\n接下来，我要考虑机器学习的核心概念。应该包括它是什么、基本原理以及它的应用范围。这样用户能有一个全面的概述。我还需要用简单易懂的语言，避免专业术语过多，让不同背景的人都能理解。\n\n然后，我想起机器学习是人工智能的一部分，这点很重要。要提到数据和算法，说明它是如何通过数据进行学习的。还要强调它不需要明确编程就能识别模式和做出预测，这一点很关键。\n\n应用方面，举几个例子会更好，比如推荐系统、图像识别、自然语言处理等，这样用户能具体联想到机器学习的实际用途。最后，提到它的优势和发展前景，让用户了解其重要性和未来潜力。\n\n总结一下，我需要构建一个结构清晰、内容全面但简短的介绍，涵盖定义、基本原理、应用和意义，确保信息准确且易于理解。\n</think>\n\n当然！以下是关于机器学习的简短介绍：\n\n---\n\n**机器学习**是人工智能（AI）的一个分支，旨在通过数据和算法让计算机系统能够自动改进并做出预测或决策。与传统的基于规则的编程不同，机器学习的核心思想是利用大量数据训练模型，使模型能够识别模式、提取特征，并在新数据上进行推断。\n\n### 核心概念：\n1. **数据**：机器学习的基础，用于训练和测试模型。\n2. **算法**：如线性回归、决策树、神经网络等，用于从数据中学习规律。\n3. **模型**：通过算法训练得到的“智能”表示，能够对未知数据进行预测或分类。\n\n### 应用领域：\n- 推荐系统（如Netflix、亚马逊）\n- 图像识别（如人脸识别、医学影像分析）\n- 自然语言处理（如机器翻译、聊天机器人）\n- 金融风控、自动驾驶等\n\n### 优势与挑战：\n- **优势**：能够处理复杂数据，发现隐藏规律。\n- **

&emsp;&emsp;流式输出代码也要针对`/chat`接口的返回响应格式做略微的修改：

In [35]:
import requests  # type: ignore
import json

# 设置 API 端点
generate_url = "http://localhost:11434/api/generate"

# 示例数据
generate_payload = {
    "model": "deepseek-r1:32b",
    "prompt": "请生成一个关于机器学习的简短介绍。",
    "stream": True,  # 启用流式输出
    "options": {
        "temperature": 0.6,
        "keep_alive": "10m"
    }
}

# 调用生成接口
with requests.post(generate_url, json=generate_payload, stream=True) as response_generate:
    if response_generate.status_code == 200:
        # 逐行读取流式响应
        for line in response_generate.iter_lines():
            if line:  # 确保行不为空
                # 解析 JSON 响应
                generate_response = json.loads(line)
                
                # 提取并打印 response 字段
                if "response" in generate_response:
                    print(generate_response["response"], end='')  # end='' 防止换行
                if generate_response.get("done", False):
                    break  # 如果 done 为 True，结束循环
    else:
        print("生成请求失败:", response_generate.status_code, response_generate.text)

<think>
嗯，用户让我生成一个关于机器学习的简短介绍。首先，我得理解什么是机器学习，这样才不会出错。机器学习属于人工智能的一部分，对吧？它通过算法让计算机从数据中学习，而不是靠明确的指令。

那用户可能需要这个介绍用于什么场景呢？可能是学生要写作业、演讲，或者公司给客户做一个简单的说明。简短意味着不能太深入，得抓住核心概念。

我应该包括哪些内容呢？定义是必须的，然后说说它的应用领域，比如自然语言处理和计算机视觉，这样用户能明白它有多广泛。还要提到监督学习、无监督学习等方法，让介绍更全面。

另外，技术背景可能也很重要，比如计算能力提升和大数据带来的影响，这样能让读者理解机器学习发展的原因。最后，可以讲一下它的优势，比如自动化决策和模式识别，以及它对社会的影响，比如医疗和金融的应用。

得注意用词简洁明了，避免专业术语过多，让不同背景的人都能看懂。可能还要检查有没有遗漏的关键点，确保介绍全面但不过于冗长。
</think>

机器学习是人工智能领域的一个重要分支，旨在通过算法使计算机从数据中自动学习并改进性能，而无需明确编程指令。它利用统计学和优化方法，让模型从大量数据中发现模式、规律或关系，并用于预测、分类、聚类等任务。

机器学习广泛应用于自然语言处理（如语音识别）、计算机视觉（如图像分类）、推荐系统、医疗诊断等领域。常见的技术包括监督学习（有标签数据训练）、无监督学习（无标签数据挖掘）和强化学习（通过试错优化策略）。随着计算能力的提升和大数据时代的到来，机器学习正深刻改变我们的生活和社会。