```
# --verbose
ollama run deepseek-r1:1.5b --verbose

# 跟 docker 的操作很类似
# 当 vram 不足时，会自动负载到 cpu：查看 PROCESSOR 字段（cpu/gpu 的负载比例）
ollama ps


ollama ls
ollama rm model_name
```

### ollama 安装与配置

- references
    - https://ollama.com/
    - https://ollama.com/download
        - 下载与安装
        - `curl -fsSL https://ollama.com/install.sh | sh`
    - https://ollama.com/library

- models
    - Linux 默认下载地址：`/usr/share/ollama/.ollama/models`
        - `OLLAMA_MODLES`：环境变量配置；
    - mistral
        - `ollama run mistral`
    - llama
        - `ollama run llama2`
        - `ollama run llama2-uncensored`
            - 退出：`/bye`
- `ollama list`
- `ollama serve`:
    - `127.0.0.1:11434`
    - `sudo systemctl status ollama.service`: 查看服务状态
        - 下载安装之后默认是开机自动启动的？
        - 禁用 Ollama 的开机自启动：`sudo systemctl disable ollama.service`
    - `sudo systemctl stop ollama.service`: 停止 Ollama 服务：

- 退出
    - /bye
    - /exit

### api

- `http://localhost:11434`
    - `Ollama is running`: check 是否部署和运行
- `http://localhost:11434/v1`
- `http://127.0.0.1:11434/api/chat`

### gpu 资源释放

在使用 ollama run xx 后，模型会在内存中保留一段时间，以便于快速响应后续请求。默认情况下，这个保留时间为5分钟。如果您希望立即释放 GPU 资源，可以通过设置 keep_alive 参数来控制模型在内存中的保留时间。


```
curl http://localhost:11434/api/generate -d '{"model": "xx", "keep_alive": 0}'
```

### 本地部署及推理

In [1]:
from openai import OpenAI

In [2]:
client = OpenAI(
    base_url='http://localhost:11434/v1',
    api_key='ollama'  # required but unused
)
model = 'llama3.1'

In [6]:
messages = []

In [7]:
messages.append({"role": "system", "content": 'You are a helpful assistant.'})
messages.append({"role": "user", "content": "什么是机器学习？"})

In [8]:
response = client.chat.completions.create(
            model=model,
            messages=messages
        )

In [13]:
print(response.choices[0].message.content)

机器学习是一种人工智能的技术，其基本思想是在计算机系统中模拟人类的大脑，利用算法和数据自主地对事物进行学习和改进。通过机器学习可以让计算机系统能够自动地在特定任务中增加自身的性能能力，不需要不断的程序设计与硬件升级。

机器学习一般分为以下几个步骤：

1. 数据收集：首先需要收集足够用于训练模型的数据，这些数据需要经过清洗、预处理等操作；

2. 特征提取或工程学：从原始数据中抽象出有意义的特征，并将其赋予标签，以供后续模型学习进行分类分析识别等任务。

3. 算法选择或者人工设计：选用或者自行设计合适的机器学习算法，这取决于特定的目的、类型和条件

4. 模型训练：将收集并提炼好的数据与所选用的机器学习模型结合进行训练，通常需要几个小时也就是几天或者几个星期甚至多个月，从而形成一个能够在特定任务上产生预测结果的模型。

5. 模型评估：评估是否达到了需求效果，如果效果不理想，就重新调整参数再次尝试或者更换另一种算法方法、去掉或加入新数据来进行优化

6. 模型集成和部署：根据实际情况将机器学习模型整合到具体的应用场景中，可能会经过多个版本甚至持续迭代和更新。

7. 在线训练和监控：模型训练完成后，通过不断地接收和分析来自新数据的反馈，可以实现模型在不断接受和适当改进。


### 网络请求

In [25]:
import requests
import json

In [26]:
payload = {
    'model': model,
    'messages': messages
}

In [27]:
response = requests.post('http://127.0.0.1:11434/api/chat', json=payload)

In [28]:
for message in response.iter_lines():
    jsonstr = json.loads(message)
    print(jsonstr['message']['content'], end='')

机器学习（Machine Learning）是一种计算机算法能通过数据学习和改进，使其能够在没有明确编程指令的情况下进行特定任务的能力。它是人工智能的一个关键方面，旨在使计算机系统能够通过经验、数据和训练获得知识和技能。

机器学习的基本原理是让算法从数据中学习模式、关系和决策规则，使其能够预测未来的结果或进行特定的任务。这些算法可以自主地优化参数，改进表现，并在不断接受新数据的情况下不断适应变化。

常见的机器学习应用包括：

1.分类（Classification）：将输入分组到预定义类别中。
2.回归（Regression）：对特定变量进行预测。
3.聚类（Clustering）：识别相似数据点之间的模式。
4.降维（Dimensionality Reduction）：减少高维空间中的数据复杂性。
5.异常检测（Anomaly Detection）：找出不符合标准模式的数据。

机器学习有多种类型：

1.监督学习：需要标记好的数据集来训练算法。
2.无监督学习：没有标记好的数据集，算法自行寻找数据之间的模式。
3.强化学习：通过试错和反馈，进行动作选择和决策。

机器学习应用广泛于：

1.图像识别
2.自然语言处理
3.预测分析
4.推荐系统
5.智能交通等领域。

### function calling