# 在 Python 中使用 Ollama API



## 导入Ollama模块



In [None]:
%pip install ollama

## 使用方法


In [13]:
from ollama import chat
from ollama import ChatResponse

response: ChatResponse = chat(model='llama3.1', messages=[
  {
    'role': 'user',
    'content': '为什么天空是蓝色的？',
  },
])
print(response['message']['content'])

print(response.message.content)


天空是蓝色的，因为太阳的光线经过大气的漫射作用后，人的眼睛接收到的主要是绿光和红光，但由于大气中的某些物质会吸收光波，而不是散射，这些未被吸收的光波就穿过到了我们面前，这样就产生了蓝色的天空。
天空是蓝色的，因为太阳的光线经过大气的漫射作用后，人的眼睛接收到的主要是绿光和红光，但由于大气中的某些物质会吸收光波，而不是散射，这些未被吸收的光波就穿过到了我们面前，这样就产生了蓝色的天空。


## 流式响应

可以通过设置 `stream=True` 启用响应流，使函数调用返回一个 Python 生成器，其中每个部分都是流中的一个对象。


In [55]:
from ollama import chat

stream = chat(
    model='llama3.1',
    messages=[{'role': 'user', 'content': '为什么天空是蓝色的？'}],
    stream=True,
)

for chunk in stream:
  print(chunk['message']['content'], end='', flush=True)

科学家认为，天空看起来蓝色，因为大气中的尘埃和汽油等物质散射了白光中的各色光线。我们所看到的蓝天，并不是因为太阳发出的蓝光，而是由于这些小颗粒在蓝光方向上特别活跃，使得蓝色的光线比红、黄、绿光强烈得多，才使我们的眼睛看到了蓝色天空。

　　科学家们早就知道，大气中的尘埃和汽油等物质可以散射光线，并且这种散射的特性与波长有关。白光是由各种颜色的光线组成的，它通过大气传播到我们的眼睛里时，就被这些小颗粒所散射，使得我们看到的是一个混合了所有颜色光线的天空。

　　但是，科学家们也早已知道，对于每种颜色的光波来说，红光的波长最长，而蓝光的波长最短。因此，当白光通过大气时，红光的波长会比蓝光更容易被吸收掉，这样红色光线就不容易到达我们的眼睛里了。而蓝色光线由于波长最短，所以能够穿透大气传播得远远地，才使我们看到的是蓝色的天空。

　　这是一种极其微妙的差别，而只有当你知道了太阳发出的光是白色的，以及大气中各种小颗粒对不同颜色光线有不同的影响时，你才能理解为什么我们看到的蓝天实际上并不是因为天空本身的特殊性，而正是由于地球的大气在蓝光方向上的特殊行为。

## 结构化输出




In [20]:
from pydantic import BaseModel, Field
from ollama import chat
import json

class CountryInfo(BaseModel):
    capital: str = Field(..., alias="首都")
    number: str = Field(..., alias="人口")
    area: str = Field(..., alias="占地面积")  


response = chat(
    model='llama3.1',
    messages=[{
        'role': 'user',
        'content': "请介绍美国的首都、人口、占地面积信息，并以 JSON 格式返回。"
                   
    }],
    format="json",  
    options={'temperature': 0}, 
)

response_content = response["message"]["content"]


if not response_content:
    raise ValueError("Ollama 返回的 JSON 为空")

json_response = json.loads(response_content)  
print(json_response)

friends_response = CountryInfo.model_validate(json_response)  
print(friends_response)

{'首都': '华盛顿', '人口': '约8,748,000', '占地面积': '约2,136.4平方英里'}
capital='华盛顿' number='约8,748,000' area='约2,136.4平方英里'


## API


### 聊天



In [15]:
ollama.chat(model='llama3.1', messages=[{'role': 'user', 'content': '为什么天空是蓝色的？'}])

ChatResponse(model='llama3.1', created_at='2025-01-20T07:46:17.295949995Z', done=True, done_reason='stop', total_duration=1100555727, load_duration=30025604, prompt_eval_count=18, prompt_eval_duration=237138000, eval_count=34, eval_duration=780842000, message=Message(role='assistant', content='答案：由于大气中的一氧化碳和其他物质吸收太阳的红光，反射出来的是蓝色光芒。', images=None, tool_calls=None))

### 生成



In [16]:
ollama.generate(model='llama3.1', prompt='为什么天空是蓝色的？')

GenerateResponse(model='llama3.1', created_at='2025-01-20T07:46:20.725343413Z', done=True, done_reason='stop', total_duration=447751053, load_duration=14584005, prompt_eval_count=18, prompt_eval_duration=65192000, eval_count=13, eval_duration=366981000, response='答案：因为蓝色是大气的颜色。', context=[128009, 128006, 882, 128007, 271, 113221, 36827, 35894, 21043, 115427, 118458, 11571, 128009, 128006, 78191, 128007, 271, 126427, 5232, 104514, 115427, 39135, 21043, 27384, 102146, 9554, 124510, 39135, 1811])

### 本地模型列表



In [11]:
ollama.list()

ListResponse(models=[Model(model='mistral:latest', modified_at=datetime.datetime(2024, 8, 13, 14, 7, 45, 8750, tzinfo=TzInfo(+08:00)), digest='f974a74358d62a017b37c6f424fcdf2744ca02926c4f952513ddf474b2fa5091', size=4113301824, details=ModelDetails(parent_model='', format='gguf', family='llama', families=['llama'], parameter_size='7.2B', quantization_level='Q4_0')), Model(model='llama3.1:latest', modified_at=datetime.datetime(2024, 8, 9, 17, 49, 8, 348175, tzinfo=TzInfo(+08:00)), digest='91ab477bec9d27086a119e33c471ae7afbd786cc4fbd8f38d8af0a0b949d53aa', size=4661230977, details=ModelDetails(parent_model='', format='gguf', family='llama', families=['llama'], parameter_size='8.0B', quantization_level='Q4_0')), Model(model='llava:latest', modified_at=datetime.datetime(2024, 8, 8, 14, 20, 9, 310457, tzinfo=TzInfo(+08:00)), digest='8dd30f6b0cb19f555f2c7a7ebda861449ea2cc76bf1f44e262931f45fc81d081', size=4733363377, details=ModelDetails(parent_model='', format='gguf', family='llama', families=

### 显示模型信息



In [18]:
ollama.show('llama3.1')

ShowResponse(modified_at=datetime.datetime(2024, 8, 9, 17, 49, 8, 348175, tzinfo=TzInfo(+08:00)), template='{{ if .Messages }}\n{{- if or .System .Tools }}<|start_header_id|>system<|end_header_id|>\n{{- if .System }}\n\n{{ .System }}\n{{- end }}\n{{- if .Tools }}\n\nYou are a helpful assistant with tool calling capabilities. When you receive a tool call response, use the output to format an answer to the orginal use question.\n{{- end }}\n{{- end }}<|eot_id|>\n{{- range $i, $_ := .Messages }}\n{{- $last := eq (len (slice $.Messages $i)) 1 }}\n{{- if eq .Role "user" }}<|start_header_id|>user<|end_header_id|>\n{{- if and $.Tools $last }}\n\nGiven the following functions, please respond with a JSON for a function call with its proper arguments that best answers the given prompt.\n\nRespond in the format {"name": function name, "parameters": dictionary of argument name and its value}. Do not use variables.\n\n{{ $.Tools }}\n{{- end }}\n\n{{ .Content }}<|eot_id|>{{ if $last }}<|start_header

### 创建模型



In [None]:
ollama.create(model='example', from_='llama3.1', system="你是超级马里奥兄弟中的马里奥。")

### 复制模型



In [35]:
ollama.copy('llama3.1', 'user/llama3.1')

StatusResponse(status='success')

### 删除模型


In [38]:
ollama.delete('user/llama3.1')

StatusResponse(status='success')

### 拉取模型



In [None]:
ollama.pull('llama3.1')

### 推送模型



In [None]:
ollama.push('user/llama3.1')

### 生成嵌入



In [40]:
ollama.embed(model='llama3.1', input='天空是蓝色的因为瑞利散射')

EmbedResponse(model='llama3.1', created_at=None, done=None, done_reason=None, total_duration=399150722, load_duration=1452569, prompt_eval_count=11, prompt_eval_duration=None, eval_count=None, eval_duration=None, embeddings=[[-0.01541497, 0.0064091715, -0.0062614065, 0.008539124, 0.009113263, 0.009906477, 0.0009391814, 0.006100814, 0.038743254, -0.0058897254, 0.017647555, -0.014748235, 0.017562253, 0.008528521, -0.010827654, 0.010963055, 0.025591774, 0.017057586, 0.010814794, 0.0027282375, -0.0064808372, 0.0023171168, -0.01191668, 0.0089665735, -0.0043177824, -0.001571955, 0.00223922, -0.002526995, -0.015590389, -0.0035211975, -0.011400975, -0.012952736, -0.006808116, 0.008107292, 0.0009214734, -0.0023740574, 0.004294322, -0.011697042, -0.002640184, -0.027134981, 0.0045585656, -0.0077299923, -0.011382314, 0.013193393, 0.01610267, 0.013199363, 0.0049370485, 0.010846365, 0.009880446, -0.019938864, 0.006286836, -0.008442655, 0.0067318007, -0.00037887954, 0.0064077466, -0.0022631201, -0.00

In [42]:
# 批量生成embedding
ollama.embed(model='llama3.1', input=['天空是蓝色的', '草是绿色的'])

EmbedResponse(model='llama3.1', created_at=None, done=None, done_reason=None, total_duration=453734833, load_duration=1280203, prompt_eval_count=11, prompt_eval_duration=None, eval_count=None, eval_duration=None, embeddings=[[-0.0074202665, 0.005872464, 0.016150923, 0.010424473, 0.004130786, 0.0052543473, -0.002827273, 0.018142365, 0.034227956, 0.006114092, 0.0145974355, -0.01075155, 0.0179068, 0.008182837, -0.0033834765, 0.0030209369, -0.005765084, 0.0032847135, 0.012331404, 0.013340211, -0.0030834032, 0.0054818513, 0.013695412, -0.0012283748, -0.035131186, -0.001000348, -0.02727534, -0.0048256023, 0.009970478, 0.0036476345, -0.004253968, 0.00069795334, -0.028112803, -0.010499651, 0.011351438, 0.005393886, 0.00311226, -0.00430998, 0.02196635, -0.038226448, -0.0035475038, -0.001950502, 0.0107202055, 0.005126748, -0.0056137033, -0.009815621, 0.0077940365, 0.004667753, 0.021399569, -0.0158518, 0.011127396, 0.0075556864, 0.008486998, 0.015736135, 0.0025787766, -0.019686885, 0.007238741, 0

### 进程



In [41]:
ollama.ps()

ProcessResponse(models=[Model(model='llama3.1:latest', name='llama3.1:latest', digest='91ab477bec9d27086a119e33c471ae7afbd786cc4fbd8f38d8af0a0b949d53aa', expires_at=datetime.datetime(2025, 1, 20, 16, 16, 56, 608296, tzinfo=TzInfo(+08:00)), size=6654289920, size_vram=6654289920, details=ModelDetails(parent_model='', format='gguf', family='llama', families=['llama'], parameter_size='8.0B', quantization_level='Q4_0'))])

## 自定义客户端

可以通过通过 `ollama` 实例化 `Client` 或 `AsyncClient` 来创建自定义客户端。

可以使用以下字段创建自定义客户端：

- `host`: 要连接的 Ollama 主机
- `timeout`: 请求超时时间

所有关键字参数参见[`httpx.Client`](https://www.python-httpx.org/api/#client).



### 同步客户端  
这段代码使用的是同步客户端(Client)，意味着当你调用client.chat()方法时，程序会等待该请求完成并返回结果后才会继续执行后续代码。这种方式更直观、简单，适合于编写流程较为线性、不需要处理大量并发任务的应用。

In [23]:
from ollama import Client
client = Client(
  host='http://localhost:11434',
  headers={'x-some-header': 'some-value'}
)
response = client.chat(model='llama3.1', messages=[
  {
    'role': 'user',
    'content': '为什么天空是蓝色的？',
  },
])
response

ChatResponse(model='llama3.1', created_at='2025-02-11T12:26:47.87890184Z', done=True, done_reason='stop', total_duration=2819989596, load_duration=1869941494, prompt_eval_count=17, prompt_eval_duration=103000000, eval_count=90, eval_duration=845000000, message=Message(role='assistant', content='天空是蓝色的是因为大气中存在多种气体，如氧气、氮气和一氧化二碳等，它们都有吸收光线的能力，并且在不同的波长下会有不同的吸收强度。蓝色光线的波长较短，属于可见光范围内，其吸收强度大，因此天空会呈现出蓝色的颜色。', images=None, tool_calls=None))

### 异步客户端  
这段代码使用了异步客户端(AsyncClient)，并且定义了一个异步函数chat()。通过await关键字，可以暂停该函数的执行直到AsyncClient().chat()请求完成，但在此期间不会阻塞其他操作。这对于需要高效率处理I/O操作（如网络请求）或希望同时执行多个任务的应用来说非常有用。此外，使用asyncio.run(chat())来运行这个异步函数。



In [52]:
import asyncio
from ollama import AsyncClient
import nest_asyncio

nest_asyncio.apply()

async def chat():
    message = {'role': 'user', 'content': '为什么天空是蓝色的？'}
    response = await AsyncClient().chat(model='llama3.1', messages=[message])
    print(response)

asyncio.run(chat())


model='llama3.1' created_at='2025-01-20T08:24:14.063213122Z' done=True done_reason='stop' total_duration=8847163127 load_duration=6920307610 prompt_eval_count=18 prompt_eval_duration=30315000 eval_count=81 eval_duration=1855198000 message=Message(role='assistant', content='因为太阳的光线里有很多紫外光和红光，紫外光在大气中被破坏，而红光由于向反向传播所以会被阻挡下来。我们看到的大部分太阳光都是从绿到黄色的光，它们是能穿透大气的，因此它们给我们的天空带来了蓝色光芒。', images=None, tool_calls=None)


设置 `stream=True` 修改函数以返回 Python 异步生成器：



In [None]:
import asyncio
from ollama import AsyncClient
import nest_asyncio

nest_asyncio.apply()
async def chat():
  message = {'role': 'user', 'content': '为什么天空是蓝色的？'}
  async for part in await AsyncClient().chat(model='llama3.1', messages=[message], stream=True):
    print(part['message']['content'], end='', flush=True)

asyncio.run(chat())

### 同步&异步客户端不同调用次数耗时对比测试  
同步和异步客户端都重复10次问答过程，对比所需要的总时间和单次时间  
test_messages: 测试数据  
test_num: 测试次数  
model_name: 测试模型  

In [8]:
import time
import asyncio
from ollama import Client, AsyncClient
import nest_asyncio

# 应用nest_asyncio以支持Jupyter中的异步操作
nest_asyncio.apply()

# 初始化客户端
client = Client(host='http://localhost:11434')
async_client = AsyncClient(host='http://localhost:11434')


# 同步请求处理函数
def request_example(client, model_name, messages):
    start_time = time.time()
    try:
        # 同步请求返回
        response = client.chat(model=model_name, messages=messages)
    except Exception as e:
        print(f"同步请求失败: {e}")
        response = None
    end_time = time.time()
    duration = end_time - start_time
    print(f"同步请求时间: {duration}")
    return response, duration

# 异步请求处理函数
async def async_request_example(client, model_name, messages):
    start_time = time.time()
    try:
        # 异步请求返回
        response = await client.chat(model=model_name, messages=messages)
    except Exception as e:
        print(f"异步请求失败: {e}")
        response = None
    end_time = time.time()
    duration = end_time - start_time
    print(f"异步请求时间: {duration}")
    return response, duration

# 异步请求测试函数
async def async_client_test(test_num, model_name, messages):
    tasks = [asyncio.create_task(async_request_example(async_client, model_name, messages)) 
             for _ in range(test_num)]
    results= await asyncio.gather(*tasks)
    return results

# 运行同步测试
def sync_test(model_name, messages, test_num):
    total_time = 0
    for i in range(test_num):
        _, duration = request_example(client, model_name, messages)
        total_time += duration
    return total_time / test_num

# 运行异步测试
async def async_test(model_name, messages, test_num):
    start_time = time.time()
    await async_client_test(test_num, model_name, messages)
    end_time = time.time()
    return (end_time - start_time) / test_num


# 准备测试数据
test_messages = [{'role': 'user', 'content': '为什么天空是蓝色的？'}]
test_num = 10
model_name = 'llama3.1'

# 运行同步测试并输出结果
print("运行同步测试")
sync_avg_time = sync_test(model_name, test_messages, test_num)
print(f"同步测试平均时间: {sync_avg_time:.2f} 秒")

# 运行异步测试并输出结果
print("运行异步测试")
async_avg_time = asyncio.run(async_test(model_name, test_messages, test_num))
print(f"异步测试平均时间: {async_avg_time:.2f} 秒")


运行同步测试
同步请求时间: 0.48946642875671387
同步请求时间: 0.24371910095214844
同步请求时间: 0.14765119552612305
同步请求时间: 1.2287118434906006
同步请求时间: 1.3496146202087402
同步请求时间: 0.629084587097168
同步请求时间: 0.46695852279663086
同步请求时间: 0.33004331588745117
同步请求时间: 1.177213191986084
同步请求时间: 0.6004495620727539
同步测试平均时间: 0.67 秒
运行异步测试
异步请求时间: 0.40514421463012695
异步请求时间: 0.660736083984375
异步请求时间: 0.7315359115600586
异步请求时间: 1.4497339725494385
异步请求时间: 1.5850963592529297
异步请求时间: 1.749483346939087
异步请求时间: 1.859804391860962
异步请求时间: 1.868967056274414
异步请求时间: 2.0734949111938477
异步请求时间: 2.3195137977600098
异步测试平均时间: 0.23 秒


## 错误

如果请求返回错误状态或在流式传输时检测到错误，则会引发错误。


In [None]:
model = 'does-not-yet-exist'

try:
  ollama.chat(model)
except ollama.ResponseError as e:
  print('错误:', e.error)
  if e.status_code == 404:
    ollama.pull(model)