# SGlang推理部署模型

1. **安装SGLang**：通过pip安装SGLang框架是推荐的方式。在新的Python环境中运行以下命令：
```bash
pip install "sglang[all]>=0.4.6.post5"
```

# 三、API服务部署
## （一）启动API服务
1. **基本命令**：使用以下命令启动SGLang的API服务：
```bash
python -m sglang.launch_server --model-path /root/autodl-tmp/Qwen3-8B
```
API服务部署启动成功如下：
![image.png](attachment:d0569c8e-1498-4e80-b1f4-9762e04d3938.png)

## （二）API调用示例
1. **使用curl调用**：
```bash
curl http://localhost:30000/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "/root/autodl-tmp/Qwen3-8B",
  "messages": [
    {"role": "user", "content": "请简单介绍一下大模型"}
  ],
  "temperature": 0.6,
  "top_p": 0.95,
  "top_k": 20,
  "max_tokens": 32768
}'
```
模型响应如下：
```bash
{"id":"d047c6b61a88444e9e63ce9d09721b11","object":"chat.completion","created":1748766930,"model":"/root/autodl-tmp/Qwen3-8B","choices":[{"index":0,"message":{"role":"assistant","content":"<think>\n嗯，用户让我简单介绍一下大模型。首先，我需要明确什么是大模型。大模型通常指的是大规模预训练模型，比如像GPT、BERT这样的模型。不过用户可能对这些术语不太熟悉，所以得用更通俗的语言解释。\n\n接下来，我应该考虑用户的背景。他们可能是学生、刚入行的开发者，或者只是对AI感兴趣的人。不管怎样，他们可能需要一个基础的概述，不需要太深入的技术细节。所以我要保持内容简洁，避免使用太多专业术语，或者如果用了，就要解释清楚。\n\n然后，我需要确定大模型的关键点。比如，什么是大规模参数？模型是如何训练的？应用场景有哪些？还有它们的优势和挑战。这些方面都要涵盖到，但不要过于冗长。\n\n用户可能还想知道大模型和传统模型的区别。比如，传统模型可能需要针对特定任务进行大量微调，而大模型可以迁移到不同任务上，这可能是一个重要的点。另外，大模型的计算资源需求很高，这也是一个需要提到的挑战。\n\n还要注意用户可能的深层需求。他们可能想了解大模型在实际中的应用，或者是否适合他们的项目。所以，在介绍完基本概念后，可以简要提到应用场景，比如自然语言处理、图像识别等，这样用户能更直观地理解。\n\n另外，要避免信息过载。虽然要涵盖主要点，但每个点要简明扼要。比如，在解释参数量时，可以提到百亿甚至万亿级别，但不需要具体数字，除非用户特别问。\n\n最后，检查是否有遗漏的重要点。比如，大模型的训练数据来源、模型的可扩展性、伦理和隐私问题，这些可能也是用户关心的。但因为是简单介绍，可能需要简要带过，或者放在最后作为补充。\n\n总结一下，我需要结构清晰，分点说明，用通俗易懂的语言，涵盖定义、特点、训练方式、应用场景、挑战和未来趋势，确保用户能快速理解大模型的基本概念和重要性。\n</think>\n\n大模型（Large Language Models，LLMs）是指基于海量数据训练的、具有大量参数（通常在数百亿到万亿级别）的深度学习模型。它们通过学习语言的复杂模式和知识，能够执行多种自然语言处理任务，如文本生成、翻译、问答、代码编写等。\n\n### 核心特点：\n1. **大规模参数**  \n   大模型通过数十亿甚至数万亿个参数（模型的“权重”）捕捉语言的深层结构和语义，使其具备强大的表达能力和泛化能力。\n\n2. **预训练+微调**  \n   - **预训练**：在大量文本数据（如书籍、网页、对话等）上进行无监督学习，学习语言的基本规律。  \n   - **微调**：针对特定任务（如分类、生成）进行少量数据的有监督训练，优化模型性能。\n\n3. **多任务能力**  \n   大模型可以“一招多用”，无需针对每个任务单独训练模型，只需调整输出目标即可完成多种任务。\n\n4. **上下文理解**  \n   通过捕捉长距离依赖关系（如上下文中的逻辑关系），模型能更好地理解复杂语句和对话。\n\n### 应用场景：\n- **文本生成**：撰写文章、故事、代码等。\n- **对话系统**：智能客服、虚拟助手。\n- **翻译与摘要**：跨语言转换、信息压缩。\n- **数据分析**：从文本中提取关键信息或生成报告。\n\n### 优势与挑战：\n- **优势**：  \n  - 强大的语言理解和生成能力。  \n  - 减少对任务特定数据的依赖。  \n  - 支持跨领域迁移学习。  \n- **挑战**：  \n  - 训练成本高（需大量算力和数据）。  \n  - 可能存在偏见或生成错误信息（需持续优化）。  \n  - 模型的“黑箱”特性（难以完全解释决策过程）。\n\n### 未来趋势：\n随着技术进步，大模型正朝着更高效、更安全、更易用的方向发展，例如：  \n- **轻量化**：通过模型压缩技术降低计算需求。  \n- **多模态**：结合文本、图像、语音等多类型数据。  \n- **伦理与安全**：加强内容过滤和隐私保护。\n\n总之，大模型是人工智能领域的重要突破，正在深刻改变从科研到商业的多个领域，但其发展仍需解决技术、伦理和资源等多方面的挑战。","reasoning_content":null,"tool_calls":null},"logprobs":null,"finish_reason":"stop","matched_stop":151645}],"usage":{"prompt_tokens":13,"total_tokens":970,"completion_tokens":957,"prompt_tokens_details":null}} 
```

# python代码调用API

In [1]:
from openai import OpenAI
openai_api_key = "EMPTY"
openai_api_base = "http://localhost:30000/v1"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

chat_response = client.chat.completions.create(
    model="/root/autodl-tmp/Qwen3-8B",
    messages=[
        {"role": "user", "content": "请简单介绍一下大模型"},
    ],
    max_tokens=32768,
    temperature=0.6,
    top_p=0.95,
    extra_body={
        "top_k": 20,
    },
)
print("Chat response:", chat_response)

Chat response: ChatCompletion(id='a35a0ff98a6f46498d61162bfc06d61d', choices=[Choice(finish_reason='stop', index=0, logprobs=None, message=ChatCompletionMessage(content='<think>\n好的，用户让我简单介绍一下大模型。首先，我需要明确用户的需求。他们可能对大模型不太了解，或者只是想有一个基本的概述。我应该先定义什么是大模型，然后解释它的特点、应用场景以及优势。\n\n接下来，我要考虑用户可能的背景。他们可能是学生、研究人员，或者对AI技术感兴趣的普通用户。如果是学生，可能需要更基础的解释；如果是研究人员，可能需要更深入的技术细节。但用户要求的是“简单介绍”，所以应该保持简洁，避免过于技术化的术语。\n\n然后，我需要确定大模型的关键点。比如，大模型通常指的是参数量巨大的神经网络，如Transformer架构，训练数据量大，能够处理多种任务。还要提到它们的能力，比如自然语言处理、图像识别、代码生成等。同时，要说明它们的优势，比如强大的泛化能力、多任务处理，以及当前的发展趋势，如开源模型和应用场景的扩展。\n\n还要注意可能的误区，比如大模型并不总是更好，可能会有资源消耗大、训练成本高的问题。不过用户可能更关注基本概念，所以这部分可以简要带过。\n\n另外，用户可能没有说出来的深层需求是想了解大模型的实际应用或如何使用它们。所以，在介绍中可以提到一些实际的例子，比如聊天机器人、内容生成工具等，这样用户能更直观地理解。\n\n最后，确保语言简洁明了，结构清晰，分点说明，便于用户快速获取信息。避免使用复杂的句子，保持口语化，让不同层次的读者都能理解。\n</think>\n\n大模型（Large Model）是指参数量巨大、训练数据量庞大的人工智能模型，通常基于深度学习技术，尤其是Transformer架构。它们能够通过海量数据学习复杂的模式和知识，从而在多种任务中表现出强大的泛化能力。\n\n### 核心特点：\n1. **参数量庞大**：通常包含数十亿甚至万亿级参数，远超传统模型。\n2. **多模态能力**：部分模型支持文本、图像、音频等多种数据类型的处理。\n3. **任务多样性**：可完成文本