# 欢迎大家来到未来科技营
本文档主要以刚刚发布的阿里云Omni模型的为例，展示如何通过调用API接口进行语音交互。

之前我们已经学习了如何通过调用simpleaudio来让我们的机器人进行录音和播放音频文件，接下来我们来模拟一次跟机器人的对话场景。首先，我们按照之前的方式，录音一句与机器人的对话音频，并保存。

In [1]:
import os
import alsaaudio
import sounddevice as sd
import simpleaudio as sa
import numpy as np
from scipy.io.wavfile import write

dev = next((d for d in sd.query_devices() if d['max_output_channels'] > 0 and 'usb' in d['name'].lower()), None)
if dev: os.environ['ALSA_CARD'] = str(dev['index'])

## 配置API_KEY

之后我们开始调用阿里大模型API，将音频文件转为对应的文字。

第一步我们需要配置环境变量，以便API可以通过Key进行调用。这里我们已经为大家准备了API_KEY，配额有限，请谨慎使用。

建议自行申请免费额度 https://bailian.console.aliyun.com/?tab=model#/api-key
参考 https://bailian.console.aliyun.com/?tab=api#/api

In [2]:
os.environ['DASHSCOPE_API_KEY'] = "sk-da685c1884eb4d1b8b3e5320cc7324d4"

In [3]:
# 录音
fs = 44100  # 采样频率
seconds = 5  # 录音时长，单位：秒
output_filename = "demo1.wav"

print("* 开始录音")
# 录制音频
myrecording = sd.rec(int(seconds * fs), samplerate=fs, channels=1)
sd.wait()  # 等待录音完成
print("* 录音结束")
print(np.mean(np.abs(myrecording)))

# 将浮点格式转换为整数格式
myrecording = np.int16(myrecording / np.max(np.abs(myrecording[20000:])) * 32767)

# 保存音频文件
write(output_filename, fs, myrecording)
print(f"音频已保存为 {output_filename}")

* 开始录音
* 录音结束
0.5538832
音频已保存为 demo1.wav


接下来我们调用接口，这里我们使用的是阿里的ASR模型进行音频转文字的解析。

更多demo可参考 [官方ASR文档](https://help.aliyun.com/zh/model-studio/user-guide/automatic-speech-recognition?spm=a2c4g.11186623.help-menu-2400256.d_0_4_0.2d2f13f0a8n9c7&scm=20140722.H_2842554._.OR_help-T_cn~zh-V_1#bfee22ad38uyi)

In [4]:
from dashscope import MultiModalConversation

audio_file_path = "demo1.wav"
messages = [
    {
        "role": "user",
        "content": [{"audio": audio_file_path}],
    }
]

response = MultiModalConversation.call(model="qwen-audio-asr-latest", messages=messages)
print(response)

{"status_code": 200, "request_id": "90f53790-19b3-983a-9694-7889e0fef70e", "code": "", "message": "", "output": {"text": null, "finish_reason": null, "choices": [{"finish_reason": "stop", "message": {"role": "assistant", "content": [{"text": "这不应该我就是用的是你的那个示例程序我一开始运行的时候"}]}}]}, "usage": {"input_tokens": 157, "output_tokens": 18, "audio_tokens": 129}}


In [5]:
print(response["output"]["choices"][0]["message"]["content"][0]["text"])

这不应该我就是用的是你的那个示例程序我一开始运行的时候


大家可以看到调用结果返回的是一个Json格式的字典，我们获取其中的text部分为调用结果。

In [7]:
input_text = response["output"]["choices"][0]["message"]["content"][0]["text"]
print(input_text)

你好请介绍一下你自己


## 调用API回答我们的问题

接下来我们调用阿里千问模型对我们的问题进行回答。千问模型可以通过文字和语音两种方式同时对我们的问题进行回答。这里我们调用的是qwen-omni-turbo模型，选择输出模式为语音+文字。

更多多模态调用方式可参考 [官方多模态文档](https://help.aliyun.com/zh/model-studio/user-guide/multimodal/?spm=a2c4g.11186623.help-menu-2400256.d_0_2.5cb12bdb5gTOut&scm=20140722.H_2878475._.OR_help-T_cn~zh-V_1)

In [49]:
import os
from openai import OpenAI
import base64
import numpy as np
import soundfile as sf

client = OpenAI(
    # 若没有配置环境变量，请用百炼API Key将下行替换为：api_key="sk-xxx",
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen-omni-turbo",
    # model="qwen2.5-omni-7b",
    messages=[{"role": "user", "content": input_text}],
    # 设置输出数据的模态，当前支持两种：["text","audio"]、["text"]
    modalities=["text", "audio"],
    audio={"voice": "Cherry", "format": "wav"},
    # stream 必须设置为 True，否则会报错
    stream=True,
    stream_options={"include_usage": True},
)

In [50]:
audio_string = ""
for chunk in completion:
    if chunk.choices:
        if hasattr(chunk.choices[0].delta, "audio"):
            try:
                audio_string += chunk.choices[0].delta.audio["data"]
            except Exception as e:
                print(chunk.choices[0].delta.audio["transcript"])
    else:
        print(chunk.usage)

嗨
，
我是
阿里
云
研发
的大
规模
语言
模型
通
义
千
问
。
我可以
陪你
聊天
，
帮你
解决问题
，
你
有什么
想
聊
的
吗
？


CompletionUsage(completion_tokens=247, prompt_tokens=52, total_tokens=299, completion_tokens_details=CompletionTokensDetails(accepted_prediction_tokens=None, audio_tokens=217, reasoning_tokens=None, rejected_prediction_tokens=None, text_tokens=30), prompt_tokens_details=PromptTokensDetails(audio_tokens=None, cached_tokens=None, text_tokens=52))


我们可以看到，调用返回的结果中包含了千问的回答和其他信息，例如本次调用一共消耗了多少tokens（可以理解为费用或者算力）。

返回中的文字部分我们已经打印出来了，接下来我们看下返回的音频部分。首先我们将音频解码，

In [51]:
wav_bytes = base64.b64decode(audio_string)

解码后我们就可以使用矩阵的形式来表达这段音频了。这里需要注意，我们的机器人它拥有两个声道，所以是一个2维的矩阵。

In [52]:
audio_np = np.frombuffer(wav_bytes, dtype=np.int16)
audio_np = audio_np.reshape(-1, 1)  # explicitly set as mono channel
audio_stereo = np.repeat(audio_np, 2, axis=1)

In [12]:
print('shape: ', audio_stereo.shape)

shape:  (216960, 2)


最后我们把音频播放出来

In [53]:
# 设置音量
m = alsaaudio.Mixer('PCM')
m.setvolume(100)

# 播放测试音频
sd.play(audio_stereo, samplerate=24000)
sd.wait()

到此我们就完成了与阿里千问大模型的一轮对话啦。更多可能性期待你们自己的探索！