Skip to content
Permalink
Branch: master
Find file Copy path
Find file Copy path
Fetching contributors…
Cannot retrieve contributors at this time
24 lines (22 sloc) 2.77 KB

语音相关术语

比特率

比特率(Bit Rate)是单位时间播放连续媒体(如压缩后的音频或视频)所需的比特数量,测量单位为“比特每秒”(bit/s 或 bps),目前智聆口语评测的比特率要求为16bit。

编码方式

编码方式(Codec)是将声音从模拟信号转换为数字信号(或反向转换)的方式。主要包括无损编码和有损编码两种方式。根据采样定理,音频编码只能“无限接近”自然信号,故而所有的音频编码方式实质上都是有损的。在计算机领域中,通常约定能够达到最高保真水平的 PCM 编码为无损编码。互联网中常见的音频编码均为有损编码,常见的编码格式有 MP3、AAC 等。

采样率

采样率(Sample Rate)是每秒从连续信号中提取并组成离散信号的采样个数,单位为赫兹(HZ),目前智聆口语评测的采样率要求为16k。

流式传输

流式传输是指将语音分成若干段请求提供给服务,返回评测结果的时长为最后一段数据的处理时长,性能较非流式好,适用于对性能要求较高的场景。

非流式传输

非流式传输是指将语音数据一次性请求提供给服务,返回评测结果的时长为整段语音数据的处理时长,适用于语音数据量较小以及对性能要求不高的场景。

声道

声道(Sound Channel)是指声音在录制(或播放)时,在不同空间位置采集(或播放)的相互独立的音频信号。所谓声道数,也就是声音录制时的音源数量或播放时的扬声器数量。目前智聆口语评测仅支持单声道编码方式。

发音评判标准说明

发音精准度

发音精准度(PronAccuracy)的评判标准是在参照了标准发音以及语音库同种发音对比的前提下,综合参照元音字母以及组合在不同音节中的不同读法、辅音以及成音节的读音、单词重音、句子重音等不同的发音指标,给出发音精准度的得分。

发音流利度指标

发音流利度指标是根据发音是否通顺给出基础的打分,并考虑发音变化中连读、失去爆破、弱读、同化的表达,综合参照语调和节奏中意群与停顿、语调、节奏的发音情况,给出流利度的得分。

发音完整度指标

发音完整度指标是根据发音识别文本与上传 RefText 文本的对比,给出发音完整度的指标。

评价苛刻指数

评价苛刻指数(ScoreCoeff)是用于平滑不同年龄段的分数,取值为[1.0 - 4.0]范围内的浮点数,由于儿童与成人的发音存在很大的差别,当浮点数取值越小,评测标准与儿童评测引擎越接近。可根据业务场景自由设置,1.0为最低年龄段,4.0为最高年龄段。

You can’t perform that action at this time.