评测能力规格 · Specifications

技术规格 · 给技术负责人的硬料

两段连贯展开：双模式评测（流式 + 文件）· 全部评测参数（四大主维度 + 音素级对齐 + 错误类型分类）。原始 API 字段、JSON 结构、流式协议都在这里。

Dual Mode

边录边评 · 双模式评测

流式实时评测 + 音频文件评测，覆盖从交互口语练习到批量质检的全部链路

实时录音评测

通过本地麦克风采集语音，音频以 WebSocket 流式推送到评测引擎。无需生成中间文件，录完即出分，适合交互式口语练习。

评测流程

创建流式会话，指定评测类型与参考文本

开始录音，音频实时推送至云端评测引擎

停止录音，即刻获得多维评分结果

延迟降低 30-50%，体验更流畅
无需管理音频文件
支持断线自动重连

音频文件评测

支持本地文件路径、Base64 编码、URL 三种输入方式。传入路径即可评测，代理自动处理编码和上传，适合批量处理场景。

三种输入方式

audio_file_path本地路径，最便捷

audio_base64Base64 编码数据

audio_url远程 URL 地址

支持 mp3/wav/ogg/m4a/aac
大文件自动压缩
适合批量评测与回放分析

延迟

30-50%↓

相比传统回传评测

音频格式

5 种

mp3 / wav / m4a ...

输入方式

3 种

路径 / Base64 / URL

自动重连

断线续录

弱网场景友好

题型能力覆盖

单词word句子sent段落para半开放题5 维评分开放题看图说话 / 作文自由识别实时 ASR + 标点AI Talk人机对话

Assessment Parameters

全部评测参数

MCP 接口按驰声考试级引擎真实 API 结构返回，四大主维度 + 音素级对齐 + 错误类型分类，LLM 可直接消费。

总分 Overall

综合发音、完整、流利、韵律四项加权得分

准确度 Accuracy

发音准确率，颗粒度精细至音素级

完整度 Integrity

识别多读 / 漏读 / 跳读，判断是否读完整

流利度 Fluency

语流的自然度、停顿合理性

韵律度 Rhythm

重音 · 意群停顿 · 升降调三合一

语速 Speed

WPM / SPM 动态统计，过快过慢都会扣分

错误诊断 Diagnostics

逐词 / 逐音素标注 normal / omit / insert / mispron

音素级对齐 Phoneme

返回每个音素的得分、时间戳、置信度

mcp-response.json

{
  // 四大主维度
  "overall": 72,
  "pron": {
    "accuracy":  65,
    "integrity": 95,
    "fluency":   85,
    "rhythm":    70
  },
  "speed": 130 // WPM,

  // 词/音素级诊断
  "details": [
    {
      "char":  "record",
      "score": 58,
      "dp_type": "mispron",
      "phonemes": [
        { "char": "r", "score": 45, "dp_type": "mispron" },
        { "char": "ɪ", "score": 78, "dp_type": "normal"  }
      ]
    }
  ]
}

dp_type: normal / omit / insert / mispron考试级 API

悬停左侧任意字段，右侧 JSON 中对应位置会实时高亮