技術(shù)
導(dǎo)讀:階躍星辰發(fā)布了新一代實(shí)時(shí)語(yǔ)音大模型 StepAudio 2.5 Realtime,目前已全量上線,開發(fā)者可通過(guò)階躍星辰開放平臺(tái)接入使用。
5 月 9 日消息,階躍星辰發(fā)布了新一代實(shí)時(shí)語(yǔ)音大模型 StepAudio 2.5 Realtime,目前已全量上線,開發(fā)者可通過(guò)階躍星辰開放平臺(tái)接入使用。
該模型定位于打造更具“活人感”的 AI 對(duì)話體驗(yàn),重點(diǎn)圍繞副語(yǔ)言感知、人設(shè)自定義與對(duì)話能力三個(gè)方向進(jìn)行技術(shù)升級(jí)。
從官方獲悉,StepAudio 2.5 Realtime 的核心突破在于其對(duì)“副語(yǔ)言”信息的處理能力。所謂副語(yǔ)言,指的是語(yǔ)調(diào)、語(yǔ)速、停頓乃至一聲嘆息或輕笑等文字以外的表達(dá)方式,這些細(xì)節(jié)恰恰是人類情感傳遞的主要載體。模型通過(guò)對(duì)這些元素的解讀,可以感知對(duì)話者的情緒狀態(tài)與潛在意圖,比如從低沉的聲線中察覺疲憊,或是從急促的語(yǔ)氣里識(shí)別出煩躁情緒,并據(jù)此動(dòng)態(tài)調(diào)整回應(yīng)的語(yǔ)氣與策略,旨在降低交互的生硬感,使其更像與真人交談。
在人設(shè)靈活性方面,StepAudio 2.5 Realtime 將定義權(quán)完全交給用戶。開發(fā)者可以通過(guò) API,從性格特質(zhì)、背景經(jīng)歷、個(gè)人好惡到語(yǔ)言習(xí)慣與對(duì)話邊界,對(duì) AI 角色進(jìn)行精細(xì)化調(diào)節(jié)。這一能力的背后,是模型基于超過(guò) 10,000 個(gè)高質(zhì)量原生人設(shè),通過(guò)算法裂變生成的百萬(wàn)級(jí)人設(shè)特征矩陣,并結(jié)合海量真實(shí)場(chǎng)景對(duì)話語(yǔ)料訓(xùn)練而來(lái)。針對(duì)深度角色扮演中常見的“人設(shè)崩塌”痛點(diǎn),開發(fā)團(tuán)隊(duì)進(jìn)行了專門的 RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))對(duì)齊優(yōu)化。據(jù)官方介紹,即使在極端情境的壓力測(cè)試下,模型依然能保持高度穩(wěn)定、可信的角色一致性。同時(shí),該模型也內(nèi)置了 5 個(gè)預(yù)設(shè)人設(shè)供用戶直接選擇體驗(yàn)。
在整體對(duì)話能力上,該模型強(qiáng)調(diào)智商與情商的雙重躍升。除了深度理解復(fù)雜語(yǔ)義、應(yīng)對(duì)拋梗接梗等交流場(chǎng)景,模型還能靈活調(diào)用多領(lǐng)域知識(shí)以提供更深度的對(duì)話體驗(yàn),在應(yīng)用中既可扮演提供情緒價(jià)值的聊天搭子,也能模擬專業(yè) HR 進(jìn)行面試等嚴(yán)肅場(chǎng)景。
根據(jù)官方發(fā)布的 2026 年 4 月評(píng)測(cè)數(shù)據(jù),該模型在五個(gè)測(cè)試維度中均位列第一。其中最能反映真實(shí)體驗(yàn)的主觀評(píng)測(cè)(手機(jī) App 真人對(duì)話打分)得分 80.41,高于 GPT-Realtime-1.5 的 68.01 和 Gemini Live 的 67.16;語(yǔ)音問答基準(zhǔn)得分為 79.80,約為 GPT-Realtime-1.5 的 1.5 倍。