産品中(zhōng)心
渴求新知(zhī),敢于突破,創造真實價值

語音識别

語音識别爲開(kāi)發者提供語音轉文字服務的最佳體(tǐ)驗。經大(dà)體(tǐ)量業務充分(fēn)驗證,也在大(dà)量互聯網、金融、教育等領域的外(wài)部客戶業務場景成功落地,日服務億級用戶。具有海量數據支撐、算法業界領先、支持語種豐富、服務性能穩定、抗噪音能力強、識别準确率高等優勢。功能語音識别開(kāi)放(fàng)錄音文件識别、實時語音識别和一(yī)句話(huà)識别三種服務形式,滿足不同類型開(kāi)發者需求。錄音文件識别對不超過一(yī)小(xiǎo)時的錄音文件進行識别。适用于語音時間較長、對實時性要求低的場景,例如客服質檢、視頻字幕生(shēng)成、音頻節目字幕生(shēng)成等。語言和方言:目前支持中(zhōng)文普通話(huà)、英語、粵語。行業/領域模型:目前支持音視頻領域模型。音頻屬性:支持 wav、mp3、silk、spee...
産品介紹
産品參數

語音識别爲開(kāi)發者提供語音轉文字服務的最佳體(tǐ)驗。經大(dà)體(tǐ)量業務充分(fēn)驗證,也在大(dà)量互聯網、金融、教育等領域的外(wài)部客戶業務場景成功落地,日服務億級用戶。具有海量數據支撐、算法業界領先、支持語種豐富、服務性能穩定、抗噪音能力強、識别準确率高等優勢。

功能

語音識别開(kāi)放(fàng)錄音文件識别、實時語音識别和一(yī)句話(huà)識别三種服務形式,滿足不同類型開(kāi)發者需求。

錄音文件識别

對不超過一(yī)小(xiǎo)時的錄音文件進行識别。适用于語音時間較長、對實時性要求低的場景,例如客服質檢、視頻字幕生(shēng)成、音頻節目字幕生(shēng)成等。

語言和方言:目前支持中(zhōng)文普通話(huà)、英語、粵語。

行業/領域模型:目前支持音視頻領域模型。

音頻屬性:支持 wav、mp3、silk、speex、amr、m4a 等主流的音頻格式,支持8k、16k采樣率的單聲道或雙聲道音頻識别,支持16bit的數據采樣精度。

音頻數據長度支持:若采用直接上傳音頻數據方式,建議音頻數據不能大(dà)于5MB;若采用上傳音頻 url 方式,建議音頻時長不能大(dà)于1小(xiǎo)時。

自學習模型:支持通過語言模型自學習工(gōng)具進行定制優化,可以有效提高文本場景下(xià)的語音識别準确率。

熱詞:目前支持通過控制台方式和API方式進行熱詞的創建,添加熱詞可以顯著提升專有詞彙識别準确率。

關于錄音文件識别使用詳情,請參閱 錄音文件識别 API 文檔。

實時語音識别

對實時音頻流進行識别,達到“邊說邊出文字”的效果。适用于有一(yī)定實時性要求的場景,例如語音輸入、語音機器人、會議現場記錄、直播内容審核、視頻實時添加字幕等場景。

語言和方言:目前支持中(zhōng)文普通話(huà)、英語、粵語、韓語。

行業/領域模型:目前支持金融領域模型。

音頻屬性:支持 wav、pcm、speex、silk、mp3 的音頻格式,支持8k、16k采樣率的單聲道音頻流,支持16bit的數據采樣精度。

音頻數據長度:建議每個數據包的音頻分(fēn)片最大(dà)不能超過200KB。

自學習模型:支持通過語言模型自學習工(gōng)具進行定制優化,可有效提高專有領域或行業下(xià)的語音識别準确率。

熱詞:目前支持通過控制台方式和API方式進行熱詞的創建,添加熱詞可以顯著提升專有詞彙識别準确率。

一(yī)句話(huà)識别

對60秒之内的短音頻文件進行識别。适用于語音消息轉寫場景,例如語音短信、語音搜索等。

語言和方言:目前支持中(zhōng)文普通話(huà)、英語、粵語。

音頻屬性:支持 wav、mp3 的音頻格式,支持8k、16k采樣率的單聲道音頻,支持16bit的數據采樣精度。

音頻數據長度:若采用直接上傳音頻數據方式,建議整個數據包不能大(dà)于600KB;若采用上傳音頻url方式,建議音頻時長不能大(dà)于60s。

自學習模型:支持通過語言模型自學習工(gōng)具進行定制優化,可有效提高專有領域或行業下(xià)的語音識别準确率。

熱詞:目前支持通過控制台方式和API方式進行熱詞的創建,添加熱詞可以顯著提升專有詞彙識别準确率。

服務熱線:

15818183088

地址:廣州市番禺區洛浦街凹凸凹創意園
郵箱:www@vastfad.com

© 2024 将普(廣東)數字科技有限公司版權所有