小红书语音辨认新冲破!开源FireRedASR,中文后果?
语音辨认(ASR,Automatic Speech Recognition)是一种将语音转化为笔墨的技巧,被普遍利用于智能语音交互跟多媒体内容懂得范畴,比方语音助手、语音输入、视频字幕等场景。权衡中文 ASR 机能的重要指标是字过错率(CER,Character Error Rate),该值越低,表现模子的辨认后果越好。克日,小红书 FireRed 团队正式宣布并开源了基于年夜模子的语音辨认模子 ——FireRedASR,在语音辨认范畴带来新冲破。在业界普遍采取的中文一般话公然测试集上,FireRedASR 凭仗出色的机能获得了新 SOTA!FireRedASR 在字过错率(CER)这一中心技巧指标上,对照此前的 SOTA Seed-ASR,过错率绝对下降 8.4%,充足表现了团队在语音辨认技巧范畴的翻新才能与技巧冲破。论文题目:FireRedASR: Open-Source Industrial-GradeMandarin Speech Recognition Modelsfrom Encoder-Decoder to LLM Integration论文地点:http://arxiv.org/abs/2501.14350名目地点:https://github.com/FireRedTeam/FireRedASRFireRedASR 先容FireRedASR 系列模子包括两种中心构造:FireRedASR-LLM 跟 FireRedASR-AED,分辨针对语音辨认的极致精度跟高效推理需要量身打造。团队开源了差别范围的模子跟推理代码,旨在满意片面笼罩多样化的利用场景。FireRedASR-LLM 跟 FireRedASR-AED 的构造如下图所示: FireRedASR-LLM(左):联合了文本预练习 LLM 的才能,为极致的 ASR 正确率而生,实用于瞄准确率请求极高的利用场景。FireRedASR-AED(右下):基于经典的 Attention-based Encoder-Decoder 架构,FireRedASR-AED 经由过程扩大参数至 1.1B,胜利均衡了 ASR 语音辨认的高正确率与推理效力。试验及成果下图是 FireRedASR 跟其余 ASR 年夜模子的对照,在业界常用的中文一般话公然测试集上,FireRedASR-LLM(8.3B 参数目)获得了最优 CER 3.05%、成为新 SOTA!FireRedASR-AED (1.1B 参数目)紧随厥后获得 3.18%,两者均比 Seed-ASR(12+B 参数目)的 3.33% 低、而且参数目更小。FireRedASR 也比 Qwen-Audio、SenseVoice、Whisper、Paraformer 获得了更优的 CER。(aishell1 表现 AISHELL-1 测试集,aishell2 表现 AISHELL-2 iOS 测试集,ws_net 跟 ws_meeting 分辨表现 WenetSpeech 的 Internet 跟 Meeting 测试集)FireRedASR 不只在公然测试集上表示优良,在多种一样平常场景下,也展示了出色的语音辨认后果。如下图所示,在由短视频、直播、语音输入跟智能助手等多种起源构成的 Speech 测试集上,与业内当先的 ASR 效劳供给商(ProviderA)跟 Paraformer-Large 比拟, FireRedASR-LLM 的 CER 绝对下降 23.7%~40.0%,上风非常显明。值得一提的是,在须要歌词辨认才能的场景中,FireRedASR-LLM 也表示出极强的适配才能,CER 实现了 50.2%~66.7% 的绝对下降,这一结果进一步拓宽了 FireRedASR 的利用范畴,使其不只能胜任传统语音辨认需要,还能在翻新性的多媒体场景中年夜放异彩。值得一提的是,FireRedASR 在中文方言跟英语场景中同样表示不俗。在 KeSpeech(中文方言)跟 LibriSpeech(英语)测试集上,FireRedASR 的 CER 明显优于此前的开源 SOTA 模子,使其在支撑好一般话 ASR 的条件下,在中文方言跟英语上也充足通用,进一步凸显了其鲁棒的言语适配才能。猎奇为什么 FireRedASR 能获得如斯好的后果吗?能够参考 FireRed 团队公然的技巧讲演一探索竟,而且模子跟代码曾经全体开源(链访问上文)。FireRed 团队盼望经由过程开源能为语音社区做出奉献,增进 ASR 的利用跟端到端语音交互的开展。