快捷搜索:

英伟达最新推出部署边缘设备的语音识别技术

(文章滥觞:机械之心)

英伟达近日一篇论文为语音识别技巧在边缘设备上的支配带来了福音,其新提出的解码器措施纵然在边缘嵌入式 GPU 上也能高效高速地履行。而且这种措施不仅适用于低端硬件,而且也能为数据中间带来显明的效率提升,从而能够识别更多并行的在线音频流。该措施的早期版本已开源。

这篇论文提出了一种颠末优化的加权式有限状态变换器(WFST/ weighted finite-state transducer)解码器,能够应用图像处置惩罚单元(GPU)实现对音频数据的在线流处置惩罚和离线批处置惩罚。这种解码器能高效使用内存、输入/输出带宽,并为最大年夜化并行应用了一种全新的维特比(Viterbi)实现。内存节省让该解码器能比之前处置惩罚更大年夜的图,同时还能支持更多半量的继续流。对 lattice 段进行 GPU 预处置惩罚能让中心 lattice 结果在流推理时代返回给哀求者。

总体而言,比拟于单核 CPU 解码,新提出的改进能实现高达 240 倍的提速,并且解码速率也比当前最佳的 GPU 解码器快 40 倍,同时返回的结果体现相称。从大年夜型数据中间办事器到低功耗边缘设备,该架构可在各类层级的硬件上支配临盆级模型。

深度进修钻研推动了自动语音识别(ASR)技巧的大年夜成长,质量的显明提升让这项技巧在许多人机交互用例中获得了实际利用,「流 ASR 即办事(streaming ASR as a service)」的需求也随之水涨船高。平日来说,如要满意这一需求,将必要在数据中间设置设置设备摆设摆设大年夜量商用办事器。因为很多用例对光阴延迟有很严格的要求,是以人们正在大年夜力投入,意图加快数据中间中模型的推理速率;当然也有钻研正致力于实现边缘推理,包括在低功耗设备上实现推理。

在这项钻研中,钻研者提出了一种全新的加权式有限状态变换器(WFST)实现,其可应用 GPU 和英伟达的 CUDA 编程说话为语音识别义务供给高速解码。他们将该解码器设计成可直接替代现有解码器,而无需改动说话或声学模型。其设计目标是尽力实现最大年夜的机动性,能支持多路同时音频流的在线识别和 latTIce 天生。

钻研者还严格限定了该解码器的内存应用,从而可确保 GPU 内存能为大年夜型说话模型和合营常驻的声学模型留有足够的空间。着末,从低功耗嵌入式 GPU 到单个办事器中运行的多个数据中间级 GPU,该算法都能有效地运行。

并行式 WFST 解码器平日会遵循串行解码器中的范例操作顺序:对付声学模型(AM)后验的每一帧,该解码器可基于帧值处置惩罚发射弧(标签非零的弧),再处置惩罚任何非发射弧链,着末履行剪枝。新提出的算法使用了两个类型不合的异步 CUDA 流:一个认真履行谋略核,另一个认真履行非壅闭的设备到主机(D2H)latTIce token 内存副本。应用第二个用于 D2H 副本的流,无需中止谋略流程就能在在线编码时代返回中心结果。

钻研者打消了很多常见的面向 CPU 的优化和限定,这种做法无意偶尔会妨害并行体现。详细来说,在扩展 token 时不测试新 token 是否独一。将重复的 token 保留下来留待今后清理对精确性而言是足够的:少量额外的事情能削减对同步和原子操作的依附。在 GPU 上,解码核的履行速率很快,其机能受限于核启动的延迟。经由过程调剂解码器的布局,解码器能并行处置惩罚多路音频流,经由过程更长光阴地运行这些核能够掩饰笼罩启动延迟。

为了同时处置惩罚多路音频流,钻研者引入了两种不合的机制:干道(channel)和小道(lane)。小道大年夜致等同于神经收集中的批大年夜小,代表了正被解码的话语或流的聚拢。干道则能为有待继承处置惩罚(因为缺少音频或已谋略后验)的话语保持状态。这种随时筹备 GPU 事情的线程化解码器认真将干道(由于它们已筹备就绪)多路复用到小道(由于它们可用)上。这种规划能根据模型和代表性数据与 GPU 的搭配而轻松地调剂:增添小道的数量直到收益开始下降,并让通道的数量匹配所测得的吞吐量/xRTF。

您可能还会对下面的文章感兴趣: