苹果和英伟达合作,提升AI 大语言模型(LLM)的推理速度

苹果在 AI 范畴也在不断尽力,期望做的更好。苹果和英伟达协作,宣告经过开源 Recurrent Drafter(ReDrafter)技能,这是一种估测解码办法,可以明显进步 AI 大言语模型(LLM)的推理速度。苹果公司表明 ReDrafter 已集成到 NVIDIA TensorRT-LLM 推理加快结构中,在 NVIDIA GPU 上,每秒生成 Tokens 速度最高进步 2.7 倍,有用下降了用户推迟和计算本钱。在曩昔,创立大型言语模型的进程一般十分耗时和耗资源,企业常常需求购买很多的硬件设备,从而增加了运营本钱。
苹果的机器学习研究人员指出,LLM 越来越多地用于驱动出产应用程序,进步推理功率对下降计算本钱和用户推迟至关重要。此次协作可以在下降推迟的一起削减所需硬件数量,带来更为经济的解决方案。苹果也表明他们正在考虑运用亚马逊的 Trainium2芯片来进步模型练习功率,估计运用 Trainium2进行预练习的功率将比现有的硬件进步50%。