LLM in a flash：利用有限内存实现高效大语言模型推理

在一篇题为《瞬间法学硕士：有限内存下的高效大型语言模型推理》的论文中，研究人员设计了一种系统，可以将模型数据（通常存储在设备 RAM 中）存储在固态驱动器 (SSD) 上。

论文地址：

具体来说，研究证明，在 SSD 上运行的 LLM 的大小最多可达可用 DRAM 大小的 2 倍。

与传统CPU加载方式相比，推理速度提升4-5倍，GPU提升20-25倍。

他们发现，通过利用设备上最便宜的存储空间，模型可以运行得更快、更高效。

此外，苹果研究人员还创建了一个名为 EELBERT 的系统，可以将大型模型压缩为较小的尺寸，而不影响其性能。

压缩Google Bert模型后，大小减少了15倍，仅为1.2兆字节，质量仅降低了4%。

然而，这也带来了一些延迟问题。

论文地址：

总而言之，苹果正在试图解决机型领域的一个核心矛盾：机型越大越好用，但耗电量更大，在终端上运行速度也更慢。

与其他科技公司一样，苹果也在这方面寻求平衡。

Siri完成超级进化！

苹果对人工智能的研究最终解决了一个关键问题，即如何让 Siri 变得更好。

在内部，苹果团队设想开发一种使用人工智能助手的方法，而不需要唤醒词“Hey Siri”或“Siri”。

没有声音提示苹果有哪些产品，那么设备如何通过“直觉”判断是一个人在说话呢？

这个问题比语音触发检测更具挑战性。

苹果研究团队不得不承认，这是因为可能没有一个主要触发器来标记语音命令的开始。

论文地址：

这可能就是为什么另一组研究人员开发了一种可以更准确地检测唤醒词的系统的原因。

论文地址：

具体来说，作者提出了一种语音触发（VT）多通道声学模型，其中前端多通道输出直接输入到VT模型中。

他们采用了TAC（Transform-Average-Conatenate）模块，并通过合并传统通道选择中的通道进行修改，使得模型在存在多个说话人的情况下能够聚焦于目标说话人。

与基线信道选择方法相比，该方法的误拒绝率降低了30%。

在另一篇论文中，研究人员训练了一个模型，以更好地理解人工智能助手不太容易理解的罕见单词。

论文地址：

在这两种情况下，LLM 的优点在于理论上它可以更快地处理更多信息。

例如，在一项关于唤醒词的研究中，研究人员发现，如果他们不是试图扔掉所有不必要的声音，而是将所有声音输入模型并让它处理哪些声音重要，哪些声音不重要，那么唤醒词这样的话效果就会可靠很多。

一旦 Siri 听到你的声音苹果有哪些产品，Apple 就会做大量工作来确保它能够更好地理解和沟通。

在另一篇论文中，苹果还开发了一个名为 STEER 的系统，旨在改善用户和助手之间的沟通。

论文地址：

在另一个例子中，它使用LLM来更好地理解“模棱两可的问题”，无论你说什么，它都能弄清楚你的意思。

在不确定的情况下，智能会话代理可能需要主动提出好问题，以更有效地解决问题，从而减少不确定性。

在另一篇也旨在帮助解决这个问题的论文中，研究人员利用大型模型使助手在生成答案时更加简洁、更容易理解。

每一款苹果应用都将被AI重构

除了注重原创技术开发外，苹果还非常注重人工智能的日常应用。

对于苹果来说，重点关注的领域之一是健康：

LLM可以帮助分析和处理各种设备收集的大量生物识别数据，并帮助理解这些数据。

Apple 可以通过研究收集和整理你的所有运动数据，使用步态识别和耳机来识别你的身份，并跟踪和了解你的心率数据，以监测你的身体状况并为你提供适当的安全建议。

苹果还将人工智能视为一种创造性工具。

在 2 月份发表的一篇论文中，苹果团队采访了一组动画师、设计师和工程师，并构建了一个 KeyFramer 系统。

该系统允许用户迭代地构建和改进生成的设计。

用户只需先输入提示，然后获取工具包即可根据自己的喜好调整和完善图像的某些部分。

论文地址：

此外，苹果还开发了一款名为 MGIE 的工具，可以让你通过描述内容来编辑图片（例如“让天空更蓝”、“让我的脸不那么怪异”、“添加一些岩石”等）。

论文地址：

研究人员在论文中表示，MGIE 可以清晰地推断出视觉感知的意图，而不需要简短但模糊的提示，从而实现合理的图像编辑。

“最初的实验并不完美，但令人印象深刻。”

未来，苹果也可能将AI运用到音乐中。

在一篇名为“资源受限的立体声歌唱声音消除”的论文中，研究人员探索了将歌曲中的声音与乐器分开的方法。

论文地址：

例如，这种人工智能可能会在混音 TikTok 或 Instagram 上的歌曲时派上用场。

随着时间的推移，苹果会将一些功能构建到自己的iOS生态系统中，并以API的形式提供给第三方开发者。

苹果之前一直在大肆宣传其硬件功能，尤其是与普通的 Android 设备相比。

将所有这些功能与设备上注重隐私的人工智能相结合可能会成为苹果的一大差异化因素。

这次iOS 18来了，网友们对苹果一如既往地充满期待。

值得一提的是，苹果对多模态大模型的研究也引起了不少关注。

Ferret 是苹果最大、最雄心勃勃的人工智能项目。输入提示后，它可以专注于您选择的特定事物并理解周围的世界。

论文地址：

Ferret 甚至可以帮助您浏览应用程序、回答有关 App Store 评级的问题、描述您正在观看的内容等等。

这项技术一旦应用，可能会彻底改变大家使用手机的方式，以及Vision Pro和智能眼镜的使用方式。

虽然目前还只是研究成果，但如果能在今年春天顺利运行，那将是一个闻所未闻的技术成就。

WWDC大会上即将发布的大规模人工智能模型，势必将科技狂欢推向新的高潮。

苹果可能会彻底改造其 iPhone 产品，这意味着你的下一部 iPhone 不一定是 iPhone。

这一切都在库克的预料之内，让我们拭目以待。

本文来自微信公众号“新智元”（ID：AI_era），作者：桃子亨利‍‍，36氪经授权发布。

显示全文

全部频道

LLM in a flash：利用有限内存实现高效大语言模型推理