您的位置:首页 > IT > 正文

观速讯丨微软开源 JARVIS(贾维斯):用 ChatGPT 控制 AI 模型

来源:OSCHINA     时间:2023-04-05 09:36:23

微软亚洲研究院和浙江大学的研究团队近日发布的一篇论文——《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace》介绍了一个大模型协作系统。

论文地址:https://arxiv.org/abs/2303.17580


【资料图】

该系统提出了一种让 LLM 充当控制器的新方法,让 LLM 来管理现有的 AI 模型,来完成多模态的复杂 AI 任务,并且使用语言作为通用接口。该研究提出的 HuggingGPT 是一个利用 LLM 连接机器学习社区(例如 HuggingFace)中各种 AI 模型以解决复杂 AI 任务的系统。

研究者指出解决大型语言模型 (LLM) 当前的问题可能是迈向 AGI(通用人工智能)的第一步,也是关键的一步。

因为当前大型语言模型的技术仍然存在着一些缺陷,因此在构建 AGI 系统的道路上面临着一些紧迫的挑战。

受限于文本生成的输入和输出形式,当前 LLM 缺乏处理复杂信息(如视觉和语音)的能力 在实际应用场景中,一些复杂任务通常由多个子任务组成,因此需要多个模型的调度和协作,这也超出了语言模型的能力范围 对于一些具有挑战性的任务,LLM 在零样本或少样本设置下表现出优异的结果,但它们仍然比一些专家弱(如微调模型)

为了处理复杂的人工智能任务,LLM 应该能够与外部模型协调,以利用它们的能力。因此,关键点在于如何选择合适的中间件来桥接 LLM 和 AI 模型。

研究者发现,每个 AI 模型都可以通过总结其模型功能表示为一种语言形式。由此便引入了一个概念:「语言是 LLM 连接 AI 模型的通用接口」。通过将 AI 模型描述纳入提示中,ChatGPT 可以被视为管理人工智能模型的大脑。因此,这一方法可以让 ChatGPT 能够调用外部模型,来解决实际任务。

于是 HuggingGPT 就诞生了,该系统的工作流程包括四个阶段:

任务规划:使用 ChatGPT 分析用户的请求,了解他们的意图,并将其拆解成可解决的任务。 模型选择:为了解决计划的任务,ChatGPT 根据描述选择托管在 Hugging Face 上的 AI 模型。 任务执行:调用并执行每个选定的模型,并将结果返回给 ChatGPT。 生成响应: 最后使用 ChatGPT 整合所有模型的预测,生成 Response。

论文发布后不久,微软就在 GitHub 开源了基于论文实现的项目——JARVIS,项目地址:https://github.com/microsoft/JARVIS。其自我描述是用于连接 LLM 和 AI 模型的协作系统。该系统由 LLM(大语言模型)作为控制器和许多 AI 模型作为协作执行者(来自 HuggingFace Hub)组成。

目前该项目正在建设中,微软表示很快就会准备好所有的代码。

运行 JARVIS 的系统要求:

Ubuntu 16.04 LTS NVIDIA GeForce RTX 3090 * 1 RAM > 12GB (minimal), 16GB (standard), 42GB (full)

相关文章