美国时间7月23日,Meta(前身为Facebook)震撼发布Llama 3.1大模型,以8B、70B与405B三种规模强势登陆AI领域,其上下文长度统一拓展至128K。尤其引人瞩目的是,405B版本在性能上与OpenAI的GPT-4及Anthropic的Claude 3并驾齐驱,标志着顶尖开源模型首次在性能上匹敌闭源巨头,有望为开闭源之争画上句号。Meta CEO扎克伯格发表《开源人工智能是前进之路》宣言,强调开源正迅速缩小与封闭模型的差距。Llama 3.1基于15万亿token训练而成,采用纯Transformer架构而非MoE,实现了多语言对话的卓越支持。这一成就不仅颠覆了百度李彦宏关于闭源模型更胜一筹的观点,也证明了开源模型在商业竞争中的强大潜力。
美国太平洋时间7月23日,Meta(原名Facebook)正式发布其Llama 3.1大模型,该模型共有8B、70B和 405B三个尺寸,上下文长度都提升到了128K。值得关注的是,根据Meta提供的基准测试数据,最受关注的405B(4050亿参数),从性能上已经可媲美OpenAI旗下GPT-4和人工智能初创企业Anthropic旗下Claude 3。这意味着,已有顶尖开源大模型性能正式赶上了顶尖闭源大模型,开闭源之争或能告一段落。
除了发布产品,扎克伯格还发布了一份名为《开源人工智能是前进之路》的“开源宣言”。扎克伯格在文中表示,“今天,有几家科技公司正在开发领先的封闭模型。但开源正在迅速缩小差距。”
开源Llama 3.1-405B性能赶上了闭源GPT-4
据官方资料,Llama 3.1在超过15万亿个token的数据上进行训练,用了16000块H100。使用的预训练数据,截至到2023年12月。为了保证训练稳定性,只用了Transformer模型架构进行调整,而不是现在流行的混合专家模型(MoE)架构。
目前,Llama 3.1已支持各国语言对话,此次共发布了8B、70B和 405B三个尺寸,上下文长度都提升到了128K。硅基智能创始人司马华鹏对此评价称,Llama 3.1信息处理能力大幅度提升,“打个比方,就像从只能记住4000个中文字提升到能记住64000个中文字”。
长久以来,业界对于开闭源的讨论层出不穷。就在本月的世界人工智能大会上,百度创始人、董事长兼首席执行官李彦宏还在现场再次表示“商业化的闭源模型是最能打的”。李彦宏称,开源模型在一些学术研究、教学领域有存在价值,可以用于研究大模型的工作机制,形成理论。但当处于激烈的商业环境中,想要让业务效率高于同行、成本低于同行,商业化的闭源模型是“最能打的”。
不过,根据Meta提供的基准测试数据,开源模型此番也很“能打”。其中Llama 3.1最受关注的405B(4050亿参数),从性能上已经可媲美GPT-4和Claude 3,这意味着已有顶尖开源大模型性已能赶上了旗舰闭源大模型。
值得关注的是,此次开源更为彻底。在今年4月推出产品Llama 3 8B和Llama 3 70B时,Meta仍禁止开发者使用该模型训练其他生成式模型。而此次发布在新的开源协议中,Meta已不再禁止用新模型来改进其他模型了。
就在Meta推出新模型的同时,英伟达也宣布推出全新NVIDIA AI Foundry服务和NVIDIA NIM™推理微服务,与同样刚推出的Llama 3.1系列开源模型一起,为全球企业的生成式AI提供强力支持。据悉,借助NVIDIA AI Foundry,企业和各国现在能够使用Llama 3.1以及NVIDIA软件、计算和专业知识,为其特定领域的行业用例创建自定义“超级模型”。
在发布产品的同时,扎克伯格还发布了一封名为《开源人工智能是前进之路》的公开信。扎克伯格以早期Linux(操作系统内核)的发展历程为例。他提出,在高性能计算的早期,当时各大科技公司都投入巨资开发自己的闭源版Unix,当时还很难想象还有任何其他方法可以开发出如此先进的软件。但最终开源Linux流行了起来——最初是因为它允许开发人员随意修改代码,而且价格更实惠,而随着时间的推移它变得更加先进、更加安全,并且拥有比任何闭源Unix都支持更多功能的更广泛的生态系统。如今,Linux是云计算和运行大多数移动设备的操作系统的行业标准基础。
扎克伯格表示,他相信人工智能也会以类似的方式发展。“今天,几家科技公司正在开发领先的闭源模型,但开源正在迅速缩小差距。去年,我们发布的Llama 2仅与落后的上一代模型相当。而到了今年,Llama 3已经能与最先进的模型相媲美,并在某些领域处于领先地位。从明年开始,我们预计未来的Llama模型将成为业内最先进的模型。”
正在进一步研发Llama 3的图像、视频和语音功能
谈及为什么开源对于开发人员更有利,扎克伯格列举了一些自己在调研过程中观察到的现象:对于世界各地的开发商、CEO和政府官员而言,他们既需要训练、微调和提炼自己的模型;也需要对模型有一定的掌控权,不希望被一家封闭供应商所束缚。同时也期待能保护自己的数据,不想通过把数据云API发送到闭源模型中;更期待能投资于将成为长期标准的生态系统,而不少人认为开源模型的发展速度比闭源模型发展更快。
扎克伯格还谈到,对于Meta来说,选择开源模式也更有利于Meta达到继续为用户打造最佳体验的愿景。而对于开源是否会使得Llama系列大模型失去技术优势的问题,扎克伯格则从生态系统的开放完整性、Meta在大模型上的商业化路径等方面给出了答复。
“首先,为了确保我们能够使用最好的技术、不会长期被困在封闭的生态系统中,Llama需要发展成为一个完整的生态系统,包括工具、效率改进、芯片优化和其他集成。如果我们是唯一使用 Llama的公司,那么这个生态系统就不会发展。其次,我预计人工智能开发将继续保持高度竞争,这意味着开源任何给定模型并不会失去当时相对于下一个最佳模型的巨大优势。Llama成为行业标准的道路是一代又一代地保持竞争力、高效和开放;第三,Meta 与闭源模型提供商之间的一个关键区别是,出售AI模型访问权限不是我们的商业模式。这意味着公开发布Llama不会像闭源提供商那样削弱我们的收入、可持续性或投资研究的能力,这也是一些封闭提供商不断游说政府反对开源的原因之一。”
Llama内部科学家@astonzhangAZ也在社交平台上透露,研究团队目前正在考虑将图像、视频和语音功能集成到Llama 3之中,使得模型能够识别图像和视频并支持通过语音进行交互。
采写:南都记者 林文琪