EN
/news/show.php/video/62545731.html

Llama 3.1使用1.6万英伟达H100 GPU,耗费...

2025-06-24 12:09:13 来源: 新华社
字号:默认 超大 | 打印 |

目录。

Llama 3.1发布简介。

Llama 3.1模型规模与训练。

大型企业发展面临的问题和困难。

计算能力和能耗计算能力。

数据和资金。

技术和人才。


Llama 3.1发布简介。

当地时间 2024年 7月 23号,Meta 公司发布了迄今为止最强大的开源 AI 模型 Llama 3.1。该模型不仅规模大󿀌性能也堪比最强大的闭源模型。这叫开源 AI 该领域的重要里程碑。

Llama 3.1 模型家族有三个版本,最大的旗舰版有 405B(4050 亿。)参数,是近年来最大的开源 AI 模型。其余两个较小版本的参数分别是 700 亿和 80 亿。

模型评估“”模型评估“模型评估” 和 “模型能力与应用” 具体介绍可参考官方文件。

总的来说,,Llama 3.1 405B 模型在推理、数学和其他任务中的表现 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 相当,在长文本、多语言等领域甚至更好。但在代码基准测试中,Llama 3.1 405B 模型性能不如 Claude 3.5 Sonnet。

来自Meta。

Llama 3.1。模型规模与训练。

Llama 3.1 405B 模型的训练规模令人惊叹。

Meta 使用了超过 1.6 万个英伟达 H100 GPU。,在超过 15 万亿个 tokens(数据集)训练󿼌相当于 7500 亿个单词。尽管 Meta 具体开发成本࿰没有披露c;但仅根据英伟达芯片的价格估算,成本已达数亿美元。

Meta 重大优化了整个训练堆栈,实现如此大规模的训练目标。

在模型架构上,他们只选择标准的解码器 transformer 模型,而不是混合专家模型,最大限度地提高训练稳定性。

训练数据󿀌Meta 通过改进处理和数据筛选过程,提高了训练数据的质量。

另外,他们还选择了迭代后训练程序,“每一轮都使用监督微调和直接偏好优化,不断提高模型性能,采用高质量的合成数据。

参考:从国内某个平台上看,一张H100 GPU显卡80G价格在25万元左右。

大型企业发展面临的问题和困难。

计算能力和能耗计算能力。

  • 大模型需要大量的计算资源c;导致全球计算能需求指数级增长�它给全社会信息基础设施以及许多企业和科研机构的大型研发带来了巨大的压力。

计算能力短缺:大型模型通常包含数十亿到数万亿的参数,训练时需要处理数万亿Token,这对计算能力提出了很高的要求。随着大模型的快速发展,计算能需求呈指数级增长󿀌它极大地促进了全球计算能力规模的扩大。大型预训练模型的训练和调优过程消耗了大量的计算能力资源。。例如,ChatGPT训练所需的计算能力相当于64英伟达A100 GPU持续训练一年。另外,大模型的日常操作和优化也需要大量的计算能力支持。预计到2030年,#xff00c;全球计算能力总规模将达到56ZFlops,智能计算能力成为主要驱动力。

  •  能耗方面,大模型对能源的巨大需求导致人工智能消耗约占全球能源消耗的3%,到2025年,全球将消耗15%的电能,挑战全球环境治理。我国大模型发展带来的高能耗可能会增加碳达峰、碳中和压力。

能耗大:大模型对计算能力的巨大需求导致了能源消耗的激增。。人工智能服务器的功率是普通服务器的6-8倍,大型训练模型的能耗是传统云计算工作的三倍。据估计,,目前,人工智能的能耗约占全球总能耗的3%,预计2025年󿀌这个比例将上升到15%。人工智能的快速发展将对能源消耗和环境产生深远的影响。

据估计,GPT-4次训练的耗电量相当于1200名中国人每年的耗电量,而且这只占模型实际使用时能耗的40%,在实际运行阶段,能耗更大。一些大型模型在运行过程中会产生大量的碳排放,给全球环境治理带来严峻挑战。我国大模型发展的高能耗可能会进一步加剧碳达峰和碳中和的压力。

数据和资金。

  • 大型模型面临的挑战包括数据访问的便利性、数据源的合法性、数据质量的可靠性、数据使用的安全性和资本投资。

提高数据规模和质量a;

  • 数据获取方面,专用大型模型需要专业数据,这些数据通常属于企业、研究机构和其他实体,训练难度增加。
  • 数据源的合法性c;个人信息保护意识的提高,使得数据的合法使用成为一个问题。
  • 数据质量可靠性,虽然开源数据集数量巨大,但是质量参差不齐󿀌提取符合预训练要求的高质量数据面临着巨大的挑战。
  • 数据使用安全性,如何确保使用的数据没有偏见,以及如何保证人工智能制造的数据本身的安全性,都是需要解决的问题。
  • 资本投资,高成本的大型模型#xff0c;包括模型开发成本、培训成本、计算成本、数据成本、运维成本等。c;对于普通企业和科研机构,资金成为不可逾越的“门槛”。

资金短缺:

  • 大模型的训练和开发成本极高,它主要由模型开发、训练、计算能力、数据和运维成本等组成。训练费用往往达到几百万美元。以Meta的LLaMA大语言模型为例,在1.4万亿的数据集上,使用2000多英伟达A100 GPU,21天的训练,花费高达1000万美元。根据华为发布的信息,人工智能大模型的开发和培训成本高达1200万美元。
  • 如此巨大的资本投资将排除许多小型研究机构和中小企业,使大型模型的研发集中在少数龙头企业和研究机构,行业不平等进一步加剧。

技术和人才。

  • 大模型技术,与世界上最先进的水平存在一定差距,主要体现在底层架构设计和硬件技术上。底层结构设计,国内没有类似的底层结构,只能进行大模型预训练。“在别人的基础上盖房子”。;在硬件技术方面,有“卡脖子”的风险。(不能具体展开󿀌否则不能通过审核...)

【我要纠错】责任编辑:新华社