填补AI能耗黑洞，我们用尽浑身解数

\|新一代信息技术	信息基础设施建设	互联网+	大数据	人工智能	高端信息技术核心产业

\|高端制造	机器人	智能制造	新材料

\|生物产业	生物医药	生物农业	生物技术

\|绿色低碳	清洁能源汽车	环保产业	高效节能产业	生态修复	资源循环利用

\|数字创意	数创装备	内容创新	设计创新

您的位置：首页 > 其它 > 独家内容

填补AI能耗黑洞，我们用尽浑身解数

2024-06-17 18:06

中国战略新兴产业融媒体记者李子吉

AI的尽头是电力

“下一个短缺的将是电力。”

围绕人工智能（AI）发展，特斯拉首席执行官马斯克发出这样的预警。

OpenAI首席执行官山姆·奥特曼也在访谈中说道：在人工智能时代，世界未来将有两种重要“货币”，算力和能源。AI技术的发展将取决于能源突破。

在人工智能飞速发展的背后，能耗问题也日益凸显，成为业内关注的焦点。甚至有人提出，“AI的尽头是算力，而算力的尽头是电力”。那么，人工智能到底有多耗电？能耗问题究竟有没有那么严重？人工智能发展对电力系统的影响如何？面对能耗问题，又该怎么应对？

AI究竟有多费电？

在大模型的训练中，语料信息的规模是很重要的。一般来说，语料规模越大，其蕴含的信息就越丰富，模型所形成的参数越大，具有更好的泛化能力。为了获得智能水平更高的大模型，AI模型的语料规模和参数规模越来越大。

从参数规模上看，大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段，参数量实现了从亿级到百万亿级的突破。2017年，谷歌首次提出6500万参数的Transformer模型，自此大模型就开始走上了一条快速发展之路。

2018年，谷歌发布基于Transformer的BERT，BERT学习了16GB的语料，形成3.4亿个参数；2019年，OpenAI推出了15亿参数的GPT-2，同年，谷歌推出T5模型，参数达到110亿。从十亿级到百亿级，大模型在一年内实现跃升。2020年，OpenAI推出了1750亿参数的GPT-3；2021年，谷歌推出Switch Transformer架构，其参数量扩展到了1.6万亿；同年，北京智源人工智能研究院也推出参数量在万亿级别的模型“悟道”。2022年，清华大学、阿里达摩院等机构的研究人员提出的“八卦炉”模型，其具有174万亿个参数，可与人脑中的突触数量相媲美。

据了解，AI服务器和芯片是产生能耗最主要的地方。通用型服务器只需要2颗800W服务器电源，而AI服务器则需要4颗1800W高功率电源，AI服务器对于电源的需求大大提升。荷兰一位学者表示，到2027年，新制造的人工智能设备的用电量将与荷兰、瑞典、阿根廷等国的用电量一样。

大模型参数量和数据量越大，训练耗费的电量也越大。根据斯坦福人工智能研究所（HAI）发布的《2023年人工智能指数报告》：1750亿参数的OpenAI的GPT-3单次训练耗电量高达1287兆瓦时，知名计算机专家吴军的形容则更加形象：OpenAI每训练一次，就相当于3000辆特斯拉同时跑30多公里。

人工智能大模型GPT-4的主要参数是GPT-3的20倍，计算量是GPT-3的10倍，能耗也随之大幅增加。

OpenAI曾发布报告指出，自2012年以来，AI训练应用的电力需求每3-4个月就会翻一倍。华为AI首席科学家田奇也曾给出数据，AI算力在过去10年至少增长了40万倍。

牛津大学教授沃切特发现，每训练一次ChatGPT，相当于约126个丹麦家庭1年的用电量。这仅仅是训练AI大模型的前期电力，未包含模型实际使用推理时所消耗的电力。

大模型的训练阶段耗电量已不再是主要来源。谷歌数据也显示，近年AI相关能源消耗中60%来自推理部分。GPT-3整个训练阶段的耗电量仅相当于ChatGPT现在4天的消耗量。

据《纽约客》杂志援引国外研究机构报告，ChatGPT每天要响应大约2亿个请求，在此过程中消耗超过50万千瓦时电力，相当于1.7万个美国家庭的用电量。也就是说，ChatGPT一年光是电费，就要花2亿元。这个电量相当于肯尼亚、危地马拉和克罗地亚三国的年总发电量。

而在多模态大模型发展成为主流的情况下，在AI响应需求的推理过程中，耗电量还将进一步提升。预计到2027年，整个人工智能行业每年将消耗85-134太瓦时（1太瓦时=10亿千瓦时）的电力。

国际能源署（IEA）2024年的一份报告预测，由于人工智能和加密货币的发展，全球数据中心的用电量不久后将大幅增加两倍。该机构表示，2022年，全球数据中心的用电量约为460太瓦时，到2026年可能增至620-1050太瓦时，分别相当于瑞典、德国的年用电量。

据人工智能公司Hugging Face的研究，不仅多模态大模型耗电量远超过一般模型，涉及图像处理的模型也比纯文本处理更耗电。具体到不同任务，文本分类、标记和问答等简单任务相对低耗，千次推理仅需0.002-0.007千瓦时。而在响应多模态任务时，一次文本到图像生成耗能最高需要用到2.9千瓦时，相当于ChatGPT响应100次的耗电量。

AI飞速发展的B面

各种数据似乎都在说明，AI的耗电像一个“无底洞”，那么下一个问题就是，目前AI的发展有被能耗困住吗？AI的耗电问题真的有那么迫在眉睫吗？关于这个问题，业内看法也并不一致。

马斯克表示，人工智能计算的约束条件是可预测的，“我在一年多前就预测过芯片短缺，下一个短缺的将是电力。我认为明年将没有足够的电力来运行所有的芯片。”

工信部信息通信经济专家委员会委员刘兴亮则表示，科技大佬预言AI“缺电”，可能是想让大家重视起这个问题，这只说明，AI确实耗电，电力成本也确实很高，但是目前能源问题还没有到影响AI发展的程度。

同样可以看一组数据。

根据公开资料，2023年，美国全口径净发电量为41781.71亿千瓦时（1千瓦时=1度），以ChatGPT每天耗电50万千瓦时计算，年耗电量约为18250万千瓦时，这也只占全美发电量的约0.0044%。

AI当然不只ChatGPT，但它的耗能数据可以作为一个切口。可以看出，尽管随着AI算力的迅猛增长，电力需求也持续增长，但目前其在整体电力消耗中所占比例较小。

不过尽管如此，关注AI能耗问题也并不是“杞人忧天”。

波士顿咨询集团曾发布报告称，到2030年底，仅美国数据中心的用电量预计就将是2022年的3倍，而这一增幅主要来自AI模型训练和更高频的AI查询。

据新华社2023年报道，我国数据中心2020年用电量超过2000亿千瓦时，占全社会用电量的2.7%。预计到2025年，中国数据中心用电量将突破4000亿千瓦时，占全社会用电量4.1%。

AI发展“缺电”并不是现在已经出现的问题，而是未来可能面临的问题。

人工智能飞速发展的B面，是环境将要承载的巨大压力。

2021年，美国马萨诸塞大学研究员以当时几种大型AI大模型的训练周期为例，发现该过程排放超过 62.6万磅二氧化碳，几乎是普通汽车寿命周期排放量的5倍（包括汽车的制造过程）。

美国科罗拉多大学和德克萨斯大学的研究结果表示，微软仅在训练GPT-3时，就消耗了70万升多的水。这足以生产370辆宝马汽车，或者320辆特斯拉电动汽车。

用于训练和支撑AI运行的数据中心，实际上是堆满一个个服务器的机房。服务器长时间运作，无法中断，经常可能过热。然而这些数据中心的运行尤其需要一个凉爽的环境。为此，各数据中心需要大量的水进行降温，而且必须用干净的淡水资源，以避免设备腐蚀或者导致细菌滋生。

中国数据中心节能委员会数据显示，在数据中心，IT设备能耗占比最大，为45%。其次是空调系统，占比40%。以ChatGPT为例，加州大学研究发现，每回答用户20个问题，ChatGPT就需要消耗超过500毫升水，用于冷却硬件。

可以预见的是，随着AI大模型的能耗问题不断发展，会对电力系统产生重大影响。

一方面，电力需求急剧增加。高电力需求一旦超出现有电力基础设施的设计容量，就需要对电网进行升级或扩建以满足需求。在用电高峰时段，AI训练中心的电力消耗可能会影响电网的稳定性，导致供电波动甚至停电。AI训练中心的电力需求可能会与居民和工业用电发生冲突，特别是在电力供应不足时，需要权衡能源如何分配的问题。电力供应紧张的压力会导致电力成本上升，增加AI训练的经济负担，影响相关企业和研究机构的运营。

另一方面，电力行业被倒逼转型，能源结构随之改变，为可再生能源带来机遇。AI训练的高能耗问题也为可再生能源的利用提供了机遇，鼓励数据中心采用太阳能、风能等清洁能源，促使电力行业向更环保的能源结构转型。为了更有效地管理和分配电力，电力行业正在发展智能电网技术，提高电网的灵活性和可靠性。随着AI训练对电力稳定性的需求，电力行业正在探索和应用各种储能技术，如电池储能系统，以平衡供需。同时，电力行业正通过需求侧管理来应对AI训练带来的电力需求波动，例如通过动态定价机制来平衡负载。

如何解决AI能耗之困?

在技术上创新，“源头”上进行节流，是当下技术加速主义者拥抱的方向。对技术保持乐观的人们认为，随着技术的加速发展，许多事情在迭代中自然会找到答案。

为了节约能源，AI业界正在进行架构的创新。许多公司开始追求用更少的训练步骤，训练一个更大的模型。一个比较热门的方向是名叫MoE（Mixed Expert Model）的大模型。研究者发现，这个基于Transformer改进过的大模型在同等算力下训练速度更快，而且扩展度高，允许模型在保持计算成本不变的情况下增加参数，使其扩展到非常大的模型参数。

另外，为降低电力和水资源消耗，很多企业在尝试采用各种方法为数据中心散热。比如，将数据中心选址尽量靠近电力中心，如水力资源丰富的地区，最主要的考虑就是输送中的能耗。微软曾尝试部署海下数据中心，Facebook数据中心选址北极圈附近，阿里云千岛湖数据中心使用深层湖水制冷等。

在今年的达沃斯世界经济论坛上，山姆·奥特曼提到，核聚变可能是能源的发展方向。他投资的两家能源公司Helion和Oklo，正是在做核聚变的相关研究。

可控核聚变俗称“人造太阳”，也就是在地球模拟太阳上亿摄氏度的环境，实现发电，也被称为人类的“终极能源”，其有着原料资源丰富、释放能量大、安全清洁、环保等优势，基本满足了人类对于未来理想终极能源的各种要求。

山姆·奥特曼表示，“如果我们能够真正实现丰富、廉价、安全、清洁能源的梦想，那么所有人的生活质量将会难以置信地提高。这就是为什么我这么长时间以来都对这两个项目充满热情。”

据统计，当前世界共有50多个国家正在进行核聚变装置的研发和建设，最快预计2050年世界第一座核聚变发电厂有望建成并投入运行。

值得一提的是，除了提升具体的AI和能源相关技术外，我国在宏观层面的一个“解题思路”，也值得关注。

目前，我国算力总规模已经位居全球第二，同时我国在电力方面具有优势，已建成全球规模最大的电力供应系统和清洁发电体系，其中，水电、风电、光伏、生物质发电和在建核电规模多年位居世界第一。

2022年2月，国家发展改革委等部门联合印发通知，同意在内蒙古、贵州、甘肃、宁夏等8地启动建设国家算力枢纽节点，并规划了10个国家数据中心集群。“东数西算”工程正式全面启动。

2023年12月，《深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》发布，首次提出“算力电力协同”。

什么是“算力电力协同”？一方面，数据中心的高效运转离不开大量电力支撑；另一方面，电力系统的平稳高效运行也离不开算力支撑。统筹算力电力协同布局，有助于促进风光绿电消纳和数据中心零碳发展。

当然，客观上看，由于网络时延等限制存在，并非所有算力服务场景都适用“东数西算”。但是人工智能模型训练推理这样的高时延业务场景，正是“东数西算”的“舒适区”。

眼下，各地人工智能方面的“东数西算”项目都在提速中。北京首都在线与甘肃省庆阳市签订人工智能产业合作框架协议；百度智能云与成都高新区签订战略合作签约仪式，打造大模型产业；在中国电信（国家）数字青海绿色大数据中心，通过风光水等清洁能源的互补，已经实现了数据中心的100%清洁能源供应；贵州省与深圳市签订算力协同发展战略合作协议；华为云计算与贵安新区合作打造全球领先的智算中心。

目前，我国每年浪费掉的电力以及没有产生社会价值的用电量非常多。和数据中心看似恐怖的用电量相比，更值得在意的是如何提升AI的能效。短期来看，人类社会仍需要AI的发展，来为高质量的经济发展和能源转型铺路。我们要做的既不是抑制AI大模型的规模，也不是要减少数据中心的能源消耗，而是要提升能源消费的质量。

AI产业的发展速度之快，在人类历史上没有任何产业能与之相比。随着科技日新月异，未来AI大模型会层出不穷。不可否认的是，生成式AI的出现给社会生活带来了巨大的助力，但AI给人类带来效率提升的同时也可能引发能源危机。平衡AI技术的发展与环境的可持续性，把握好技术进步和能源消耗之间的复杂关系，会是未来几年的重要议题之一。

关注微信公众号：

动态新闻声音 CSEI联盟联系我们

热点新闻

热点推荐