中国战略新兴产业融媒体记者 李子吉
“下一个短缺的将是电力。”
围绕人工智能(AI)发展,特斯拉首席执行官马斯克发出这样的预警。
OpenAI首席执行官山姆·奥特曼也在访谈中说道:在人工智能时代,世界未来将有两种重要“货币”,算力和能源。AI技术的发展将取决于能源突破。
在人工智能飞速发展的背后,能耗问题也日益凸显,成为业内关注的焦点。甚至有人提出,“AI的尽头是算力,而算力的尽头是电力”。那么,人工智能到底有多耗电?能耗问题究竟有没有那么严重?人工智能发展对电力系统的影响如何?面对能耗问题,又该怎么应对?
在大模型的训练中,语料信息的规模是很重要的。一般来说,语料规模越大,其蕴含的信息就越丰富,模型所形成的参数越大,具有更好的泛化能力。为了获得智能水平更高的大模型,AI模型的语料规模和参数规模越来越大。
从参数规模上看,大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段,参数量实现了从亿级到百万亿级的突破。2017年,谷歌首次提出6500万参数的Transformer模型,自此大模型就开始走上了一条快速发展之路。
2018年,谷歌发布基于Transformer的BERT,BERT学习了16GB的语料,形成3.4亿个参数;2019年,OpenAI推出了15亿参数的GPT-2,同年,谷歌推出T5模型,参数达到110亿。从十亿级到百亿级,大模型在一年内实现跃升。2020年,OpenAI推出了1750亿参数的GPT-3;2021年,谷歌推出Switch Transformer架构,其参数量扩展到了1.6万亿;同年,北京智源人工智能研究院也推出参数量在万亿级别的模型“悟道”。2022年,清华大学、阿里达摩院等机构的研究人员提出的“八卦炉”模型,其具有174万亿个参数,可与人脑中的突触数量相媲美。
据了解,AI服务器和芯片是产生能耗最主要的地方。通用型服务器只需要2颗800W服务器电源,而AI服务器则需要4颗1800W高功率电源,AI服务器对于电源的需求大大提升。荷兰一位学者表示,到2027年,新制造的人工智能设备的用电量将与荷兰、瑞典、阿根廷等国的用电量一样。
大模型参数量和数据量越大,训练耗费的电量也越大。根据斯坦福人工智能研究所(HAI)发布的《2023年人工智能指数报告》:1750亿参数的OpenAI的GPT-3单次训练耗电量高达1287兆瓦时,知名计算机专家吴军的形容则更加形象:OpenAI每训练一次,就相当于3000辆特斯拉同时跑30多公里。
人工智能大模型GPT-4的主要参数是GPT-3的20倍,计算量是GPT-3的10倍,能耗也随之大幅增加。
OpenAI曾发布报告指出,自2012年以来,AI训练应用的电力需求每3-4个月就会翻一倍。华为AI首席科学家田奇也曾给出数据,AI算力在过去10年至少增长了40万倍。
牛津大学教授沃切特发现,每训练一次ChatGPT,相当于约126个丹麦家庭1年的用电量。这仅仅是训练AI大模型的前期电力,未包含模型实际使用推理时所消耗的电力。
大模型的训练阶段耗电量已不再是主要来源。谷歌数据也显示,近年AI相关能源消耗中60%来自推理部分。GPT-3整个训练阶段的耗电量仅相当于ChatGPT现在4天的消耗量。
据《纽约客》杂志援引国外研究机构报告,ChatGPT每天要响应大约2亿个请求,在此过程中消耗超过50万千瓦时电力,相当于1.7万个美国家庭的用电量。也就是说,ChatGPT一年光是电费,就要花2亿元。这个电量相当于肯尼亚、危地马拉和克罗地亚三国的年总发电量。
而在多模态大模型发展成为主流的情况下,在AI响应需求的推理过程中,耗电量还将进一步提升。预计到2027年,整个人工智能行业每年将消耗85-134太瓦时(1太瓦时=10亿千瓦时)的电力。
国际能源署(IEA)2024年的一份报告预测,由于人工智能和加密货币的发展,全球数据中心的用电量不久后将大幅增加两倍。该机构表示,2022年,全球数据中心的用电量约为460太瓦时,到2026年可能增至620-1050太瓦时,分别相当于瑞典、德国的年用电量。
据人工智能公司Hugging Face的研究,不仅多模态大模型耗电量远超过一般模型,涉及图像处理的模型也比纯文本处理更耗电。具体到不同任务,文本分类、标记和问答等简单任务相对低耗,千次推理仅需0.002-0.007千瓦时。而在响应多模态任务时,一次文本到图像生成耗能最高需要用到2.9千瓦时,相当于ChatGPT响应100次的耗电量。
各种数据似乎都在说明,AI的耗电像一个“无底洞”,那么下一个问题就是,目前AI的发展有被能耗困住吗?AI的耗电问题真的有那么迫在眉睫吗?关于这个问题,业内看法也并不一致。
马斯克表示,人工智能计算的约束条件是可预测的,“我在一年多前就预测过芯片短缺,下一个短缺的将是电力。我认为明年将没有足够的电力来运行所有的芯片。”
工信部信息通信经济专家委员会委员刘兴亮则表示,科技大佬预言AI“缺电”,可能是想让大家重视起这个问题,这只说明,AI确实耗电,电力成本也确实很高,但是目前能源问题还没有到影响AI发展的程度。
同样可以看一组数据。
根据公开资料,2023年,美国全口径净发电量为41781.71亿千瓦时(1千瓦时=1度),以ChatGPT每天耗电50万千瓦时计算,年耗电量约为18250万千瓦时,这也只占全美发电量的约0.0044%。
AI当然不只ChatGPT,但它的耗能数据可以作为一个切口。可以看出,尽管随着AI算力的迅猛增长,电力需求也持续增长,但目前其在整体电力消耗中所占比例较小。
不过尽管如此,关注AI能耗问题也并不是“杞人忧天”。
波士顿咨询集团曾发布报告称,到2030年底,仅美国数据中心的用电量预计就将是2022年的3倍,而这一增幅主要来自AI模型训练和更高频的AI查询。
据新华社2023年报道,我国数据中心2020年用电量超过2000亿千瓦时,占全社会用电量的2.7%。预计到2025年,中国数据中心用电量将突破4000亿千瓦时,占全社会用电量4.1%。
AI发展“缺电”并不是现在已经出现的问题,而是未来可能面临的问题。
人工智能飞速发展的B面,是环境将要承载的巨大压力。
2021年,美国马萨诸塞大学研究员以当时几种大型AI大模型的训练周期为例,发现该过程排放超过 62.6万磅二氧化碳,几乎是普通汽车寿命周期排放量的5倍(包括汽车的制造过程)。
美国科罗拉多大学和德克萨斯大学的研究结果表示,微软仅在训练GPT-3时,就消耗了70万升多的水。这足以生产370辆宝马汽车,或者320辆特斯拉电动汽车。
用于训练和支撑AI运行的数据中心,实际上是堆满一个个服务器的机房。服务器长时间运作,无法中断,经常可能过热。然而这些数据中心的运行尤其需要一个凉爽的环境。为此,各数据中心需要大量的水进行降温,而且必须用干净的淡水资源,以避免设备腐蚀或者导致细菌滋生。
中国数据中心节能委员会数据显示,在数据中心,IT设备能耗占比最大,为45%。其次是空调系统,占比40%。以ChatGPT为例,加州大学研究发现,每回答用户20个问题,ChatGPT就需要消耗超过500毫升水,用于冷却硬件。
可以预见的是,随着AI大模型的能耗问题不断发展,会对电力系统产生重大影响。
一方面,电力需求急剧增加。高电力需求一旦超出现有电力基础设施的设计容量,就需要对电网进行升级或扩建以满足需求。在用电高峰时段,AI训练中心的电力消耗可能会影响电网的稳定性,导致供电波动甚至停电。AI训练中心的电力需求可能会与居民和工业用电发生冲突,特别是在电力供应不足时,需要权衡能源如何分配的问题。电力供应紧张的压力会导致电力成本上升,增加AI训练的经济负担,影响相关企业和研究机构的运营。
另一方面,电力行业被倒逼转型,能源结构随之改变,为可再生能源带来机遇。AI训练的高能耗问题也为可再生能源的利用提供了机遇,鼓励数据中心采用太阳能、风能等清洁能源,促使电力行业向更环保的能源结构转型。为了更有效地管理和分配电力,电力行业正在发展智能电网技术,提高电网的灵活性和可靠性。随着AI训练对电力稳定性的需求,电力行业正在探索和应用各种储能技术,如电池储能系统,以平衡供需。同时,电力行业正通过需求侧管理来应对AI训练带来的电力需求波动,例如通过动态定价机制来平衡负载。
在技术上创新,“源头”上进行节流,是当下技术加速主义者拥抱的方向。对技术保持乐观的人们认为,随着技术的加速发展,许多事情在迭代中自然会找到答案。
为了节约能源,AI业界正在进行架构的创新。许多公司开始追求用更少的训练步骤,训练一个更大的模型。一个比较热门的方向是名叫MoE(Mixed Expert Model)的大模型。研究者发现,这个基于Transformer改进过的大模型在同等算力下训练速度更快,而且扩展度高,允许模型在保持计算成本不变的情况下增加参数,使其扩展到非常大的模型参数。
另外,为降低电力和水资源消耗,很多企业在尝试采用各种方法为数据中心散热。比如,将数据中心选址尽量靠近电力中心,如水力资源丰富的地区,最主要的考虑就是输送中的能耗。微软曾尝试部署海下数据中心,Facebook数据中心选址北极圈附近,阿里云千岛湖数据中心使用深层湖水制冷等。
在今年的达沃斯世界经济论坛上,山姆·奥特曼提到,核聚变可能是能源的发展方向。他投资的两家能源公司Helion和Oklo,正是在做核聚变的相关研究。
可控核聚变俗称“人造太阳”,也就是在地球模拟太阳上亿摄氏度的环境,实现发电,也被称为人类的“终极能源”,其有着原料资源丰富、释放能量大、安全清洁、环保等优势,基本满足了人类对于未来理想终极能源的各种要求。
山姆·奥特曼表示,“如果我们能够真正实现丰富、廉价、安全、清洁能源的梦想,那么所有人的生活质量将会难以置信地提高。这就是为什么我这么长时间以来都对这两个项目充满热情。”
据统计,当前世界共有50多个国家正在进行核聚变装置的研发和建设,最快预计2050年世界第一座核聚变发电厂有望建成并投入运行。
值得一提的是,除了提升具体的AI和能源相关技术外,我国在宏观层面的一个“解题思路”,也值得关注。
目前,我国算力总规模已经位居全球第二,同时我国在电力方面具有优势,已建成全球规模最大的电力供应系统和清洁发电体系,其中,水电、风电、光伏、生物质发电和在建核电规模多年位居世界第一。
2022年2月,国家发展改革委等部门联合印发通知,同意在内蒙古、贵州、甘肃、宁夏等8地启动建设国家算力枢纽节点,并规划了10个国家数据中心集群。“东数西算”工程正式全面启动。
2023年12月,《深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见》发布,首次提出“算力电力协同”。
什么是“算力电力协同”?一方面,数据中心的高效运转离不开大量电力支撑;另一方面,电力系统的平稳高效运行也离不开算力支撑。统筹算力电力协同布局,有助于促进风光绿电消纳和数据中心零碳发展。
当然,客观上看,由于网络时延等限制存在,并非所有算力服务场景都适用“东数西算”。但是人工智能模型训练推理这样的高时延业务场景,正是“东数西算”的“舒适区”。
眼下,各地人工智能方面的“东数西算”项目都在提速中。北京首都在线与甘肃省庆阳市签订人工智能产业合作框架协议;百度智能云与成都高新区签订战略合作签约仪式,打造大模型产业;在中国电信(国家)数字青海绿色大数据中心,通过风光水等清洁能源的互补,已经实现了数据中心的100%清洁能源供应;贵州省与深圳市签订算力协同发展战略合作协议;华为云计算与贵安新区合作打造全球领先的智算中心。
目前,我国每年浪费掉的电力以及没有产生社会价值的用电量非常多。和数据中心看似恐怖的用电量相比,更值得在意的是如何提升AI的能效。短期来看,人类社会仍需要AI的发展,来为高质量的经济发展和能源转型铺路。我们要做的既不是抑制AI大模型的规模,也不是要减少数据中心的能源消耗,而是要提升能源消费的质量。
AI产业的发展速度之快,在人类历史上没有任何产业能与之相比。随着科技日新月异,未来AI大模型会层出不穷。不可否认的是,生成式AI的出现给社会生活带来了巨大的助力,但AI给人类带来效率提升的同时也可能引发能源危机。平衡AI技术的发展与环境的可持续性,把握好技术进步和能源消耗之间的复杂关系,会是未来几年的重要议题之一。