一夜风来,千帆竞渡。肇始于今年初的AIGC风潮,按下了人工智能通用化进程的加速键,属于大模型的新时代由此拉开帷幕。
据不完全统计,国内迄今已有130多个AI大模型问世,涉及通用、垂直等不同类型,涵盖ToB和ToC各种场景。在大模型百舸争流的恢宏景象中,不乏莺歌燕舞、鼓乐齐鸣,但整个“河床”面临的巨大压力也不容忽视。
算力底座就是“河床”中最核心的组成部分,人工智能飞速发展对算力供求关系的改变让“河床”不堪重负。从需求端来看,过去十年AI算力需求翻了30万倍,而未来十年AI算力将再增长500倍;据《2022-2023中国人工智能计算力发展评估报告》预测,到2026年中国智能算力规模将达1271.4EFLOPS,未来五年的年复合增长率约52.3%。
与算力需求的高歌猛进相比,算力供给的扩张明显受制于诸多因素的困扰。以AI大模型的训练与推理为例:其高效运行需要大量算力的强劲支撑,而高端GPU芯片供应不足、部分云服务不可获取等状况使本就紧张的算力供给更是捉襟见肘,寻找破局之道迫在眉睫。
回溯算力供求关系的演进轨迹,会发现云计算的大行其道是弥合供需缺口、达成算力普惠的有效路径,AI大模型时代也不例外——云服务具有规模化、可扩展、弹性调度等先天优势,主流云厂商已能构建具备万卡级别计算能力和高效网络交互机制的大模型训练与推理平台,再叠加战略安全等方面的考虑,擅长自主创新的国内云厂商无疑将成为解决算力难题、重塑大模型生态的主导力量。
9月20-22日,以“加速行业智能化”为主题的华为全联接大会2023重回线下,各界精英齐聚一堂,共同探讨智能化技术的现实挑战和发展机遇。大模型时代的算力突围与生态重构即是其中的热门话题,支撑百模千态的华为云昇腾AI云服务有望扮演开路先锋的角色。
种种迹象表明,从百舸争流迈向“云”纳百川,是算力“河床”适应新时代要求的进化方向,也是AI大模型生态跃迁的必由之路。
作为算力基础设施的中流砥柱,数据中心在人工智能演进过程中发挥着举足轻重的作用。从这个意义上讲,大模型新生态的萌芽与数据中心的蜕变息息相关。
面对AI对算力与日俱增的需求,传统数据中心有些难以招架。一方面,AI服务器的功率密度远超通用服务器,单机柜的功耗是过去的6~8倍,且需要专用的液冷系统进行散热,降低PUE的难度陡增;另一方面,大模型训练动辄需要千卡乃至万卡,服务器之间的互联、时延、可靠性、运维等遭遇全方位的冲击,应对起来难免顾此失彼。
此时,具备规模化优势与弹性服务能力的云平台更有机会脱颖而出,支撑百模千态的持续进化,为千行百业的数智化转型提供普惠服务。华为云昇腾AI云服务即是典型代表,满足客户对澎湃算力的需求——企业只需要通过一根光纤,即可随取随用AI云服务,不用再费时费力自建或改造传统数据中心。
华为云全球生态部总裁康宁
有了适宜的土壤,生态的种子才能生根发芽。据华为云全球生态部总裁康宁透露,以华为云昇腾AI云服务为算力底座,目前华为云已原生孵化和适配业界主流大模型,为开发者提供了强大的工具和资源,支持开源大模型高效迁移,保障模型训练的极致性能和稳定可靠。
高效迁移是大模型生态成功构建的前提。华为云昇腾AI云服务支持华为自研的MindSpore以及社区流行的AI引擎,如PyTorch、TensorFlow主力版本,并且流行的AI框架算子适配率已超过90%,可无缝支撑业界主流大模型及典型SOTA模型的迁移;同时,还提供方便的工具且内置丰富的参考模板,帮助用户快速迁移模型。
澎湃算力是大模型生态持续成长的动力。在贵安、乌兰察布、芜湖打造的3大AI云算力中心,为企业提供澎湃昇腾AI算力,让企业再也不用高价抢购GPU,也不需要担心GPU未来潜在的供应连续性挑战。在模型训练中,昇腾AI云服务的超大规模集群及分布式并行训练能力,可以支持万亿级参数大模型。
稳定可靠是大模型生态健康发展的根基。华为云昇腾AI云服务通过构建故障模式库,支持订阅硬件故障并主动上报,故障感知时间小于1分钟;借助在线复位本地调度能力,训练任务恢复时间小于30分钟;集群稳定性提供了无感断点续训的能力,稳定训练的时间从2-3天提升至月级;此外,在模型推理阶段,华为云通过算子、框架、平台等全链路的垂直协同优化,让模型在昇腾云上的推理性能普遍提升2倍以上。
纵观云计算的发展历程,构建并不断完善生态始终是其攻城掠地的法宝。从整个生态体系的角度看,开发者和合作伙伴堪称云生态进阶的左膀右臂,也是大模型新生态完成跃迁的主要推手。
在国内云生态建设领域,华为云保持着领先地位。目前,华为云的全球开发者已超过500万,有逾4.2万家合作伙伴与华为云共建能力、共拓市场,华为云云商店应用高达1万多个。今年7月初盘古大模型3.0重磅发布后,华为云大模型生态更是迎来加速成长的窗口期。
据了解,华为云构建的大模型生态全面支持盘古大模型以及各类开源模型和三方商业模型,并以盘古大模型为联合创新基础,聚集各类伙伴和开发者。康宁表示:“华为云昇腾AI云服务上已经有多个基础大模型做了适配和优化,与行业头部客户联创20多个行业大模型,有超过2.1万个伙伴、客户和开发者积极申请盘古的测试。”
事实上,建设以开发者为核心、开放共赢的生态体系,是华为云矢志不渝的追求,围绕AI大模型生态打造专属的模型社区即是明证。华为云建设模型就是希望开发者、伙伴基于华为的根技术,利用云上的澎湃算力和盘古大模型的强大能力,与华为云共同构建起百模千态的繁荣生态。
尤值一提的是,模型社区基于华为云昇腾AI云服务全栈技术,将汇聚大模型高质量数据联盟各成员单位开放的各类数据,形成覆盖千行万业的高质量数据集;除开放盘古大模型能力外,社区还会逐步为开发者提供SOTA模型对应华为云的优化版本;同时,开发者可基于华为云技术栈,通过盘古的一站式数据处理工具、AI开发生产线ModelArts以及异构计算架构CANN,进行各类创意应用的搭建和模型创新;此外,华为云昇腾AI云服务的丰富开发套件、配套的学习课程、技术支持和论坛亦均将向广大开发者开放。
针对开发者的需求痛点,在大模型、华为云知识体系的加持下,“云学堂”的教学练考体系也进行了智能升级:全新上线面向大模型、云原生等20多个热门技术领域的优质课程,为教师、学生提供不同场景下的智能化助手;为开发者构建体验、任务、项目实训、自主创新4类学练一体的实验,每月提供总计逾万次的免费在线实验名额;新增针对盘古大模型的认证内容,并基于认证结果和智能化的技能分析,打造高质量的人才双选通道。
不难看出,基于云平台的大模型新生态已雏形初具,但从方法论到场景化落地还有较长的路要走,离不开更多工具利器的加持和实践案例的积累。
为了加速大模型从开发到落地的进程,华为云提供盘古大模型工程化套件,覆盖数据工程、模型开发和应用开发三大环节——用户既可为大模型加载独立的数据集,也能单独升级基础模型或能力集;套件能将复杂的大模型开发过程流程化、标准化,帮助用户实现一站式开发,并支撑其分钟级构建大模型原生应用;华为云还提供多样化的部署形态,无论用户采用公有云、大模型专区还是混合云部署,都会确保其数据安全与合规要求。
令人欣喜的是,大模型新生态的枝头已结出丰硕的果实。最近,华为云以盘古大模型为基础,携手优秀伙伴共同发布面向行业的联创模型及解决方案,越来越多的真实案例让大模型新生态呈现出欣欣向荣的景象。
在媒体行业,华为云与阳光云视联合打造的媒体大模型中间件,覆盖了媒体全场景业务需求;在法律行业,与重庆法谷一同构筑的法律大模型,在法律问答、律师办公等场景效果显著;在文化行业,华为云还与中国公共关系协会文化大数据专业委员会联创文化大模型,应用于国家文化大数据体系建设,已在艺术图片识别标注领域进行了试点。
截至目前,华为云已与150多家伙伴、200多家客户,共同构筑了20多个行业大模型以及400多个AI应用场景。这一系列数据就像大模型生态版图中的“金线”,它们将织就行业智能化百川归海的未来图景,云蒸霞蔚的万千气象召唤着更多的赶路人。