微软推出ZeRO++技术 可显著减少大模型训练时间和成本-新动态
发布日期: 2023-06-27 16:54:45 来源: IT之家
6 月 27 日消息,微软研究人员日前推出了名为 ZeRO++ 的新技术,用于优化在训练大型 AI 模型时,容易遇到的数据传输成本和带宽限制的难题,可显著减少大模型训练时间和成本。
据悉,ZeRO++ 建立在现有的 ZeRO 传输技术基础上,并提供增强的通信策略,可提高训练效率,同时减少训练时间和成本。
为了减少参数通信量,ZeRO++ 可对权重进行量化,其利用基于块的量化方法来保持训练精度,这种优化的量化过程相对原始 Zero 传输技术更快更准确。为了能够尽量减少通信开销,ZeRO++ 通过在每台机器上保持完整的模型副本,以向 GPU 显存换取通信带宽。而在梯度通信方面,ZeRO++ 引入了一种名为 qgZ 的新的量化梯度通信方式,可以减少跨节点的流量和延迟。
这些改进的通信技术大大减少了通信量,微软研究人员表示,与 ZeRO 相比,ZeRO++ 减少了高达 4 倍的通信量,提高了训练吞吐量和效率。当在每个 GPU 上使用小批量大小时,在高带宽集群中,ZeRO++ 相比 ZeRO-3 的吞吐量提高了 28% 至 36%。在低带宽集群中,与 ZeRO-3 相比,ZeRO++ 实现了平均 2 倍的加速,使得大模型训练在更多种类的集群上更为可行。
IT之家注:IT之家注意到,例如 Turing-NLG、ChatGPT 和 GPT-4 这样的大型模型,其训练需要跨多个 GPU 设备占用大量显存和计算资源,而 ZeRO++ 引入了通信优化策略,以克服在低带宽集群上进行训练时原有 ZeRO 传输技术的带宽限制。目前微软已经放出了相关技术文档,研究人员可以利用 ZeRO++ 更有效地训练模型,在 AI 领域探索新的可能性。
关键词:
推荐内容
- 微软推出ZeRO++技术 可显著减少大模型训练时间和成本-新动态 a>
- 病假工资是按基本工资还是实发工资补发?病假工资是扣除五险一金前还是后? a>
- 天天快讯:早期买入日本股票的基金经理认为日本股市涨势正在消退 a>
- 郑州西亚斯学院:破解“书院制”课题 满足全面育人需求 a>
- 世界讯息:内蒙古“教育招生考试中心填报志愿辅助系统”上线,助力考生填报志愿 a>
- 中央网信办:重点整治7方面网上涉未成年人突出问题 a>
- 武汉生物工程学院探索应用型人才培养新模式 a>
- 全球资讯:45亿参数科学大模型一天训完 a>
- 黑龙江伊春:给普通高中插上因校制宜发展的“翅膀”-全球热头条 a>
- 内支线集装箱船舶双档靠泊 洋山港海事局在自动化码头推出新举措 a>
- 爱的迫降大结局是什么?爱的迫降女主不是亲生的吗? a>
- 安凯微上市募10.5亿首日涨34% 去年业绩降现金流转负 世界速读 a>
- 微软Edge Canary版本116.0.1934.0中隐藏了一个名为“EdgePhoto”的功能|今头条 a>
- 广康生化上市首日破发跌7% 募7.85亿华泰联合赚6600万|天天消息 a>
- 终结景区“多头收费”乱象,关键在实现“一体化”管理 天天报道 a>
- 热推荐:新华网:刘健辞去公司董事长职务 a>
- 湖北远安:以旅兴农 绘出“诗与远方”新画卷_环球视点 a>
- 等额本金还款是什么方式?为什么选择等额本金还款方式?_天天热消息 a>
- 南京高淳税务:税企面对面服务点对点 打造公平透明税收软环境 a>
- 世界快资讯:打新必看 | 6月28日两只新股申购,值得打吗? a>