环球快看点丨MosaicML 推出 300 亿参数模型,训练成本 70 万

来源: OSCHINA 2023-06-25 03:18:53


(资料图片)

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。

MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。

MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。

300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。

其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。

除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。

开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。

热点评!社校联动!宝山这个社区化身实践课堂
06-25
交通运输部:端午假期预计发送旅客超1.4亿人次
06-25
环球今日讯!Linux驱动开发课程v1.0
06-25
我们的节日·端午|东达山艺术节“粽”情相约 世界时快讯
06-25
中医院校推出长学制传递什么信号|世界热消息
06-25
后备厢空间有大幅提升 全新奔驰E级旅行版官图发布
06-25
泡红椒炒野山蕨|环球百事通
06-25
苏州昆山高新区挂牌1宗商住地 起价5.05亿元、商办部分全自持
06-25
机构不看好?多只债基净值创新高后遭大额赎回 如何应对?
06-25
9省区市将现35℃以上高温 内蒙古局地可达40℃ 播报
06-25
合并图层在哪里(合并图层是什么意思)
06-25
股票卖了钱什么时候能转到银行
06-25
今日热闻!夏天多喝汤身体好,推荐5道家常汤,爽口不腻营养高,越喝越健康
06-25
螺旋焊接钢管行业发展现状调查2023 我国螺旋焊管行业重点企业经营情况 环球微动态
06-25
当前速看:沪苏地铁互通 长三角核心城市深度同城化
06-25
【环球时快讯】肺结核解除劳动合同可不可以?
06-25
苏州昆山高新区挂牌1宗商住地 起价5.05亿元、商办部分全自持 世界新动态
06-25
天天p图电脑版的使用视频_天天p图电脑版怎么用|精选
06-25
全球热门:Android 开发 加载竖向超长图的简单方法(可拖动,宽屏展示,可放大)
06-25
全球快播:EIA数据喜忧参半,油价持续走低
06-25