羊驼进化成鲸鱼，Meta把对齐自动化，Humpback击败现有LLaMa模型-中国城市旅游网

>> 您当前的位置: 首页 -> 指南

羊驼进化成鲸鱼，Meta把对齐自动化，Humpback击败现有LLaMa模型

时间：2023-08-16 08:09:43 来源：机器之心Pro

机器之心报道

编辑：小舟、陈萍

(资料图片)

这一年来，以 ChatGPT 和 GPT-4 为代表的大语言模型（LLM）发展迅速，紧随其后，Meta 开源的 LLaMa、Llama 2 系列模型在 AI 界也引起的了不小的轰动。但随之而来的是争议不断，有人认为 LLM 存在一些不可控的风险，给人类生存构成一些潜在威胁。

为了应对这些挑战，对 LLM 对齐的研究变得越来越重要，有研究者提出指令跟随（instruction following），但这种方法需要大量的人工注释。然而，注释如此高质量的指令跟随数据集耗费巨大。

本文来自 Meta AI 的研究者提出了一种可扩展的方法即指令回译（instruction backtranslation），该方法通过自动注释相应的指令来构建高质量的指令跟随语言模型。

论文地址：https://arxiv.org/pdf/2308.06259.pdf

具体而言，该研究从一个语言模型开始，并作为种子模型，该模型在少量的种子数据以及 web 语料库上进行了微调。种子模型的作用是用来构建训练样本，然后这些样本中的一些高质量样本将会被筛选出来，接着，这些数据被用来微调一个更强大的模型。

经过两轮迭代的数据集对 LLaMa 进行微调，所产生的模型 Humpback 在 Alpaca 排行榜上优于其他现有的非蒸馏模型，如 LIMA、Claude、Guanaco 等。

Humpback 原意为座头鲸，又名驼背鲸，Meta 将模型命名为 Humpback，也别有深意吧。

之所以称为指令回译，研究者表示这借鉴了机器翻译中经典的反向翻译方法，其中人类编写的目标句子会自动用模型生成的另一种语言的源句子进行注释。

图灵奖得主 Yann LeCun 高度概括了这项研究的方法，并称赞 Meta 这项工作为对齐研究做出重要贡献：

还有网友对这项研究进行了很好的概括：数据质量对大模型来说确实很重要，研究过程中，他们使用不同级别的过滤数据，微调了一个模型，结果表明，只有最好的样本才能得出比其他样本表现更好的模型。

该论文提出了一种需要两个步骤完成的新的数据增强范式。首先，必须拥有一组种子（指令、输出）对和语料库才能生成更多好的指令数据。

下图比较了 Humpback 与一些开源模型和专有模型。

下表 4 表明，本文方法在 65B 和 33B 模型尺度上都是非蒸馏模型中表现最好的模型。

下面我们看看具体方法。

方法简介

该研究提出了一种自训练方法（self-training），该方法通常假定可以访问基本语言模型、少量种子数据和未标记的样本集（例如网络语料库）。未标记数据往往是一大堆形态各异的文档，由人类编写，其中包括人类感兴趣的各种话题内容，但最重要的是没有与指令进行配对。

这里还有两个关键的假设，第一个假设是这个非常大的文本集（未标记样本集）存在一些子集，适合作为某些用户指令的生成样本。第二个假设是可以预测这些候选答案的指令，这些指令可以用于形成高质量样本对，以训练指令遵循模型。

如下图 1 所示，该研究提出指令回译过程包含两个核心步骤：

自增强：为未标记的数据（即网络语料库）生成指令，以为指令调优产生训练数据对（指令 - 输出）。

自管理：自主选择高质量样本数据作为训练数据，以微调基础模型来遵循指令，这种方法是迭代完成的。

其中，自管理步骤采用的 prompt 如下表 1 所示：

实验及结果

本文的数据集主要包括种子数据和增强数据，具体信息如表 2 和图 2 所示：

图 3 表示尽管扩大了数据规模，但没有自我管理（self-curation）的增强数据用来训练模型并不能提高指令跟随性能。

下图比较了不同指令调优数据集的数据效率。

数据和模型的联合扩展：该研究发现在 7B 模型中观察到的数据扩展趋势同样也适用于更大的模型。例如对 65B 的种子模型增加高质量的增强数据会带来进一步的改进。

常识推理：该研究在五个常识推理基准上进行了测试，SIQA 、PIQA、Arc-Easy、Arc-Challenge 和 Openbook QA （OBQA），结果总结于表 5 中。结果表明，与基础模型相比，本文模型在社会推理等多个方面的表现有所提高。

MMLU：表 6 总结了不同模型在 MMLU（massive multitask language understanding）的结果。与基础模型相比，本文微调模型提高了零样本准确率，但在 5 个样本上下文示例中表现不佳。

关键词：

上一篇: 再掀“价格战” 消费贷缘何一卷再卷下一篇: 最后一页

机器之心报道编辑：小舟、陈萍数据质量很重要。这一年来，以ChatGPT和G

再掀“价格战” 消费贷缘何一卷再卷

在促进消费回暖、让利惠民的背景下，银行消费贷利率卷到了“地板价”，

企业注册安全工程师配备标准最新（企业注册安全工程师配备标准）

1、企业平均达到300人规模需配备注册安全工程师煤矿，非煤矿山，施工

【歌词翻译】SO PLAYFUL 韩语填词版【myoya/妮姬：胜利女神】

myoya接推广翻唱的《妮姬：胜利女神》夏日活动SEA,YOU,AGAIN主题曲，原

获胜后不忘鼓励周琦！李凯尔转发：齐心协力众志成城！

在此前战胜新西兰的热身赛后，李凯尔绝命抢断险胜新西兰后，拍肩膀鼓励

网传一摊贩遭多名制服人员围殴广州警方最新通报

据九派新闻微信公众号：近日，有网友爆料称“广州某市场一摊贩遭多名制

漱玉平民(301017.SZ)：暂未涉及SPD医药流通业务

来源：格隆汇格隆汇8月15日丨有投资者向漱玉平民(301017 SZ)提问，“请

安全实惠颜值高闵行这个村告别“飞线充电”

充电收费标准一共分为四档，一般电动自行车充1小时只要0 25元。

扬州3名城管落水，无人施救，百姓对民警称没有救人证，引深思！

一则扬州三名城管不慎落入水中，岸上群众却只冷眼旁观，并无一人对其施

海外市场千变万化出海企业如何提高竞争力？

8月15日13点17分，百元股板块指数报658 336点，跌幅达2%，成交337 54亿

机械师开学季推新款笔记本 7687元入手i9-12900HX+RTX 4060

2023年，机械师推出了新款曙光16Pro系列笔记本，近期又针对开学季推出

连云港终止向上港集团募资不超15亿元定增

中国经济网北京8月15日讯上交所网站近日公布关于终止对江苏连云港港口

26条公交临时绕行！涉新华道、国防道、龙华道

关于道路施工断交，部分公交线路临时绕行的通知近期我市多条道路施工断

我国全面推进县域商业三年行动

商务部等9部门联合印发的《县域商业三年行动计划（2023-2025年）》14日

中国出境游再扩容，多国行动了起来

随着中国进一步放开疫情期间实施的团队旅行限制，韩国、日本、澳大利亚

冠道和昂科旗怎么选择（冠道与别克昂科旗的区别是什么？）

冠道(参数|询价)与别克昂科旗(参数|询价)的区别是：品牌不同：冠道属于

掌纹识别板块8月14日涨0.78%，百胜智能领涨，主力资金净流出2232.25万元

8月14日掌纹识别板块较上一交易日上涨0 78%，百胜智能领涨。当日上证指

傲视群雄手游（傲视千雄开服表什么时候开新区上哪里去找呢）

导读1、1987g网页游戏开服表每天都更新了傲视千雄开服表的信息的。2、

excel如何转换行与列？excel表格行列互换 excel表格行变列互换

在Excel表格处理过程中，我们会遇到表格行列互换的情况，对此我们如何

嘉泽新能：投资4.2亿元建设嘉泽同心县150MW/300MWh储能电站项目

【嘉泽新能：投资4 2亿元建设嘉泽同心县150MW 300MWh储能电站项目】8月

机构策略：短期内主题投资表现或较稳定市场风格或走向均衡

华福证券指出，政策底往往领先于市场底出现，在政策密集出台的情况下，

2023-02-22

怀化有什么好玩的旅游景点？怀化有什么特产？

2023-02-22

哈尔滨有哪些滑雪场好玩？哈尔滨滑雪什么时候去最好？

2023-02-22

短程

国家级先进制造业集群增至45个

x 广告

羊驼进化成鲸鱼，Meta把对齐自动化，Humpback击败现有LLaMa模型

机器之心报道编辑：小舟、陈萍数据质量很重要。这一年来，以ChatGPT和G

在促进消费回暖、让利惠民的背景下，银行消费贷利率卷到了“地板价”，

1、企业平均达到300人规模需配备注册安全工程师 煤矿，非煤矿山，施工

myoya接推广翻唱的《妮姬：胜利女神》夏日活动SEA,YOU,AGAIN主题曲，原

在此前战胜新西兰的热身赛后，李凯尔绝命抢断险胜新西兰后，拍肩膀鼓励

据九派新闻微信公众号：近日，有网友爆料称“广州某市场一摊贩遭多名制

来源：格隆汇格隆汇8月15日丨有投资者向漱玉平民(301017 SZ)提问，“请

充电收费标准一共分为四档，一般电动自行车充1小时只要0 25元。

一则扬州三名城管不慎落入水中，岸上群众却只冷眼旁观，并无一人对其施

最新的海关数据显示，今年前7个月，我国进出口总值23 55万亿元人民币，

8月15日13点17分，百元股板块指数报658 336点，跌幅达2%，成交337 54亿

2023年，机械师推出了新款曙光16Pro系列笔记本，近期又针对开学季推出

中国经济网北京8月15日讯上交所网站近日公布关于终止对江苏连云港港口

关于道路施工断交，部分公交线路临时绕行的通知近期我市多条道路施工断

商务部等9部门联合印发的《县域商业三年行动计划（2023-2025年）》14日

随着中国进一步放开疫情期间实施的团队旅行限制，韩国、日本、澳大利亚

冠道(参数|询价)与别克昂科旗(参数|询价)的区别是：品牌不同：冠道属于

8月14日掌纹识别板块较上一交易日上涨0 78%，百胜智能领涨。当日上证指

导读1、1987g网页游戏开服表每天都更新了傲视千雄开服表的信息的。2、

在Excel表格处理过程中，我们会遇到表格行列互换的情况，对此我们如何

【嘉泽新能：投资4 2亿元建设嘉泽同心县150MW 300MWh储能电站项目】8月

华福证券指出，政策底往往领先于市场底出现，在政策密集出台的情况下，

2023-02-22

2023-02-22

2023-02-22

1、企业平均达到300人规模需配备注册安全工程师煤矿，非煤矿山，施工