你所在的位置: 首页 > 正文

XLNet团队:赢BERT靠的并不是数据集更大,公平对决也碾压对手

2019-07-31 点击:1709

  00:22:19小昊明有态度

 小凹从凹寺[

报价生产|公共号码QbitAI

几周前,谷歌发布了一个新的NLP模型,XLNet,在20个基准测试中表现优于BERT。

如果XLNet只接受与BERT相同大小的培训数据怎么办? XLNet的胜利只是数据集的胜利吗?

今天,XLNet研究团队使用实际数据来回答媒体网站上人们的疑虑。他们使用几乎相同的数据集来执行XLNet和BERT之间的公平匹配,以查看前者的性能是否有任何实质性改进。

参数配置

为确保公平性,团队确保BERT和XLNet中几乎所有可能的超参数都尽可能相同。如果两者不能保证相同,它们也可以使参数更倾向于BERT。

超参数使用原始BERT作者发布的数据。换句话说,这更有可能针对BERT而不是XLNet进行优化。

具体的超参数设置如下:

相同的batchsize:256相同数量的训练步骤:1M相同的优化器:Adam,学习率1e-4,10K热身,线性衰减相同的训练语料库:Wikipedia + BooksCorpus。 XLNet团队使用与BERTrepo中描述的相同的工具来处理维基百科。但由于某些未知原因,XLNet维基百科语料库只有20亿字,而BERT有25亿字。所以XLNet训练集更小。相同的模型架构参数:24层,1024个隐藏单元,相同的微调超参数搜索空间,头部编号为16

他们修改了一些与数据相关的实现细节,以便与BERT进行一对一的比较:

在先前的实施方式中,未覆盖的令牌在预训练中没有看到CLS和SEP。在当前实现中,未覆盖的令牌可以看到CLS和SEP,这与BERT一致。在微调中,XLNet用[BERT格式] [CLS,A,SEP,B,SEP]替换[A,SEP,B,SEP,CLS]。

此外,他们考虑了BERT的三种变体,并报告了每项任务的最佳微调结果。

模型-I:作者-II发布的原始BERT模型:BERT具有全字覆盖,也由作者发表-III:由于下一句预测(NSP)可能影响性能,因此预先训练一个新的公布的BERT代码没有NSP损失的模型。

上述设置可能会给BERT带来一些好处,因为BERT可以通过不同的变体获得单个任务的最佳性能。

比较结果

SQUAD和RACE等测试装置上的两个结果如下。在此过程中不使用数据放大,集成学习或多任务学习。

使用几乎相同的数据和培训方法,XLNet超越了BERT,在所有数据集中具有相当大的优势。 10次数据对训练效果的改善并不像从BERT到XLNet的变化那么明显。在11项基准测试中,8项基准测试从BERT改为XLNet。在一些基准测试中,例如CoLA和MRPC,用于训练更多数据的模型得分低于用于训练更少数据的模型得分。

我们在上述结果中获得了一些宝贵的经验。

XLNet优于BERT。 XLNet-Large可以更好地进行优化。实验结果2和3似乎表明XLNet-Large(更多训练数据)没有充分利用数据大小。

灵感来自未来的工作

XLNet团队表示将继续研究如何正确扩展XLNet语言预训练。根据目前有限的观察结果,他们推测以下培训细节可能发挥重要作用:

数据相关:数据大小,数据源,数据清理,数据编码,数据格式化。

优化相关:学习率,批量大小,培训步骤,优化器。

这些超参数之间可能存在高阶交互。

FacebookAI最近的RoBERTa首次进入GLUE排名,似乎暗示了培训细节的重要性。

原始链接:

末端 -

真诚招募

昆腾正在招聘编辑/记者,总部设在北京中关村。我期待有才华和热情的学生加入我们!有关详细信息,请在QbitAI对话界面上回复“招聘”一词。

Qubit QbitAI签约作者

? '?'?跟踪AI技术和产品动态

小凹从凹寺[

报价生产|公共号码QbitAI

几周前,谷歌发布了一个新的NLP模型,XLNet,在20个基准测试中表现优于BERT。

如果XLNet只接受与BERT相同大小的培训数据怎么办? XLNet的胜利只是数据集的胜利吗?

今天,XLNet研究团队使用实际数据来回答媒体网站上人们的疑虑。他们使用几乎相同的数据集来执行XLNet和BERT之间的公平匹配,以查看前者的性能是否有任何实质性改进。

参数配置

为确保公平性,团队确保BERT和XLNet中几乎所有可能的超参数都尽可能相同。如果两者不能保证相同,它们也可以使参数更倾向于BERT。

超参数使用原始BERT作者发布的数据。换句话说,这更有可能针对BERT而不是XLNet进行优化。

具体的超参数设置如下:

相同的batchsize:256相同数量的训练步骤:1M相同的优化器:Adam,学习率1e-4,10K热身,线性衰减相同的训练语料库:Wikipedia + BooksCorpus。 XLNet团队使用与BERTrepo中描述的相同的工具来处理维基百科。但由于某些未知原因,XLNet维基百科语料库只有20亿字,而BERT有25亿字。所以XLNet训练集更小。相同的模型架构参数:24层,1024个隐藏单元,相同的微调超参数搜索空间,头部编号为16

他们修改了一些与数据相关的实现细节,以便与BERT进行一对一的比较:

在先前的实施方式中,未覆盖的令牌在预训练中没有看到CLS和SEP。在当前实现中,未覆盖的令牌可以看到CLS和SEP,这与BERT一致。在微调中,XLNet用[BERT格式] [CLS,A,SEP,B,SEP]替换[A,SEP,B,SEP,CLS]。

此外,他们考虑了BERT的三种变体,并报告了每项任务的最佳微调结果。

模型-I:作者-II发布的原始BERT模型:BERT具有全字覆盖,也由作者发表-III:由于下一句预测(NSP)可能影响性能,因此预先训练一个新的公布的BERT代码没有NSP损失的模型。

上述设置可能会给BERT带来一些好处,因为BERT可以通过不同的变体获得单个任务的最佳性能。

比较结果

SQUAD和RACE等测试装置上的两个结果如下。在此过程中不使用数据放大,集成学习或多任务学习。

使用几乎相同的数据和培训方法,XLNet超越了BERT,在所有数据集中具有相当大的优势。 10次数据对训练效果的改善并不像从BERT到XLNet的变化那么明显。在11项基准测试中,8项基准测试从BERT改为XLNet。在一些基准测试中,例如CoLA和MRPC,用于训练更多数据的模型得分低于用于训练更少数据的模型得分。

我们在上述结果中获得了一些宝贵的经验。

XLNet优于BERT。 XLNet-Large可以更好地进行优化。实验结果2和3似乎表明XLNet-Large(更多训练数据)没有充分利用数据大小。

灵感来自未来的工作

XLNet团队表示将继续研究如何正确扩展XLNet语言预训练。根据目前有限的观察结果,他们推测以下培训细节可能发挥重要作用:

数据相关:数据大小,数据源,数据清理,数据编码,数据格式化。

优化相关:学习率,批量大小,培训步骤,优化器。

这些超参数之间可能存在高阶交互。

FacebookAI最近的RoBERTa首次进入GLUE排名,似乎暗示了培训细节的重要性。

原始链接:

末端 -

真诚招募

昆腾正在招聘编辑/记者,总部设在北京中关村。我期待有才华和热情的学生加入我们!有关详细信息,请在QbitAI对话界面上回复“招聘”一词。

Qubit QbitAI签约作者

? '?'?跟踪AI技术和产品动态

日期归档
凯时娱乐 版权所有© www.tessavitrea.com 技术支持:凯时娱乐 | 网站地图