您现在的位置是:首页 > 职业导航
架构瓶颈原则:用注意力probe估计神经网络组件提供多少句法信息
研思启迪坊
2026-02-15【职业导航】179人已围观
简介机器之心报道预训练语言模型在各种自然语言处理任务上的惊人表现,引起了人们对其分析的兴趣。Probing是进行此类分析所采用的最普遍的方法之一。在典型的probing研究中,probing是一个插在中间层的浅层神经网络,通常是一个分类器层。其有助于探查不同层捕获的信息。使用辅助任务对probing进行...
机器之心报道
预训练语言模型在各种自然语言处理任务上的惊人表现,引起了人们对其分析的兴趣。Probing是进行此类分析所采用的最普遍的方法之一。在典型的probing研究中,probing是一个插在中间层的浅层神经网络,通常是一个分类器层。其有助于探查不同层捕获的信息。使用辅助任务对probing进行训练和验证,以发现是否捕获了此类辅助信息。
一般来讲,研究者首先冻结模型的权重,然后在模型的上下文表示的基础上训练probe,从而预测输入句子的属性,例如句法解析(其对句子结构进行分析,理清句子中词汇之间的连接规则)。不幸的是,关于如何设计此类probe的最佳实践仍然存在争议。
一方面,有研究者倾向于使用简单的probe,这样就可以将probe与NLP任务区分开来;另一方面,一些人认为需要复杂的probe才能从表示中提取相关信息。此外,还有一些人考虑折中的方法,主张将复杂性-准确性帕累托曲线上的probe考虑在内。
本文中,来自剑桥大学、苏黎世联邦理工学院的研究者提出架构瓶颈原则(ABP,architecturalbottleneckprinciple)作为构建有用probe的指南,并试图测量神经网络中的一个组件可以从馈送到它的表示中提取多少信息。为了估计给定组件可以提取多少信息,该研究发现probe应该与组件完全相同。根据这一原理,该研究通过注意力probe来估计有多少句法信息可用于transformer。

论文地址:
举例来说,该研究假设transformer的注意力头是其使用句法信息的瓶颈,因为这是transformer中唯一可以同时访问多个token的组件。根据ABP,该研究提出注意力probe,就像注意力头一样。该probe回答了这样一个问题:transformer在计算其注意力权重时可以使用多少句法信息?
结果表明,大多数(尽管不是全部)句法信息都可以通过这种简单的注意力头架构提取:英语句子平均包含31.2bit的句法树结构信息,而注意力probe可以提取28.0bits信息。更进一步,在BERT、ALBERT和RoBERTa语言模型上,一个句子的语法树大部分是可以被probe提取的,这表明这些模型在组成上下文表示时可以访问句法信息。然而,这些模型是否真的使用了这些信息,仍然是一个悬而未决的问题。
注意力Probe
目前,有许多方法用来设计有效的probe,分类原则大致包括:线性原则、最大信息原则、易提取原则,此外还包括本文提出的ABP原则。
可以说ABP将前三个原则联系起来。最重要的是,ABP泛化了线性原则、最大信息原则,此外,ABP还通过限制probe的容量来隐式控信息制提取的难易程度。
实验结果
对于数据,研究者使用了通用依赖(UD)树库。他们分析了四种不同类型的语言,包括巴斯克语、英语、泰米尔语和土耳其语。此外,研究者将分析重点放在未标记的依赖树上,并注意到UD使用特定的句法形式,这可能会对结果造成影响。
对于模型,研究者探讨了以上四种语言的多语言BERT以及仅支持英语的RoBERTa和ALBERT。根据ABP,他们保持probe的隐藏层大小与probed架构中的相同。最后,他们还将一个具有与BERT相同架构的未训练transformer模型作为基线。
下图1展示了主要结果。首先,研究者的probe估计大多数句法信息可以在中间层提取。其次,大量句法信息在馈入注意力头的表示中进行编码。虽然他们估计使用英语、泰米尔语和巴斯克语句子编码的信息接近31bits,但使用土耳其句子编码的信息约为15bits。研究者怀疑这是因为土耳其语在语料库中的句子最短。

研究者还发现,句子中的几乎所有句法信息都可用于考虑中的基于transformer的模型。例如在英语中,他们发现信息量最大的层在BERT、RoBERTa和ALBERT中的V系数分别为90%、82%和89%,具体如下表1所示。这意味着这些模型可以访问一个句子中约85%的句法信息。不过未训练的BERT表示并不适合这种情况。

最后,研究者将BERT的注意力权重(通过其预训练的注意力头计算)直接插入到原文公式(8)并分析产生的未标记附件分数。英语相关的BERT结果如下图2所示。简言之,虽然注意力头可以使用大量的句法信息,但没有一个实际的头可以计算与句法树非常相似的权重。
但是,由于BERT有8个注意力头,因此可能以分布式方式使用句法信息,其中每个头依赖该信息的子集。

很赞哦!(107)