首页 体育 教育 财经 社会 娱乐 军事 国内 科技 互联网 房产 国际 女人 汽车 游戏

斯坦福大学EMNLP2019论文:回答大规模开放领域复杂问题

2020-01-14

雷锋网 AI 科技谈论按:斯坦福大学 Christopher D. Manning 组的论文《Answering Complex Open-domain Questions Through Iterative Query Generation》近期被 EMNLP-IJCNLP 2019 接纳,论文榜首作者 Peng Qi 为这个使命以及这篇论文撰写了一篇浅显易懂的解读文章。雷锋网 AI 科技谈论全文翻译如下。

本文主题:NLP 研讨大家庭现已在敞开范畴问答中取得了很大前进,而这篇论文中提出的体系持续在 「依据海量文本答杂乱乱问题」 的情境下带来了改善。作者们展现了一种高效、可解释的办法,能在体系中进行多步推理。

从查找引擎,一直到主动问答体系,自然语言处理体系的开展现已极大地增强了咱们获取文本信息的才干,帮咱们节省了许多用来回忆和查找的时间精力。今日,每逢咱们脑海中出现出问题的时分,咱们的榜首反响都是去查找引擎上查找一下。

有的问题比较简略,比方「我国面积最大省是什么省」,也有一些问题就不那么直白了,比方「榜首个发现能够用 GPS 勘探地震波的人是谁」,各家查找引擎都很难直接给出这个问题的答案。这种时分咱们需求凭借网络上的电子百科全书,比方 Wikipedia,然后就能够看到榜首个发现能够用 GPS 勘探地震波的人是 美国科学家 Kristine Larson 博士。

假如能让 NLP 体系直接给出这个答案,而不需求咱们去常识库中翻文章寻觅答案,这个问题就叫做 敞开范畴问答 ,这也是 NLP 科研的一个热门使命。

在开端介绍敞开范畴问答的新办法之前,咱们先花一点时间了解一下这个问题的环境设置、应战,以及为什么现有的体系在答杂乱乱问题的时分不那么让人满足。

敞开范畴 vs 关闭范畴/内容约束

NLP 研讨人员们规划的前期的问答体系,比方 BASEBALL 和 LUNAR,都是高度范畴约束的。这两个体系别离能够答复美国在某年的棒球运动员的信息,或许回来地球的登月飞船的信息,可是对一切其它范畴的信息都力不从心,由于超出了规划的范畴规划。也便是说,这两个体系是关闭范畴的。

从此之后,研讨人员们开端向敞开范畴问答的方向进攻。关于敞开范畴问答,所提出的问题并不局限于预界说好的范畴和范畴常识。在抱负情况下,问答体系要有才干在很大规划的各个范畴的文本中进行探究挑选,找到咱们所需的答案。

单篇文档敞开范畴问答,有时分也被称为「阅览了解」,NLP 研讨人员们这几年来在这个问题上做出了明显打破。这个问题指, 给 NLP 体系指定单篇文档,或许仅仅一段文字,其间或许含有问题的答案,然后让体系依据这些文本答复问题。 这便是以 SQuAD 为代表的许多盛行的 NLP 问答数据集的根本格局。在 SQuAD 数据集上练习出的问答体系能够在描绘各种不同范畴的常识的文本上作业。不过这样的问答体系需求咱们首要找到或许含有答案的那篇文档,这也就带来了一些约束。

为了处理这个问题,研讨人员们开端研讨能在许多文本上作业的问答体系。比较于 SQuAD 代表的「从含有答案的一段文本里找到答案」,在许多文本上作业的体系需求在一批文档中进行挑选,终究找到答案;这和咱们运用查找引擎有类似之处。这种使命设置就被成为 敞开内容敞开范畴问答 ,就比阅览了解有应战得多。当然了,当你想到了一个问题,却不知道要从哪里寻觅答案的时分,敞开范畴问答也就比阅览了解有用得多。在内容约束的问答之外的新应战首要在于怎么用可拓宽的办法把许多文本缩小到一个能够处理的规划,这样咱们就能够用现有的阅览了解模型找到那个答案。

敞开范畴问答体系

遭到文本检索会议上的系列问答比赛启示,近几年来研讨人员们开端场测验把具有很大潜力的依据神经网络的问答模型用在敞开范畴问答使命中。

普林斯顿大学陈丹琦团队首要把传统的查找引擎和现代的神经问答体系相结合来处理这个问题。他们的敞开范畴问答计划名为 DrQA,简略但效果超卓:给定一个问题,体系会依据问题在文档库中查找或许包含答案的文档,然后,经过挑选之后数量变少的文档会作为阅览了解体系的输入,由阅览了解体系生成终究的答复。

敞开范畴问答中大大都的近期研讨都仍然遵从了这种「检索+阅览了解」两步走的计划,然后会增加一些从头排序、依据神经网络的检索、更好的混合练习等等特性作为改善。

杂乱敞开范畴问题带来的应战

但其实,一切「检索+阅览了解」两步走的计划都无法很好地处理杂乱问题。下面咱们经过一个比方来阐明这是怎么回事。

假定有一天你忽然猎奇演《海王》的那个艺人还拍了什么电影,但你一会儿想不起他的姓名了。这时分咱们会首要去查找引擎查找「海王」或许「海王男主角」,先承认这个人是谁。一般来说在最初的几个查找成果里咱们就能找到他的姓名是「Jason Momoa」,然后再查找这个姓名就能找到他还拍了什么电影。

在这个简略的比方里,答复问题所需的要害信息并不都是能够直接从问题里读出来的,也便是说,这其实仍是一个常识发现问题。所以这个问题对现在的「检索+阅览了解」形式的敞开范畴问答体系来说就很难处理,由于答案和问题之间有一些重要的语义信息并不重合。

针对这种问题,一种处理办法是联合练习依据神经网络的信息检索模型和阅览了解模型,让它们能够对查询语句做一些更新,然后找到更多的信息来答复问题。尽管这种办法的确也是有时机带来改善的,但用这样的远间隔监督信号做信息检索模型的预练习、让它找到或许含有答案的文档仍是很有或许失利,由于问题和咱们想要找到的文档之间的语义重合部分仍是太少了。从问题直接到答案的端对端练习也耗费资源太多以至于不可行,由于在榜首步推理之前就进行查询的话,需求面临巨大的查询空间,即使咱们能练习出一个履行这项使命的模型,这个模型也很或许只要极低的核算功率,并且可解释性很差。

所以,咱们是否有或许规划一种新的敞开范畴问答体系,让它既能够处理杂乱的多步推理问题,并且还核算高效、可解释呢?斯坦福大学 Christopher D. Manning 组的论文《Answering Complex Open-domain Questions Through Iterative Query Generation》中就提出了这样一个体系。这篇论文的榜首作者便是这篇介绍博客的作者 Peng Qi,论文也现已被 EMNLP-IJCNLP 2019 接纳,并在 11 月 6 日进行了口头报告。

要介绍论文中的这个体系,叙述要分为两个部分,首要介绍针对敞开范畴问答的多步推理问题的整体战略,然后介绍用来点评这个体系的数据集和试验成果。

整体战略

正如上文所说,「检索+阅览了解」形式的体系无法高效地处理杂乱需求多步推理的敞开范畴问题,原因有:1,这些问题需求有多个支撑头绪才干答复,2,只依据本来那个问题一般都很难找到一切有必要的支撑头绪。一个抱负的体系应当能够迭代进行「阅览了解找到的信息」以及「寻觅更多的支撑头绪」这两件事,就像人类相同。

这也便是论文标题中的「iterative query generation」部分的意义,论文中提出的这个敞开范畴问答体系能够迭代地依据现在检索到的文本内容生成自然语言问题,以及在终究答复问题之前查找更多的必需信息。这样的规划的优点有:1,能够用不同的问题检索多个不同的支撑头绪;2,生成新问题的进程能够凭借更早的检索中找到的文档,这样就能够生成无法独自依据最早的问题生成的问题。由于这个体系能够生成自然语言的查询问题,那么它还能够直接在信息检索的进程中运用现有的信息检索体系,进行高效的检索。除此之外,这个模型的运转办法对人类来说也有更好的可解释性,能够让人类随时进行干涉,纠正运转中发作的问题。

比方,假如把英文维基百科作为常识库的话,向体系发问「《Armada》的作者的哪部小说会被 Steven Spielberg 改编为电影」,它的答复进程是这样的:

模型会首要生成一个查询问题,在维基百科中查找关于小说《Armada》的信息。在「阅览了解」了检索到的文档之后,它会开端测验寻觅 Ernest Cline 的更多信息。终究,当体系找到了答复这个问题所需的悉数文档之后,它就会把这些检索进程中找到的排名靠前的文档级联起来,然后把它们输入一个内容约束的问答体系来猜测终究的答案。

这种办法的首要应战在于怎么练习一个易于与其它组件协作的查询问题生成器,能凭借它生成的问题语句检索到一切所需的信息。这篇论文的首要奉献也便是一种高效地练习查询问题生成器的办法,关于要检索到哪些文档只需求很少的监督信号,并且能在答杂乱乱的敞开范畴问题时发挥出优异的体现。作者们的办法依据一个重要的调查:假如一个问题能依据语料答复,那么其间就会存在一个能够追寻的进程链条。换句话说,作者们提出,在寻觅支撑头绪的进程中的恣意时间,都需求在「已知的」和「要找的」之间存在强语义堆叠。

找到答杂乱乱问题所需的许多支撑头绪就好像要在草堆里找到许多根针。因尴尬,所以不要一个一个地找它们,要找到穿在这些针之间的线,也便是「已知的」和「要找的」之间的强语义堆叠。

在一开端,体系问的问题都是关于「已知的」,然后需求找到能组成推理链、答复这些问题的「要找的」文档。依据作者们的调查,至少能找到一篇文档能够和问题之间有强的语义堆叠,所以这儿的方针便是至少找到一篇这样的能够协助拓宽推理链的文档。在前面的《Armada》的比方里,这篇文档起到协助效果的文档就能够是《Armada》小说的维基百科页面,其间的语义堆叠便是「Armada」这个姓名,以及「这是一本小说」。用依据文字的信息检索体系并不难找到这样的文档,只需求确认一个堆叠的词句然后查找它就能够。

在一步信息检索往后,很有或许体系就在许许多多文档里找到了关于《Armada》小说的这个维基百科页面。到了这儿,依据「已知的」和「要找的」之间的语义堆叠就能够生成新的查询问题。要找到语义堆叠并不难,只需求在「已知的」和「要找的」之间进行最长相同子序列查找就能够。

首要找到推理中的每一步所需的查询问题,然后就能够练习模型来依据每一步中的问题+现已检索到的文档生成新的问题。这样练习出的查询问题生成器就能够用在多进程的敞开范畴推理中。这儿的查询问题生成使命能够看作是一个内容约束的问答问题,它的实质便是把给定的问题和给定的文档映射到能依据文档导出的一段文本内容,所以和问答非常类似。

论文作者们把整个体系称为 GoldEn Retriever,意为「黄金实体检索器」,一方面由于模型检索到的维基百科页面大大都都是关于实体的,一起这也是一个用于检索的模型的很风趣的姓名。下面的表格中列出了一些样例问题以及用来练习查询问题生成器的不同进程的查询问题。

依据寻觅语义堆叠的流程找到的、期望  GoldEn Retriever 学会生成的问题比方。能够看到,第二步中的查询问题针对的信息是完全不包含在原有的问题中的,只能经过迭代检索的办法寻觅。

在这儿,作者指出:

首要不难看到,把语义堆叠找到的问题作为查询问题生成器的练习的监督信号,这种做法是能够拓宽到恣意数目的支撑头绪文档中的。并且它也不需求额定的常识来指明是否需求 怎么把本来的问题分解成几个子问题。只要在练习的时分现已找到了那个所需的“黄金”支撑头绪文档,就能够用这种办法高效、大规划地构建敞开范畴下的推理链条。

作者们也没有对文档检索的次序做出任何假定。在敞开范畴推理的恣意一个进程中,假定能够一次性枚举出一切有相关的、在推理链条里将会检索到的文档,找到这些文档中的语义堆叠、生成查询问题、进行查找,最早、最简单被找到的文档就会是和当时的推理进程最严密相关的文档。

作者们用来测验 GoldEn Retriever 体现的数据集是 HotpotQA,这是 Peng Qi 等人宣布在 EMNLP 2018 的论文中介绍的一个较新的多跳问答数据集,它是依据英文维基百科,由众包的问题组成的 QA 数据集。具体来说,他们给众包作业者展现两个相相关的维基百科页面中的简介阶段,然后让他们写出一些一起需求这两部分信息才干答复的问题。上文中关于《Armada》小说的问题便是来自这个数据集的。为了鼓舞以及便利其他研讨人员规划具有可解释性的问答体系,作者们也让众包作业者们在阶段中高亮标出能支撑他们的问题和答复的语句,并让问答体系在测验时找出这些头绪。

HotpotQA 中包含两种点评设定:一个从少数文档中提取的设定,以及一个敞开范畴、针对整个维基百科的设定;后一个设定也是作者们首要研讨的,便是给定一个问题今后,体系需求从整个维基百科中找到答案。HotpotQA 的一大特征是含有各种不同的推理战略,有一些问题中短少主体,有一些问题是穿插特点,有一些问题是比较,比较两个实体的同一个特点,等等。

在这个体系上点评问答体系,会调查体系的两个方面:答复的精确率以及可解释性。答复精确率由答案的切当匹配以及一元组 F1 分数点评;可解释性也会核算模型猜测的支撑头绪和标示出的支撑头绪之间重合程度的 EM 和 F1 分数。这两个方面的 EM 和 F1 分数是兼并考虑的,也便是鼓舞问答体系在「精确」和「可解释」方面都有好的体现。

关于在检索出的文档上做阅览量了答复复问题的模型,作者们挑选了一个 BiDAF++ 模型。更多的技术细节能够拜见论文。

作者们点评 GoldEn Retriever 的体现也从两个方面动身:它检索到好的支撑头绪文档的才干,以及它在问题答复使命中的端到端体现。

在检索文档方面,作者们拿来和 GoldEn Retriever 比照的是只用本来问题做一次检索的「检索+阅览了解」体系。点评办法是,已知有两个阶段是含有支撑头绪的,然后调查两个体系从文档库中检索出的 10 个阶段中包含这两个阶段的召回率。之所以要点评这个方面,是由于即使内容约束阅览了解组件是完美的,这个召回率也决议了整个体系的体现的上限。

要找的这两个阶段,阶段 1 和问题的相关性较高,两个体系都获得了不错的召回率;而关于联络不那么直接的阶段 2,GoldEn Retriever 的召回率足足高了 24%。这意味着,有大约 24% 的问题是「检索+阅览了解」体系找不到支撑头绪阶段,而 GoldEn Retriever 能够找到的。更深化的剖析标明进步首要来自于改善了非比照性问题中的体现,这类问题并不那么简单答复。

在端到端使命中,作者们把 GoldEn Retriever 和多个「检索+阅览了解」体系进行了比照,其间包含在数据集的开发集上直接和基线体系比较,以及与揭露排行榜上的、在躲藏测验集上跑出成果的体系比照。

HotpotQA 数据会集自带了一个 IR 信息检索体系,它与 Elasticsearch 一起作为了「检索+阅览了解」的基线体系;Elasticsearch 具有更强的检索才干,但也仅仅把 F1 从 22.75% 进步到 27.11% 罢了;揭露排行榜上的最好的揭露体系有 34.92% 的 F1 分数,这还有很大间隔。GoldEn Retriever 把揭露排行榜成果进步到了 39.13% F1,并且考虑到前一个体系运用了强壮的 BERT 模型作为组件的话,这个成果更是非常宝贵。现在开发集上的最好成果来自 Oracle IR,作者们以为假如他们能持续改善查询问题生成器,让它更好地依照规划预期生成问题的话,体现并不会落后 Oracle IR 太多。

在解释性方面,作者们除了调查了目标分数,也具体调查了 GoldEn Retriever 生成的查询问题。它生成的问题都很好了解,并且还有纠正过错的才干。

作者们现已把下列资源开源在 https://github.com/qipeng/golden-retriever

用于复现测验成果的模型代码以及预练习模型

练习模型运用的「抱负的」查询问题,以及从 HotpotQA 修正的练习和开发文件,用于练习 GoldEn Retriever

GoldEn Retriever 猜测的查询问题,以及内容约束问答模型的开发/测验集输入

这些资源都是英文的

关于模型的更具体介绍,能够阅览原论文 《Answering Complex Open-domain Questions Through Iterative Query Generation》 https://nlp.stanford.edu/pubs/qi2019answering.pdf

关于 EMNLP-IJCNLP 2019 的更多报导欢迎持续重视雷锋网 AI 科技谈论。

via http://ai.stanford.edu/blog/answering-complex-questions/ ,雷锋网 AI 科技谈论编译

雷锋网版权文章,未经授权制止转载。概况见 转载须知 。

热门文章

随机推荐

推荐文章