全部文章
访谈
Salesforce首席科学家Socher尝试让机器一心多用【算力全球瞭望塔】
2019-03-20
2370
Salesforce首席科学家Socher尝试让机器一心多用【算力全球瞭望塔】

算力说


在机器学习领域,目前主要的理论仍然是单任务学习,也就是单次学习一个任务。与之相比,多任务学习是一种联合学习,在学习一个问题的同时,可以通过使用共享表示来获得其他相关问题的知识。机器的泛化学习能力离不开归纳偏置(Inductive bias)这一概念,这篇文章便介绍了一个联合的多任务应答模型,它通过设计归纳偏置来提高模型的泛化能力。


本期编译文章来自于Richard Socher 于2018年发表的关于“如何让机器同时解决自然语言处理的多类任务”的优质论文。Richard Socher在文中介绍了其团队为探索适用不同类型任务的模型所开发的自然语言十项全能挑战(decaNLP),并提出一个新的多任务问答网络MQAN,实现构建迁移学习模型的设想。


Richard Socher是斯坦福大学计算机系博士,深度学习公司MetaMind的创始人兼CEO/CTO,著名CRM软件服务公司Salesforce的首席科学家。


【算力观点】


  • 在神经网络算法盛行的今天,自然语言处理(NLP)的多任务联合学习必然将会成为一大趋势。近年来,数据的积累和计算能力的提高令人们开始意识到,神经网络具有强大的表达与学习能力。机器泛化学习能力开始走进人们的视野,基于神经网络的多任务学习模型将有待进一步的研究与挖掘。


  • 归纳迁移是提高机器泛化学习能力的核心思想。多任务学习利用隐含在相关任务训练中的信息,共享不同任务已学到的特征表示,获得相关的学习任务之间通用的知识。


  • 探索自然语言处理的通用模型:十项全能挑战的诞生


    自然语言十项全能(decaNLP)由Richard Socher团队开发,涵盖优化后的十项挑战性任务:自动问答、机器翻译、文本摘要、自然语言推理、情感分析、语义角色标记、关系提取、目标导向对话、语义分析和常识代词解析。

     

    decaNLP将所有任务构建为问答,在输入中包括上下文、问题和答案。如下图所示,每个decaNLP任务都有一个示例,显示了如何将数据集预处理为问答题目。红色的回答词是通过指向上下文生成的,绿色的是通过问题生成的,蓝色的是通过输出词汇表上的分类器生成的。

     

    图1 decaNLP数据集的概述(图片来源:该篇论文Figure 1)


    单个模型实现有效多任务处理:多任务应答网络

     

    Salesforce Research提出一种应对decaNLP的模型——多任务问题应答网络(MQAN),一个用于 Python 编程的开源机器学习库语言。

     

    对于每一个任务,MQAN分别输入一段文本并以提问题的形式针对该文本提出需要模型去执行的任务,根据分析后针对该问题提出回答。该模型使用自然语言问题为底层任务提供描述,使得单个模型能够有效地进行多任务处理,并使它们更适合作为转移学习和元学习的预训练模型。


  • 图2 MQAN模型的概述(图片来源:该篇论文Figure 2)

  • 多指针编解码器和任务标识


    MQAN的多指针编解码器(multi-pointer-generator decoder)是成功的关键。在每个步骤中,MQAN在三个选项之间做出选择:从词汇表生成、指向问题和指向上下文。下图显示了十项任务数据集中,指针分别在三部分的权重。

     

  • 图3 MQAN如何选择输出答案(图片来源:该篇文章Figure 3)
  •  

    虽然该模型没有接受针对这些决策的监督训练,但它学会了在这三种选项之间切换。当p(vocab)最高时,MQAN对外部词汇表的权重最大。当p(context)最大时,MQAN将最大的权重放在上下文的指针分布上。当p(question)最大时,MQAN对问题的指针分布施加的权重最大。


    适应新任务


    经过decaNLP训练的MQAN学习如何将任何一个任务的特定领域泛化,同时学习可以使新的任务变得更容易的表达。对于两个新任务(英语-德语翻译和命名实体识别),微调一个在decaNLP训练的MQAN比从随机初始化训练,需要更少的迭代并能达到更好的最终表现(如图4),所以在适应新领域和学习新任务时,对decaNLP进行预训练的MQAN的性能优于随机初始化。

      

  • 图4 左图:关于新语言对(英语-捷克语)的训练,右图:关于命名实体识别(NER)的训练。(图片来源:该篇论文Figure 4)
  •  

    此外,通过在推理时用“高兴/生气”或“支持/不支持”来替换训练标签上的“积极/消极”标记来重新措辞问题,只会导致性能的小幅下降。模型对SST问题指针的依赖(参见图3)允许它复制不同但相关的类标签,而不会引起混淆。这表明这些多任务学习模型对问题和任务的细微变化表现更稳健,并且可以推广到新的和不可见的类别中。

     

    这些结果表明,基于decaNLP训练的模型具有同时推广到领域外上下文和多任务问题的潜力,甚至可以适应不可见的类别,进行文本分类。这种输入和输出空间的零样本域自适应(Zero-shot domain adaptation)表明,decaNLP泛化任务的广度,超出了单个任务的训练所能实现的范围。


  文章所载观点仅代表作者本人


  且不构成投资建议


  敬请注意投资风险


声明:本文由入驻五六财经的作者撰写,观点仅代表作者本人,绝不代表五六财经赞同其观点或证实其描述。五六财经提醒您,投资有风险,入市须谨慎。本资讯不作为投资理财建议。
专注区块链产业深度原创报道、研报评级、咨询服务的综合智库平台。为您精选…
+关注
评论
评论
热门标签
热门文章