微软最新 NLP 研究获选第六届世界互联网大会“世界互联网领先科技成果”
10 月 20 日,以“智能互联 开放合作——携手共建网络空间命运共同体”为主题的第六届世界互联网大会在浙江乌镇开幕。今年大会的重磅活动“世界互联网领先科技成果发布活动”在大会首日下午举行,活动共评选出 15 项年度互联网科研成果,充分展示了全球互联网领域的最新科技,彰显了互联网创新力量的影响力,以及互联网领域从业者的创造性贡献。
其中,微软以在 NLP 领域的研究和创新——统一预训练语言模型与机器阅读理解技术荣获“世界互联网领先科技成果”奖。微软全球执行副总裁,微软人工智能及微软研究事业部负责人沈向洋博士出席了发布盛会并介绍了这一突破性研究成果。
近年来, 自然语言处理领域进入了一个新的研究和应用范式——预训练加微调,其基本思想是将训练大而深的端对端的神经网络模型分为两步。首先在大规模文本数据上通过无监督学习预训练大部分的参数,然后在具体的自然语言处理任务上添加与任务相关的神经网络(这些神经网络所包含的参数远远小于预训练模型的参数量),并根据下游具体任务的标注数据进行微调。由此,研究者就可以将通过预训练从大规模文本数据中学到的语言知识,迁移到下游的自然语言处理和生成任务模型的学习中。
2019 年,微软亚洲研究院发布了最新的预训练语言模型的研究成果——统一预训练语言模型 UniLM(Unified Language Model Pre-training),该模型涵盖两大关键性的技术创新。一是提出了统一的预训练框架,使得同一个模型可以同时支持自然语言理解和自然语言生成任务,而之前大部分的预训练模型都主要针对自然语言理解任务。第二大创新是提出了部分自回归预训练范式,从而可以更高效地训练更好的自然语言预训练模型。
统一预训练语言模型 UniLM 在一系列自然语言理解和生成任务中均取得了领先的实验结果,相关论文已被 NeurIPS 接收[1]。后续我们将发布相关文章,对 UniLM 模型的技术细节进行详细介绍。
微软全球执行副总裁,微软人工智能和研究院事业部负责人沈向洋博士在发布活动上介绍微软的统一预训练语言模型与机器阅读理解技术
在自然语言处理领域中,机器阅读理解是一个经典且充满挑战的问题,在日常生活中也有着丰富的应用场景。近年来,机器阅读理解技术发展迅速,除了端对端的神经网络模型和预训练语言模型的突破外,大规模数据集也起到了非常重要的推动作用。
SQuAD 的任务是给定一个文本段落和问题,机器阅读系统需要从中找到问题对应的答案,或是判断出没有对应的答案。CoQA 则可以看作 SQuAD 的多轮问答版本,即给定一个文本段落,机器阅读系统在回答完一个问题后,需要进一步回答后续的相关问题,因此在回答问题的同时还需要理解上下文。两大任务以国际评测挑战赛的形式进行,促进了端对端神经网络在机器阅读理解和自动问答方面的研究,也同时见证和推动了预训练模型的突破和进步。
微软亚洲研究院在 SQuAD 和 CoQA两大数据集上均取得了突破性领先的成绩,继2018年1月首次在机器阅读理解挑战赛 SQuAD 中率先超越人类水平后,又于2019年3月首次在对话式问答挑战赛 CoQA 中使各项指标超越人类水准。
微软亚洲研究院的统一预训练语言模型和机器阅读理解技术相关的研究成果发表在了包括 NeurIPS、ACL、EMNLP、AAAI、IJCAI 等在内的自然语言处理和人工智能领域的国际学术会议上。同时,相关技术也已广泛转化入微软的产品中,比如,应用在必应(Bing)搜索中的问答服务、微软广告中的生成和排序任务,以及 Word 中的语法错误修正等。而这其中的不少工作都得益于微软亚洲研究院与微软研究院以及微软多个产品部门的紧密合作。
为了与学术界和产业界的伙伴们一起,进一步推动自然语言理解和生成的发展与创新,微软亚洲研究院已将统一预训练语言模型 UniLM(v1)在 GitHub 上开源[2],欢迎大家使用、交流。
【钛晨报】WeWork拟裁员2000名;谷歌召开2019秋季硬件发布会;苹果无线充电侵权遭起诉
出海日报 软银拉美投资再添一笔,墨西哥二手车平台获投;印度电商独角兽Udaan筹集5.85亿美元