神经架构搜索

浏览: 时间:2021-12-27 分类:核心技术

深度学习在许多领域展示了强大的学习能力,包括计算机视觉、语音识别、自然语言处理等领域。人们提出了很多强大的深度学习模型,从AlexNet到VGGNet、GoogLeNet、ResNet,再到近几年基于注意力机制的Transformer模型。虽然它们已经足够强大,但是这些模型的设计仍然要需要大量专家知识和较长的时间,这使得非专业人员很难针对不同任务对现有网络架构进行必要的改进,自动化的神经架构设计成为近年来的重要需求。

在此背景下,神经架构搜索(Neural Architecture Search,NAS)被提出,它旨在利用有限的计算资源、最少的人工干预,根据目标任务自动化地设计高性能神经架构,它是自动机器学习(Automatic Machine Learning,AutoML)的子领域。神经架构搜索的总体框架如图1所示。

01

图1 神经架构搜索的总体框架

我们在基于注意力的NAS(如图2)、基于GAN的架构生成(如图3)、基于架构熵正则的可微分NAS优化、基于免训练性能指标的NAS等领域有重要的技术创新。

02

图2 基于注意力的NAS

03

图3 基于GAN的架构生成