本文共 2584 字,大约阅读时间需要 8 分钟。
迁移学习最初是在 1995 年举行的 NIPS 神经信息处理系统进展大会“Learning to Learn”研讨会上由卡耐基梅隆大学 Tom Mitchell 等人提出,并迅速发展起终身学习、归纳迁移等多个学习范式,其中发展最快的是多任务学习[6] ,已成为具有严格理论保证的迁移学习方向。随着迁移学习研究的进展,2005 年美国国防部国防高等计划研究署(DARPA)赋予了迁移学习新的研究使命:学习系统应具备将过去任务学习的知识和技能应用于新任务的能力。此后,迁移学习和多任务学习具有了不同的研究目标:多任务学习侧重学习多个任务,对称地提高每个任务的学习效果,是多个经典监督学习任务的叠加和强化;而迁移学习侧重从历史任务迁移知识到目标任务,是经典监督学习在异构分布下的扩展和深化。近十年来迁移学习取得了众多理论和方法成果,成为机器学习的前沿研究方向之一。
本文主要研究面向大数据分析的深度迁移学习,涉及的关键技术有分布差异度量准则、领域不变特征学习、可扩展性优化算法等。下面综述国内外的研究现状,从而明确本文的研究问题和主要创新点。
分布差异度量准则:迁移学习中训练数据(源领域)和测试数据(目标领域)不服从独立同分布条件,从而对机器学习的泛化能力提出了更高的要求。纽约大学 Mohri et al [7] 提出迁移学习理论,证明迁移学习的泛化误差界由训练数据上的经验风险,以及训练数据与测试数据之间的概率分布差异两部分决定。由此可见,分布差异度量准则是迁移学习的关键技术支撑之一。统计学界和机器学习界都提出了有理论保证的分布差异度量准则,包括能量距离[8]和核嵌入距离[9]等。卡耐基梅隆大学Smola et al [9] 提出的最大均值差异准则(MaximumMean Discrepancy,MMD)在迁移学习中得到了最为广泛的应用,相关代表性工作包括:德国普朗克智能系统研究院 Schölkopf et al [10] 提出基于 MMD的样本重要性调整法,通过调整训练样本重要性权重使其概率分布与测试数据更相似;香港科技大学Yang et al [11] 提出基于 MMD 的迁移降维学习方法,通过最小化 MMD 准则学习训练数据和测试数据的公共降维子空间,使分布差异在该子空间中达到最小;南洋理工大学 Tsang al et [12] 提出迁移多核学习方法,将 MMD 准则作为多核支持向量机的正则项,使多核支持向量机能从源领域泛化到目标领域;Long et al [13] 提出适应正则化框架,扩展 MMD 准则同时度量边缘分布差异和条件分布差异,在数据与模型同时失配的场景下取得了显著的准确率提升。
虽然基于 MMD 准则的迁移学习方法较为成功,且是少数初步具备泛化误差界的迁移学习方法,但仍存在以下局限:① 核函数的局部泛化能力不足以刻画样本分布间的结构性差异[1] ;② 预设参数的核函数对分布差异度量不能达到最优[14] 。这导致分布差异校正不足,提高负迁移风险。对第一个问题,Long et al [15] 提出领域不变迁移核学习方法,通过对源领域和目标领域核矩阵的本征系统进行匹配并最小化两者之间的低秩重构误差,学得领域不变核支持向量机。对第二个问题,统计学界已提出 MMD的改进方法,例如伦敦大学学院 Pontil et al [16] 提出多核最大均值差异(MK-MMD)准则。将这些新准则用于提升迁移学习的准确率和安全性,是一个有待研究的重要问题。领域不变特征学习:除基于分布差异度量准则的方法外,另一类代表性方法是通过隐含特征学习降低领域差异,例如 Blitzer et al [17] 提出的结构对应学习,Yang et al [18] 提出的谱特征对齐等,但这些方法通常依赖于领域先验知识(如自然语言的词频词义),因而对通用机器学习任务(如对象识别)并无明显的效果。为了解决现有隐含特征学习方法过度依赖于领域先验知识的缺点,深度学习被成功用于提取抽象特征表示、强化迁移学习效果。加拿大蒙特利尔大学 Y. Bengio 课题组首次将深度去噪自编码器用于大规模跨领域情感分类,取得了该数据集上最好的实验效果[19] ;他们在 NIPS 2014 论文中透彻地研究了深度神经网络的可迁移性,证明深度学习可以降低但不能消除不同领域之间的分布差异[20] 。加州大学伯克利分校 T. Darrell 课题组将深度卷积网络用于抽取领域不变通用特征,在多种计算机视觉任务(对象识别、场景识别等)取得非常好的识别效果[21-22] 。斯坦福大学 A. Y. Ng 课题组将深度学习用于多模态学习,使知识可以在图像、视频等不同模态之间有效迁移,开创了深度学习与多模态学习结合的先河[23] 。
虽然深度学习可以大幅提高迁移学习效果,但抑制可变的隐含因式结构可能会扩大跨领域数据分布之间的差异。这是因为在深度特征表示下源领域和目标领域都变得更“紧致”从而更容易区分,根据迁移学习理论,这种扩大的分布差异会降低迁移学习效果,提高负迁移风险。为此,本文创新了深度迁移学习范式,在国际上首次将分布差异度量准则与深度学习方法紧密结合,提高深度迁移学习的安全性和对跨领域数据分析的有效性,推导了泛化误差界[24] 。不过,这仅是初步的进展,在深度网络架构、误差函数定义、可扩展优化算法方面还有很多工作要做。
可扩展性优化算法:机器学习方法的效果与训练数据规模具有正相关性,通常训练数据越多模型所表现的效果越好。深度卷积网络能够取得比支持向量机更优越的性能,一个重要的原因是深度卷积网络具有线性的计算复杂度,可以处理超大规模的数据集;而基于非线性核函数的支持向量机具有二次或以上计算复杂度,只能处理中小规模的数据集。现有迁移学习方法大多要求二次或以上计算复杂度,不满足大数据分析需求。深度学习方法虽然具备线性复杂度,但这类方法未考虑分布差异问题。因此,亟待研究深度迁移学习方法的线性复杂度可扩展性优化算法。
综上所述,迁移学习作为一个前沿方向,现有的多数方法都基于较强的模型假设,负迁移(Negative Transfer)风险高[3] ,在实践中依赖试错,技巧性要求高。为此,亟待研究深度迁移学习模型和方法,提高迁移学习的安全性。
转载地址:http://udszo.baihongyu.com/