400-123-4567
联系我们
电话:400-123-4567
传真:+86-123-4567
邮箱:admin@youweb.com
手机:13800000000
地址:广东省广州市天河区88号
天火资讯您当前的位置: 首页 > 天火资讯

多目标优化和多任务学习的区别是什么?

更新时间:2024-06-18 21:14:15

我看了一圈答案好像部分人认为这俩是一个东西,但是看@王源大佬的这篇回答这俩好像又是不同的领域NIPS 2018 有什么值得关注的亮点?

那么到底他们之间的区别是什么,难道真的只是learning和opertimization的区别吗

额外的,multi-task和multi-view之间是否有联系和区别呢

我觉得完全没关系的吧。

多目标优化同时优化多个函数,想办法得到帕累托最优

多任务学习迁移学习一部分,一个网络一部分公用,之后多个分支做不同任务

我觉得“多目标模型”和“多任务模型”的区别,两者的差异点的关键在于“任务”的定义,一个“任务”其实是包含了“任务数据集”和“任务目标”,就是由多个X到多个Y,多任务其实说的是依赖于多个数据集及其任务目标,进行相互辅助学习(但不追求同时,所以概念贴近于迁移学习),而多目标模型是使用同一个数据源,但是要同时输出Y的集合。

比较特殊的,其实完全也可以利用 迁移学习/多任务学习 来做多目标模型,比如A项目组的多目标模型通过一定的方式,B项目组拿去用,这时候如果找到一个机制,同时学习A、B项目组的任务,那这就成了使“多(多目标)任务学习“。

最近在找相关资料,按照自己的理解回答一波:

多目标优化是优化(遗传算法优化,进化算法优化等等),多任务学习是学习(机器学习,深度学习),多目标优化可以去优化多任务学习的某个部分(比如多个任务之间的权衡).多目标优化可以用在很多地方,不一定跟学习结合.

多目标系列

本文分享AAAI2023的一篇论文,FDN,用于解决多目标中的负迁移问题。


FDN(Feature Decomposition Network)[1]出自论文

《Feature Decomposition for Reducing Negative Transfer: A Novel Multi-task Learning Method for Recommender System》

下载链接:Feature Decomposition for Reducing Negative Transfer: A Novel Multi-task Learning Method for Recommender System

核心思路是通过引入约束,对task依赖的特征表征进行分解,使task的共性和特性进行更准确的学习,从而缓解多任务学习的负迁移问题。

前面几篇分享《多目标 | 模型结构: MMoE开辟结构新方向》《多目标 | 模型结构: PLE显式细化expert表征》多次提到多目标学习的难点在于task的关系复杂,存在拉扯问题,导致负迁移和跷跷板现象。针对负迁移的问题,MMoE将bottom拆分为多个expert,不同的task对expert自适应组合;PLE在MMoE的基础上,进一步对expert细化,将其拆分为task共享和task独有两部分进行学习。

这两种方法在一定程度上可以缓解task之间的拉扯,但由于task对expert的学习是通过gate自适应的方式,使得expert在学习特征表征时受到的约束弱,仅来自task的损失约束,因此很难使expert的特征表征达到理想状态,即不同expert学不同子空间的表征,有效区分task共性和特性。

理想情况下,多目标模型中不同task依赖的特征表达包括共享和独有两部分,这两部分来自不同的子空间,区分度明显,如图1右图所示。实际模型在学习过程中,容易陷入“偷懒”状态,难以达到理想情况,而是处于一个中间状态,即共享和独有两部分的特征表征的子空间存在交叉,不完全独立,如图1左图所示。

图1 task特征表征 (圆形表示task共享部分,矩形表示task A独有部分,三角形表示task B独有部分)

为了降低特征表征的冗余问题,FDN采用特征分解的方式,将其分解为task共享和task独有两部分,并在特征表征学习过程中引入更强的约束,降低两者的交叉性,降低不同task中特征表征的噪音,从而提高输入到task中的特征表征的质量和效果。

FDN在模型结构上沿用多目标模型的整体框架,在底层bottom部分对特征分解,进行特征抽取,再将提取到的特征按照一定的方式组合后输入到不同的task中。

为了提高特征分解的学习效果,FDN引入了正交和辅助task等约束,使task共享和task独有的特征表征更聚焦,降低冗余和噪音,提高表征的质量。

FDN的模型结构整体类似CGC结构,包括bottom、特征组合和task几部分,如图2所示,其中bottom部分进行特征分解,对每个task采用单组或多组分解对(DeComposition Pair,简写为DCP),每组分解对包括task共享和task独有两种特征表征,在特征组合部分对task共享和task独有两部分进行组合,得到task的输入,进行后续task部分的学习。

图2 FDN模型结构

模型对每个task的学习可以表示为式子(1),其中task的输入由共享和独有两种特征表征组合, f^{s}(X) 表示某个task DCP中task共享的特征表征, f^{p}(X) 表示task独有的特征表征, g_k( \\cdot ) 表示task K对特征表征的组合方式, \\sigma 为激活函数。

FDN在bottom部分通过特征分解的方式,人为先验地在特征表征层面强化了task共性和task特性的差异,但模型在学习过程中,受限于监督信号的强度,未必能将不同的信息学到不同的表征中,因此为了更好地达到特征分解的目的,使不同特征表征的子空间更“纯净”、区分度更强,对特征表征的学习引入新的约束:特征表征正交约束、辅助task约束和task共享表征融合约束。

2.2.1 特征表征正交

正交约束目的是使每个task的DCP中共享和独有两种特征表征尽可能差异化,从而提高模型对各个task之间的共性和差异性的捕捉能力。

L_{orth}=\\sum_{k=1}^{K}{\\sum_{m=1}^{M}{||(f_{m}^{s})^{\\mathrm{T}}f_{m}^{p}||_{F}^{2}}}\	ag{2}

正交约束的计算如式子(2)所示,其中K表示task的数量,M表示task k的特征分解对(DCP)数量, f_{m}^{s} 表示task k的第m个task共享的特征表征, f_{m}^{p} 表示task k的第m个task独有的特征表征, ||  \\cdot  ||_{F}^{2} 为Frobenius范数,这个范数是针对矩阵而言的,可以类比向量的L2范数,其计算是对矩阵中每个元求平方和后开方。

2.2.2 辅助task

正交约束可以加强两种特征表征的正交性,而正交的维度可以有非常多,无法保证两者是task共享和task独有这个维度的正交,因此引入辅助task约束,使task的DCP中两种表征,不仅仅只是理论含义上的“共享”和"独立",而是实际上也学到这两种子空间上。

对每个task而言,将DCP中task独立的特征表征看成是该task特征抽取的单独小网络,因此用这部分的特征表征进行task预估,作为辅助task。将辅助task的损失作为task独有特征表征学习的约束,可以使这部分表征聚焦于学习task的特性,再结合正交约束和主loss的约束,task共享特征表征则可以聚焦到task共性的捕捉上。

L_{aux}=\\sum_{k=1}^{K}{\\sum_{m=1}^{M}{L_{k,m}(\\hat{y}_{m}^{k}, y^{k})}}\	ag{3}

\\hat{y}_{m}^{k}=\\sigma(f_{m}^{k, p}(X))  \	ag{4}

辅助task约束如式子(3)所示,其中 L_{k,m}( \\cdot ) 为task k的辅助loss函数,可以选择和主loss保持一致,y^{k}为task k的真实标签, \\hat{y}_{m}^{k} 为task k中第m个独有特征表征的task预估,计算如式子(4)所示。

2.2.3 task共享表征融合

所有task的共享表征融合后,得到一个整体的共享表征,各个task将其和task各自独有的表征concat,得到task的输入。这个过程中,共享表征的融合操作,可以看作是对各个task共享表征的约束,即把各个task的共享表征的学习约束到同一个子空间。

相比于对所有task学习一个共享表征,这种方式通过各个task的共享表征而后融合,可以达到在同一空间中,学到更丰富的表达的效果。

2.2.4 整体损失

FDN整体的损失包括task的主loss,特征表征正交loss和辅助task loss三部分,如式子(5)所示。

L=L_{task}+ L_{orth}+ L_{aux}\	ag{5}

相比于多目标学习中的其它方法,如MMoE、PLE等,FDN特征分解的思路,和CGC\\PLE没有本质区别,都是分解为task共享和task独有两部分,其中微小的差异在于,FDN中每个task有对应的task共享部分,而CGC/PLE中,task共享部分是一个整体,所有task参数共享。

FDN的核心改进在于加强了对特征表征的约束,使其可以更符合设计初衷去抽取特征。当只有主loss约束时,特征表征虽然在形式上进行了分解,但实际学到的可能存在交叉,区分度有待提高。论文对CGC、PLE和FDN三种方法的特征表征进行了可视化,如图3所示,可以看出,通过加入更多的约束,task共享和task独有两种特征表征的区分度和差异化明显提升。

图3 特征表征分布效果

模型的学习是一个复杂的过程,但有一点可以肯定,模型的学习效果和它收到的监督信号密切相关,当发现模型某些方面表现不如预期,可以借鉴FDN中加强约束的方式,引入更强的监督信号,改善模型的学习过程。

FDN的落地并不复杂,主要的代码调整是对特征表征的融合,以及新加几种loss。

论文中仅对bottom中最后一层中两种特征表征使用了正交loss,为了加强这两种表征的正交性,可以考虑在每一层都对两者进行正交约束,如式子(6)所示,其中H表示bottom中特征抽取的层数。 L_{orth}=\\sum_{k=1}^{K}{\\sum_{m=1}^{M}{\\sum_{h=1}^{H}{ ||(f_{m, h}^{s})^{\\mathrm{T}}f_{m, h}^{p}||_{F}^{2}}}}\	ag{6}正交loss使用的是针对矩阵的Frobenius范数,这里可以考虑适当的简化,即用向量之间的范数。这里的简化可以从两方面出发:

  • (1) Frobenius范数计算量大,实际训练中资源消耗大;
  • (2) 向量之间计算范数,实际物理含义是两个向量的正交性,采用Frobenius范数对向量A和向量B进行计算,相当于向量A中每个元素和向量B计算一次代价,这种计算是否有实际物理含义,值得商榷。

FDN对每个task进行了共享和独有的特征分解,因此容易带来模型容量的增加,在实际对比效果时,需在同样的模型容量下进行,才能说明效果是方法上的改进带来的,而非模型容量增加带来的。

推荐系列文章:

工作相关的内容会更新在【播播笔记】公众号,欢迎关注

播播笔记

生活的思考和记录会更新在【吾之】公众号,欢迎关注

吾之

reference

[1]Feature Decomposition for Reducing Negative Transfer: A Novel Multi-task Learning Method for Recommender System. Feature Decomposition for Reducing Negative Transfer: A Novel Multi-task Learning Method for Recommender System

最直白的说、最简单的区别:

优化的三个要素:目标f(x);约束;变量x。

多目标优化,找同一套x,同时优化f1(x),f2(x)…

多任务优化(学习),找多套x1,x2…,分别优化f1(x1),f2(x2)…

【返回列表】
网站首页 关于天火娱乐 天火注册 天火资讯 天火登录 天火平台 天火代理APP 天火开户 联系我们
地址:广东省广州市天河区88号    电话:400-123-4567    传真:+86-123-4567
Copyright © 2012-2018 首页-天火娱乐-注册登录站   ICP备案编号:琼ICP备xxxxxxxx号

平台注册入口