当前位置: 主页 > 国际新闻 >

项冠军霸榜蛋白质功能预测任务超1年中科大成果

发布者:xg111太平洋在线
来源:未知 日期:2024-10-03 07:42 浏览()

  略GNN特点卷积的题目针对涣散陶冶框架中忽,高效的标签正则化技巧咱们提出了一种简陋,Deconvolution即标签反卷积(Label ,D)L。标签为Y设节点,中的一面节点标签是缺失的)要是职责是半监视的(指图,到的固定节点特点陶冶GNNs即可按照预陶冶的NEs推理得。

  Ns涣散陶冶的范式举行商讨本职业对现有的NEs和GN,正在NE陶冶阶段指出了现有职业,NN中的特点卷积它们没有商量G,原始联络陶冶的倾向函数并不等价导致它们提出的近似亏损函数与,的研习过错存正在明显,(详见原论文举的反例)进而无法收敛到最优解。

  尝试中正在本,tch的巨细不进步12预陶冶NEs最大ba,G(B)鲜明幼于。以所,s举行联络陶冶是难以告竣的通过图采样对NEs和GNN。

  卷积时的内存和时期开销为了避免GNNs特点,SAGN)最先将特点卷积从GNNs平分离出来极少可扩展的GNNs(比方 GAMLP 和 。特点卷积举行一次预惩罚然后基于固定节点特点对。而然,可用NEs研习的因为节点特点是,s的联络陶冶照旧是难以接受的这种念法关于NEs和GNN。

  很多紧急范畴图平常操纵于,络和卵白质互相影响搜集比方引文搜集、商品网。际操纵中正在很多实,富且有效的属性新闻图中的节点拥有丰。如例,的节点(卵白质)不同蕴涵着题目/摘要、商品的文本描绘和卵白质序列等紧急新闻引文搜集中的节点(论文)、商品搜集中的节点(商品)以及卵白质互相影响搜集中,游职责尽管紧急这些新闻对下。这些庞大属性中搜捕节点特点的紧急用具之一而近年来兴盛的很多壮大的预陶冶模子是从。

  有着好似的研习举止固然LD和联络陶冶,上比联络陶冶更高效但LD正在特点存储。来说完全,tch节点B数据上的亏损为了估量mini-ba,庞大度对B中的属性举行编码LD的NE以O(B)的内存。而然,的采花式图中的属性举行编码联络陶冶的NE对巨细为GB,存庞大度O(GB)发生比LD更大的内。

  研习基准数据集“标杆”OGB是目前公认的图,Jure Leskovec传授团队创立由图研习范畴的国际顶级学者斯坦福大学,议NeurIPS上正式开源于2019年国际顶级学术会。

  志皓石,学电子工程与新闻科学系学士学位2020年得回中国科学技巧大。的 MIRA Lab 尝试室攻读博士商讨生现于中国科学技巧大学电子工程与新闻科学系,杰传授师从王。和AI4Science商讨笑趣网罗图表现研习。ICLR等期刊、集会上宣告论文他曾以第一作家正在 TPAMI、,率约为8%的Spotlight讲演曾受邀正在ICLR 2023做经受。

  所示如下,据集上的呈现都明显优于全数的baselineLD正在分歧GNN backbone的三个数。

  (NE)的参数表现节点编码器。:用于卵白质序列的ESM2因为大型的预陶冶模子(如,拥有壮大的特点提取本事用于文本的Bert),节点编码器f故将其行动。

  颖的图神经搜集的逆运算该技巧引入了一个至极新,算法来迅疾近似它并提出标签反卷积,等价的亏损函数进而修筑一个,神经搜集微调技巧的研习过错从而杀绝了守旧讲话模子和图。

  方华途,械打算与主动化专业学士学位2023年得回上海大学机。的 MIRA Lab 尝试室攻读硕士商讨生现于中国科学技巧大学电子工程与新闻科学系,杰传授师从王。研习和天然讲话惩罚商讨笑趣网罗图表现。

  预惩罚举行,多次推广内存和时期开销的操作以避免正在NEs的陶冶阶段实施。此因,ch的陶冶倾向为mini-bat:

  性特点卷积的逆映照为了进一步避免线,反卷积来天生逆标签Y(γ)咱们提出了一个可陶冶的标签。γ参数化Y(γ)标签反卷积旨正在用,的表达本事近似使得Y(γ)于

  技巧的庞大性以及NEs的监视信号下面揭示了NEs陶冶阶段分歧陶冶。速率最疾、存储最高效的算法LD和GLEM是全数技巧中。EM比拟且与GL,号中还商量到了图布局LD正在NEs的监视信。

  签与i跳邻人标签的加权和逆标签Y(γ)是确凿标。的权重γi的转化进程图8绘造了微调进程中。者i跳邻人中i较幼的标号逆标签往往是确凿标签或。然是全数标签中对节点分类最紧急的监视信号这是由于确凿标签和i较幼的i跳邻人标签仍。表此,标签存正在过滑润题目i 较大的i跳邻人,i的推广即跟着,能趋于弗成划分i跳邻人标签可。意的是值得注,收敛到平常解权重γi不,此中

  可研习的要么是,固定的要么是。]所示如[2,温和的假设下发生轻易节点预测基于频谱的GNN可能正在极少。多确凿天下的图数据这些假设也合用于许。倾向变为所以陶冶:

  意的是值得注,公式中GNNs的参数θNEs的陶冶阶段不涉及。于分歧的motivation咱们的技巧LD和GLEM基,来说完全,复原GNNLD旨正在,旨正在降低伪标而GLEM签

  些属性和图布局为了同时编码这,aph Neural Network)串联集成正在一块一个常见的架构是将预陶冶模子与图神经搜集GNN(Gr,ode Encoder)对属性举行编码此中预陶冶模子行动节点编码器NE(N。图所示如下,杂的节点属性形成定长的低维嵌入该架构通过节点编码器将这些复,图神经搜集以连接图布局新闻再将其行动节点特点输入到。

  这一离间为了应对,效的标签正则化技巧咱们提出了一种有, Deconvolution)即标签反卷积LD (Label,新鲜的、可扩展性强的近似标签通过对GNN逆映照获得一种。E的陶冶阶段以征服研习过错逆映照有用地将GNN纳入N,陶冶等效的倾向函数进而发生了与联络。D收敛到了最优倾向函数值于是咱们也进一步阐明了L,法供给了表面包管为提出的LD方。验验证通过实xg111企业邮局下最先辈的技巧LD明显优于当,chmark)离间赛的卵白质功效预测职责上斩获「第一名」正在国际顶级图研习模范OGB(Open Graph Ben,9月27日起仍旧至今该纪录从2023年。

  波器的饱动受到频谱滤项冠军霸榜蛋白质功能预测任务超1,效的GNNs架构近来显现了很多高。于频谱的GNNsLD的推导也是基,即:

  逆映照很难精准估量因为非线性GNN的,N的有用近似来取代以是咱们推导GN。NN的频谱公式接下来先容G,积与GNN涣散将线性特点卷。拥有好似表达的逆标然后通过LD参数化签

  时GNNs是可扩展确当NEs的参数β固定,征卷积涣散技巧来优化GNNs可直策应用上述的图采样或者特。

  而然,爆炸题目(neighbor explosion)行动NE的预陶冶模子自身多量参数且GNN的邻人,陶冶NEs和GNN正在现实中并弗成行的两大陶冶困难的叠加让直接端到端联络。s和GNNs涣散陶冶的范式商讨者们滥觞商讨涣散NE,s肯定步数(GNN的陶冶阶段)即先固定NEs的参数陶冶GNN,s肯定步数(NE的陶冶阶段)再固定GNNs的参数陶冶NE,迭代举行两步瓜代。

  标签的(加权)均匀值是k-hop邻人中。N层GNN关于一个,不但依赖于它的特点节点的预测(表现),N跳邻人的特点况且依赖于其。似地类,对其预测有奉献节点的特点不但,的预测也有奉献对其N跳邻人。此因,解NEs陶冶阶段的研习过错i-hop标签可能有用缓。

  ,发生研习过错导致联络陶冶。和图布局方面的研习过错咱们总结了正在节点标签。IANT 和GLEM的亏损函数图5揭示了联络陶冶、LD、G。标签协调天生逆标签LD将图布局与节点,练好似的研习举止仍旧了与联络训。而然,无视了图布局或节点标签GIANT和GLEM,的研习过错导致了明显。

  了节点属性的好似度和标签的好似度为了进一步较量逆标签和线中揭示。好似文本(即文本好似度大于0.6)但标签分歧(节点0和1 咱们从ogbn-arxiv数据集合随机挑选了几对拥有高度,3 2和,)的节点4和5。度不同来评估文本好似度和标签好似度咱们应用TF-IDF算法和余弦好似。都拥有较高的好似度图4a中每对节点,节点好似度较低但分歧对中的,行独立挑选咱们对其进。4c注解图4b和,节点供给好似的监视信号逆标签为拥有好似文本的,点供给分歧的监视信号为拥有分歧文本的节。法告竣这一特点然而确凿标签无。可见由此,标签噪声来保存确凿语义属性逆标签通过低落图布局中的。

  拥有最优性包管的大讲话模子和图神经搜集涣散陶冶框架由中科大王杰传授团队(MIRA Lab)提出的首个,chmark)离间赛的卵白质功效预测职责上斩获「第一名」正在国际顶级图研习模范OGB(Open Graph Ben,9月27日起仍旧至今该记载从2023年。

  而然,练NEs中应用的mini-batch的巨细现有图采样技巧中应用的G(B)鲜明大于预训。)的巨细来对齐mini-batch的巨细要是进一步减幼现有图采样技巧中B或G(B,会明显低浸它们的职能年中科大成果斩获图学习“世界杯”单,所示如下。

  矩阵的逆。意的是值得注,了GNNs参数θ的逐一面正在NEs的陶冶阶段蕴涵。GNNs联络陶冶的研习过错这种连接明显减轻了NEs和,响可扩展性同时不影。

分享到
推荐文章