美团搜索粗排最佳化的探索与实践

发布时间:2024-02-04 12:20:12

杂、修习能力也爆冷的框架作为 Teacher 框架，骨架较为非常简单的框架作为 Student 框架，通过 Teacher 框架来辅助 Student 框架专业训练，从而将 Teacher 框架的“专业知识”传递给 Student 框架，解出决原因 Student 框架的精准度增爆冷。精排浓缩细排的左左图如下左图 2 表，浓缩建议分成都有三种：精排结果浓缩、精排至少据资料分析高分浓缩、特点连续性浓缩。末尾则会分别简介这些浓缩建议在美团抓取细排当中的实证经验。

左图2 精排浓缩细排左左图

3.1.1 精排结果列出浓缩

细排作为精排的在此之后置模块化，它的远距离是中长期挑选出能量密度比较好的候选空集开入精排，从专业训练比对挑选出来看，除了常规的客户端愈演愈烈不当（点击、下单、支付）的 item 作为正比对，公之于众从未愈演愈烈不当的 item 作为同列比对除此以外，还可以替换成一些通过精排框架排列结果内部结构的正同列比对，这样既能一定程度缓解出细排框架的比对为了让反转，也能将精排的排列能力也迁入到细排。末尾则会简介在美团抓取故事情节下，应用于精排排列结果浓缩细排框架的实证经验。

战略1：在客户端反馈的正同列比对相结合，随机挑选出不及量精排排列靠后的从未公之于众比对作为细排同列比对的可用，如左图 3 表。该项改动应用应用软件 Recall@150（基准暗示参照红皮书）+5PP，线上 CTR +0.1%。

左图3 可用排列结果靠后同列实有

战略2：如此一来在精排排列后的空集里面同步开行随机采样想得到专业训练比对，精排排列的后方作为 label 内部结构 pair 对同步开行专业训练，如下左图 4 表。应用应用软件精准度相较战略1 Recall@150 +2PP，线上 CTR +0.06%。

左图4 排列靠在此之前靠后看成 pair 对比对

战略3：基于战略2的比对集挑选出，运用作对精排排列后方同步开行新科技性内部结构 label ，然后根据新科技性 label 内部结构 pair 对同步开行专业训练。应用应用软件精准度相较战略2 Recall@150 +3PP，线上 CTR +0.1%。

3.1.2 精排至少据资料分析高分浓缩

在此之末尾应用于排列结果浓缩是一种比较细糙应用于精排和文档的方式也，我们在这个相结合促使添加至少据资料分析高分浓缩[8]，想要细排框架输入的高分与精排框架输入的高分产自尽量交叉，如下左图 5 表：

左图5 精排至少据资料分析高分内部结构辅助死伤

在明确解出决原因上，我们运用作两下一阶段浓缩实例，基于预先专业训练好的精排框架来浓缩细排框架，浓缩 Loss 运用作的是细排框架输入和精排框架输入的最大者平方误差，并且添加一个常量 Lambda 来管控浓缩 Loss 对事与愿违 Loss 的冲击，如表达式（1）表。应用于精排高分浓缩的分析方法，应用应用软件精准度 Recall@150 +5PP，线上精准度 CTR +0.05%。

3.1.3 特点连续性浓缩

业内通过专业知识浓缩解出决原因精排指导细排连续性仿真已经被验证是一种有效增爆冷框架精准度的方式也[7]，然而如此一来用传统习俗的分析方法浓缩连续性有都有有缺陷：第一是不能浓缩细排和精排中间的排列间的关系，而在此之概要已谈到，排列结果浓缩在我们的故事情节当中，线下、线上除此以外有精准度增爆冷；第二是传统习俗运用作 KL 散度作为连续性范数的专业知识浓缩建议，把连续性的每一维单独对待，不能短时间内浓缩高度涉及的、骨架化的和文档[9]，而在美团抓取故事情节下，至少据资料是高度骨架化的，因此运用作传统习俗的专业知识浓缩战略来做到连续性浓缩确实不能较好地捕获这种骨架化的专业知识。

我们将对比修习新科技应用到细排仿真当中，使得细排框架在浓缩精排框架的连续性时，也能浓缩到序的间的关系。我们用来声称细排框架，用来声称精排框架。结论是至少据资料集当中的一个恳请是该恳请下的一个正样实有，而是该恳请下互换的个同列样实有。

我们将分别转换到细排和精排因特网当中，想得到其互换的连续性和，与此同时，我们将转换到细排因特网当中，想得到细排框架序列后的连续性。对于对比修习同列实有对的挑选出，我们运用作战略 3 当中的建议，对精排的依次同步开行新科技性，同档内精排、细排的连续性对看成是正实有，不尽相同档间细排、精排的连续性对看成是同列实有，而后用 InfoNCE Loss 来冗余这个远距离：

其当中声称两个线性的点积，是密度系至少。通过对 InfoNCE loss 的物理性质同步开行分析，不难断定上式某种程度上等价于最大化细排连续性和精排连续性互和文档的一个下界。因此，该分析方法某种程度上是在互和文档本质上最大化精排连续性和细排连续性中间的一致性，能够更加短时间内浓缩骨架化专业知识。

左图6 对比修习精排和文档迁入

在上和文表达式 (1) 的相结合，可用对比修习连续性浓缩 Loss，应用应用软件精准度 Recall@150 +14PP，线上 CTR +0.15%。涉及兼职的参考素材可以参考我们的论和文[10]（正在投稿当中）。

3.2 精准度稳定性协同冗余

在此之末尾谈到线上至少据资料分析的细排候选集较大，受制于子系统全传输稳定性的理论上，细排无需考虑至少据资料分析可靠性。在此之概要谈到的兼职都是基于非常简单 DNN + 浓缩的实例来同步开行冗余，但是假定如下两个原因：

目在此之前受限于线上稳定性而只应用于了非常简单特点，从未替换成更加为独特的一个大特点，引发框架精准度还有促使增爆冷的密闭。

固定细排框架骨架的浓缩则会死伤浓缩精准度，从而造成次优解出[11]。

根据我们的实证经验，如此一来在细排层替换成一个大特点是不能满足线上除此以外值拒绝的。因此为了解出决以上原因，我们聚焦并实证了基于大脑因特网驱动程式抓取的细排仿真建议，该建议同时冗余细排框架的精准度和稳定性，为了让出满足细排除此以外值拒绝的最佳特点Pop和框架骨架，既有驱动程式左图如下左图7表：

左图7 基于 NAS 的特点和框架骨架为了让

末尾我们对其当中的大脑因特网驱动程式抓取（NAS）以及替换成可靠性仿真这两个新科技创新点同步开行非常简单简介：

大脑因特网驱动程式抓取：如上左图7表，我们运用作基于 ProxylessNAS[12]的仿真方式也，整个框架专业训练除了因特网常量除此以外减低了特点 Masks 常量和因特网驱动程式常量，这些常量是可二阶的，随着框架远距离一同修习。在特点为了让大部分，我们给每一个特点替换成一个基于平方根产自的 Mask 常量，请注意表达式（4），其当中平方根产自的 θ 常量通过反向传播同步开行更加新，事与愿违获得每个特点的重要度。在骨架为了让大部分，运用作了 L 层 Mixop 声称，每组 Mixop 包括 N 个可供为了让的因特网骨架短剧，在实验当中，我们运用作了不尽相同隐层大脑短剧至少的多层感知机，其当中 N= {1024, 512, 256, 128, 64}，同时我们还减低了隐藏短剧至少为 0 的骨架短剧，用作为了让具有不尽相同螺旋式的大脑因特网。

可靠性仿真：为了在框架远距离当中仿真可靠性基准，我们无需运用作一个可二阶的修习远距离来声称框架费时，细排框架的费时主要分成特点费时和框架骨架费时。

对于特点费时来说，每个特点 fi 的时间延迟期望可以被仿真为如表达式（5）表，其当中是服务口打点纪录的每个特点除此以外值。

（）

在仅仅原因当中特点可以分成两大类，一大部分是下游透传类特点，其时间延迟主要源自下游传输时间延迟；另除此以外一类特点来自于本地赚取（读写 KV 或者测算），那么每个特点Pop的除此以外值可以被仿真为：

其当中和声称互换特点空集的个至少，和仿真子系统特点拉取模版度。

对于框架骨架的时间延迟仿真可请注意上左图 7 右方大部分，由于这些 Mixop 的执行者是依次同步开行的，因此我们可以规避递归的方式也的测算框架骨架时间延迟，整个框架大部分的费时可以用仍要一层的 Mixop 来表达，左左图如下左图 8 表：

左图8 框架时间延迟测算左图

左图8 左边是装配有因特网驱动程式为了让的细排因特网，其当中声称第层的第个大脑短剧的值。右方是因特网时间延迟测算左左图。因此整个框架至少据资料分析大部分费时可以用仍要一层框架来声称，如表达式（7）表：

事与愿违我们把可靠性基准替换成框架，事与愿违框架专业训练的 Loss 如末尾表达式（8）表，其当中，声称精排因特网，、、声称平衡点特异性，、分别声称细排和精排的扣分输入。

通过大脑因特网驱动程式抓取的仿真来协同冗余细排框架的精准度和至少据资料分析稳定性，应用应用软件 Recall@150 +11PP，事与愿违应用应用软件上时间延迟不减低的原因下，线上基准 CTR +0.12%；参考兼职可参考[13]，已被 KDD 2022 接收。

4. 阐释

从 2020 年开始，我们通过大量的建设工程稳定性冗余使细排层合上 MLP 框架，在2021 年我们继续在 MLP 框架相结合，持续性乘积细排框架来增爆冷细排精准度。首先，我们借鉴业内特指的浓缩建议来同步精排冗余细排，从精排结果浓缩、精排至少据资料分析高分浓缩、特点连续性浓缩三个本质分别同步开行了大量实验，在不减低线上时间延迟的原因下，增爆冷细排框架精准度。

其次，受制于传统习俗浓缩方式也不能很好处理排列故事情节当中的特点骨架化和文档，我们自研了一套基于对比修习的精排和文档迁入细排建议。

仍要，我们促使受制于细排冗余某种程度上是精准度和稳定性的 trade-off，运用作多远距离仿真的思路同时冗余精准度和稳定性，合上大脑因特网驱动程式操作者抓取新科技来同步开行求出出，让框架操作者为了让可靠性和精准度最佳的特点空集和框架骨架。后续我们则会从都有几个之外继续乘积细排层新科技：

细排多远距离仿真：目在此之前的细排某种程度上还是一个单远距离框架，目在此之前我们正在先前将精排层的多远距离仿真应用作细排。

细排同步的全子系统高效率算力均等：细排可以管控解职的算力以及精排的算力，针对不尽相同故事情节，框架无需的算力是不一样的，因此高效率算力均等可以在不降低线上精准度的原因下减小子系统算力消耗，目在此之前我们已经在这个之外获得了一定的线上精准度。

5. 红皮书

传统习俗的排列应用应用软件基准多以 NDCG、MAP、AUC 类基准为新标准，对于细排来说，其某种程度更加偏向于以空集为了让为远距离的解职类任务，因此传统习俗的排列基准不利于衡量新标准细排框架乘积精准度一般来说。我们借鉴[6]当中 Recall 基准作为细排应用应用软件精准度的衡量新标准基准，即以精排排列结果为 ground truth，衡量新标准细排和精排排列结果 TopK 的交叉程度。Recall 基准明确定义如下：

该表达式的力学含义即为衡量新标准细排排列在此之前 K 个和精排排列在此之前 K 的吻合度，该基准更加为符合细排空集为了让的某种程度。

6. 作者简介

晓江、所贵、李想、曹越、培浩、肖垚、达遥、陈留、云森、利在此之前等，除此以外来自美团和平台/抓取举荐算法部。

7. 参考和文献

[1] Wang Z, Zhao L, Jiang B, et al. Cold: Towards the next generation of pre-ranking system[J]. arXiv preprint arXiv:2007.16122, 2020.

[2] Ma X, Wang P, Zhao H, et al. Towards a Better Tradeoff between Effectiveness and Efficiency in Pre-Ranking: A Learnable Feature Selection based Approach[C]//Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2021: 2036-2040.

[3] 腾讯音乐：国民K歌举荐子系统驱动程式及细排的设计

[4] 真爱土豆网短视频举荐：细排篇

[5] Transformer 在美团抓取排列当中的实证

[6] 多业务仿真在美团抓取排列当中的实证

[7] Tang, Jiaxi, and Ke Wang. "Ranking distillation: Learning compact ranking models with high performance for recommender system." Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.

[8] Hinton, Geoffrey, Oriol Vinyals, and Jeff Dean. "Distilling the knowledge in a neural network." arXiv preprint arXiv:1503.02531 (2015).

[9] Chen L, Wang D, Gan Z, et al. Wasserstein contrastive representation distillation[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 16296-16305.

[10] Yue Cao, Xiaojiang Zhou, Peihao Huang, Yao Xiao, Dayao Chen, Sheng Chen: Contrastive Information Transfer for Pre-Ranking Systems. CoRR abs/2207.03073 (2022)

[11] Liu Y, Jia X, Tan M, et al. Search to distill: Pearls are everywhere but not the eyes[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 7539-7548.

[12] Cai H, Zhu L, Han S. Proxylessnas: Direct neural architecture search on target task and hardware[J]. arXiv preprint arXiv:1812.00332, 2018.

[13] Xiang Li, Xiaojiang Zhou, Yao Xiao, Peihao Huang, Dayao Chen, Sheng Chen, Yunsen Xian:AutoFAS: Automatic Feature and Architecture Selection for Pre-Ranking System. CoRR abs/2205.09394 (2022)

微软为Vue.js举出Power BI缓冲器 Oracle惨不忍睹微软本世纪最大的应用软件产品：超36斤的C/C++编译器

这里有最新开源电脑系统、应用软件更加新、新科技干货等素材

点这里 ↓↓↓ 回想重视✔ 标星⭐ 哦~

。

宁波第三代试管婴儿多少钱
肠炎宁和妈咪爱的区别
预约挂号
肠炎宁能治拉肚子吗
肠炎宁颗粒有哪些作用

上一篇：诸葛亮去世后，阿斗连杀三位重臣，众人这才明白：他的傻；也装的

下一篇：伟大的6-1！恭喜国膝，恭喜山东泰山，昔日王牌归化有望重返国膝