高并发场景下推荐模型高效推理算子调度方法研究

许子康; 戚琦

0
0
浏览
下载

摘要
关键词
基金信息
论文图表
同行评议
相关论文
评论

高并发场景下推荐模型高效推理算子调度方法研究

首发时间：2025-02-28

许子康 ¹
许子康(2000-)，男，机器学习、分布式计算、AI加速
戚琦 ¹
戚琦（1982-），女，博导，边缘计算、移动云计算、物联网、普适服务、深度学习和深度强化学习

1、北京邮电大学计算机学院（国家示范性软件学院）,北京 100876

摘要：推荐系统在电子商务、数字媒体等领域中具有重要作用，但随着用户规模的不断扩大，系统在高并发场景下面临着严格的延迟约束和复杂的请求处理挑战。现有的服务框架调度策略主要依赖GPU计算能力来加速单个请求的处理，但未能充分优化算子的并发执行，且难以有效区分和处理具有不同商业价值的请求，导致算子间干扰、资源利用率低下以及推理延迟增加等问题。针对上述问题，本文提出了一种创新的算子调度系统OpStream，旨在提升高并发场景下推荐模型的推理性能。OpStream通过实时GPU负载监控和算子优先级评估，动态地将算子分配到多个CUDA流中，从而优化GPU资源利用率并减少算子间干扰。实验结果表明，OpStream在复杂请求场景下显著降低了推理延迟，最高可实现62.9%的加速，同时将推理成本降低多达49.4%。

关键词：推荐系统算子调度并行计算

For information in English, please click here

Enhancing Inference Efficiency in High-Concurrency Recommendation Models through Operator Scheduling

Xu Zikang ¹
许子康(2000-)，男，机器学习、分布式计算、AI加速
Qi Qi ¹
戚琦（1982-），女，博导，边缘计算、移动云计算、物联网、普适服务、深度学习和深度强化学习

1、School of Computer Science, Beijing University of Posts and Telecommunications, Beijing 100876

Abstract：Recommendation systems are crucial in industries such as e-commerce and digital media. However, as the number of users grows, these systems face significant challenges in processing high-concurrency requests under strict latency constraints. Current scheduling strategies in service frameworks primarily utilize GPU computing power to accelerate the processing of individual requests. Yet, these strategies lack optimization for the concurrent execution of operators and struggle to manage complex requests with varying commercial values. This results in operator interference, inefficient resource utilization and increased inference latency. We propose OpStream, an innovative operator scheduling system that optimizes the inference performance of recommendation models in high-concurrency scenarios. OpStream integrates a holistic scheduling strategy that dynamically allocates operators to multiple CUDA streams based on real-time GPU load monitoring and operator prioritization. By incorporating operator analysis and stream load monitoring, OpStream enhances GPU resource utilization and reduces operator interference, leading to substantial performance improvements. Our experimental results show that OpStream achieves up to 62.9% speedup in inference latency and reduces inference costs by 49.4% in complex request scenarios.?

Keywords： Recommendation System Operator Scheduling Parallel Computing

基金：

论文图表：

引用

导出参考文献

.txt

.ris

.doc

许子康，戚琦. 高并发场景下推荐模型高效推理算子调度方法研究[EB/OL]. 北京：中国科技论文在线 [2025-02-28]. https://www.paper.edu.cn/releasepaper/content/202502-164.

No.****

同行评议

未申请同行评议

全部评论

0/1000

论文编号	202502-164
论文题目	高并发场景下推荐模型高效推理算子调度方法研究
文献类型
收录期刊	上传封面中文期刊英文期刊期刊名称（中文）期刊名称（英文）年，卷（）上传封面中文专著英文专著书名（中文）书名（英文）出版地出版社出版年上传封面中文译著英文译著书名（中文）书名（英文）出版地出版社出版年上传封面中文论文集英文论文集编者.论文集名称（中文） [c]. 出版地出版社出版年， - 编者.论文集名称（英文） [c]. 出版地出版社出版年，- 上传封面中文文献英文文献期刊名称（中文）期刊名称（英文）日期-- 在线地址http:// 上传封面中文文献英文文献文题（中文）文题（英文）出版地出版社,出版日期-- 上传封面中文文献英文文献文题（中文）文题（英文）出版地出版社,出版日期--
英文作者写法：中外文作者均姓前名后，姓大写，名的第一个字母大写，姓全称写出，名可只写第一个字母，其后不加实心圆点“.”, 作者之间用逗号“，”分隔，最后为实心圆点“.”, 示例1：原姓名写法：Albert Einstein,编入参考文献时写法：Einstein A. 示例2：原姓名写法：李时珍；编入参考文献时写法：LI S Z. 示例3：YELLAND R L,JONES S C,EASTON K S,et al.