- Published on
【论文分享】|MegaScale-Infer:分离注意力层和专家层来提高专家层的计算利用率
- 论文链接:https://arxiv.org/pdf/2504.02263v3
- 关键词:MOE, EP, decode, 加速
Wonderful stories from PaddlePaddle contributors
FlashOverlap 所关注和聚焦的具体重叠场景是:一个计算操作后面跟着一个和计算结果存在依赖的通信操作(Overlapping Communication and Dependent Computation)
通信是并行的代价
无论你是深度学习领域的新手,还是经验丰富的开发者,飞桨开源社区都欢迎你的加入!在这里,你可以学习最前沿的 AI 技术,结交志同道合的朋友,并为开源社区贡献自己的力量。
为繁荣新硬件生态,2025 年 3 月 20 日晚上,百度“新硬件用户共鸣会”第二期,在线上成功举办。
本篇博客旨在讲解论文 《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》 ,如有错误,欢迎指正。
Visualized deepseek technologies.
飞桨黑客马拉松第七期,老赛制,新赛题,熟悉的配方,不一样的味道!
借着 2024 年 12 月 26 日,在上海张江科学会堂举办文心大模型生态大会的机会,非常开心能在上海跟飞桨开源社区的大家线下见面。