九游体育app娱乐幸免部分GPU处理技巧过长-九游体育「NineGame Sports」官方网站

热点资讯

九游体育app娱乐幸免部分GPU处理技巧过长-九游体育「NineGame Sports」官方网站

发布日期：2025-03-12 10:05 点击次数：114

（原标题：DeepSeek一天能赚若干钱？官方短暂揭秘！潞晨科技暂停DeepSeek API处事）九游体育app娱乐

通盘暄和一下对于DeepSeek的最新音问！

DeepSeek初度露馅：表面资本利润率545%

当市集觉得DeepSeek的开源周内容发布结束之后，3月1日，DeepSeek告示了“One More Thing”，短暂揭秘V3/R1推理系統，公开了大规模部署资本和收益。

笔据《DeepSeek-V3/R1推理系统概览》的著作，假设GPU租出资本为2好意思元/小时，总资本为87072好意思元/天；若是扫数tokens全部按照DeepSeek R1的订价蓄意，表面上一天的总收入为562027好意思元/天，资本利润率为545%。

据官方露馅，DeepSeek-V3/R1推理系统的优化野心是：更大的隐隐，更低的蔓延。

为了完结这两个野心，DeepSeek使用大规模跨节点人人并行（Expert Parallelism / EP）。最初EP使得batch size大大加多，从而培植GPU矩阵乘法的效力，培植隐隐。其次EP使得人人分散在不同的GPU上，每个 GPU 只需要蓄意很少的人人（因此更少的访存需求），从而镌汰蔓延。

但EP同期也加多了系统的复杂性。复杂性主要体刻下两个方面：

EP引入跨节点的传输。为了优化隐隐，需要想象稳妥的蓄意经由使得传输和蓄意不错同步进行。

EP波及多个节点，因此自然需要Data Parallelism（DP），不同的DP之间需要进行负载平衡。

因此，DeepSeek先容了奈何使用EP增大batch size，奈何荫藏传输的耗时，奈何进行负载平衡。

大规模跨节点人人并行（Expert Parallelism / EP）

由于DeepSeek-V3/R1的大学派量稠密，而且每层256个人人中仅激活其中8个。模子的高度稀少性决定了必须采选很大的overall batch size，才能给每个人人提供有余的expert batch size，从而完结更大的隐隐、更低的延时。需要大规模跨节点人人并行（Expert Parallelism / EP）。

采选多机多卡间的人人并行战略来达到以下主张：

Prefill：路由人人EP32、MLA和分享人人DP32，一个部署单位是4节点，32个冗余路由人人，每张卡9个路由人人和1个分享人人。

Decode：路由人人EP144、MLA和分享人人DP144，一个部署单位是18 节点，32个冗余路由人人，每张卡2个路由人人和1个分享人人。

蓄意通讯重复

多机多卡的人人并行会引入比拟大的通讯支拨，是以使用了双batch重复来袒护通讯支拨，培植全体隐隐。

对于prefill阶段，两个batch的蓄意和通讯交错进行，一个batch在进行蓄意的技巧不错去袒护另一个batch的通讯支拨；

对于decode阶段，不同阶段的施行技巧有所分歧，是以把attention部分拆成了两个stage，合计5个stage的活水线来完结蓄意和通讯的重复。

尽可能地负载平衡

由于采选了很大规模的并行（包括数据并行和人人并行），若是某个GPU的蓄意或通讯负载过重，将成为性能瓶颈，拖慢统统系统；同期其他GPU因为恭候而空转，形周全体诈欺率着落。因此需要尽可能地为每个GPU分派平衡的蓄意负载、通讯负载。

PrefillLoadBalancer

中枢问题：不同数据并行（DP）实例上的申请个数、长度不同，导致core-attention蓄意量、dispatch发送量也不同。

优化野心：各GPU的蓄意量尽量调换（core-attention蓄意负载平衡）、输入的token数目也尽量调换（dispatch发送量负载平衡），幸免部分GPU处理技巧过长。

DecodeLoadBalancer

中枢问题：不同数据并行（DP）实例上的申请数目、长度不同，导致core-attention蓄意量（与KVCache占用量相关）、dispatch发送量不同。

优化野心：各GPU的KVCache占用量尽量调换（core-attention蓄意负载平衡）、申请数目尽量调换（dispatch发送量负载平衡）。

Expert-ParallelLoadBalancer

中枢问题：对于给定MoE模子，存在一些自然的高负载人人（expert），导致不同GPU的人人蓄意负载不平衡。

优化野心：每个GPU上的人人蓄意量平衡（即最小化扫数GPU的dispatch接收量的最大值）。

线上系统的骨子统计数据

DeepSeekV3和R1的扫数处事均使用H800GPU，使用和教育一致的精度，即矩阵蓄意和dispatch传输采选和教育一致的FP8才能，core-attention蓄意和combine传输采选和教育一致的BF16，最猛进度保证了处事恶果。

另外，由于白日的处事负荷高，晚上的处事负荷低，因此完结了一套机制，在白日负荷高的技巧，用扫数节点部署推理处事。晚上负荷低的技巧，减少推理节点，以用来作念研讨和教育。在最近的24小时里（北京技巧2025/02/27 12:00至2025/02/28 12:00），DeepSeek-V3和R1推理处事占用节点总和，峰值占用为278个节点，平均占用226.75个节点（每个节点为8个H800GPU）。假设GPU租出资本为2好意思金/小时，总资本为87072好意思元/天。

在24小时统计时段内，DeepSeek-V3和R1：

输入token总额为608B，其中342Btokens（56.3%）射中KVCache硬盘缓存。

输出token总额为168B。平均输出速度为20~22tps，平均每输出一个token的KVCache长度是4989。

平均每台H800的隐隐量为：对于prefill任务，输入隐模糊73.7ktokens/s（含缓存射中）；对于decode任务，输出隐模糊14.8ktokens/s。

以上统计包括了网页、APP和API的扫数负载。若是扫数tokens全部按照DeepSeek-R1的订价蓄意，表面上一天的总收入为562027好意思元，资本利润率为545%。虽然骨子上莫得这样多收入，因为V3的订价更低，同期收费处事只占了一部分，另外夜间还会有扣头。

有网友将DeepSeek与OpenAI进行对比，示意：“‘资本利润率545%’，等一下，是以你是说我被OpenAI劫夺了？”

潞晨科技暂停DeepSeek API处事

就在DeepSeek露馅大规模部署资本和收益之后，潞晨科技短暂告示：“尊敬的用户，潞晨云将在一周后住手提供DeepSeek API处事，请尽快用完您的余额。若是没用完，咱们全额退款。”

此前2月4日晚间，华为蓄意微信公众号发文示意，DeepSeek-R1系列模子的开源，因其出色的性能和便宜的成就资本，已激励民众的进击筹划和暄和。潞晨科技联袂昇腾，聚集发布基于昇腾算力的DeepSeek-R1系列推理API，及云镜像处事。

但近期潞晨科技CEO尤洋指出，满血版DeepSeek-R1每百万token（输出）订价16元，若是逐日输出1000亿token，一个月算下来接入方企业可赢得4800万元收入。据他测算，完成1000亿token的输出，需要约4000台搭载H800的机器，以刻下H800的市价不详折旧来蓄意，每月仅机器资本就达4.5亿元，因此企业方可能面对每月4亿元的失掉，“用户越多，处事资本越高，失掉越多”。

3月1日下昼4点，潞晨科技CEO尤洋发文修起DeepSeek公布的表面资本利润率。

公开贵府露馅，潞晨科技是一家努力于“安祥AI坐蓐力”的民众性企业，团队中枢成员来自好意思国加州大学伯克利分校，斯坦福大学，清华大学，北京大学等国表里驰名高校。主生意务包括分散式软件系统，大规模东说念主工智能平台九游体育app娱乐，以及企业级云蓄预料理有规画。公司旨在打造一个开源低资本AI大模子成就系统Colossal-AI，当作深度学习框架的内核，匡助企业最大化东说念主工智能教育效力的同期最小化东说念主工智能的教育资本。