前言
非常感谢发烧友论坛提供的《DeepSeek 核心技术揭秘》书籍试读活动!Deepseek-V3从去年年底出来之后,我就在密切关注着。今年春节前,Deepseek-R1的出现彻底点燃了中国的语言大模型圈子,其多项性能超过了当时处于领先地位的ChatGPT 4,也证明了不需要高昂的费用也能训练出优质大模型。这激起了我的好奇心,借着这次机会好好阅读一下DeepSeek的核心技术。
开箱+简介
这本书有150多页,而且是彩色印刷的,图、表很多而且很有条理性。
书籍前言介绍如下:
第1章 介绍 DeepSeek 的一系列技术突破与创新,如架构创新、训练优化、推理与部署优化等,让读者对 DeepSeek 的性能突破形成直观的认识。同时,介绍 DeepSeek 的 模型家族 ,涵盖通用语言模型、多模态模型、代码生成与理解等领域,展现了 DeepSeek 在大模型的不同细分领域取得的成就。
第2章 为初学者深入浅出地讲解 DeepSeek 的使用方法。从推理模型与通用模型的差异,到具体的使用案例,读者可以直观地感受 DeepSeek 在实际应用中的强大功能。对提示工程的详细介绍,可以帮助读者了解如何通过精心设计的提示词更好地发挥 DeepSeek 的能力。对提示词链的高级使用技巧的介绍,为读者进一步提升 DeepSeek 使用效果提供参考。
第3章和第4章是本书的核心与精华。
第3章深入剖析 DeepSeek-V3 的模型架构、训练框架、推理阶段优化、后训练优化等关键技术。从混合专家模型(MoE)的起源与发展,到 DeepSeek-V3 的 MoE 优化,再到对多头潜在注意力(MLA)机制和多 token 预测的详细解读,帮助读者全面了解 DeepSeek-V3 在技术上的先进性和创新性。同时,对训练框架的并行策略、FP8 混合精度训练及推理阶段的优化等内容的深入分析,展示了 DeepSeek 在提升效率和性能方面的不懈追求。
第4章关于 DeepSeek-R1 的技术剖析同样精彩纷呈。预备知识的介绍为读者理解后续内容打下了坚实的基础。对 DeepSeek-R1-Zero 的组相对策略优化**(GRPO)算法、奖励模型**等关键技术的深入剖析,可以帮助读者了解 DeepSeek 在强化学习领域的创新性探索。对DeepSeek-R1 的训练过程和推理能力的蒸馏等内容的详细阐述,能让读者对这一创新技术的特点有全面的认知。
第5章从宏观的角度分析 DeepSeek 对人工智能技术格局的影响,包括打破硬件依赖迷思、冲击英伟达 CUDA 护城河、引发大模型技术路线的重新思考等多个方面。同时,总结了DeepSeek 成功背后的启示,如领导者敏锐的技术直觉、长期主义的坚持、极致的工程优化等,为读者提供了宝贵的经验和启示。
第6章对 DeepSeek**“开源周”**的多个技术项目进行了深入的分析。通过对 FlashMLA、DeepEP、DeepGEMM、DualPipe 与 EPLB、3FS 等项目的介绍,展示了 DeepSeek 在开源领域的积极探索,体现了其推动大模型技术普及和发展的决心。这些技术项目的详细解读,能让读者了解 DeepSeek 在降低人工智能技术门槛、促进技术交流与合作方面的巨大贡献。
第7章对大模型的发展进行了讨论。从 MoE 的发展趋势、MLA 的展望,大模型的训练方法、推理部署,到 GPU 硬件及推理模型的发展趋势,以前瞻性的视角为读者描绘了大模型的发展蓝图。

技惊四座的DeepSeek -R1模型发布历程
2025年年初,全球人工智能领域的焦点集中在一家来自中国的初创公司——杭州深度求索人工智能基础技术研究有限公司(DeepSeek)。这家公司凭借其推出的DeepSeek-V3和DeepSeek-R1两款产品,在行业内引起了巨大的震动。
DeepSeek-V3于2025-08-04正式上线,它是深度求索公司在DeepSeek LLM之后推出的又一力作。DeepSeek-V3是一个拥有6710亿个参数的混合专家模型(MoE),每个token(模型处理文本的基本单位)激活370亿个参数。该模型在14.8万亿个高质量token上进行预训练,采用MLA和MoE架构。这些架构在DeepSeek-V2中已经得到验证,并在DeepSeek-V3中得到了优化升级。DeepSeek-V3的发布几乎没有预热和炒作,仅凭借其出色的效果和超低的成本迅速走红。
紧接着,在2025-08-04,DeepSeek正式发布了DeepSeek-R1模型,并同步开源了
模型权重。DeepSeek-R1是基于DeepSeek-V3基座模型开发的,专门针对高级推理任务进行
了优化。该模型在后训练阶段大规模使用强化学习技术,通过创新的训练方法,实现了强大
的推理能力和泛化能力。
在多项基准测试中,DeepSeek-V3的表现优于GPT-4等主流闭源模型,在长文本处理、
代码生成和数学推理等领域展现了顶尖性能。DeepSeek-V3 的生成速度也得到了显著提升,达到
60TPS。
从书上得知,DeepSeek-V3的训练成本只需五百万美元,堪比AI领域的拼多多。而且其准确率在某几项评测指标上也达到了不错的水平

DeepSeek模型家族不止有V3和R1
可能大家耳熟能详的是DeepSeek-R1,这是在网页端开启了“深度思考”模式后调用的模型,如果不开,则是用的V3模型。但是,DeepSeek模型家族不止有V3和R1,它还开源有多模态大模型Janus系列、代码大模型deepseek-coder系列、混合专家模型DeepSeekMoE等等,V3和R1还有其蒸馏(Distill)过的模型,比如可以在我们自己电脑上部署的DeepSeek-R1-Distill-Qwen-7B。

DeepSeek能力图谱
DeepSeek从多维度展现其能力:
IT 技术及编程能力 :覆盖技术知识问答、代码理解、补全、注释、纠错,助力编程场景* 知识与推理 :含知识整合(多源融合、概念关联、知识图谱构建 )与逻辑推理(因果、数学、逻辑分析 ),支撑知识处理与推导
辅助决策 :通过方案规划(任务分解、流程优化、风险评估 )、建议生成(专业、个性化建议 )、数据分析(趋势分析、数据可视化 ),辅助决策流程
自然语言处理 :语言理解(文本分类、意图识别等 )、翻译(多语言 )、转换(文体、格式转换 )、文本生成(文案、故事、诗歌文学创作 ),处理各类自然语言任务
交互能力 :对话能力(多轮对话、上下文理解 )与任务执行(指令理解、工具调用、任务协作 ),保障人机交互与任务推进

总结
这本兼具深度与美感的150页技术书籍,不仅以全彩印刷和精妙图表带我们纵览DeepSeek-V3的MoE架构革新与DeepSeek-R1的强化学习突破,更揭开了中国大模型“五百万美元创造GPT-4级性能”的工程奇迹。
书中让我们看到国产模型如何在架构设计、训练效率和推理部署上实现三重超越;而对开源生态、技术趋势的前瞻探讨,则印证了DeepSeek“用开源击穿技术壁垒”的初心。
当DeepSeek-R1以60TPS的生成速度刷新认知,当蒸馏模型让尖端AI跑进个人电脑,我们见证的不仅是技术图谱的延展(编程/推理/决策/NLP/交互五大能力全域覆盖),更是一个新时代的叩门之声—— 开源、平价、高性能的“中国方案”正在重绘全球AI竞争版图 。