DeepSeek开源具有671B个参数的新型 AI 模型
声明:该文章来自(SiliconANGLE)版权由原作者所有,K2OS渲染引擎提供网页加速服务。
人工智能开发商DeepSeek今天开源了具有6710亿个参数的全新大型语言模型DeepSeek-V3。
LLM 可以生成文本、编写软件代码并执行相关任务。DeepSeek 表示,它在六项基准测试中的表现优于市场上最先进的两款开源 LLM。
DeepSeek-V3 基于所谓的混合专家 (MoE) 架构。它由多个神经网络组成,每个神经网络都针对不同的任务集进行了优化。当 DeepSeek-V3 收到提示时,一个称为路由器的组件会将请求发送到最适合回答该请求的神经网络。
MoE 架构的主要优势在于它降低了硬件成本。向 DeepSeek-V3 发送提示不会激活整个 LLM,而只会激活请求路由到的特定神经网络。每个这样的神经网络都有 340 亿个参数,这意味着它只需要相对有限的基础设施即可运行。
除了其优点之外,MoE 架构也带来了一些挑战。在训练过程中,MoE 模型的某些神经网络会比其他神经网络接收更多的训练数据,这可能会导致 LLM 的输出质量不一致。DeepSeek 表示,它已经开发出一种缓解这一挑战的新方法,并将其应用于 DeepSeek-V3。
LLM 的训练使用了 14.8 万亿个 token 的信息。一个 token 对应几个字母或数字。训练过程耗时 278.8 万个图形处理单元小时,这意味着它使用的基础设施相对较少。业界最先进的 AI 集群拥有数万个或更多的 GPU,可以在几天内完成这样的训练项目。
除了 MoE 架构外,DeepSeek-V3 还配备了多种优化功能,旨在提高其输出质量。
LLM 使用一种称为注意力的技术来识别句子中最重要的细节。DeepSeek-3 实现了多头潜在注意力,这是该技术的改进版本,允许它从文本片段中提取多次关键细节,而不是仅提取一次。这使得 LLM 不太可能忽略重要信息。
DeepSeek-V 还具有所谓的多标记预测功能。语言模型通常一次生成一个标记。相比之下,DeepSeek-V3 一次生成多个标记,从而加快了推理速度。
DeepSeek 通过将其算法与其他三款开源 LLM(上一代 DeepSeek-V2、Llama 3.1 405B 和 Qwen2.5 72B)进行比较来测试其算法。DeepSeek-V3 在评估中使用的所有九项编码和数学基准测试中都取得了更高的分数。它在一系列文本处理任务中也表现得更好。
DeepSeek-V3 的代码可以在Hugging Face上找到。
[超站]友情链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
- 1 习近平主席的2024书信外交故事 7904933
- 2 村民称刘强东发钱不是应该的 7980188
- 3 医院因过度诊疗行为被罚127万元 7825184
- 4 2024 属于你的关键词 7782513
- 5 曝张颂文刘学义被税务局约谈 7692389
- 6 88岁爷爷当吃播后秒变18岁 7592572
- 7 整容成猫女的瑞士社交名媛去世 7428748
- 8 赵本山也太超前了 7391551
- 9 动物园回应水豚被猩猩欺负虐待 7203168
- 10 童言童语话愿望 7151662