快科技2月14日讯息,安谋科技晓示,搭载新一代“周易”NPU处理器的硬件平台,还是告捷在端侧部署并脱手DeepSeek-R1系列模子,况且性能超卓、老本优异。
新款“周易”NPU接收专为AI大模子特质优化的架构揣测打算,Beta测试版块已在2024年底向早期用户盛开评估测试,预测本年上半年认真发布亮相。
DeepSeek-R1 1.5B、7B蒸馏版块推出后,安谋科技新一代“周易”NPU在很短的时候内,就在Emulation平台上完成了部署与优化,并在FPGA平台上告捷齐备了端到端应用的演示。
测试显现,在圭臬单批次输入、高下文长度为1024的测试环境中,新款“周易”NPU在首字计较阶段的算力应用率冲破40%,解码阶段的灵验带宽应用率跨越80%。
带宽应用率呈现高线性特质,梗概天真适配16GB/s至256GB/s的系统领宽需求。
7B版块、1024高下文长度的场景下,保险模子应用精度的同期,新款“周易”NPU的最高处理速率可达每秒40 tokens,并扶直动态长度的模子推理输入。
这也展现了安谋科技软件栈对大模子的熟习扶直、深度优化,配资者包括动态推理优化和硬件算力后劲的挖掘,从而权贵升迁推理速率和轮廓量。
现在,软件栈已扶直Llama、Qwen、DeepSeek、ChatGLM、MiniCPM等多种主流大模子,并提供与Hugging Face模子库的对接器具链,便捷胜仗部署主流模子。
硬件层面,新一代“周易”NPU接收7nm工艺制造,单Cluster算力最高可达80 TOPS(每秒80万亿次计较),梗概精炼嘱咐跨越16K高下文长度的大模子部署需求,同期对外带宽提高至256GB/s,处置大模子计较的带宽瓶颈问题。
它还全面扶直FP16数据精度计较,无缺扶直INT4软硬量化加快,还扶直多核算力蔓延,兴盛端侧模子的低首字延长需求。
它还具备巨大的多任务并行处理身手,通过细粒度的任务迤逦和优先级资源分拨,齐备多任务天泄露换,确保传统语音、视觉业务、大模子应用的高效协同。