38分钟破局算力壁垒 深圳算子技术撬动国产算力自主化新高度
摘要
2026年全球AI算力战场竞争日趋白热化,英伟达依托CUDA生态构筑起近乎垄断的技术壁垒,中国AI产业正直面“缺芯少魂”挑战全力破壁。在此关键节点,深圳科创力量再献硬核突破,由深圳市大数据研究院2025年孵化的智子芯元(深圳)科技有限责任公司,成立仅5个月便凭借自研的KernelCAT工具,以38分钟完成DeepSeek-OCR-2模型在华为昇腾平台的自动化部署与推理验证,实现该模型推理35倍加速的亮眼成果,而前序DeepSeek-OCR模型部署更斩获139倍加速的效果。

这一突破直指国产算力软件生态的核心痛点,以“数学+AI”的融合创新范式激活国产芯片性能,彰显了深圳在算力底层算子技术领域的前沿引领力,为我国算力自主化发展注入强劲的深圳动能。
算力是数字经济的核心生产力,而算子作为连接AI算法与计算芯片的关键“翻译官”,是算力生态建设的核心枢纽。长期以来,制约国产芯片发挥性能的核心瓶颈并非硬件本身,而是软件生态的缺失:国产芯片具备可观的理论峰值性能,却因缺乏能让性能落地的算子,陷入“算力封印”的困境。
算子将算法转化为硬件可执行的指令,其效率直接决定AI模型的推理速度、能耗与兼容性,而传统算子适配模式堪称行业难题,顶尖工程师需手动编写底层代码,面对复杂多模态模型时如同“在深海中戴着手铐组装手表”,耗时数月仍难触达性能极限,“手工作坊”式的开发模式已无法匹配AI产业的发展速度,行业亟需自动化工具实现突破。
KernelCAT的横空出世,正是这场算力突围战的关键解方。针对复杂模型适配中令人头秃的“版本地狱”——vLLM、PyTorch和NPU驱动之间错综复杂的版本互锁问题,KernelCAT实现了全流程的智能迁移与自动化优化。在DeepSeek-OCR-2模型的部署中,自动补全缺失环境,在复杂的版本冲突中搭建起稳定的生产环境;更实现了从下达指令到迁移完成的全程托管,38分钟内自动解析模型结构、生成迁移计划、处理各类报错,让原本需要专家团队数日完成的工作,压缩至喝一杯咖啡的时间,真正实现了算子适配与模型迁移的“自动驾驶”。
而华为昇腾平台作为面向全场景AI打造的端边云协同全栈软硬件与生态体系,以“硬件开放、软件开源”为核心,为此次突破提供了自主可控的国产算力底座,成为国产算力生态建设的重要载体。

这一惊艳突破并非偶然,是智子芯元将AI大模型与运筹建模的能力注入KernelCAT的前瞻性结果,也是深圳市大数据研究院的产业扶持落地转化的代表。深圳市大数据研究院副院长张昕表示,作为深圳首批十大基础研究机构之一,深圳市大数据研究院自2016年成立以来,便以“数学为基础,以数据为驱动,以重大应用为导向”深耕前沿科技,先后斩获三大核心成果:与华为合作的SRCON技术,解决数万基站的信号协同优化问题,优化维度远超AlphaGo,助力华为连续三年拿下运营商全球比拼第一;早于ChatGPT热潮布局的华佗GPT医疗垂直领域大模型,在医疗界形成高影响力;突破国际垄断的仙鹏求解器,性能逼近运筹优化领域的三家国际头部企业,成为破解“卡脖子”难题的利器。
也正是依托研究院在应用数学、运筹优化、AI大模型领域的深厚积淀,深圳市大数据研究院研究科学家、智子芯元联合创始人丁添领衔的团队得以聚焦国产算力私有化部署难、算子开发迭代慢的产业痛点,在研究院开放包容的科研土壤下实现技术的快速突破。
KernelCAT的技术内核,更是深植“数学+AI”的融合创新基因。丁添介绍,作为世界首个全自动AI模型迁移与优化工具,其以AI完成代码生成与硬件特性分析,依托运筹优化的数学方法实现性能的精准调优,更创新采用“硬件在环”机制,强制在真实硬件环境中测试验证,有效克服大模型“幻觉”问题,确保部署的稳定性与可靠性。
这一技术路径,也成为国产算力打破英伟达生态垄断的换道超车关键。英伟达凭借十几年的算子库积累、完善的软件框架和数百万开发者,构筑起难以逾越的护城河,而过去“堆人”追赶的模式早已难以跟上AI发展速度。KernelCAT则以自身不断进化的AI Agent能力,逐渐追赶并突破英伟达十几年的技术积累,从“人工一步一步走”变为“AI+数学自动跑”,实现了效率的革命性提升,大幅缩短了国产算力生态与国际领先水平的差距。
更值得关注的是,该工具并非绑定单一芯片或单一任务,而是具备跨品牌、跨平台的通用能力,可支持算子开发、模型迁移、算法研发等多类任务,为芯片厂商、模型开发者、科研人员等不同主体提供计算加速服务。
智子芯元的快速成长,是深圳“基础研究+技术攻关+成果转化”全链条创新体系的生动实践,更是深圳人工智能产业硬核实力的缩影。面向未来,这场算子技术的突破只是深圳算力底层创新的起点。深圳市大数据研究院正持续聚焦AI Infra(人工智能基础架构)等相关研究,推动构建从技术研发到场景应用的低成本、快速部署通道,真正推动千行百业用得上、用得起、用得好国产算力;智子芯元则将持续强化KernelCAT的底层算子开发能力,探索自然语言交互接口,让工具更懂数学、更贴合产业需求,进一步降低国产算力的使用门槛。
丁添表示,团队不仅在做一家科技企业,更在探索数学与AI的融合如何转化为产业生产力,为深圳的硬科技产业修好最关键的软件“快车道”。而在行业层面,依托KernelCAT这类工具的技术突破,业内预计2-5年内,国产芯片将实现全链路原生训练与推理的普遍落地。
读特&深圳晚报记者 郑淑仪


评论(0)