
黄仁勋的GPU,解一谈矩阵方程,要作念上亿次乘法。
一家中国公司,一步就给解了,用的是模拟策画。
这家公司叫安纳智芯(Anatrix)。

当年几年,通盘这个词AI行业简直皆在往兼并个标的决骤。GPU、TPU、LPU、CPU……全球卷来卷去,本色上卷的其实照旧数字策画:
更多晶体管、更先进的制程、更大带宽、更高微辞。
但最近,咱们发现存一批公司,开动不按这个逻辑走了。
安纳等于其中之一。
他们采取的,是一个依然千里寂已久、但这两年又开动火热的标的:
模拟策画。
这个想法听着新,其实少量皆不新。
早在数字策画机大界限栽植之前,东谈主类就依然在说合模拟策画。最近很火的存算一体、光策画、量子策画、类脑芯片,往大了说,本色上也皆属于这条门路。
之是以这两年重新被关心,一个很过失的原因在于:
模拟策画自然具备更高并行度、更低功耗,何况不像数字芯片那样高度依赖先进制程。
但它的问题也很彰着,数字策画本色上处理的是0和1,只须能辩认上下电平,误差就能被束缚编削。
而传统模拟策画由于是获胜用物理信号暗意信息。电压、电流、电导这些量在传播历程中,容易积攒噪声和漂移。
矩阵界限越大,误差放大得越夸张。
当年几十年,数字策画靠着摩尔定律全部狂飙,精度被束缚“硬堆”上去;而模拟策画自然表面上更高效,却遥远困在精度问题里。

行业里甚而一直有一个很流行的不雅点:模拟策画很快、很省电,但不实在。精度,也因此成了模拟策画近几十年来最大的死结。
而安纳作念的,等于把它解开。
模拟策画的精度,不再是问题了
当年近十年里,安纳的中枢科学家一直在作念兼并件事——
把模拟策画的罢了,作念得充足实在。
客岁,团队完成了精度比好意思数字芯片水平的旨趣性考据,在模拟策画领域达到断档式当先,而本年,干系芯片目下依然插足流片阶段。
在技巧门路上,安纳走的是一条畸形典型、但也畸形“硬核”的模拟策画门路:
基于存储器阵列,搭建非冯诺依曼架构芯片。
简便来说,等于把矩阵方程获胜映射进物理电路,让电路自己成为方程求解器。

输入给进去,测输出,输出等于解。
也正因如斯,那些GPU没想法获胜求解、只可靠海量迭代靠拢的矩阵方程,在安纳这里,不错一步完成,并保合手精准。
Z6尊龙凯时2026世界杯推荐官网(注:GPU拿到一个512×512的矩阵方程后,第一件事并不是“获胜解”。它会先把问题隔断、转置、理会,再移动成海量矩阵乘加运算,通过一轮轮迭代渐渐靠拢谜底。通盘这个词历程,不绝需要上亿次乘法。)
但故风趣风趣的是。
即便精度问题开动被贬责,今天大大皆模拟策画公司依然莫得选拔这条路。
像Unconventional AI、Normal Computing、EnCharge AI这些近两年最受关心的模拟策画创业公司,主打的依然是低功耗、存算一体或者特定场景加快。

(注:模拟策画正在重新得到成本市集关心。2025年底,主打低功耗模拟芯片的 Unconventional AI在种子轮便得到Lightspeed Venture Partners和a16z迎合领投的4.75亿好意思元融资,估值接近45亿好意思元;专注热力学策画的Normal Computing于本年3月完成由三星领投的5000万好意思元融资;而存算一体公司EnCharge AI客岁也完成了向上1亿好意思元的B轮融资。)
这背后其实对应着两种实足不同的说合形而上学。
一种念念路是经受模拟策画存在误差,在低精度要求下寻找“够用”的诓骗场景。
另一种念念路,则是先把精度作念到极限,再究诘罢了和成本。
安纳属于后者。
在与量子位相通时,团队反复提到一个不雅点:
通盘策画平台的发展历史,简直皆是先把精度作念到天花板,再把柄场景需求向下作念选择。
数字策画亦然如斯,AI模子磨练里,先有FP32,再向下兼容FP16、INT8、INT4。
若是一开动就在低精度里寻找“够用”,许多智商可能永远莫得契机被考据。
从上世纪80年代末的类脑策画,到自后的模拟神经收集,再到今天的存算一体,肖似的故事其实依然反复出现过许屡次。
是以,并不是追求精度这件事有争议,而是在当年很永劫刻里,由于模拟策画精度低是固有的,全球停留在这一层面,存在领略上的偏差,于是只可退而求其次。
而安纳率先完成了领略上的打破,他们的确想作念的,等于把高精度模拟策画推向可用。
通盘东谈主皆在作念乘法,棋牌牛牛安纳想把“除法”补纪念
除了对精度的魄力,安纳和其他模拟策画公司的不同,还在于他们选了一个实足不不异的标的:
矩阵求逆。
今天作念模拟策画的公司,无论是存算一体、模拟CIM,照旧各式类脑、光策画门路,简直皆在作念矩阵乘法。
这其实很好意会,因为通盘这个词AI产业,本色上等于开导在矩阵乘法之上的。
一方面,GPU自己就极其擅长矩阵乘法;另一方面。大模子推理,也简直全是矩阵乘法,是以
通盘这个词行业的念念路皆很自然——
既然模拟策画更省电、更并行,那就拿它去替代一部分GPU的矩阵乘法,但安纳并莫得这样作念,他们选拔了更第一性的矩阵求逆。
那么,矩阵乘法和矩阵求逆有啥不不异呢?
简便来说,矩阵乘法,本色上是“知因求果”。权重已知、参数已知,乘起来、加起来,临了得到罢了。
而矩阵求逆反过来。罢了依然知谈了,但中间的确的参数、权重、现象未知,你需要反过来把它求出来,从罢了反推原因。
对应到大模子里也很好意会:矩阵乘法更多对应推理,而矩阵求逆则更接近磨练。
因为磨练本色上,等于已知输入和输出,再反过来寻找中间最符合的参数。

(注:今上帝流数字策画的作念法,依然是把原来需要获胜求解的问题,移动成海量矩阵乘法,再通过束缚迭代去靠拢谜底。)
事实上,矩阵求逆并不局限于大模子磨练。履行全国里的确难的问题,许多其实皆是“逆问题”。
比如,机器东谈主为什么会跌倒?自动驾驶奈何从传感器数据里还原真实现象?通讯系统奈何从搀杂信号里恢陈述始信息?
这些问题,底层皆在作念兼并件事:从罢了反推原因。
而这,恰正是GPU不擅长的。因为在数字芯片体系里,并不存在“原生矩阵求逆”这个算子。它的作念法,本色上是绕。
先把一个求逆问题隔断,再移动成海量矩阵乘法,然后通过束缚迭代,一轮轮靠拢最终谜底。
是以GPU不是“获胜解”,而是在“靠拢解”,这亦然为什么,咱们前边会看到阿谁“一亿步”和“一步”的诀别。
为了愈加深远地意会这两者的各异,安纳还给咱们打了一个很形象的譬如。
比如你要建长城。矩阵求逆就像“砖”。而数字芯片手里其实莫得砖。它唯有沙子、土壤、原料。
是以它得先和泥、烧制、成型,临了能力得到一块砖,再拿这块砖去建长城。
模拟策画芯片,则是获胜把砖给你。你毋庸再从沙子开动。是以这不是“快少量”或者“省少量”的区别,而是策画范式自己不同。
一个是在束缚迭代靠拢。
一个则是原生求解。
安纳想作念的,等于把这块缺失了许多年的“砖”,重新补纪念。
让矩阵归模拟,让逻辑归数字
说到临了,一个很履行的问题摆在眼前:
模拟策画这块“砖”,到底奈何插进今天依然高度熟练的AI基础重要里?
安纳给出的谜底很简便:让矩阵归模拟,让逻辑归数字。
据了解,他们的模拟芯片在接口、数据模式和互联样子上,皆兼容现存GPU体系,不错获胜接入今天依然scale起来的AI Infra和算力中心。
更过失的是,它不依赖起始进制程。
当数字芯片还在3nm、2nm上络续向物理极限靠拢时,模拟策画某种意旨上依然跳出了那套“拼晶体管、拼工艺、拼堆叠”的竞争逻辑。
而一朝矩阵求逆这块“砖”的确补上,它带来的变化,可能会比联想中更大。
机器学习里的优化问题、具身智能的及时通顺截至、自动驾驶的现象策划、6G通讯里的信号陈述、端侧AI的在线学习……这些系统背后,本色上皆在高频求解矩阵方程。
当年许多问题不是不可作念,而是太慢、太贵、太耗电。
而矩阵求逆一朝不祥被原生、高精度、低功耗地完成,许多当年只可放在云表、只可离线磨练、只可近似求解的事情,可能皆会开动发生变化。
是以回头再看,安纳想作念的,其实不仅仅一颗“更快更省电的芯片”。
他们的确想切入的,是下一代智能系统最底层的策画样子。
2012年,东谈主们第一次清醒到,GPU不仅能绘制,还能磨练神经收集。
AI时间由此开启。
而今天,安纳试图回答的是另一个问题:
若是矩阵乘法界说了当年十年的AI,那么模拟策画和矩阵求逆,会不会界说下一代智能系统?
至少当今棋牌牛牛游戏平台APP,他们依然站在了这个问题的最前排。