芯片出现软错误的概率有多大呢?

发布时间:2024-03-21

 根据AEC-Q100及IEC61508两套标准的描述,以130纳米工艺1Mbit RAM芯片为例,大气中子单粒子效应导致的软错误概率超过1000FIT(FIT,

定义是在10^9h(小时)内,出现一次故障即为1FIT。因此,如果某个器件失效率为100FIT,则平均预期可安全工作10^7小时)。这个数据看起来

貌似很大,但对于安全等级要求严格的器件(应用于汽车刹车),这个数据就显得尤为可怕了。  

  汽车芯片根据其应用场景的危险程度,划分为不同安全等级(QM、ASIL-A至ASIl-D),其中ASIl-D的等级最高,说明其安全要求最严格。行业

内通对芯片的三个指标的计算来划分安全等级,如下图所示。由此可见,1000FIT的故障率远远超ASIL-B 的等级要求。也意味着,对于130nm

工艺下的CMOS工艺设计,随着时序存储容量的变大,对于安全设计的要求则越高。

             

  

  汽车系统的安全等级对于器件是有要求的,特别是ASIL-D等级的动力能源、汽车制动、EBS等系统,对于控制芯片往往要求ASII-D等级,这些芯片

如果在涉及安全控制的环节中出现错误其后果不堪设想。简单举个例子,比如某个刹车系统中指令出现“随机故障”导致需要的制动没有执行,则对于驾驶

和乘客的危险不可估量。而且,软错误的故障来源具有不确定性,设计者需要在每一层都考虑到出现错误的应对方案。随着工艺水平的提升,现在

芯片采用28nm,甚至7nm的工艺进行生产,器件的容软错误能力差,甚至出现了更难进行故障回复的MBU错误(多bit翻转错误)。实际上,采用

28nmCMOS工艺设计的器件比130nm在出现软错误的概率上至少超过3个数量级,这对系统的安全性设计提出了更大的挑战。

             

企业微信截图_17138403903752.png企业微信截图_17138403903752.png

                 

  既然这个“东西”无法避免,是不是意味着大伙儿都没法用芯片了?

  对于商业及器件、普通的工业级器件,即便发生芯片故障,通过重启或者复位即可消除,对于人身财产没有损坏、无伤大雅。对于涉及人民群

众生命安全的场景,比如要求汽车安全等级达到ASIL-D或者工业安全要求达到SIL-1的场景,那就需要慎重考虑芯片在这方面的特性了。

  多提一嘴,这对器件容软错误的技术方法“倒也不少”,太空环境下的器件往往在设计与生产环节中不计成本以保障任务成功,地面器件在保证

全要求的前提下还追求极致的性价比,那就不是一个简单的事情了。