SK 海力士新技术破解存内计算瓶颈:3D FeNAND 能效提升 7.17 倍、算力提升 20.4 倍

淘百科 百科资讯 9

1 月 18 日消息,去年 12 月,SK 海力士在国际电子器件会议(IEDM)上介绍了其在 NAND-Flash 领域的最新研究成果。

其中,IT之家已经报道过最新的 5-Bit NAND 闪存,除此之外还有旨在实现高能效、单位功耗下 TOPS 算力大幅提升的 3D FeNAND 技术。据 Blocks and Files 报道,SK 海力士已经制造出了 5-Bit NAND 闪存。然而,如何以经济高效的方式实现大规模量产仍有待确定。

▲ 采用传统设计的 6 Bit(HLC)NAND 闪存需要 64 个独立的电压状态,而 SK 海力士只需要 8 个独立状态

随着 AI 大模型的快速发展,面向 AI 的计算系统对能效和吞吐能力提出了更高要求。然而,现有 AI 加速器在运行过程中需要频繁在处理器与存储器之间搬移数据,导致能耗居高不下。

在此背景下,兼具低功耗和高并行度的模拟存内计算(Analog Compute-in-Memory,A-CiM)被认为是一种潜在解决方案,但多数实现方式难以在满足能效的同时实现支撑大模型所需的超高存储密度。

对此,SK 海力士提出了一种基于三维铁电 NAND(FeNAND)的模拟存内计算方案,该方案在实现更低功耗的同时兼具超高密度。然而,该技术仍面临一些挑战,例如:

  • (1)串电阻过大;

  • (2)字线(WL)切换功耗较高;

  • (3)由于页级顺序乘累加操作导致的并行效率低下。

针对上述挑战,研究团队从存储单元特性、非单元电路以及计算方案三个层面,对 3D FeNAND 进行了协同优化,以同时提升能效和吞吐率(TOPS)。

▲ (左)用于 A-CiM 应用的 3D FeNAND 阵列示意图。(右)用于 A-CiM 应用的 3D FeNAND 阵列面临的挑战及其相应的协同优化

在单元层面,研究人员通过优化写入算法改善了存储性能。随着字线堆叠层数的增加,串电阻上升会导致电流范围收窄,从而影响模拟状态的可区分性。为缓解这一问题,研究团队在 3D FeNAND 中引入了脉冲次数调制技术。在考虑 IR 压降的低电流条件下,该方案表现出更优的多级存储特性,使每一层字线堆叠可用的多电平状态数量得到提升。

▲  (a) 3D FeNAND 串的示意图。(b) 3D FeNAND 单元电流随编程脉冲的变化。(c) 3D FeNAND 的多级存储能力

其次,研究团队还重点分析了字线 RC 常数对 3D FeNAND 性能的影响。尤其在乘累加运算期间,选中与未选中字线之间的频繁切换会显著增加功耗与延迟。因此,通过降低字线 RC,可使系统吞吐率最高提升 1.4 倍,能效最高提升 2.2 倍。

▲  (a) 3D FeNAND 阵列中寄生电容和电阻的示意图。(b) 3D FeNAND 阵列的 TOPS 和 TOPS/W 与 WL RC 的关系

在计算方面,研究团队对 3D FeNAND 的并行计算方式进行了优化。一方面,通过改进页内流水线(in-page pipelining,IPP),将神经网络复制与多层网络映射相结合,从而减少前向计算次数和字线切换次数;另一方面,通过研究页拆分(page-splitting)策略,减少特定工作负载所需的页数量,从而进一步提升 A-CiM 的整体性能。

▲ (左)IPP 方法示意图:(S1)参考和(S2)IPP。(右)页拆分方法示意图,页面大小分别为(P1)16 KB 和(P2)4 KB。

综合上述多层次协同优化后,3D FeNAND 阵列在整体性能上取得显著提升。评估结果显示,与此前的 3D FeNAND 阵列相比,优化后的方案实现了 20.4 倍的吞吐量提升与 7.17 倍的能效提升。

▲  (a) 协同优化的 3D FeNAND 和 (b) 新兴的基于存储器的 A-CiM 的 A-CiM 性能。

另外,研究还对多种基于新兴存储器的模拟存内计算技术在大规模 AI 模型上的性能进行了基准测试。在芯片面积有限的情况下,二维存储器阵列因容量较低,即使仅处理推理工作负载也需频繁加载权重参数。相比之下,超高密度的 3D FeNAND 阵列无需更新权重,与二维存储阵列相比实现了最高 16 倍的吞吐率提升和最高 4950 倍的能效提升。

此项研究通过从存储单元、互联结构到计算架构的多层次协同设计,为应对 AI 计算能效瓶颈提供了具有显著潜力的技术路径,有望推动下一代高能效 AI 硬件的发展。