幸运彩票有限公司

采用RISC-V架构的处理器不经意出现在日常电子产品中，似乎已经变得越来越稀松平常了：不仅是一些典型的MCU厂商开始拥抱RISC-V。

而且还体现在一些业已成熟的产品中，如今年的中国IC领袖峰会上，，了解到如今十分成熟的TCON芯片内部竟也不显山、不露水地加入了RISC-V小核心；还有像是前些年英伟达就开始在其GPU产品中选择RISC-V作为控制器；西数也在整个产品线上开始选择RISC-V核。

这让幸运彩票对于RISC-V指令集的处理器微架构也愈发感兴趣：去年10月，SiFive发布了首款RISC-V乱序CPU核心，U8系列处理器IP。SiFive在宣传中提到，U8系列是目前最高性能的RISC-V指令集核心IP（似乎晚于玄铁910），“基于超标量乱序管线，以及可配置的管线深度和发射序列宽度”。

SiFive在RISC-V的微架构IP授权中还是相当活跃的一家企业，其7系与8系IP核，作为RISC-V世界的高性能核心，是幸运彩票观察RISC-V当前发展情况的一个重要窗口，虽然微架构剖析大约并不能特别好地呈现指令集本身的特性，但通过它们与Arm的对比，也是了解RISC-V生态的机会。

最高性能的RISC-V核心，比起Arm如何？

幸运彩票首先有必要搞清楚，SiFive内部针对不同系列的产品的定位。在今年4月SiFive举行的一场名为"Embedding Intelligence Everywhere with SiFive 7 Series Core IP"的在线会议上，SiFive曾经对自家产品线进行过总结。SiFive的E系列核心，着眼在32bit嵌入式使用场景；64bit的S核心则偏向算力需求更大的场景；而U系列核心是性能最强的定位，面向高端计算。

若以数字为切分维度，SiFive的2系列是RISC-V处理器IP中效率最高，同时也最小型的处理器IP；3系列、5系列则在部署上更为广泛，用在一些多核配置和对实时处理能力要求较高的场景；7系列和8系列如上所述都着力于高性能。数字与字母组合，就构成了不同的产品，比如说E3面向中端定位的嵌入式应用提供32bit性能；S7显然是专注在性能方面的产品；U8则实现了可规模化配置的高性能核心，达成最高的每瓦性能。

在U8发布之前，SiFive的高算力产品主要就是U5、U7——这两者仍是顺序架构，对标的是Arm的低端及微控制器核心，在面对更为复杂的负载、要求算力的场景下还是有欠缺的。U8系列是弥补这个短板的产品。SiFive当时宣称，U8将极大扩展SiFive与RISC-V在终端产品中的生态系统生存能力。

在SiFive U8系列产品下，目前主要包括U84、U87两个核心IP。SiFive自己给的数据是，U84核心的性能是U74的3.1倍，IPC提升2.3倍（在最高频率提升1.4倍的情况下）。上面这张图对比中，在相同工艺的前提下，U84性能是U54的5.3倍；如果加上工艺造成的差别，则7nm的U84核心，性能达到了28nm的U54核心的7.2倍。这个数据其实一方面表明，RISC-V的性能潜力这些年还在挖掘过程中，所以相比更低端的产品能有如此巨量的性能与效率差距。

这是RISC-V自己内部在FPGA平台下跑U84 IP的成绩，比较的是SPECint2006成绩。

SiFive此前在新闻稿中给U8树立的直接竞争对手是Arm Cortex-A72，其中提及相比Arm Cortex-A72核心，SiFive U84提供可媲美的性能。不过在面积效益和每瓦性能方面，U84还是有优势，当然幸运彩票知道A72已经是Arm前两年的架构了。

同是7nm工艺的前提下，U84的每个核心占地面积在0.28mm²，四个核心加上2MB L2 cache构成一个簇，面积为2.63mm²。此前华为Krin 980的Cortex-A55小核心，每个核心配上各自128KB的L2 cache，面积为0.36mm²——要知道A72的性能是A55的两倍还多，显然在PPA方面，SiFive U84表现不错。

需要强调的是，U8系列作为IP在面向具体的芯片产品时还是有很大的可配置和扩展性的，U84是作为一个标准IP存在的，所以这里的探讨仅基于SiFive的标准IP，具体到实际产品仍然会有差别。

7系列与8系列微架构

或许很多人并不会将RISC-V这样一个指令集，在高性能领域去与Arm一决高下，毕竟RISC-V当前的主场也不在此——IoT产品对碎片化问题更不敏感，也不像手机那样对处理器性能有那么高的要求，RISC-V在很多情况下也偏向以微控制器的姿态存在。不过在幸运彩票看来，这依然是表现RISC-V阵营技术能力的重要组成部分。

RISC-V可查阅的资料当然还远没有Arm世界那么多，已经商用的RISC-V处理器——无论是MCU中的处理器，还是某些硬件中的控制器，公开的技术细节也并不多，详实程度自然不及遍地开花的Arm。幸运彩票从有限的资料中去了解SiFive的7系列与8系列处理器微架构，对于理解RISC-V生态还是有价值的。

如前文所述，U8系列是SiFive的首款乱序核心，U84流水线深度12级，后端3个执行单元——还是相当传统的乱序执行设计。这里的寄存器组（RegFile）设计还是颇为与众不同。

从前端来看，核心的取指单元（Fetch Queue）能够每周期以16字节从L1l获取指令，将其放到取指队列中。RISC-V ISA为可变指令编码长度，假定平均是32bit，则对应每周期4个指令。所以U8的解码器（decoder）也是4-wide设计，并将其传递到指令队列（Instruction Queue）中。

再往后，指令队列能够一次发射3个指令到重命名阶段（rename），这个宽度就比前面收窄了。外媒AnandTech此前也在针对这部分的评价中提到，取指阶段的宽度大于发射这种设计，旨在发生分支预测错误时，让前端能够跟上后端；但解码比发射更宽的这种设计，以前还从未见过。猜测这可能是微架构的某种平衡之策，也可能是为将来更宽发射的U8系列IP设计做准备的。从SiFive的官方介绍来看，发射队列数应该是可以由芯片设计商来配置扩展的。

重命名阶段的设计比较常规，包含一个重排序buffer，和三个分发引擎。然后就进入到执行后端了。

后端部分，SiFive只给了整数执行单元的情况，整体包含3条执行管线。每一条都有其各自的发射队列，填充进3条ALU管线。其中一条管线是常规的ALU，有一条则与分支单元共享了端口，还有一条更为复杂，可以执行整数乘法和除法操作。

U84这样的核心本身还没有SIMD、矢量指令支持，似乎是因为扩展指令还未完全就绪。SiFive解释说，今年年底这部分会就绪；可能U87就会具备这部分能力——目前幸运彩票从SiFive官网还未看到这方面的更新。

可扩展性

从构成SoC/MCU的更高层级来说，SiFive采用一种名为"Mix+Match"的大小核异构设计，共享一个L2可以配置至多9个核心。核心的搭配方式，可以是U8、U7、S2这些不同的核心搭配组合。

参考早前的7系列，采用的是8+1设计，看起来和这次的设计比较相似，但搭配方式上可能会有些差别。WikiChip所做的这张图更清晰地表达了这种结构——包括核心、cache等，整体构成一个簇（Cluster）。其上还有自定义指令支持（Custom Instruction Extensions），每个核心都能实现特定指令的支持，实现某些特定工作负载的加速——这也是现在很多基于RISC-V指令微架构的能力。

7系列的介绍中曾提到，通过TileLink，可以将64个这样的簇放在一颗单芯片上。U8系列核心IP介绍中则只提到了使用TileLink，来连接第三方加速器IP实现core-to-core通信，或者ChipLink实现chip-to-chip通信。存储子系统部分详情不多，SiFive提到提供高带宽存储接口IP，对于HBM2E+这类需求有帮助，不过这部分工作似乎还在持续。

7系列的核心有可选配一种FIO端口（Fast I/O），直连到核心，作为核心以及大容量SRAM或第三方加速器之间的低延迟接口——这种FIO端口还与main core complex bus总线相连，其他核心也能看到SRAM或者第三方加速器。不知道这种FIO端口，与SiFive的TileLink技术是什么样的关系。

在可扩展性的问题上，U8系列还有一些特性：（1）对不同工艺节点的支持；（2）乱序设计可做配置，前文提到U84这种标准核心是12级流水线、3发射，实际上流水线深度、发射队列数等都是可以针对不同应用做具体调整的；（3）整数单元到浮点单元的跨发射（cross-issue）能力；（4）“可组合cache”达成实时操作支持。

如前文所述，SiFive的7系列与8系列在当今RISC-V生态中可能没有充足的代表性，不过如SiFive所言，这些高性能核心IP对于扩展RISC-V生态边界还是有相当价值的。即便就现在看来，Arm生态在中高端市场仍然占据着性能和技术上相当的优势。

投递简历

幸运彩票

关于贝特莱

产品中心

方案应用

招贤纳士

关于贝特莱

产品中心

方案应用

招贤纳士

English

现在的高性能RISC-V处理器和Arm比起来如何？

7系列与8系列微架构

可扩展性

推荐阅读

贝特莱触控芯片助力荣耀MagicBook重磅上市！

公司地址：

座机：