VLSI发展趋势对流体系结构的影响

科研讨论   2008-07-07 08:41   阅读88   评论3  
字号:    

Tommy 

随着VLSI技术的发展,更多的功能单元能够被集成到流处理器芯片上。2006年已出现每平方厘米集成4亿晶体管的高性能CPU,2020年将达到70亿。纳米工艺将使单芯片中晶体管密度达到每平方厘米包含百亿至千亿[1]。微处理器即将进入超10亿晶体管时代。

在这个时代中,随着CMOS工艺发展和改进设计方法,用45nm技术(可望在本十年内应用),乘法器可减小到0.044mm2,超过2000个这样的乘法器将可以放在一个1 cm2的芯片上,并且将很容易流水化到1GHz[2]。在线宽缩小的同时功耗也在降低,例如在Imagine处理器中,以0.18微米的工艺制造的单精度浮点乘加单元占用了0.486 mm2,每个乘法操作只耗费了185pJ(0.185mW/Mhz)。同时,计算成本相对来讲越来越廉价,图形芯片平均每100GFLOPS和1TOPS(渲染)的价格还不到100美元,如NVIDIA公司最新的GeForce GTX 200图形处理器[3],性能达到惊人的933GFLOPS,售价仅约500美元;嵌入式处理器尽管性能没有那么强大,但价格更便宜,原始的1GFLOPS的成本小于1美元。

但是,日益缩小的线宽和大规模并行扩展需求挑战流体系结构的硬件可扩展能力,片内、片外的通讯延迟、带宽和功耗与运算单元的大规模集成难以匹配。随着线宽缩小,线延迟与晶体管和门的延时相当,成为制约频率的关键因素,高负载长线的功耗也变得不可忽视。在0.13微米工艺下,将一个64位数据在片上全局线上传输的功耗是执行一个64位浮点操作功耗的20倍。片外通讯更是一种关键资源,即便采用现在最新的封装方式,芯片上也最多只能引出一千个左右的引脚,极大限制了片外数据带宽。并且,片外通讯耗费了大量的能量(每32位的数据传送的耗费大于1nJ)[4]。

综上所述,我们可以看出现代VLSI技术的一个典型特征:计算单元相对廉价而计算单元之间的通讯较昂贵。这导致虽然目前单芯片中晶体管数目还在持续增长,但是传统的流处理器扩展已到极限。研究表明64个ALU(16 个Lane,4个ALU)将是单流处理器核的最佳规模,超过该规模其并行效率将下降,并且下降趋势越来越明显。因此,面向单芯片十亿以上晶体管(1000ALU)的时代,要维持流体系结构的性能、面积、功耗和成本有效性,必须进行体系结构创新。目前看来,大规模并行化和多核化是必然趋势。IBM/索尼/东芝联合开发的Cell处理器,MIT大学提出的RAW,Texas大学提出的TRIPS,Stanford大学提出的Smart Memory,SUN公司开发的Niagara,TILERA公司开发的Tile64,Cellular Automata等都在对支持流计算模型的微处理器并行化和多核化方向上进行了有意义的研究

 

[1]     D. Burger, J.R. Goodman, Billion-Transistor Architectures: There and Back Again, Computer, 37(3):22-28, 2004.

 [2]     William J.Dally, Patrick Hanrahan, Mattan Erez et al, Merrimac: Supercomputing with Streams. In Proceedings of the Supercomputing Conference 2003, Phoenix, Arizona, USA, November 2003.

 [3]     NVIDIA Inc. NVIDIA GeForce GTX 200 GPU Architectural Overview, http://www.nvidia.com

 [4]     Jung Ho Ahn, Memory and Control Organizaions of Stream Processors, Ph.D. Thesis, Stanford University, 2007

评论(?)
阅读(?)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
网易公司版权所有 ©1997-2009