高性能计算节点智能平台管理模块的设计
来源: 核电子学与探测技术   发布时间: 2016-04-18 09:53   1543 次浏览   大小:  16px  14px  12px
即将应用到PANDA数据获取系统与触发系统及未来BESⅢ触发系统升级的高性能计算节点(HPCN)符合ATCA设计规范,基于IPMI协议的智能平台管理系统为其高可靠性提供保障。自主设计的智能平台管理模块具有丰富的板级管理功能,如Hot Swap和电源分配协调,板上器件状态监控,与机箱控制器的协调通信等。主要介绍了智能平台管理系统在新一代总线中的应用、高性能计算节点的板上管理需求、智能平台管理模块的设计等内容。

王强,刘振安,徐昊,金大鹏,李陆,卢云鹏,赵棣新,Tiago Perez,Johannes Lang,Wolfgang Kuehn


关键词:ATCA;高性能计算节点;智能平台管理

新一代总线除了在传输性能上有很大提高外,几乎都具有了一定的平台系统管理功能,如CompactPCI和ATCA。ATCA总线是新一代总线的代表,具有高传输性能和高可靠性的特点。ATCA规范完全放弃了传统总线的构架,在背板只保留高速串行传输通道,但同时在背板上增加了智能平台管理总线(IPMB)。ATCA规范已经成为高可靠性、高性能密集计算应用的主要平台。


1 IPMI协议在ATCA规范中的应用

ATCA规范源于电信领域发展的需求。随着电信业务的迅速发展,电信系统对密集计算和传输能力的要求越来越高。基于ATCA总线的数据处理插件通过在单板上放置多片大容量FPGA、DSP或通用处理器达到密集计算的需求,通过大量使用高速串行通道满足传输需求。由于电信设备通常为地理上分散且全天候服务的,系统的高可靠性一直是重要的研究方向,电信系统要求5个9(5 NINES)的可靠性。AdvancedTCA规范的高可靠性的主要目标是实现最短的平均故障恢复时间(MTTR)和最长的平均故障间隔时间(MTBF)。


在提高系统可靠性方面,ATCA规范一方面采取系统冗余设计的方法,对一些关键设备采用增加备份的办法来提高系统的稳定性;同时,ATCA规范十分强调系统管理能力。ATCA规范在系统管理方面采用通用的IPMI协议,该协议被服务器领域广泛采用、推广,成为系统管理的主要标准。在图1所示的典型ATCA机箱中,ShelfMC通过IPMC与机箱内的ATCA板进行通信,使用标准的IPMI协议进行机箱管理,具体管理事务的执行由各IPMC来实现。



图1 ATCA机箱管理系统

2 高性能计算节点及其对平台管理的需求

高性能计算节点是按ATCA规范设计的基于多片Virtex-4 FX系列FPGA的通用高性能计算平台。板上包括5片V4VFX60 FPGA,其中4片用于逻辑运算,第5片主要用于系统互联及控制。每个FPGA有一条2 GByte的DDR2内存用于数据缓存。为了满足高速互联的需求,板上还设计了27个基于RoeketIO的高速串行传输通道以及6个Gigabit Ethernet通道,整个机箱的数据传辅容量达到Tbps量级。


高性能计算节点单块板的功耗在100 W以上。单板的功耗过高,带来散热的问题,同时也影响器件的可靠性,需要监测板上的温度、各种电源的电压、功耗以及主要器件的工作状态。系统功耗管理要求新插入的板卡在上电前向机箱控制器申请功率,机箱控制器根据机箱内功率的使用状况决定是否满足其需求。功耗信息将记录在运行日志文件里,如果板上出现功耗过大的情况,机箱控制器会给出报警信息。


大型粒子物理实验中,电子学设备也面临长时间工作的问题。同时设备还处在射线辐射环境下,这不但影响电子学设备的稳定工作,也给系统的维护带来麻烦。通过有效的平台监控,不但可以实时远程监控设备的运行状况,而且能实现设备的现场替换、系统重启等。


3 智能平台管理模块的功能

根据HPCN对平台管理的需求设计的智能平台管理器(IPMC)基于I2C总线,并符合IPMI协议规范。ATCA高性能计算节点及IPMC连接口实物如图2所示。按照平台管理需求,将IPMC的功能分为以下几个方面。



图2 ATCA高性能计算节点及IPMC连接器

3.1 电压、温度及功耗监测


HPCN板上使用的电源芯片较多,需要监测的电源电压有11种。IPMC会周期性地读取各电压信息,实现对电压的监控。温度监测有两种,一种是监测大功率器件周围的环境温度,如DC-DC电源模块;另一种是监测FPGA自身的温度。功耗监测主要是监测主供电模块的供电电流,当板上电流过高时给出报警信号并通知机箱控制器做相应处理,如增大风扇转速或断电保护。


3.2 处理本板事务


本板上事务主要包括系统上电、热插拔、以及控制FPGA在线配置控制等。当ATCA板插入机箱准备上电时,IPMC首先向机箱控制器申请功率。在得到机箱控制器的许可后启动主供电模块。热插拔过程在板卡取出之前要通过机箱控制器通知IPMC处理断电事务,当IPMC关闭板上电源后会反馈给机箱控制器相关信息。完成上述操作后,ATCA板卡才能安全地从机箱拔出,热插拔信号由ATCA板卡上的微动开关给出。在系统上电或系统运行过程中都有可能对FPGA进行在线加载,IPMC需要给CPLD提供控制信号来实现远程在线加载。


3.3 响应机箱控制器事务


机箱控制器会通过系统请求的方式从IPMC获取板卡信息。同时也可以通过IPMC实现一些操作。IPMC需要有响应机箱控制器事务请求的能力,同时向机箱控制器提供符台IPMI规范的标准数据。


4 硬件电路的设计

智能平台管理模块按照功能主要分两个模块。电流、电压、温度等传感器电路放置在ATCA母板上,通过I2C总线实现连接。基于单片机的IPMC核心模块被设计成子板,通过两个高密度高座连接到母板。


如图3所示,J1连接器上的两组IPMB总线以及8位硬件地址信号通过一个双向缓冲芯片连接到IPMC子板上。IPMC子板从微动开关获得热插拔信息,同时控制供电模块给板卡加电。IPMC与FPGA之间通过16位宽度的自定义总线连接,能提供FPGA重新加载信号以及加载程序序号。板上的温度、电压等监测器件通过IPMC的I2C总线连接。



图3 IPMC结构图

4.1 外围电路


环境温度监测选用MAXIM的MAX6625RUTT+温度传感芯片,它具有12位转换精度。带I2C串行接口,同时可以设置预制温度报警点。通过对ADD引脚的不同硬连接,可以配置出4种不同的硬件地址(如图4所示),目前在板上设置了4个环境温度监测点,主要用于检测大功率电源,风道以及主要器件附近的环境温度。



图4 温度传感器及其硬件地址设置

Virtex-4系列FPGA内部集成有温敏二极管,通过专用的TDP/TDN管脚给出温度信息,TDP/TDN给出的是模拟的电压信息,需配台MAXIM的MAXl617数字温度表来实现对FPGA芯片内部温度的检测。MAXIMl617有2根地址线。使用与MAXIM6626类似的方法,通过不同的硬连接来产生9种硬件地址。本板上需要检测5片FPGA的内部温度。


板上需要检测的电压信号有11种,同时需要检测12 V电源的电流大小。如图5所示,电流的监测是通过转换为电压的方法来实现。12通道电压信号的A/D转换选用MAXIM的ADl239芯片。它带有I2C总线接口,具有12位的转换精度,测量范围在0~2.048 V,对于幅度超过这一测量范围的电压信号需要使用分压电阻网络来间接测量。



图5 电流测量电路

4.2 IPMC子板


IPMC子板使用微控制器ATMEGA1280来实现所有的控制逻辑,为提高可靠性,可以在IPMC上放置两个微控制器,分别连接到IPMB-A和IPMB-B。ATMEGAl280是ATMEL公司推出的8位RISC结构低功耗微控制器,片内集成了8 kB RAM以及128 kB的高速Flash存储器,它还有一个高速I2C总线(400 kbit/s)接口,4个UART口,56个可编程用户I/O管脚以及16个外部中断信号可供使用,上述特点使得ATMEGA1280非常适合IPMC的应用。


如图6所示为子板的电路框图。IPMC子板主要模块包括ATMEGA1280微控制器、I2C转并口控制器、串口、JTAG口、LED以及测试座等。来自ATCA本板插座的两组I2C总线通过PCA9665芯片转换为并行总线连接到微控制器,而板上带I2C接口的器件接到微控制器唯一的I2C端口上。微控制器的两个串口其中一个通过高密度座连接到母板前端面板上,另外一个安装在子板上,用于子板的调试。微控制器具有JTAG口,用于程序的调试及程序向内部FLASH的烧写。



图6 IPMC子板电路框图

图7所示为IPMC的硬件板图,目前已经完成了基本功能的调试,实现了ATCA母板的上电控制,环境温度以及FPGA内部温度的测量,电源电压的监测,与机箱控制器的通信等,硬件功能满足板级系统管理的需求。



图7 IPMC子板硬件板图

5 结论

平台自身的系统管理是新一代高性能总线的发展趋势,通过系统管理可以构建一个高可靠性的系统。基于ATCA规范的高性能计算节点把系统管理的概念融人到系统设计中,根据系统管理的需求设计了IPMC模块。IPMC模块按照IPMI规范,结台功能需求,进行了自主设计。IPMC采用子母板相连的连接方式。目前已经完成了硬件的生产和测试,测试结果表明其硬件功能满足系统管理的需求。