课题组情况介绍

清华大学高性能计算研究中心

清华大学高性能计算中心于2005年成立,依托清华大学计算机科学与技术系建设,为校内外各领域科学研究与工程应用提供高性能计算支撑环境。为满足领域用户日益增长的高性能计算需求,高性能计算中心建设了“探索3号”、“探索100”、“探索1000”等大型超级计算系统,是清华大学校级公共服务平台。对外开放以来,高性能计算中心以用户服务为宗旨,通过“系统环境稳定+软件资源丰富+技术服务优质”吸引校内外各领域用户,应用覆盖物理、化学、生物、材料、地学、力学、电子、自动化、计算机、核技术、航天航空、机械、热能、水利、医学、经济等众多学科领域,为各领域科学研究及高性能计算人才培养提供重要保障。

信息存储课题组

信息存储课题组研究领域包括:网络(/云/大数据)存储系统、基于非易失存储器的存储系统与关键技术、数据存储可靠性与安全等。存储与计算、网络是信息基础设施的重要部分,存储系统是制约计算机系统性能和扩展性的主 要瓶颈。承担国家纵向课题,如国家重点研发计划项目“TB级持久性内存存储技术与系统”,863项目“面向大数据的先进存储结构及关键技术”,863课题“基于新型存储器件的存储体系结构与关键技术研究”,“海量存储系统软件和关键技术”及国家自然科学基 金重点项目“大规模网络存储系统的可靠性关键技术研究”等。研制出清华海量存储网络系统TH- MSNS 和相关分布式虚拟化系统TH-DVSM 、 带外虚拟化系统TH-VSM 、 并行文件系统Redbud、分级存储系统AIP、云存储安全系统Corslet等,已分别应用于审计、公安、油田、电信、教育等行业及部门,近年来主要研究基于NVM的新型存储系统与技术。成果发表在FAST、USENIX、ATC、EuroSys、SC、MICRO、ISCA、DSN、DAC等重要国际会议和IEEE TC、IEEE TPDS、ACM TOS等国际权威期刊上。

PACMAN课题组

PACMAN课题组研究高性能计算、人工智能、大数据处理相关的系统软件与体系结构,包括编程模型、编程语言、编译器、并行优化等。课题组与国内外研究机构和公司有长期密切的合作关系,包括MIT、斯坦福大学、谷歌、微软、英特尔、华为、阿里等。近期主要研究成果包括:提出并实现了性能国际领先的大数据分析系统Gemini,可以在8台双路服务器上分析十亿结点百亿条边的超大规模图数据。性能比业界流行的大数据分析系统Spark高两个数量级,所需内存仅为Spark的十分之一。在神威-太湖之光上实现世界首个大规模异构计算机上的Graph500算法, Graph 500性能居全球第二,“神图”入围2018年ACM“戈登·贝尔”奖。在新一代国产高性能计算机上实现E级混合精度性能的并行训练系统,“八卦炉”,能够支持最大174万亿参数量模型的训练,是世界上第一个支持人脑神经元突触规模的神经网络的训练平台。

MadSys课题组

MadSys系统课题组研究前沿的系统技术,包括分布式系统,存储系统,图计算系统,云计算,先进的内存系统,分布式系统的事务,系统的可靠性等具有挑战性的课题。课题组承担了 各项国家课题,包括自然科学基金重点项目,863/973项目,国家科技专项,国家重点研发计划项目等。在可扩展并行/分布式系统及其应用、大规模网络存储系统技术、虚拟化等方面取得 了丰硕的研究成果,在OSDI、ATC、ASPLOS、MICRO、FSE、TC、TPDS 等重要国际会议和期刊上发表论文80余篇,研制的云存储系统Corsair/MeePo。Corsair/MeePo 已在广东联通、华为、中兴、中石油等20 多家企事业单位和中科院、北京大学等50 所科研院所得到应用,服务的用户超过150 万,支持的社区超过6000 个。相关技术成果曾获2007 年国家科技进步奖二等奖和2015 年国家技术发明奖二等奖。

微体系结构与类脑计算系统课题组(CRAFT课题组)

CRAFT课题组专注于处理器微体系结构、类脑芯片与基础软件等研究领域。长期承担国家自然科学基金原创探索项目/面上项目、国家重大专项课题、专项课题等任务,在新型处理器架构、类脑芯片与基础软件等方面取得了丰硕成果,提出“类脑计算完备性”并设计相应的系统结构,证明能够实现类脑计算系统的编程可移植性、硬件完备性与编译可行性,并应用于世界上首款异构融合类脑芯片。成果发表于NATURE(2020年),是国内计算机系统结构方面的首篇《自然》论文;作为主要完成人之一的类脑芯片论文发表于NATURE(2019年,封面文章),是国内AI与芯片方面的首篇《自然》论文;成果被评为2019年国内十大科学进展/国内十大科技新闻,获2019年世界互联网大会领先科技成果以及2020年世界互联网大会主任特别推荐成果,获2022年计算机学会技术发明一等奖与日内瓦发明金奖。

安全处理器团队

以处理器安全为目标,研发具有自主产权的安全处理器分析、设计与验证平台,涵盖处理器安全分析与测评、处理器安全的形式化验证、安全处理器设计规范与安全芯片研发与应用等关键环节。

团队一直从事计算机体系结构、硬件安全与容错等研究工作。团队自成立以来,成功研制了当时国内主频最高的具有自主知识产权的微处理器THUMP(2003年),并采用该处理器设计了视频编解码处理芯片、移动存储卡控制器、流量分配器、云终端等设备;2009年,获得核高基 重大专项“众核处理器关键技术及应用性研究”支持,成功研制了64+多核SoC仿真平台,在神舟6载人飞船仿真测试中发挥重要作用;2012年与苏州云计算中心合作,研制了基于云存储的个人移动计算环境(U盘电脑)。2015年研制的高性能视频编码算法模块应用于海思半导体H.265编码芯片中。2019年发现INTEL、ARM等现代主流处理器重大漏洞-VoltJokey(CVE-2019-11157)这是国内首次发现的处理器硬件安全漏洞,该发现也是首次被国际认可的第二类处理器漏洞. 此后陆续发现GPU,PMU等硬件安全漏洞。曾获得国家科技进步二等奖1次,省部级一等奖3次、二等奖3次。

团队成员主要有:汪东升、鞠大鹏、吕勇强、王海霞等。

高能效智能处理器设计课题组

处理器是计算机系统的核心,但受性能墙、存储墙和功耗墙等因素,传统处理器难以再遵循摩尔定律继续发展,无法满足人工智能领域系统的高能效计算需求。高能效智能处理器设计课题组长期从事处理器设计与神经拟态计算技术研究,采用可重构众核处理器技术实现深度神经网络DNN与脉冲神经网络SNN的性能与功耗优化,提出了多种面向众核流架构的高运算单元利用率编译优化技术和运算单元利用率感知的核心映射调度方法,以及多种面向嵌入式智能应用的功能优化与计算资源重构融合的众核处理器架构,相关研究成果发表在IEEE TVLSI、IEEE TPDS等学术期刊与重要国际会议上。

高性能计算应用课题组

高性能计算应用课题组研究(1)E级超级计算机达到极限性能的并行算法与软件设计方法、自动优化技术,,(2)科学计算与人工智能融合的新兴高性能计算应用构建方法和理论。近期主要研究成果包括:大气动力学全隐式模拟和非线性大地震模拟首次在神威太湖之光系统上实现千万核可扩展模拟,获评2016年和2017年ACM“戈登贝尔”奖;神威太湖之光部署的存储系统性能在线监测、诊断与动态优化系统,有效提升大规模应用数据访问性能,提高系统利用率;地球系统模式物理方案参数分析、参数优化与基于深度学习的集合融合方法和工具,为复杂应用的量化不确定性分析和工作流调度提供了新型工具。

存储系统与I/O性能优化课题组

存储系统与I/O性能优化课题组主要从事系统前沿技术研究,包括大数据计算、网络存储与分布 式处理等方面的研究工作。近年来主要集中在大数据存储及处理系统研究,通过分析并利用数 据访问模式特征、底层系统工作机理以及数据自身的演化规律,提出了高可扩展的大数据分布 式存储及处理系统的构建及优化方法,有效提高了大数据系统的性能、扩展性和可用性。课题 组已承担多项国家课题,包括自然科学基金项目、863课题、973课题等。在存储系统与I/O性能优化等方面取得了丰硕成果,在FAST、IPDPS、ACM TOS、IEEE TC、IEEE TPDS等顶级国际会议或期刊上发表论文20余篇。提出的存储关键技术已经集成到高性能所自主研发的网 络存储系统和自维护存储系统中,研究成果被国家审计署、北京市公安局、中兴通讯、国信安 办、国家气象局等多家单位使用,效果良好。