HPC高(gāo)性能計算(suàn)集群解決方案
發布時(shí)間:2018-05-28 閱覽次數:
6414 次
集群(cluster)就是一組計算(suàn)機,它們作爲一個(gè)整體向用(yòng)戶提供一組網絡資源。這(zhè)些單個(gè)的(de)計算(suàn)機系統就是集群的(de)節點(node)。
集群(cluster)就是一組計算(suàn)機,它們作爲一個(gè)整體向用(yòng)戶提供一組網絡資源。這(zhè)些單個(gè)的(de)計算(suàn)機系統就是集群的(de)節點(node)。一個(gè)理(lǐ)想的(de)集群是,用(yòng)戶從來(lái)不會意識到集群系統底層的(de)節點,在他(tā)/她們看來(lái),集群是一個(gè)系統,而非多(duō)個(gè)計算(suàn)機系統。并且集群系統的(de)管理(lǐ)員(yuán)可(kě)以随意增加和(hé)删改集群系統的(de)節點。
集群并不是一個(gè)全新的(de)概念,其實早在七十年代計算(suàn)機廠商和(hé)研究機構就開始了(le)對(duì)集群系統的(de)研究和(hé)開發。由于主要用(yòng)于科學工程計算(suàn),所以這(zhè)些系統并不爲大(dà)家所熟知。直到Linux集群的(de)出現,集群的(de)概念才得(de)以廣爲傳播。
對(duì)集群的(de)研究起源于集群系統的(de)良好的(de)性能可(kě)擴展性(scalability)。提高(gāo)CPU主頻(pín)和(hé)總線帶寬是最初提供計算(suàn)機性能的(de)主要手段。但是這(zhè)一手段對(duì)系統性能的(de)提供是有限的(de)。接著(zhe)人(rén)們通(tōng)過增加CPU個(gè)數和(hé)内存容量來(lái)提高(gāo)性能,于是出現了(le)向量機、對(duì)稱多(duō)處理(lǐ)機(SMP)等。但是當CPU的(de)個(gè)數超過某一阈值,象SMP這(zhè)些多(duō)處理(lǐ)機系統的(de)可(kě)擴展性就變得(de)極差。主要瓶頸在于CPU訪問内存的(de)帶寬并不能随著(zhe)CPU個(gè)數的(de)增加而有效增長(cháng)。與SMP相反,集群系統的(de)性能随著(zhe)CPU個(gè)數的(de)增加幾乎是線性變化(huà)的(de)。
幾種計算(suàn)機系統的(de)可(kě)擴展性
集群系統的(de)優點并不僅在于此,下(xià)面列舉了(le)集群系統的(de)主要優點:
高(gāo)可(kě)擴展性:如上所述。
高(gāo)可(kě)用(yòng)性:集群中的(de)一個(gè)節點失效,它的(de)任務可(kě)以傳遞給其他(tā)節點,可(kě)以有效防止單點失效。
高(gāo)性能:負載平衡集群允許系統同時(shí)接入更多(duō)的(de)用(yòng)戶。
高(gāo)性價比:可(kě)以采用(yòng)廉價的(de)符合工業标準的(de)硬件構造高(gāo)性能的(de)系統。
2.2高(gāo)性能計算(suàn)機集群簡介
簡單的(de)說,高(gāo)性能計算(suàn)(High-Performance Computing)是計算(suàn)機科學的(de)一個(gè)分(fēn)支,它緻力于開發超級計算(suàn)機,研究并行算(suàn)法和(hé)開發相關軟件。高(gāo)性能計算(suàn)主要應用(yòng)于如下(xià)兩類問題的(de)研究。
*大(dà)規模科學問題,像天氣預報、地形分(fēn)析和(hé)生物(wù)制藥等
*存儲和(hé)處理(lǐ)海量數據,像數據挖掘、圖象處理(lǐ)和(hé)基因測序
顧名思義,高(gāo)性能集群就是采用(yòng)集群技術來(lái)研究高(gāo)性能計算(suàn)。
影(yǐng)響高(gāo)性能計算(suàn)機系統分(fēn)類的(de)因素有很多(duō),所以從不同的(de)分(fēn)類标準得(de)出的(de)高(gāo)性能集群計算(suàn)機的(de)系統架構也(yě)各不相同。但如果考慮到采用(yòng)大(dà)規模生産的(de)商用(yòng)計算(suàn)機和(hé)同樣是大(dà)規模生産的(de)商用(yòng)LAN及ATM網絡來(lái)制造的(de)話(huà),主要都是如下(xià)兩種架構。
目前,主流的(de)PC服務器一般含有一到四個(gè)處理(lǐ)器,在一個(gè)操作系統的(de)控制下(xià),共同存取一個(gè)唯一的(de)内存地址空間。各處理(lǐ)器在内存的(de)存取上是平等的(de),存取代價是相同的(de)。所以這(zhè)種系統叫做(zuò)一緻内存存取系統,或叫SMP(對(duì)稱多(duō)處理(lǐ)計算(suàn)機系統)系統。在這(zhè)個(gè)系統中,處理(lǐ)器是以系統總線、交叉開關或其它專有網絡與内存連接在一起。
SMP系統的(de)最大(dà)特點是:一方面,系統架構及共享内存的(de)編程模式的(de)相對(duì)簡單,所以制造和(hé)應用(yòng)成本很少,爲廣大(dà)中小企業所喜愛(ài)。這(zhè)是我們用(yòng)于構建集群節點的(de)主要原因。另一方面,它的(de)可(kě)拓展性相對(duì)較差,一般如果處理(lǐ)器的(de)數量超過四個(gè),那它的(de)制造成本就會變得(de)相當可(kě)觀。這(zhè)就制約了(le)它的(de)進一步的(de)發展。
但是業界爲了(le)彌補這(zhè)種不足,又推出了(le)另外一種系統――分(fēn)布式内存存取系統。它較之SMP系統的(de)最大(dà)特點是沒有一個(gè)統一的(de)内存空間。這(zhè)種系統的(de)每一個(gè)處理(lǐ)器和(hé)它的(de)内存空間構成一個(gè)獨立的(de)系統,由一個(gè)操作系統控制,可(kě)以獨立運行。在這(zhè)裏我們叫它作節點,這(zhè)些節點均使用(yòng)它的(de)網絡接口連接到互連網絡,并通(tōng)過網絡通(tōng)信。