image.png

2011年,我國血液學名家、中國科學院院士、瑞金醫院終身教授、國家最高科學技術獎獲得者王振義建議,需要在我國大力開展轉化醫學研究,提高我國的醫療服務水平,更好地服務于國民健康。這一建議得到了國家重視并由此拉開了我國轉化醫學建設的帷幕:即開始在上海、成都、北京協和、解放軍總醫院、陜西西安布局建設轉化醫學研究設施,以求形成覆蓋全國主要區域的轉化醫學研究支撐網絡。其中,上海這個“支撐網絡節點”——轉化醫學國家重大科技基礎設施(上海)就設在了上海交通大學閔行校區和上海交通大學醫學院附屬瑞金醫院,它2013年7月立項,2016年3月開工,2019年初閔行基地試運行,2020年12月瑞金基地轉化醫學大樓啟用,標志著中國首個國家級綜合性轉化醫學大設施正式落成并投入運營。這是繼上海光源大設施、上海蛋白質中心后,第三家落戶上海的國家級大設施。

20年前的一個概念,為何如此重要?

轉化醫學的概念,源于20多年前。

那是在上世紀末,NIH(美國國立衛生研究院)每年的研究經費高達200多億美元。這引發了一個問題:發明了那么多新技術,積累了那么多新知識,發表了那么多高水平論文,為什么人們的健康狀況并沒有得到顯著改善?

這也是轉化醫學要解決的靈魂之問——即,如何將基礎醫學研究與臨床實踐更為緊密地結合起來。轉化醫學的初衷,就是要把臨床提出的問題快速轉化為基礎研究項目,而后再將研究項目的成果同樣高效地轉化為針對臨床患者疾病的精準預防、診斷、治療及預后評估等一系列方案,從而讓新技術和研究成果更快、也更有的放矢地用于改善人類健康的大業中。

談到這種雙向高效轉化的重要性,瑞金醫院國家轉化醫學中心生信大數據平臺共同負責人呂綱曾做過一個貼切的比喻:“就像小說里的武功高手要練成絕世武功,都要打通任督二脈;而在當今的發達醫學領域也是如此,臨床醫學與基礎研究這二脈也亟需打通。”

上海瑞金醫院國家轉化醫學中心的成立,是我國推進轉化醫學實踐的重要一步,它將攻關方向鎖定在針對我國重大疾病診療的重大關鍵技術的探索上,其重點在腫瘤、代謝性疾病和心腦血管疾病等領域,旨在研究相關發病機理和規律,解決疾病的發生、發展與轉歸中的重大科學問題。該中心擁有層流研究病房和數字化能量代謝倉,對臨床研究數據可以進行智能感知和自主集采;另外,國家轉化醫學中心擁有百萬級別樣本數據庫,具備高通量測序、質譜和藥篩等組學研究平臺。

圖片2.png

呂綱

高性能計算:轉化醫學實踐的技術保障

那么,轉化醫學中心具體在做什么?舉一個簡單的例子,與完成病理分析及少量分子檢測后即可實施手術或化療的傳統癌癥治療方案不同,轉化醫學需要對患者的整個基因組進行分析,以指導藥企及臨床醫生進行更有針對性的藥物及治療方案研究,從而為患者提供更為精準、更加有效的診療。

據呂綱介紹:“轉化醫學中心工作涉及面廣,包含組學技術、生信分析、基礎醫學研究和藥物開發等各個方面。生物信息學研究是轉化醫學研究的基石,它會涉及對蛋白質、DNA和RNA等生物分子的研究。”

可見,轉化醫學與數據處理和分析息息相關,包含了生物信息的獲取、加工、儲存、分配、分析、解釋等方方面面。而涉及的數據量龐大:每個文件大小可能達上百GB,例如,僅單個人類全基因組測序分析涉及的數據就可能高達870GB。

如此體量的數據,就讓數據處理速度變得更為關鍵,而且中心招募的患者通常病情都比較危急,需要以盡可能快的速度基于患者生信數據分析結果給出針對性的創新療法。

舉個例子,在2020年新冠疫情爆發之初,瑞金醫院國家轉化醫學中心就與上海公衛中心進行合作,成立了新冠研究課題聯合攻關組,對疫情初期的326例患者,進行了病毒基因組、臨床表現、免疫反應等數據的深度分析和全球數據分享。從項目開始到最終相關研究成果在《Nature》主刊上發表,總共用了短短的45天時間。再比如,做面對超高深度腫瘤全基因組測序這種超大數據的處理,原本需要近7天時間,而現在只需要7-8個小時就可以完成。計算時間大幅縮短,意味著病人可以更早得到檢測信息和分析結果,更早接受對應的治療方案。

從上述的兩個實例來看,瑞金醫院國家轉化醫學中心的很多工作,都是“與死神賽跑”的過程,而且其加速的過程,或者說效率的提升,都與承載生物信息學研究的IT平臺,尤其是強大的高性能計算(HPC)平臺密不可分。這就是瑞金醫院國家轉化醫學中心構建和優化其專用生物信息大數據平臺ASTRA的初衷,這是一個集存、傳、算、用為一體的的定制化平臺,為轉化醫學實踐提供了堅實可靠的技術基礎。

超算不僅需要更高算力,也要搭配更強存儲

HPC又稱超算,顧名思義,主要是憑借超強算力來解決這個世界上最復雜的各類科學問題。早期的HPC主要應用于政府或國家級科研機構主導的大型基礎科研項目,如美國在1960年代曾使用CDC超級計算機進行火箭設計等工作。再后來,金融、天氣預測領域也越來越常見到高性能計算的身影。

而隨著基于x86架構處理器的工業標準化集群的采用,HPC更是走出了象牙塔,開始走入工業界中的多個行業,成為他們開展產品、技術和服務創新的重要驅動力。基于此,人們也繼理論科學和實驗科學之后,將高性能計算稱為科學的第三支柱。而瑞金國家轉化醫學中心對于HPC的應用屬于醫療和生命科學領域的實踐,也是當今HPC諸多行業應用場景中的重中之重。

那么,在構建這樣的HPC系統的過程中,有什么問題是需要格外關注的呢?

毋庸質疑,算力當屬其第一關心的要素。事實上,這種關注和投入,所換得的成果也異常豐碩,我們只舉一個例子就足以說明算力增長之猛:1996年在全球高性能計算機500強排行榜上首個打破每秒萬億次浮點計算紀錄的ASCI Red系統足足使用了6000顆英特爾奔騰Pro處理器,而現在很多主流芯片產品只需單顆就可以打平和超越這一算力,同時今天HPC的頂流算力也更是以每秒百億億次浮點計算為衡量標準,如美國阿貢實驗室即將采用代號為Sapphire Rapids的第四代英特爾至強可擴展處理器,以及代號為Ponte Vecchio的英特爾數據中心GPU建設的Aurora(極光)超算系統,性能輸出水平就能達到每秒兩百億億次,足足是ASCI Red的約200萬倍。

或許正是因為算力提升的速度快到令人難以置信,反而讓如今的HPC系統開始普遍面臨“失衡”的問題,即其計算,與其存儲和網絡的性能拉開了非常大的差距。

要知道,任何一個HPC平臺的規劃都是一個系統性工程,它在體系結構設計、高速互聯網絡、并行文件系統、存儲陣列等任何方面的欠缺或不足,都可能拖累平臺的整體性能。換言之,算力爆棚但其他方面拉胯,就很可能讓高算力空轉,無法充分釋放其價值。

這種“失衡”,如今在計算和存儲間的表現尤為明顯——在算法和算力已取得顯著提升的今天,不論是機械硬盤,還是固態盤在讀寫速度和帶寬上都已遠遠跟不上算力的需求,而距離算力單元更近、性能較強且擔負熱數據承載重任的內存子系統,又很難擴展其容量。

這可能就是HPC平臺算力與存儲性能失衡的根因,它會引發“存儲墻”或“數據墻”問題,使得算力單元與內存及存儲之間就像隔著一堵墻,使其無法得到數據的高效供應,或影響數據高并發訪問時的效率。這種傳統內存-存儲在架構和性能上的瓶頸,會在業務和應用層面造成算力投資的浪費,影響相關應用負載或項目的效率。

破“墻”而出,看ASTRA如何應用創新存儲技術

主修生物信息分析且曾在上海張江的國家人類基因組南方研究中心工作的呂綱,在基因組學數據分析方面有著豐富經驗,因而也很清楚HPC平臺“存儲墻”的存在與影響。他坦言:“通量測序儀的通量飛躍式發展,在數據存儲上的需求一直都是水漲船高。最關鍵的是要進行數據分析,CPU的計算速度很快,但大量時間用在了數據加載上。因此,中間層的存儲系統就顯得非常重要。”

因此,早在一期建設時,呂綱就已經預料到自家HPC平臺對“大內存”的需求。

“當時我們買的是2TB的DRAM內存,要用8路的服務器來實現,成本非常高。而使用傲騰持久內存,只需要2路服務器就能讓我們實現3TB內存容量,同時還顯著降低了成本。”

呂綱提到的傲騰持久內存,全稱是英特爾傲騰持久內存(Intel Optane Persistent Memory),它是英特爾專為突破傳統內存-存儲架構性能瓶頸設計開發的產品,憑借創新的傲騰存儲介質,能夠兼備接近DRAM內存的高性能,以及存儲設備的大容量和數據持久化存儲。

目前,國內外很多行業的用戶在遇到內存容量不足,使用DRAM內存進行容量擴展既難滿足需求(主流DRAM內存單條多為32GB和64GB,128GB已經是高端產品),又難承擔其高昂的成本時,都開始選擇容量數倍于DRAM、且成本更優的傲騰持久內存(單條容量可達128GB、256GB和512GB)來達成目的。

然而,僅僅擴展內存的容量,對于瑞金醫院國家轉化醫學中心的ASTRA平臺還是不夠的,它需要的是對整個HPC平臺存儲系統進行更為全面的升級,來更為從容地應對其面臨的“存儲墻”問題,這就包括要讓存儲跟上海量數據高速處理的要求、要滿足不同科研和臨床團隊高效并行訪問海量生信數據的要求,以及要持續容納龐大、復雜、多維且不斷增長的數據等等。

因此,ASTRA平臺采用了三級存儲模式——傳統NAS、傳統并行文件Lustre、基于傲騰持久內存的高速存儲DAOS。其中,前兩者用于原始數據的存儲及備份,而DAOS針對的則是性能要求更為嚴苛的生信計算。

DAOS(Distributed Asynchronous Object Storage),中文全稱是分布式異步對象存儲。其優勢要用幾句話來概括,那就是:它是一種開源軟件定義橫向擴展對象存儲,沒有延續針對高時延、塊存儲的I/O模型,而是選擇了為訪問高細粒度數據提供原生支持的I/O模型;沒有使用高時延的點到點通信,而是使用了能繞過操作系統的低時延、高消息速度用戶空間通信;沒有只依賴傳統的存儲設備,而是充分利用了創新非易失性存儲技術(包括英特爾傲騰持久內存和傲騰固態盤),并將更大體量的元數據保存在持久內存中,將批量數據保存在固態盤中,以此來實現對更多熱數據的更高效的訪問和處理。

基于這些優勢,DAOS堪稱是對存儲介質和介質使用方式的雙重革命,而英特爾也把其視作百億億級HPC存儲堆棧的基礎。

“DAOS基于高性能存儲硬件傲騰持久內存和傲騰固態盤而設計,對生物信息數據分析工作支持比Lustre更好。我們和英特爾的技術專家一起,進行了細致的性能調優和測試,而結果非常理想。”在呂綱看來,DAOS的價值在于,能夠充分利用傲騰持久內存的獨特性能,從而提供高帶寬、低時延、高IPOS和非常優秀的小文件處理能力。

“基于持久內存的DAOS,是一個非常具有性價比的方案,”呂綱評價道,“就性能而言,它擁有其他方案很難實現的優勢。例如,持久內存擁有內存模式和App Direct模式,因此我們可以按需在兩種模式中進行切換,從而滿足我們對大內存和大存儲容量的不同需求。其他一些硬件,雖然帶寬性能提升了,但是畢竟沒辦法做內存使用,只能當成存儲用,不具備靈活性。而從價格上來說,持久內存的每GB成本也比DRAM要低;另外,DAOS是一個開源軟件,對于瑞金醫院的上手成本相對較低,只需要支付硬件的錢,免去了一筆很大的軟件授權費用。”

破墻后再破局,造就IO-500上的生信“頂流”

有了傲騰持久內存+DAOS的加持,ASTRA平臺的存儲性能就開始了 “火箭式”的躥升。

2021年11月,在美國舉辦的全球超級計算大會(SC21)正式公布了全球最新IO-500榜單。ASTRA第一次打入該榜單,就在10節點性能排行中位列第八,在總榜單上的排名也位居第十四,而更重要的是,它也是全球生信領域惟一一個打進10節點榜單前十的系統。

對于這一成績,呂綱表示,“以往排名靠前的都是全球知名科研機構,頂級互聯網廠商或者國家級的超算中心。生信或者醫院機構可以說是難得一見。在英特爾的這套DAOS方案下,我們成為了第一批吃螃蟹的人。”

對此,英特爾市場營銷集團副總裁、中國區行業解決方案部總經理梁雅莉也曾公開表示:“我非常高興看到英特爾和轉化醫學中心之間的深度合作帶來的創新成果,我更欣喜地看到,在全球IO500的排名內第一次出現生信行業的客戶代表,而且是我們中國區的合作伙伴來突破這個行業天花板。”

有趣的是,今年5月底在德國舉辦的國際超算大會(ISC22)在刷新了IO-500榜單后,ASTRA的總排名和10節點性能排名雖然變成了第19名和第12名,但它依然是全球生信領域HPC中存儲性能的佼佼者。而且特別值得一提的是,新的總榜單上前十名中已經有5個系統,即半數是采用了DAOS的系統。

由此可見,英特爾傲騰持久內存以及基于它的DAOS方案,不僅吸引了瑞金醫院國家轉化醫學中心,也是其他亟需破解存儲墻的用戶們期待已久的良方,它能幫助這些用戶以更優的性價比,或者說更高的投資回報率來升級其HPC平臺的存儲系統,形成更為高效和靈活的分層存儲和數據讀寫訪問機制,尤其是能讓更多熱數據能夠存在更靠近算力的內存子系統中,從而實現整體效率的顯著提升。

事實上,即便把傲騰持久內存從DAOS中“拆”出來單獨使用,它也是突破HPC,以及AI、大數據分析和云環境中存儲墻的必備利器。以去年發布的第三代英特爾至強可擴展平臺為例,理論上它已能在一個雙路服務器平臺上最高配備近8TB的傲騰持久內存(選擇單條512GB的版本),如此驚人的容量擴展能力,足以應對幾乎所有內存容量敏感型的應用的需求。因此,在基于傲騰持久內存的DAOS成為越來越多HPC用戶沖擊百億億級系統的存儲基座時,傲騰持久內存也會成為更多HPC和非HPC客戶突破存儲墻的優選方案。

更多架構師成長計劃課程,歡迎訪問英特爾架構師成長計劃平臺:

https://protect-eu.mimecast.com/s/hASjC0VnLHMLXqnVtDfD69?domain=bizwebcast.intel.cn

圖片3.png

免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。

標簽: