基于Alluxio的脈沖星搜索系統(tǒng)優(yōu)化的探討與實現(xiàn)

本文是一篇計算機論文,本文通過對分布式脈沖星搜索計算集群的整體架構、各個模塊的具體實現(xiàn)以及脈沖星計算任務的整體執(zhí)行流程進行研究分析,詳細介紹了其中各種文件存儲系統(tǒng)的實現(xiàn)方式,從中得出其中存在由于集群架構和文件存儲系統(tǒng)下載帶寬限制所導致的網(wǎng)絡傳輸時延較長、冗余磁盤i/o開銷較大和計算節(jié)點資源利用不充分的問題。
第一章緒論
1.1研究背景與研究意義
計算機論文怎么寫
脈沖星是一種高度磁化的旋轉致密星,兩極能夠發(fā)射出電磁輻射束,當電磁輻射掃過地球時,望遠鏡能夠探測到非常規(guī)律的脈沖信號,因此得名“脈沖星”。脈沖星在基礎科學研究領域具有極其重要的學術意義,其高密度,強引力作用和強磁場使得觀測脈沖星可以研究極端狀態(tài)下的物質結構與物理規(guī)律,提供了測試和驗證理論的機會。脈沖星和脈沖雙星的研究證實了了中子星及間接證明引力輻射的存在,分別獲1974和1993年諾貝爾物理學獎。脈沖星高度規(guī)律性的脈沖信號可以用來測量時間,多顆極其穩(wěn)定的毫秒脈沖星能夠組成脈沖星記時陣列(pulsar timing array,pta),目前已經(jīng)有多個pta項目在進行中,如澳大利亞的帕克斯脈沖星計時陣列(parkes pulsar timing array,ppat)、歐洲脈沖星計時陣列(european pulsar timing array,epta)以及使用500米口徑球面射電望遠鏡進行觀測的中國脈沖星計時陣列(chinese pulsar timing array,cpta),利用pta可以對引力波進行探測和測量,這對于驗證廣義相對論和研究宇宙學具有非常重要的意義。同時脈沖星高度的自轉穩(wěn)定性也表明其在航天器導航上有著重要的應用前景,脈沖星的研究還有助于研究恒星演化、星際介質的物理性質、星際磁場星際磁場的結構和高能天體物理學等問題,脈沖星的高能輻射現(xiàn)象也是天體物理學和高能物理學研究的熱點,可以通過脈沖星的觀測來研究宇宙射線加速機制等問題。
自1967年antony hewish和jocelyn bell burnell在劍橋大學卡文迪許實驗室發(fā)現(xiàn)第一顆脈沖星psr b1919+21以來,全世界的射電望遠鏡都將脈沖星的搜索調查作為科學目標,隨著世界各地觀測設備的不斷建成和升級,各類巡天項目陸續(xù)啟動。其中包括使用阿雷西博射電望遠鏡和alfa多波束接收器的脈沖星巡天(pulsar-alfa,palfa),美國國家射電天文臺開展的綠岸射電望遠鏡北天區(qū)巡天(green bank northern celestial cap,gbncc)和漂移掃描巡天(green bank telescope drift-scan,gbtdrift),澳大利亞帕克斯天文臺多波束脈沖星巡天(parkes multibeam pulsar survey,pmps),低頻陣列全天空巡天(lofartied-array all-sky survey,lotaas),以及中國開展的fast多科學目標同時掃描巡天(the commensal radio astronomy fast survey,crafts)和銀道面脈沖星巡天(galactic plane pulsar snapshot survey,gpps),目前已經(jīng)有數(shù)千顆脈沖星被觀測到,并且隨著對脈沖星的不斷深入研究,搜索算法的不斷改進和完善,逐漸發(fā)現(xiàn)了更多具有特殊性質的天體,包括脈沖雙星系統(tǒng)和毫秒脈沖星以及不具有嚴格周期性的旋轉射電暫現(xiàn)源(rotating radio transients,rrat)和快速射電暴(fast radio bursts,frb)等罕見的不可重復或不規(guī)則的天文事件。根據(jù)已知的數(shù)據(jù)模擬預測,銀河系內大約有15萬顆潛在的脈沖星,其中可被探測的脈沖星大約有30000顆。目前在澳大利亞國家天文臺(australia telescopenational facility,atnf)脈沖星目錄(atnf pulsar catalogue)中收錄的脈沖星數(shù)量不到3400顆,宇宙中仍有大量未被發(fā)現(xiàn)的脈沖星。
.................................
1.2國內外相關研究
脈沖星的搜索的步驟主要為數(shù)據(jù)預處理、計算搜索、候選體篩選以及最后重復觀測比對驗證。其中數(shù)據(jù)預處理主要為數(shù)據(jù)文件的分割和組合,去除射電干擾和消除色散延遲。計算搜索主要有周期性搜索和單脈沖搜索兩種計算方法,周期性搜索具體包括傅里葉變換、加速度搜索和時域數(shù)據(jù)折疊,單脈沖搜索主要包括去趨勢、匹配濾波并計算信噪比。然后根據(jù)計算得到的候選體參數(shù)進行進一步篩選分析,最終經(jīng)過驗證得到確認的脈沖信號。其中周期性搜索主要根據(jù)脈沖星的周期特性在頻域上進行搜索,并針對其中的雙星系統(tǒng)等特殊天體做出調整,而單脈沖搜索主要針對沒有嚴格周期規(guī)律的特殊脈沖星如間歇脈沖星和脈沖星的消零現(xiàn)象,以及不具有連續(xù)周期特征的旋轉射電暫現(xiàn)源和快速射電暴這兩種特殊的天文現(xiàn)象。
近年來隨著觀測設備和硬件計算能力的不斷提升,脈沖星觀測的數(shù)據(jù)集規(guī)模不斷擴大,大數(shù)據(jù)技術與脈沖星搜索領域的結合逐漸緊密,澳大利亞天文臺在all-sky virtual observatory(asvo)項目中的英澳望遠鏡望遠鏡(anglo-australiantelescope,aat)節(jié)點使用hdfs和spark分別作為數(shù)據(jù)存儲系統(tǒng)和計算引擎,主要用于存儲查詢結構化數(shù)據(jù)。devine t r等人提出一種可擴展的射電脈沖星單脈沖候選體識別分類系統(tǒng),使用hdfs和spark作為底層存儲系統(tǒng)和計算引擎,主要對已經(jīng)經(jīng)過presto軟件中single pulse search.py程序計算處理所得到的單脈沖候選體圖像進行分類識別。平方千米陣(square kilometre array,ska)的數(shù)據(jù)處理團隊science data processor(sdp)consortium使用apache storm框架開發(fā)了對初步篩選得到的最佳脈沖星候選體記錄列表(optimal candidate list and data,ocld)的處理流程,主要使用機器學習方法對候選體記錄進行實時分類識別。這些研究主要的研究方向都是對已經(jīng)進行過計算處理得到的候選體記錄進行進一步分類識別,將大數(shù)據(jù)技術用于已經(jīng)形成記錄的結構化數(shù)據(jù)進行歸檔查詢和統(tǒng)計,通過對脈沖星候選體記錄中的脈沖周期、色散值、加速度值、信噪比、計算得出的統(tǒng)計量和圖像進行進一步篩選識別,而候選體記錄和圖像主要通過使用presto等軟件對原始觀測數(shù)據(jù)進行計算篩選生成得到,前期對原始觀測數(shù)據(jù)計算形成候選體記錄也需要耗費大量時間,這些計算軟件由于開發(fā)歷史較早,基于當時較小的數(shù)據(jù)規(guī)模,計算過程中采用分步串行,單機計算的方式,效率較低,因此將前期的數(shù)據(jù)處理將目前流行的各種分布式技術相結合具有十分重要的意義。
..................................
第二章脈沖星搜索技術
2.1脈沖星簡介
2.1.1脈沖星的發(fā)現(xiàn)
脈沖星是一種具有強磁場、高自旋速度的中子星,一般認為是恒星演化和超新星爆炸的產物,兩級能夠釋放出極強的射電輻射,在宇宙中宛如燈塔一般,當射電輻射掃過地球時,望遠鏡的觀測數(shù)據(jù)中就會出現(xiàn)非常規(guī)律的脈沖信號。人類歷史上發(fā)現(xiàn)的第一顆脈沖星是psr b1919+21,1967年由研究生jocelyn bellburnell在劍橋大學卡文迪許實驗室無意中記錄發(fā)現(xiàn),這顆脈沖星位于狐貍座(vulpecula)方向,距離地球約2283.12光年,自轉周期為1.337秒,脈寬0.04秒。
計算機論文怎么寫
起初發(fā)現(xiàn)的脈沖星都是正常脈沖星,并且全部是單星,隨著對脈沖星觀測和研究的不斷深入,觀測到的脈沖星數(shù)量不斷增加,增加至約500顆時,脈沖星的研究出現(xiàn)了一個質的飛躍,出現(xiàn)了許多新類型的脈沖星,其中包括毫秒級脈沖星、雙中子星系統(tǒng)、中子星和白矮星系統(tǒng)、中子星和大質量伴星系統(tǒng)和脈沖星中的行星系統(tǒng)等特殊天體系統(tǒng),并且脈沖星的觀測不在局限在低頻射電波段,通過多波段觀測能夠更全面地提供脈沖星的信息,并且發(fā)現(xiàn)了x射線脈沖星和伽馬射線脈沖星等新型脈沖星。目前對于脈沖星的觀測和研究方法主要集中在以下幾個方面:通過射電望遠鏡為主的觀測設備進行針對脈沖星的巡天掃描觀測,對觀測數(shù)據(jù)進行計算篩選以發(fā)現(xiàn)更多的脈沖星;觀測脈沖星或雙星系統(tǒng)得到的脈沖周期、周期變化、自轉不均勻性和自轉突快事件等有關“時間特征”的參數(shù),通過這些數(shù)據(jù)來研究脈沖星的基本性質此外,脈沖星的脈沖輪廓、脈沖偏振和脈沖幅度等特征也可以提供有關脈沖星磁場、自旋偏移和輻射幾何等信息;在可見光、x射線和伽馬射線等多波段進行脈沖星觀測,以此提供更全面的脈沖星信息,例如通過觀測x射線和伽馬射線可以了解脈沖星輻射的高能特征,從而幫助研究脈沖星的輻射機制;脈沖星觀測也可以提供有關星際介質的信息,由于脈沖星的脈沖信號會受到星際介質的影響,例如電離的星際氣體和磁場,因此通過測量脈沖星脈沖信號的色散和散射,可以進一步研究星際介質的密度和結構。
.................................
2.2脈沖星觀測文件格式
目前的脈沖星搜索中通常使用psrfits[20](pulsar flexible image transportsystem,psrfits)作為原始觀測文件格式存儲觀測數(shù)據(jù)。psrfits是射電天文學中常用的一種數(shù)據(jù)文件格式,它是基于fits(flexible image transport system)標準的一種拓展格式。psrfits最初是由澳大利亞國家天文臺(atnf)和美國國家射電天文臺(nrao,national radio astronomy observatory)共同開發(fā)的,用于存儲和處理脈沖星的原始觀測射電信號數(shù)據(jù)。psrfits文件通常包括兩個主要部分:文件頭部分和數(shù)據(jù)部分。其中,文件頭部分主要包括以下內容:
文件描述信息:包括項目名稱、觀測者姓名、望遠鏡名稱等;
天體位置信息:包括天體的坐標、參考系等;
接收機參數(shù):包括接收機的中心頻率、帶寬、偏振數(shù)等,如果使用多波束接收機還會有波束編號等;
觀測參數(shù):包括觀測開始時間、持續(xù)時間、采樣頻率等。
數(shù)據(jù)信息部分則是實際觀測到的射電信號數(shù)據(jù),通常以二進制格式存儲。每個psrfits文件通常包括多個數(shù)據(jù)子集,每個數(shù)據(jù)子集包括一個數(shù)據(jù)數(shù)組和相應的元數(shù)據(jù)信息。psrfits文件的好處是具有靈活的元數(shù)據(jù)定義和標準化的格式,方便數(shù)據(jù)的共享和處理。同時,由于其基于fits標準,也可以使用各種常見的fits工具對數(shù)據(jù)進行處理和分析,業(yè)內主要使用的是由美國航空航天局戈達德航天中心(national aeronautics and space administration/goddard space flightcenter,nasa/gsfc)開發(fā)的cfitsio項目實現(xiàn)對各類fits文件的讀寫,其他數(shù)據(jù)計算處理軟件中的文件讀寫部分多是對該項目的進一步封裝。psrfits的數(shù)據(jù)部分由一個多維數(shù)組組成,目前由fast望遠鏡觀測產生的原始觀測文件正在使用的數(shù)據(jù)結構一般是一個四維數(shù)組,其維度分別為:頻道數(shù)(channel)、偏振數(shù)(polarization)、頻譜數(shù)(spectrum)和子時間集合(sub-integration data,subint)。
..................................
第三章 分布式脈沖星搜索計算集群
3.1 整體架構
..................................
3.2 zookeeper模塊
...........................
3.3 環(huán)境配置管理模塊
.................................
第四章 文件存儲系統(tǒng)優(yōu)化的研究與實現(xiàn)
4.1 分布式文件系統(tǒng)對比
..........................
4.2 可行性分析
...............................
4.3 架構設計
.................................
第五章實驗結果分析
5.1實驗環(huán)境
本文實驗共使用六臺x86服務器,每臺裝有英特爾處理器和6張gpu加速卡,節(jié)點之間網(wǎng)絡帶寬為1gbps。按照4.3節(jié)中的架構搭建集群,一臺用作主節(jié)點,作為任務分配節(jié)點、alluxio master和hdfs namenode,五臺用作從節(jié)點,作為計算節(jié)點、alluxio worker和hdfs datanode。計算任務中每個進程計算時緩存文件數(shù)設置為1,計算系統(tǒng)所使用的原始文件存儲目錄由hdfs實現(xiàn),本地臨時文件目錄由tmpfs實現(xiàn),共享臨時文件目錄由alluxio實現(xiàn),計算結果存儲目錄lustre實現(xiàn),每次重復實驗前使用alluxio中提供的${alluxio}/bin/alluxioclearcache程序清除上次計算時形成的操作系統(tǒng)緩存,來排除操作系統(tǒng)緩存對于實驗結果的影響。實驗使用/usr/bin/time-v統(tǒng)計計算時間,使用netdata監(jiān)視節(jié)點網(wǎng)絡帶寬。
5.2 串行實驗結果分析
計算機論文參考
................................
第六章總結與展望
本文通過對脈沖星搜索計算集群架構以及其搜索流程中計算任務的研究和分析,得出其中所存在的網(wǎng)絡傳輸時延較長,冗余磁盤i/o開銷較大,計算節(jié)點資源存在利用不充分的問題。重新設計文件存儲系統(tǒng)架構,搭建了alluxio+hdfs的文件存儲系統(tǒng)。首先利用計算節(jié)點內存資源搭建alluxio文件系統(tǒng)架設緩沖層,通過緩存機制在一定程度上減少網(wǎng)絡傳輸時延,同時使用alluxio作為共享臨時文件系統(tǒng),實現(xiàn)了臨時文件只寫入內存,不進行持久化保存,減少了不必要的磁盤i/o開銷。其次利用計算節(jié)點硬盤資源搭建hdfs文件系統(tǒng),將計算節(jié)點同時作為存儲節(jié)點,實現(xiàn)存算一體的集群架構,利用計算節(jié)點上傳帶寬提供了更大的帶寬,降低網(wǎng)絡傳輸時延,同時根據(jù)脈沖星數(shù)據(jù)處理計算中的特點設計了任務分配算法,部分地利用了數(shù)據(jù)局部性減少網(wǎng)絡傳輸,提高了集群整體計算速度。
當然本文存在著一定的局限性。首先是對于小文件的處理,消色散生成大量的dat和inf小文件在寫入alluxio文件系統(tǒng)時會按照設置的分配策略被分配到各個節(jié)點,但由于目前計算任務分配的設置,最后計算時需要重新集中到一個節(jié)點上,其中產生了大量不必要的網(wǎng)絡傳輸,會直接引起計算資源的消耗,如何實現(xiàn)大量臨時文件的定向傳輸,提升大量小文件的處理效率是需要進一步考慮解決的問題。
參考文獻(略)
本文收集整理于網(wǎng)絡,如有侵權請聯(lián)系客服刪除!