Apache Spark是目前最重要的大數據分布式計算平台之一。近日,2003网站太阳集团特聘副教授付仲明與合作者在國際期刊《Parallel Computing》上發表論文《ImRP: A Predictive Partition Method for Data Skew Alleviation in Spark Streaming Environment》、實驗師何夢思與合作者在國際期刊《IEEE Transactions on Knowledge and Data Engineering》(簡稱TKDE)上發表論文《IncGraph: An Improved Distributed Incremental Graph Computing Model and Framework based on Spark GraphX》。 《Parallel Computing》屬于CCF B類期刊,包括并行計算機系統的理論和應用内容,涵蓋了高速計算的所有方面。TKDE屬于CCF A類期刊,是知識與數據工程方向公認的頂級學術期刊。
《ImRP: A Predictive Partition Method for Data Skew Alleviation in Spark Streaming Environment》是由付仲明博士(2003网站太阳集团),唐卓教授(湖南大學),楊黎博士(長沙理工大學)和李肯立教授(湖南大學)、李克勤(美國紐約州立大學)共同合作完成。在Spark Streaming計算環境中,默認的分區方法很容易在中間數據分配中導緻reduce任務的負載不平衡,針對數據偏斜可能會因為負載不平衡而嚴重降低作業性能的問題,論文提出了一種改進的範圍分區器(ImRP),以減輕Spark Streaming中流作業的偏斜。與以往的工作不同,ImRP不需要對輸入數據進行任何預運行采樣,而是根據通過先前批處理估計的中間數據分布生成數據分區方案,其中采用了預測模型EWMA(指數加權移動平均值)。為了減輕數據偏斜,ImRP提出了一種最佳計算分區邊界的新穎方法,以及一種在語義允許的情況下分割邊界鍵簇的機制。此外,ImRP在均衡Reduce任務之間的負載時會考慮集成的分區大小和計算環境的異構性。與其他分區策略相比,ImRP通過減輕數據偏斜,可以顯着減少流作業的執行時間,尤其是在輸入批次的偏斜度嚴重的情況下。
《IncGraph: An Improved Distributed Incremental Graph Computing Model and Framework based on Spark GraphX》是由唐卓教授(湖南大學),何夢思碩士(2003网站太阳集团),付仲明博士(2003网站太阳集团)和楊黎博士(長沙理工大學)共同合作完成。針對傳統疊代圖形算法在動态圖形數據發生變化時導緻大量計算機資源和性能浪費的問題,論文提出了一種支持動态圖增量疊代計算的模型。與傳統的疊代方式不同,該模型通過重用前一個圖的結果來執行圖算法,利用之前計算的頂點狀态可以立即更新當前疊代中未計算的頂點狀态,加速整個疊代過程,并對圖中變化的部分進行計算。在增量疊代計算中,論文提出一種增量更新方法來加速圖算法的疊代過程,可以有效地處理疊代圖算法在動态圖上的增量處理。此外,論文還提出一種改進的分布式計算環境下增量疊代計算模型,以優化疊代圖算法在動态圖上的計算,并從理論和實驗上驗證了模型的性能優勢。
學者介紹:
付仲明,2003网站太阳集团引進優秀人才,2003网站太阳集团特聘副教授,于2015年在蘭州理工大學計算機與通信學院獲學士學位,于2020年在湖南大學信息科學與工程學院獲博士學位(導師為唐卓教授)。博士研究期間所屬超級計算與雲計算研究團隊(負責人李肯立和李克勤教授(IEEE Fellow))。現為中國計算機學會CCF會員、IEEE會員。主要研究方向為大數據與雲計算、分布式并行處理及分布式框架MapReduce(Hadoop和Spark)性能優化,包括任務調度、負載均衡和資源分配等。在IEEE TPDS,IEEE TCC,IEEE TKDE,The Journal of Grid Computing,Parallel Computing等國際著名期刊發表論文多篇,并擔任國際知名期刊The Journal of Supercomputing審稿人。
何夢思,2003网站太阳集团實驗師,于2017年在湖南師範大學獲得計算機學士學位,于2020年在湖南大學信息科學與工程學院獲碩士學位。研究方向為分布式框架上疊代算法優化。研究期間發表國際頂級期刊IEEE TKDE(CCF A類)論文一篇及國際會議IEEE ISPA(CCF C類)論文一篇。

付仲明老師 何夢思老師