適逢空間大數(shù)據(jù)爆發(fā)性增長(zhǎng),大數(shù)據(jù)時(shí)代已經(jīng)到來,傳統(tǒng)國(guó)土、測(cè)繪、規(guī)劃領(lǐng)域的業(yè)務(wù)正在向空間大數(shù)據(jù)分析轉(zhuǎn)型,2015年國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,指出大數(shù)據(jù)已經(jīng)成為國(guó)家基礎(chǔ)型戰(zhàn)略資源,運(yùn)用大數(shù)據(jù)推動(dòng)經(jīng)濟(jì)發(fā)展、完善社會(huì)治理、提升政府服務(wù)和監(jiān)管能力正成為趨勢(shì),并要求全面推進(jìn)我國(guó)大數(shù)據(jù)發(fā)展和應(yīng)用,加快建設(shè)數(shù)據(jù)強(qiáng)國(guó)。
空間大數(shù)據(jù)解決方案主要包括五大步驟:
數(shù)據(jù)接入存儲(chǔ)、空間分析挖掘、時(shí)空大數(shù)據(jù)存儲(chǔ)、可視化展現(xiàn)、業(yè)務(wù)系統(tǒng)集成
1、空間數(shù)據(jù)接入存儲(chǔ):這里包含了數(shù)據(jù)清洗、數(shù)據(jù)質(zhì)檢、轉(zhuǎn)換加載的全過程,通過平臺(tái)提供的工具、模型和方法,結(jié)合實(shí)際業(yè)務(wù)需求,進(jìn)行數(shù)據(jù)預(yù)處理,目的是抽取出適用于接入到大數(shù)據(jù)平臺(tái)分析計(jì)算的文件型數(shù)據(jù)源。也就是說,實(shí)現(xiàn)了現(xiàn)有的業(yè)務(wù)數(shù)據(jù)庫(kù)與大數(shù)據(jù)分析計(jì)算庫(kù)相分離。大數(shù)據(jù)分析數(shù)據(jù)源接入類型支持:文件型數(shù)據(jù)、HDFS分布式文件系統(tǒng)、Hive數(shù)據(jù)源以及云存儲(chǔ)(亞馬遜S3存儲(chǔ)、微軟Azure數(shù)據(jù)湖);
2、空間分析挖掘:這一步也就是大數(shù)據(jù)分析場(chǎng)景設(shè)計(jì),需要結(jié)合數(shù)據(jù)結(jié)構(gòu)、業(yè)務(wù)需求,進(jìn)行分析工具的選擇,可以是多種分析工具流程化應(yīng)用,通過GeoAnalytics Server集群的分布式計(jì)算,能夠充分利用硬件資源,使傳統(tǒng)幾小時(shí)甚至幾天的計(jì)算量,在秒級(jí)和分鐘級(jí)完成;
3、時(shí)空大數(shù)據(jù)存儲(chǔ):空間大數(shù)據(jù)的兩個(gè)關(guān)鍵能力是分布式計(jì)算和分布式存儲(chǔ),在高效計(jì)算的能力下,需要配備分布式、高性能的時(shí)空大數(shù)據(jù)存儲(chǔ),ArcGIS Spatiotemporal DataStore通過數(shù)據(jù)分片存儲(chǔ)機(jī)制,提供了高效的數(shù)據(jù)寫入和查詢檢索能力。同時(shí),可以動(dòng)態(tài)增加和減少集群節(jié)點(diǎn),不存在單點(diǎn)故障,保障了業(yè)務(wù)連續(xù)性;
4、可視化展現(xiàn)能力:大數(shù)據(jù)分析結(jié)果可以通過多種方式進(jìn)行展現(xiàn)和查看,如Portal MapViewer、ArcGIS Pro、Insights等豐富的可視化展現(xiàn);
5、業(yè)務(wù)系統(tǒng)集成能力:大數(shù)據(jù)平臺(tái)建設(shè)是一個(gè)系統(tǒng)性工程,解決具體需求難點(diǎn)很重要,突破以往技術(shù)瓶頸很重要,但是整個(gè)平臺(tái)的完整性、流程化也同樣重要?臻g大數(shù)據(jù)分析結(jié)果均以服務(wù)形式提供,可以通過Rest API、Python API,高效地實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)的能力展示。
1、空間數(shù)據(jù)接入存儲(chǔ):這里包含了數(shù)據(jù)清洗、數(shù)據(jù)質(zhì)檢、轉(zhuǎn)換加載的全過程,通過平臺(tái)提供的工具、模型和方法,結(jié)合實(shí)際業(yè)務(wù)需求,進(jìn)行數(shù)據(jù)預(yù)處理,目的是抽取出適用于接入到大數(shù)據(jù)平臺(tái)分析計(jì)算的文件型數(shù)據(jù)源。也就是說,實(shí)現(xiàn)了現(xiàn)有的業(yè)務(wù)數(shù)據(jù)庫(kù)與大數(shù)據(jù)分析計(jì)算庫(kù)相分離。大數(shù)據(jù)分析數(shù)據(jù)源接入類型支持:文件型數(shù)據(jù)、HDFS分布式文件系統(tǒng)、Hive數(shù)據(jù)源以及云存儲(chǔ)(亞馬遜S3存儲(chǔ)、微軟Azure數(shù)據(jù)湖);
2、空間分析挖掘:這一步也就是大數(shù)據(jù)分析場(chǎng)景設(shè)計(jì),需要結(jié)合數(shù)據(jù)結(jié)構(gòu)、業(yè)務(wù)需求,進(jìn)行分析工具的選擇,可以是多種分析工具流程化應(yīng)用,通過GeoAnalytics Server集群的分布式計(jì)算,能夠充分利用硬件資源,使傳統(tǒng)幾小時(shí)甚至幾天的計(jì)算量,在秒級(jí)和分鐘級(jí)完成;
3、時(shí)空大數(shù)據(jù)存儲(chǔ):空間大數(shù)據(jù)的兩個(gè)關(guān)鍵能力是分布式計(jì)算和分布式存儲(chǔ),在高效計(jì)算的能力下,需要配備分布式、高性能的時(shí)空大數(shù)據(jù)存儲(chǔ),ArcGIS Spatiotemporal DataStore通過數(shù)據(jù)分片存儲(chǔ)機(jī)制,提供了高效的數(shù)據(jù)寫入和查詢檢索能力。同時(shí),可以動(dòng)態(tài)增加和減少集群節(jié)點(diǎn),不存在單點(diǎn)故障,保障了業(yè)務(wù)連續(xù)性;
4、可視化展現(xiàn)能力:大數(shù)據(jù)分析結(jié)果可以通過多種方式進(jìn)行展現(xiàn)和查看,如Portal MapViewer、ArcGIS Pro、Insights等豐富的可視化展現(xiàn);
5、業(yè)務(wù)系統(tǒng)集成能力:大數(shù)據(jù)平臺(tái)建設(shè)是一個(gè)系統(tǒng)性工程,解決具體需求難點(diǎn)很重要,突破以往技術(shù)瓶頸很重要,但是整個(gè)平臺(tái)的完整性、流程化也同樣重要?臻g大數(shù)據(jù)分析結(jié)果均以服務(wù)形式提供,可以通過Rest API、Python API,高效地實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)的能力展示。