利用云計算、大數據技術,構建涵蓋關系型數據庫、分布式文件系統、NOSQL數據庫、內存數據庫等混合型數據資源中心,建立高安全、高可用、高擴展的智慧環保大數據中心數據架構,更好地解決未來5-10年大流量、高并發、高響應、高實時需求所帶來的計算、存儲、擴容、負載均衡等問題。
同時按照標準先行的思路,整合環保各類數據資源,建立可知、可管、可控、可用的數據資源管理與服務平臺,依托平臺,向各類專業應用、綜合應用、移動應用等提供統一的數據資源管理、分析及服務。
數據資源標準制定通過研究數據資源處理與管理的理論和方法,結合菏澤市環保數據資源的特點,梳理當前環保數據資源存在的問題,并參照環保監測的政策法規,以“標準化、模塊化、統一化”的原則進行設計,完成對菏澤市環保數據資源標準制定,采用多層體系結構設計,將用戶界面、用戶邏輯、數據相互分離,最終建立包含數據管理、數據處理、數據展示的數據共享及應用的平臺。
環保大數據中心數據層的建設,按照以數據資源為核心的理念,充分利用基礎設施與各類大數據服務,實現各類環保數據資源、企業數據資源以及互聯網數據資源的整合匯集、存儲組織、分析處理以及標準化管理,通過環保大數據中心數據層,將各類資源數據以服務接口等形式提供給上層各類應用。
環保大數據中心數據層的建設目標主要包括以下幾方面:
1、搭建標準化數據資源中心
基于目前各業務系統積累的各類數據資源結構特點與實戰應用特點,利用關系型數據庫、海量數據庫、分布式文件系統、內存數據庫等多種存儲技術,搭建數據資源整合平臺,實現環保結構化數據、半結構化數據以及非結構化數據的整合匯集、標準轉換、存儲組織。
2、實現環保信息資源全息化管理
對環保內部各個應用系統、數據庫、數據表以及數據項等各類信息資源進行管理,實現對環保內部資源布局等情況的精準掌控。同時依據相關國家標準、部頒標準,對各類資源進行標準化處理,形成標準化的信息資源,提升各級單位及部門的標準化信息資源服務與支撐能力。
3、構建高效靈活的數據分析處理平臺
利用大數據分布式計算、內存計算以及流式計算等關鍵技術,建立高效能、松耦合、可擴展的環保大數據中心分析處理平臺,圍繞數據挖掘分析、信息綜合應用,在海量數據、高并發等條件下,為各業務部門需求提供數據檢索、數據關聯、數據分析、數據挖掘等數據處理服務支撐。
4、建設一體化數據服務體系
以滿足各環保部門應用需求為目的,基于環保大數據中心數據中心構建數據服務接口,為各個應用系統提供數據服務。同時對環保內部數據服務進行集中式管理,以環保大數據中心為中心對外提供一體化、標準化數據服務,進而實現環保各類數據服務由原來的點到點模式轉變為由點到面的模式,提高數據資源服務能力和管理水平。
5、建立數據與服務安全可靠保障機制
利用數據加密等安全技術對關鍵信息資源進行加密存儲傳輸。同時,強化數據使用權限控制和數據使用審計,保證數據資源在存儲過程、傳輸過程、使用過程等各個階段的安全。
數據層是整個環保大數據中心核心組成部分,在規劃建設過程中,堅持以數據資源為核心,面向數據資源應用與服務、環保信息數據資源標準化與管理,實現數據資源橫向集成、縱向貫通、全局共享的運轉模式。信息資源服務平臺邏輯架構如下圖:
整個信息資源服務平臺邏輯組成部分有數據存儲、數據組織、數據處理、資源管理、數據服務支撐。
數據存儲:主要采用關系數據庫群、海量數據庫、分布式文件系統以及內存數據庫等多種數據存儲技術,以滿足環保結構化、非結構化多種類型格式的海量數據資源存儲需求。
數據組織:對各類數據資源進行邏輯組織,形成基礎數據資源庫、專題應用資源庫以及資源管理庫,滿足環保數據資源應用、管理與服務的需求。
數據處理:主要包括數據整合匯集、數據標準化處理、通用數據處理、專題數據處理。從多個層面對數據資源進行分析挖掘,為不同業務需求提供數據處理服務支撐。
資源管理:資源管理從應用資源、數據資源、服務資源以及標準資源多個層面實現環保大數據中心內外信息資源的管理與標準建設。
數據服務支撐:環保大數據中心數據從數據服務、專題應用、標準化以及資源管理提供環保信息化服務支撐能力。
數據集成系統是將各個源頭數據資源遷移至環保大數據中心數據資源中心中,實現多種類型環保數據資源集成處理。
數據集成系統利用不同技術對數據進行集成,借助增量數據監測、數據日志分析、大數據集成等技術,采集整合各類環保大數據中心平臺外的數據資源并裝載到數據資源中心中的原始數據資源庫中,并保持數據資源的實時鮮活。
根據數據來源的分析,有關污染源的數據集成方案如下:
數據來源 |
數據集成方式 |
頻率 |
說明 |
環境統計 |
手動執行導入包 |
每年 |
1、整合歷史數據包括“十一五”環統、“十二五”環統數據一次性導入中心數據庫; 2、新增數據通過數據導入包每年導入中心數據庫。 |
污染源普查 |
手動執行導入包 |
每十年 |
1、整合歷史數據包括2007及2009污染源普查數據、2010年污染源普查動態更新數據 |
排污申報 |
手動執行導入包 |
每年 |
1、整合歷史數據一次性導入數據庫; 2、新增數據通過數據導入包每年導入。 |
排污收費 |
定期直接入庫 |
每月 |
1、整合歷史數據一次性導入數據庫; 2、新增數據通過數據導入包每月導入。 |
污染源監督性監測 |
數據接口自動入庫 |
實時 |
1、整合歷史數據一次性導入數據庫; 2、新增數據通過數據接口實時進入中心數據庫 |
污染源在線監測 |
數據接口自動入庫 |
實時 |
1、整合歷史數據一次性導入數據庫; 2、新增數據通過數據接口實時進入中心數據庫 |
建設項目 |
數據接口自動入庫 |
實時 |
1、整合歷史數據一次性導入中心數據庫; 2、新增數據通過數據接口實時進入中心數據庫。 |
排污許可 |
數據接口自動入庫 |
實時 |
1、新增數據通過數據接口實時進入中心數據庫。 |
其他行政許可 |
手動執行導入包 |
每月 |
1、整合歷史數據一次性導入數據庫; 2、新增數據通過數據導入包每月導入。 |
環境監察 |
數據接口自動入庫 |
實時 |
1、新增數據通過數據接口實時進入中心數據庫。 |
行政處罰 |
手動執行導入包 |
每月 |
1、整合歷史數據一次性導入數據庫; 2、新增數據通過數據導入包每月導入。 |
移動執法 |
數據接口自動入庫 |
實時 |
1、新增數據通過數據接口實時進入中心數據庫。 |
信訪投訴 |
手動執行導入包 |
每月 |
1、整合歷史數據一次性導入數據庫; 2、新增數據通過數據導入包每月導入。 |
企業基礎信息 |
數據接口自動入庫 |
實時 |
1、歷史數據通過填報后對接導入; 2、新增數據通過數據導入包每月導入。 |
危險廢物管理 |
數據接口自動入庫 |
實時 |
1、整合歷史數據一次性導入中心數據庫; 2、新增數據通過數據接口實時進入中心數據庫。 |
輻射安全管理 |
數據接口自動入庫 |
實時 |
1、整合歷史數據一次性導入中心數據庫; 2、新增數據通過數據接口實時進入中心數據庫。 |
生態管理 |
手動執行導入包 |
每月 |
1、整合歷史數據一次性導入數據庫; 2、新增數據通過數據導入包每月導入。 |
環境質量數據集成方案
環境質量相關的數據從來源來說相對單純,因此其數據集成主要有如下方式:
數據來源 |
數據集成方式 |
頻率 |
說明 |
手工監測數據 |
數據接口自動入庫 |
定期 |
1、定期通過數據接口實時進入中心數據庫。 |
環境質量在線監測 |
數據接口自動入庫 |
實時 |
1、新增數據通過數據接口實時進入中心數據庫。 |
環境監測歷史數據 |
手動執行導入包+集成管理 |
一次性導入 |
1、整合歷史數據一次性導入中心數據庫。 |
3.4.4紙質檔案電子化入庫
菏澤環保局還存在大量的歷史環保數據,這些數據是以紙質文件的方式存檔的,在環境資源數據中心的建設中,必須考慮對這部分數據進行電子化入庫。
數據質量管理基于環保大數據中心數據資源中心采集的各類數據資源,進行數據質量檢測、數據質量問題發現、跟蹤以及修正,確保環保大數據中心對各個業務部門提供可用、高質量的數據資源。
環保數據資源中心建設中不僅要提高數據的準確性,而且要保障資源中心中數據資源的完整性、唯一性、合法性、一致性、及時性等;通過明確數據質量的組織、流程、方法的管理框架,建立數據質量監控機制,及時發現、報告、處理倉庫系統中的數據質量問題。從技術和用戶角度考慮和衡量數據質量問題,提高用戶對數據的滿意度。
加強數據質量評估,根據評估指標和評估方法,實現對系統源接口基礎數據質量的評價和基礎編碼評估,發現數據質量潛在的問題和規律,作為系統數據質量改進的參考和依據。
建立數據質量報告功能,實現對數據質量子系統各種信息的匯總、梳理、統計和分析,提供全面及時的數據質量報告,預防和控制錯誤范圍的擴大,便于數據質量管控信息總結、知識沉淀和經驗重用。
數據標準化是環保大數據中心數據層建設的基礎。在項目建設時根據環保信息資源標準,并根據實際情況進行完善。環保大數據中心數據標準化工作主要以下幾個層面出發進行建設:
數據內容標準化
通過依據現有相關標準內容,對整合的各類數據資源進行標準化處理,形成標準化數據資源,從而對各個業務部門提供標準化的數據資源服務。
資源管理標準化
通過對信息資源注冊、梳理、對標等一系列的工作,建立標準化的資源管理機制,實現對全部信息化資源的標準化管理。以管理推動信息標準化應用工作,逐步實現環保信息化建設的規范化、標準化。
標準化建設
數據標準化工作是一項長期的過程,隨著信息化的升級和深入,數據標準體系也在逐漸完善,所以通過制定相應的信息管理規范,必要時制定相關信息管理制度,來規范和長期完善環保大數據中心標準管理平臺,保證數據資源標準化工作開展和標準化工作成果的形成。
數據資源中心采用傳統關系數據庫技術與大數據、分布式存儲等先進云計算技術相結合方式搭建形成,用于存儲組織各類環保內部數據資源、企業數據資源以及互聯網數據資源等。
數據資源中心一方面要滿足匯集多種類型數據資源存儲需求,另一方面要滿足對外提供高效標準的數據服務支撐需求,同時面向具體業務需求要滿足高效靈活的數據分析處理需求。因此在存儲組織時依據各種數據資源的物理特性、業務應用需求特性等,對各類數據資源進行科學合理規劃組織,用以存儲環保內部、企業以及互聯網來源數據資源中的結構化、非結構數據資源。
基礎數據資源庫用以存儲通過整合匯集環保內部、被監控企業單位、互聯網取得的各類共享原始數據資源,以及對這些數據資源進行標準化、規范化轉換加工后的標準數據資源。基礎資源庫主要包括原始數據資源庫與標準數據資源庫。
基礎數據資源庫根據數據資源特性以及數據資源應用場景選擇采用傳統結構化關系數據庫、海量數據庫、分布式文件系統等多種存儲方式,綜合利用各項存儲技術強項,以提高數據存儲與處理效率。存儲原則:對于數據量小、結構關系復雜或需要進行事務處理的數據資源主要采用關系數據庫存儲;對于數量大、結構相對簡單的數據資源采用海量數據庫存儲;對于非結構化數據資源主要采用分布式文件系統進行存儲;對于數據實時性要求或處理要求較高的采用內存數據庫存儲。
為確保數據資源中心數據資源安全以及穩定高效運行,原則上基礎數據資源庫不直接對外提供應用級的數據庫掛接、數據資源下載以及抽取等操作。各類數據資源需求按照通過數據服務接口方式獲取,或通過云數據總線掛接數據處理工具構建形成專題應用數據資源對外提供數據服務。
基礎資源庫主要包括原始數據資源庫與標準數據資源庫:
1、原始數據資源庫
利用數據集成系統實現各個源頭數據資源的完整原樣復制,將數據資源從源頭匯集到環保大數據中心數據資源中心中。
在數據整合匯集過程中不對源頭數據資源的數據結構、數據內容做任何改動,主要目的一是減少數據匯集過程的復雜程度,確保數據整合匯聚效率并提高數據實效性,避免傳統模式下同步進行數據轉換處理時發生錯誤導致的數據重新匯集。二是滿足某些環保業務對原始數據資源的需求,同時可基于原始數據資源實現多次多層面對數據深度應用支撐。三是原始數據資源庫可作為原始憑證,在數據出現不一致或錯誤情況下可對數據情況進行回溯調查。四是通過原始數據資源做進一步的數據質量檢查工作,以促使源頭數據資源質量提高。
2、標準數據資源庫
基于環保部頒標準、國家相關標準、其他部委相關標準,同時結合自定義標準,利用標準數據轉化工具將集中在原始數據資源庫中的數據資源經過清洗轉化等一系列操作后,形成標準化環保數據資源進行存儲。
標準數據資源庫是數據資源中心對外提供數據資源服務的主要部分。主要作用一是對外提供標準化數據服務,二是基于標準化數據資源為各個業務部門需求提供數據關聯、分析挖掘等處理。
為滿足環保各類業務需求,建立多種專題應用業務模型,通過對數據資源的挖掘分析、關聯串并、索引化等數據處理方式構建形成專題應用資源庫。
專題應用資源庫中主要存儲按照不同業務主題、不同需求緯度、不同粒度的組織形成的綜合關聯數據、專題業務數據、全文索引數據等。為實現縱向和橫向跨業務部門數據資源深度利用、創新環保應用提供專題數據服務。
根據專題數據應用方式,以及共享程度、存儲粒度和應用層次,應用服務資源庫分為關聯數據庫、專題數據庫、全文索引庫等。
1、關聯資源庫
以三要素為核心,對各類數據資源利用關鍵信息進行關聯串并和再組織,建立形成“企業、案件、環境”關聯資源庫,為信息資源綜合查詢提供數據基礎支撐。例如構建形成的企業檔案、辦案案件檔案、環境檔案(例如環保監控河流、水庫等)等信息。
2、專題資源庫
按照業務應用具體需求,對各類數據資源進一步分析挖掘。按照業務需求建立數據聚合、信息比對、統計分析等各種業務處理模型,并對分析結果數據資源進行固化后,形成適合各類業務應用的專題數據庫,如造假可疑企業信息庫、溯源信息庫、決策分析信息庫等。
3、全文索引庫
全文索引庫主要包括標簽數據和索引數據。對于各類結構化數據、網頁數據、文檔數據等資源,通過切詞處理、語義標注分析等操作后,通過提取關鍵字和關鍵信息建立形成標簽數據。通過對數據資源建立索引關系形成索引數據,實現對特定信息快速檢索與定位。
為了對環保信息資源進行科學有效的管理,實現對信息資源的可知、可管、可控,構建資源管理庫。
信息資源庫
信息資源庫主要對環保內部各個基礎信息資源進行管理,范圍包括應用系統的數據庫、數據表以及數據項等內容,并且按照信息資源行業分類、業務分類、所屬單位部門等內容進行管理。
數據元標注庫
利用標準環保數據元對數據項進行標準化標注,建立形成應用系統——數據庫——數據表——數據項——同義詞——數據元關聯。
共享數據資源目錄庫
基于根據環保數據資源目錄注冊接口規范與環保部信息資源目錄要求,對數據資源名稱、摘要、分類、共享屬性、公開屬性、數據資源提供方等內容進行明確,對已注冊的基礎資源按照業務、層級等進行編目,形成共享數據資源目錄。
標準資源庫
標準資源庫主要實現各類標準資源數據的管理。標準資源庫將與環保部相關標準系統進行對接,實現標準資源的同步。標準資源庫建設依據國家相關標準、環保部部頒標準、其他行業相關標準內容,主要包括以下組成部分:
數據元及同義詞數據
主要管理標準數據元以及同義詞。數據元是用于定義業務相關數據結構的基礎元素,主要以環保部頒布形成的《環境信息元數據規范》為基礎建設形成。
環保數據元也包括省、地市局根據本地實際情況整合、梳理、審定、上報形成的本地數據元信息。
同義詞是在標準數據元基礎之上進行構建形成,主要實現各類注冊數據資源與數據項進行標準化對照提供支撐。
代碼字典數據
標準代碼字典數據是環保大數據中心數據標準的核心要素之一,其內容建設主要納入國家相關標準、環保部部頒標準、其他行業相關標準等標準文件規定的代碼字典信息項。
標準主數據
主數據是對各個系統之間共享數據進行標準化管理。例如用戶信息、組織機構信息、地址信息、單位信息等數據。由于原有各條線在各個系統中這些數據資源參照的標準不一或無標準參照,導致目前在數據綜合利用過程中,各個數據資源難以融合,消耗了大量時間和人力進行梳理。
因此通過對這些主數據資源進行統一管理,遵循有標準的依據相關標準建設,無標準依據的制訂本地化標準的建設原則,建立標準化的主數據資源,逐步實現各個業務應用系統之間主數據標準化映射。
數據分析處理主要面向各個業務對數據分析利用的需求,構建一套基于數據資源中心的數據分析處理流程,使數據分析處理變得高效靈活。
數據總線
數據總線負責對各類數據資源進行傳輸,通過數據推送引擎將需要處理的數據資源推送到數據總線中,并有掛接到數據總線中的數據處理引擎負責從數據總線中獲取相應的數據資源,并對這些數據進行加工、分析處理。
數據推送引擎
數據推送引擎通過云數據總線任務調度,實現將數據資源推送至數據總線中。主要包括任務調度與解析、數據資源獲取、數據資源推送、推送日志記錄等功能。
數據總線管理
主要針對數據總線進行配置管理與監控功能。
數據處理工具配置管理:主要實現各個數據處理工具的掛接與管理,包括數據處理工具列表、數據處理工具注冊、數據處理工具上下線管理、數據處理工具狀態等。
數據推送引擎配置管理:包括數據推送任務定制、任務調度與解析、數據推送引擎狀態等內容。
數據總線狀態監控:包括數據推送引擎狀況、推送數據資源量、數據處理工具運行狀況。
數據處理引擎采用分布式計算、實時計算等多種數據處理技術,為滿足環保業務需求構建全文索引化、信息關聯化以及數據挖掘分析的多種數據處理模型。
標準數據轉化工具
依靠標準化數據資源,對數據整合系統采集的各類原始數據資源進行清洗、標準化轉換等數據預處理,最終形成環保大數據中心標準數據資源。
索引處理工具
海量信息索引處理引擎從基礎數據資源庫、專題應用資源庫等數據資源中抓取全部或關鍵信息對數據資源進行標記,形成索引信息,為實現各類數據資源快速高效檢索建立形成全文索引庫。
檔案處理工具
檔案處理工具根據三要素,通過對基礎數據資源庫中的標準資源進行深度信息關聯串并,形成“一廠一檔”等綜合檔案信息,構建形成關聯信息庫。
比對數據處理工具
對各類環境業務數據信息,按照分布式壓縮文件格式進行分區存儲,并加載到大數據比對引擎中,為海量數據的實時快速比對碰撞提供高效的比對數據支撐。
專題數據處理工具
根據環保不同部門工作需求,以數據中心聚合和組織的數據為基礎,開展面向主體業務的和面向決策的數據分析工作,提供快速、靈活的大數據量復雜查詢與分析處理,面向業務實際需求和管理決策提供專題數據服務。
數據服務主要是將數據資源中的標準數據資源與專題數據資源按照業務需求建立形成數據服務接口,為各業務部門提供標準化、共享的、安全的數據服務,實現數據資源對外統一服務、資源共享與管理。
主要目的一是提高數據資源安全性,有效防止外部應用對底層數據資源的直接訪問;二是提高數據服務穩定性,確保數據資源中心的高效穩定運行;三是對數據服務進行授權管理以及應用管理,保障數據服務安全可控;四是對數據資源利用情況進行有效管理監控。
利用現有三維GIS平臺,制作生態環境專題圖,發布各類專題地圖服務,為上層應用提供地圖服務、分析服務。
環保云搜是基于大數據應用支撐平臺基礎上的環保云應用,通過類百度的方式實現環保業務相關信息的快速搜索。
環保云搜的設計立足于業務實戰,并充分借鑒了互聯網搜索的易用性、智能性。系統基于分布式全文檢索引擎,讓用戶使用多維度的碎片信息即可在海量數據中進行地毯式搜索,如在搜索框中輸入:“杭州 COD *水務公司”等多維度碎片信息,即可搜索出符合檢索條件的企業信息,實現由企業關聯污染源、站點、案件、水務公司等信息,通過一個輸入框即可實現任意要素間關聯搜索。
根據環境監管監察的業務體系和環境對象,建立污染源企業、監測站點、河流(湖庫)、工業園區四類重點監管對象的超級檔案,構建重點監管對象的全景視圖,包括基本信息、監測信息、監察信息、視頻信息、畫像信息、統計信息、分析信息等,為用戶提供全方位、多維度、自分析的對象“超級檔案”。
所謂大數據企業畫像,就是用大數據技術,對環保系統、企業、第三方等的數據進行分析和應用,匯集企業基本信息、生產要素、管理要素、環境要素等多個成像要素,涵蓋環境影響評價、建設項目審批、竣工驗收、行政許可、現場檢查、環境監測、行政處罰、排污收費、信訪投訴、環境信用評價等業務,利用大數據標簽刻化技術對企業‘打標簽’。
以企業主體為例,通過企業畫像構建,改變監管部門只能憑借其業務經驗進行主體對像分析,尤其在環境信息化數據量越來越多的今天,監管部門可以通過特征標簽(COD、氨氮、設備陳舊、落后產能、環保電價、位置跨境、有超標處罰、高架源、有作假前科、永久關停、水氣共有等)快速定位目標企業,快速挖掘出監管人員所需要的業務信息,對監管分析提供有價值的參考,縮短人工分析時間,為監管人員制定精準化決策提供支撐。
依托云計算大數據平臺,建設一站式環境知識庫服務平臺,旨在解決工作人員在學習、工作當中對環境信息的需求,方便其快速、便捷地獲取到實用的環境信息,輔助決策參考。
包括污染源知識庫(廢水、廢氣、噪聲、固廢、核與輻射、工地揚塵、機動車尾氣)、環境質量(水環境、大氣環境、聲環境、生態環境)、環境業務知識庫(建設項目管理、監督許可管理、污染源日常監督、行政處罰管理、環境監測管理、生態保護管理、環境應急管理)、指南規范庫、文獻庫等多種豐富權威的環境資源。知識內容細分到環境各領域,通過分類及檢索,可快速獲取到相關知識點供參考。