(1)數(shù)據(jù)倉庫結構及特點
隨著信息處理技術的發(fā)展,使得各類數(shù)據(jù)、信息急劇增長,給數(shù)據(jù)的傳輸、存儲都帶來了許多新的問題。人們希望能夠看到所有數(shù)據(jù)和信息的綜合情況,而這些數(shù)據(jù)與事務處理有許多不能被原有數(shù)據(jù)結構描述,不能被現(xiàn)有應用系統(tǒng)綜合使用。針對這一問題,人們設想專門為業(yè)務的統(tǒng)計分析建立一個數(shù)據(jù)中心,它的數(shù)據(jù)來自聯(lián)機的事務處理系統(tǒng)、異構的外部數(shù)據(jù)源、脫機的歷史業(yè)務數(shù)據(jù)等,這個數(shù)據(jù)中心就叫數(shù)據(jù)倉庫。
被譽為數(shù)據(jù)倉庫之父的W.H.Inmon將數(shù)據(jù)倉庫定義為:“數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的和隨時間的數(shù)據(jù)集合,用于支持管理決策和商務智能。”數(shù)據(jù)倉庫技術,簡單的說,就是將企業(yè)內(nèi)外部的數(shù)據(jù)進行全面的集成、清洗和整理,去除一些純事務性的數(shù)據(jù),將企業(yè)數(shù)據(jù)按主題放置到一個“倉庫”中,然后在次基礎上建立各種決策支持的數(shù)據(jù)為企業(yè)服務。基本結構如圖1所示:
圖1 數(shù)據(jù)倉庫體系結構
對于數(shù)據(jù)倉庫的概念我們可以從兩個層次予以理解,首先,數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,數(shù)據(jù)倉庫是對多個異構的數(shù)據(jù)源有效集成,集成后按照主題進行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。數(shù)據(jù)倉庫擁有以下四個特點:
①面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務處理任務,各個業(yè)務系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織,它與傳統(tǒng)數(shù)據(jù)庫中的面向應用相對應。主題是一個抽象的概念,是指用戶使用數(shù)據(jù)倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關。
②集成的。面向事務處理的操作型數(shù)據(jù)庫通常與某些特定的應用相關,數(shù)據(jù)庫之間相互獨立,并且往往是異構的。而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關于整個企業(yè)的一致的全局信息。數(shù)據(jù)倉庫的集成特性是指在數(shù)據(jù)進入數(shù)據(jù)倉庫之前,必須經(jīng)過數(shù)據(jù)加工和集成,這是建立數(shù)據(jù)倉庫的關鍵步驟。它能夠統(tǒng)一原始數(shù)據(jù)中的矛盾之處,還能夠將原始數(shù)據(jù)結構從面向應用向面向主題轉變。
③相對穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實時更新,數(shù)據(jù)根據(jù)需要及時發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
④反映歷史變化。操作型數(shù)據(jù)庫主要關心當前某一個時間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(如開始應用數(shù)據(jù)倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預測。
圖2 導出數(shù)據(jù)過程
根據(jù)以上的特點,在數(shù)據(jù)倉庫里,數(shù)據(jù)是在對不同來源的數(shù)據(jù)抽取、清理的基礎上經(jīng)過系統(tǒng)加上、匯總和整理得到的一個緊密的整體;數(shù)據(jù)所提供的信息是關于某一特別的主題而不是關于一個公司的日常運營,數(shù)據(jù)倉庫在構建之初就明確其主題,即確定決策涉及的范圍和所要解決的問題。數(shù)據(jù)倉庫中的所有數(shù)據(jù)都由某一個特別的時間段來識別,數(shù)據(jù)倉庫中的數(shù)據(jù)是相對穩(wěn)定的,數(shù)據(jù)倉庫中的數(shù)據(jù)主要供企業(yè)決策分拆之用,一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫一般被長期保留,修改和刪除操作很少,通常只需要定期的加載、刷新,這使得管理人員能獲得一幅關于商務的一致的畫面。
數(shù)據(jù)倉庫的一個重要作用是為決策者提供必要的智能,促進決策者更好的理解商務危機、商務機會和運營狀況。在決策支持過程中,數(shù)據(jù)倉庫主要有四個流程:整合、執(zhí)行、智能和創(chuàng)新,如圖3所示。
圖3 數(shù)據(jù)倉庫的四個流程
(2)數(shù)據(jù)倉庫和數(shù)據(jù)集市
數(shù)據(jù)集市(Data Marts)是為了特定的應用目的或應用范圍,從數(shù)據(jù)倉庫中獨立出來的一部分數(shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù),通常服務于單個部門或企業(yè)中的部分用戶。按照業(yè)務的不同可以分為財務、銷售、市場等多個數(shù)據(jù)集市,每個數(shù)據(jù)集市只包含特定領域內(nèi)的數(shù)據(jù)。數(shù)據(jù)倉庫和數(shù)據(jù)集市的比較如表1所示。
表1 數(shù)據(jù)倉庫與數(shù)據(jù)集市比較
關于構建數(shù)據(jù)倉庫和數(shù)據(jù)集市先后順序,有兩種截然不同的學術觀點,Ralph Kimball認為“數(shù)據(jù)倉庫僅僅是構成它的數(shù)據(jù)集市的聯(lián)合”,而Inmon認為只有在構建幾個單主題區(qū)域之后,集中式的數(shù)據(jù)倉庫才能創(chuàng)建數(shù)據(jù)集市。實際上,方法的選擇取決于項目的主要商業(yè)驅動。如果該組織正忍受糟糕的數(shù)據(jù)管理和不一致的數(shù)據(jù),或者希望為今后打下良好的基礎,那么Inmon的方法就更好一些。
如果該組織迫切需要給用戶提供信息,那么Kimball的方法將滿足該需求。而一旦滿足了迫切的信息需求后,就應該考慮包含獨立數(shù)據(jù)倉庫的數(shù)據(jù)體系結構的轉換計劃。特別需要注意的是個別部門要防止濫用Kimball的方法而脫離集中控制。
(3)數(shù)據(jù)抽取、轉換、裝載數(shù)據(jù)抽取、轉換、裝載上具(Extract Transform.Load.ETL)是數(shù)據(jù)倉庫的重要組成之一,它是把數(shù)據(jù)從不同的操作型數(shù)據(jù)庫、業(yè)務部門和企業(yè)外部數(shù)據(jù)庫中拿出來,進行必要的轉化、整理,再以統(tǒng)一定義的格式存放到數(shù)據(jù)倉庫內(nèi)。它首先對數(shù)據(jù)進行篩選,去掉對決策沒有意義的數(shù)據(jù)段,然后將數(shù)據(jù)轉換成統(tǒng)一的數(shù)據(jù)名稱和定義,計算統(tǒng)計和衍生數(shù)據(jù):估計遺失數(shù)據(jù)的缺省值。數(shù)據(jù)抽取、轉換與裝載過程的目的在于把來自各個不同平臺的數(shù)據(jù)合并到?jīng)Q策支持環(huán)境下的商務智能目標的數(shù)據(jù)倉庫的標準格式中去。數(shù)據(jù)抽取工具能對各種不同存儲方式的數(shù)據(jù)訪問,應能生成不同程序、作業(yè)控制語言、腳本和語句等,以訪問不同的數(shù)據(jù)。
核心關注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理,全面涵蓋了企業(yè)關注ERP管理系統(tǒng)的核心領域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網(wǎng)http://www.kaqidy.com/
本文標題:商務智能體系介紹——數(shù)據(jù)倉庫相關理論
本文網(wǎng)址:http://www.kaqidy.com/html/consultation/1083932971.html