當前位置:工程項目OA系統(tǒng) > 泛普各地 > 福建OA系統(tǒng) > 福州OA系統(tǒng) > 福州OA快博
數(shù)據(jù)倉庫——商業(yè)智能的基石
1 數(shù)據(jù)倉庫的產(chǎn)生和發(fā)展
被稱為數(shù)據(jù)倉庫之父的W.H.Inmon在他1990年出版的《建立數(shù)據(jù)倉庫(第一版)》一書中第一次為數(shù)據(jù)倉庫給出了明確的定義,真正把數(shù)據(jù)倉庫上升到一個理論高度。他認為數(shù)據(jù)倉庫的歷史是伴隨著信息處理領域的決策支持系統(tǒng)(DSS)處理的發(fā)展過程開始的,在這個發(fā)展過程中,隨著計算機技術(尤其是計算機存儲技術)的發(fā)展和抽取處理程序的流行,一種更大規(guī)模的體系結(jié)構逐漸勾勒出來。在這種體系結(jié)構中,數(shù)據(jù)倉庫處于中心位置。
自數(shù)據(jù)倉庫產(chǎn)生至今,在企業(yè)的決策支持要求、企業(yè)的競爭要求、企業(yè)的商業(yè)智能(BI)要求的巨大推動下,作為決策支持基礎的數(shù)據(jù)倉庫的運用經(jīng)歷了一個不可思議的快速增長過程,數(shù)據(jù)倉庫本身,包括數(shù)據(jù)倉庫體系結(jié)構、數(shù)據(jù)倉庫處理規(guī)模、數(shù)據(jù)倉庫性能等也經(jīng)歷了一個快速發(fā)展過程,數(shù)據(jù)倉庫的價值也產(chǎn)生了質(zhì)的變化。
不管企業(yè)是如何構建數(shù)據(jù)倉庫的,數(shù)據(jù)倉庫通過在收集信息、決策分析、未來趨勢預測、制定戰(zhàn)術上、戰(zhàn)略上的商業(yè)策略等方面的支持力度體現(xiàn)自身的價值。現(xiàn)在在業(yè)界,當問到為什么需要數(shù)據(jù)倉庫以及數(shù)據(jù)倉庫的價值或重要性時,回答幾乎都是一致的,那就是數(shù)據(jù)倉庫能為企業(yè)帶來戰(zhàn)略優(yōu)勢,尤其是能支持全方位地了解客戶,但是在數(shù)據(jù)倉庫使用初期,情況卻不是這樣的。在過去的十年里,數(shù)據(jù)倉庫的價值得到了快速持續(xù)的增長。
如圖1所示,最開始時數(shù)據(jù)倉庫只是用來制作一些靜態(tài)的報表,數(shù)據(jù)轉(zhuǎn)移到數(shù)據(jù)倉庫中就是為了更好地控制數(shù)據(jù)以及提高數(shù)據(jù)查詢性能,以方便地出一些能夠提供簡單信息的報表。顯然靜態(tài)報表不能滿足決策的需求,數(shù)據(jù)倉庫開始面向?qū)ο笤O計,以產(chǎn)生智能性的信息,面向?qū)ο髷?shù)據(jù)倉庫的數(shù)據(jù)是面向主題組織的,從這樣的數(shù)據(jù)倉庫中可以很方便地獲取某一主題的信息,這些信息主要是面向企業(yè)或部門決策的某一方面,比如客戶。當不止一個部門納入到數(shù)據(jù)倉庫的建設中時,數(shù)據(jù)倉庫開始面向整個企業(yè)進行決策支持,這時企業(yè)的整體利益是根本。當數(shù)據(jù)倉庫利用于面向企業(yè)決策支持時,在數(shù)據(jù)倉庫中加入人口統(tǒng)計學、行為分析等知識后就能夠獲取充分的信息對客戶有一個360度的了解,辨識出有價值的客戶,并且能為客戶提供他所需的,有效地進行cross-sale和up-sale。這時企業(yè)的決策周期也大大地縮短了,從以前的2、3年一次,發(fā)展到現(xiàn)在一年2、3次。在分析決策支持活動中,靜態(tài)報表被多維分析、數(shù)據(jù)挖掘代替,基于數(shù)據(jù)倉庫中的集成化的智能信息所做的決策影響整個企業(yè),提高整個企業(yè)的收入。隨著商業(yè)的全球化,更多的數(shù)據(jù)和信息納入到了數(shù)據(jù)倉庫,數(shù)據(jù)倉庫朝著增值戰(zhàn)略又邁進了一步,企業(yè)運營策略重點轉(zhuǎn)移到:如何為已有的客戶提供更好的服務以及如何拓展客戶基礎,包括公司的資源配置、企業(yè)價值鏈上所有的資源、新的銷售和營銷渠道,而客戶資料(信息)已經(jīng)擴展到心理特征、行為特征以及潛在競爭對手,這時的數(shù)據(jù)倉庫面向企業(yè)的價值鏈提供個性化集成的智能化信息。以電信為例,數(shù)據(jù)倉庫在各個階段所能回答的問題如表1所示。
圖1 數(shù)據(jù)倉庫價值曲線
表1 數(shù)據(jù)倉庫在各個階段所能回答的問題
2 數(shù)據(jù)倉庫體系結(jié)構
在數(shù)據(jù)倉庫研究領域非常強調(diào)數(shù)據(jù)倉庫是一個體系。其實我們可以從兩個角度去理解什么是數(shù)據(jù)倉庫:從一種狹義的特定角度來看,如果我們專注的是一個核心,那么可認為數(shù)據(jù)倉庫是一個數(shù)據(jù)集合,W.H.Inmon的定義也是從這種角度出發(fā)歸納出來的;如果從廣義上從實踐上理解,我們應該把它理解成一個體系結(jié)構,一個以所定義的數(shù)據(jù)集合為中心的、以決策支持為主導的、支持企業(yè)運作的IT體系結(jié)構。
2.1 數(shù)據(jù)倉庫的定義
數(shù)據(jù)倉庫是一個面向主題的、集成的、非易失的且隨時間變化的數(shù)據(jù)集合,用來支持管理人員的決策,數(shù)據(jù)倉庫包含粒狀的企業(yè)數(shù)據(jù)。
(1)面向主題的:數(shù)據(jù)倉庫中的數(shù)據(jù)是按照商業(yè)問題或決策進行組織的,通過這樣的數(shù)據(jù)組織,數(shù)據(jù)被有效地轉(zhuǎn)化成了信息,而決策分析人員也可以很方便地獲得決策分析所需要的信息。典型的主題領域一般包括客戶、產(chǎn)品、營銷活動、帳單、投訴、帳目等,在數(shù)據(jù)倉庫中主要主題領域是以一組相關的表來具體實現(xiàn)的。主題的確定是數(shù)據(jù)倉庫設計中一個很重要也是很復雜的內(nèi)容,主題的確定直接影響數(shù)據(jù)倉庫的可用性和價值。一般采用建立企業(yè)數(shù)據(jù)模型的方式確定分析主題,必須和相關的業(yè)務分析人員進行反復溝通共同建立分析主題。
(2)集成的:在數(shù)據(jù)倉庫的所有特性之中,集成是最重要的特性。由于操作系統(tǒng)的獨立建設,在設計時并沒有考慮和其他系統(tǒng)的相關性和一致性,所以當數(shù)據(jù)進入數(shù)據(jù)倉庫時,要采用某種方法來消除應用問題中的許多不一致性,即進行集成。一般常見的一致性處理有:編碼的一致性、度量單位的一致性、描述或定義的一致性、格式或類型大小的一致性等。數(shù)據(jù)的集成和轉(zhuǎn)換(ETL)在數(shù)據(jù)倉庫實施中是最困難最復雜也是最耗時的。數(shù)據(jù)倉庫的數(shù)據(jù)源主要是企業(yè)的各個應用系統(tǒng),在進行數(shù)據(jù)集成和轉(zhuǎn)化之前必須定義記錄系統(tǒng),即必須確定哪些系統(tǒng)或系統(tǒng)中的哪些數(shù)據(jù)是符合要求的,對此,就必須理解所有的系統(tǒng)和系統(tǒng)中的數(shù)據(jù)。由于各個系統(tǒng)的建設為事務處理服務的,因此數(shù)據(jù)組織方式和數(shù)據(jù)表現(xiàn)形式與用于分析的數(shù)據(jù)組織方式和表現(xiàn)形式不同,而且形式多樣,為了處理數(shù)據(jù),必須根據(jù)數(shù)據(jù)形式確定規(guī)則,而規(guī)則是否全面和準確直接影響數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量。目前在ETL領域遇到的還有一個問題是ETL的耗時。當為了支撐決策分析的數(shù)據(jù)越來越多,比如客戶的增長和業(yè)務量的增長,需要處理的數(shù)據(jù)越來越多,處理數(shù)據(jù)的時間必然越來越長,而市場的競爭又對決策支持的響應時間要求越來越短,能否在一定的時間內(nèi)完成ETL成為數(shù)據(jù)倉庫價值的一個關鍵因素。調(diào)整數(shù)據(jù)倉庫體系結(jié)構優(yōu)化數(shù)據(jù)倉庫性能,提高系統(tǒng)的運行能力,增加硬件投資擴容是一個辦法,但不是最終解決問題的方法。新一代業(yè)務支撐系統(tǒng)的興起將為ETL的簡化提供很好的支持。
(3)非易失的:操作型系統(tǒng)中一般需要對數(shù)據(jù)記錄進行逐個的增刪改操作,而在數(shù)據(jù)倉庫中與操作系統(tǒng)中的數(shù)據(jù)操作不一樣,在數(shù)據(jù)倉庫環(huán)境中并不進行一般意義上的數(shù)據(jù)更新,數(shù)據(jù)倉庫的數(shù)據(jù)通常是一次載入與訪問的,也就是說數(shù)據(jù)經(jīng)過集成化處理后一次載入數(shù)據(jù)倉庫的。對于數(shù)據(jù)的維護,一般采用新增記錄。雖然在某些情況下可以采用更新的方式,但是這種情況極少可能。而這并不意味著數(shù)據(jù)倉庫中的數(shù)據(jù)是一直不變的。其實數(shù)據(jù)倉庫的數(shù)據(jù)也需要清理,只是這里的清理不是簡單地將數(shù)據(jù)從數(shù)據(jù)倉庫中刪除,而是將數(shù)據(jù)倉庫的早期數(shù)據(jù)轉(zhuǎn)移到更便宜的存儲設備上,或者把早期的細節(jié)數(shù)據(jù)進行綜合保留。清理數(shù)據(jù)倉庫還有一個重要的內(nèi)容就是對于休眠數(shù)據(jù)和臟數(shù)據(jù)的處理。休眠數(shù)據(jù)是指那些存在于數(shù)據(jù)倉庫中的、當前并不使用、將來也很可能或者根本就不會使用的數(shù)據(jù)。臟數(shù)據(jù)是指那些錯誤的數(shù)據(jù)。雖然我們說要確保數(shù)據(jù)的質(zhì)量,但是這兩種數(shù)據(jù)都不可避免地會存在于數(shù)據(jù)倉庫中。識別和處理這兩種數(shù)據(jù)是提高數(shù)據(jù)倉庫性能的一個方面,雖然處理起來不是那么容易。在數(shù)據(jù)倉庫構建當初,這個問題可能不是特別明顯,但是隨著數(shù)據(jù)倉庫的運作,這將成為一個數(shù)據(jù)倉庫管理的重要內(nèi)容。數(shù)據(jù)倉庫中的數(shù)據(jù)維護策略是數(shù)據(jù)倉庫實施中的重要內(nèi)容,維護策略制定的合理性直接影響著整個數(shù)據(jù)倉庫的功能和性能。
(4)隨時間變化:操作型數(shù)據(jù)庫含有“當前值”的數(shù)據(jù),這些數(shù)據(jù)的準確性在訪問時是有效的,同樣當前值的數(shù)據(jù)能被更新。而數(shù)據(jù)倉庫中的數(shù)據(jù)僅僅是一系列某一時刻生成的復雜的快照。也就是說數(shù)據(jù)倉庫中按時間保留對應的歷史數(shù)據(jù)。數(shù)據(jù)倉庫中的數(shù)據(jù)總是與時間相關的,在企業(yè)模型的基礎上建立數(shù)據(jù)倉庫模型的過程中一個重要的內(nèi)容就是去除純操作數(shù)據(jù)的同時加入時間元素。數(shù)據(jù)倉庫的鍵碼結(jié)構總是包含某時間元素。在數(shù)據(jù)倉庫中數(shù)據(jù)記錄觸發(fā)一般是“時間-發(fā)生”型的,比如某個時間開始進行數(shù)據(jù)處理活動。
(5)多重粒度:粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別。細化程度越高,粒度級就越小例如清單級數(shù)據(jù);相反,細化程度越低,粒度級就越大,例如月匯總數(shù)據(jù)或應用匯總數(shù)據(jù)。顯而易見,粒度與數(shù)據(jù)倉庫的性能和功能有著息息相關的關系,它深深地影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影響數(shù)據(jù)倉庫所能回答的查詢類型:
① 數(shù)據(jù)粒度和數(shù)據(jù)存儲量的矛盾:如果數(shù)據(jù)倉庫的空間很有限的話(數(shù)據(jù)量總是數(shù)據(jù)倉庫中的首要問題),用高粒度級表示數(shù)據(jù)將比用低粒度級表示數(shù)據(jù)的效率要高得多,在高粒度級上,數(shù)據(jù)進行了很大的壓縮。
② 數(shù)據(jù)粒度和數(shù)據(jù)處理能力的矛盾:高粒度級不僅只需少得多的字節(jié)存放數(shù)據(jù),而且只需較少的索引項,低粒度級則相反。小數(shù)據(jù)量的數(shù)據(jù)訪問效率比較高,而大數(shù)據(jù)量的數(shù)據(jù)訪問效率比較低,為了有效地訪問大量數(shù)據(jù),需要系統(tǒng)具有更大的數(shù)據(jù)處理能力。
③ 數(shù)據(jù)粒度和回答查詢的能力的矛盾:當提高數(shù)據(jù)粒度級時,數(shù)據(jù)所能回答查詢的能力就會隨之降低。換句話說,在一個很低的粒度級上你實際可以回答任何問題,但在高粒度級上,數(shù)據(jù)所能處理問題的數(shù)量是有限的。
因此,為了平衡性能和功能和費用,一般選擇多重粒度。所謂多重粒度就是指在數(shù)據(jù)倉庫中既有粒度小的如清單級的數(shù)據(jù),又有粒度大的數(shù)據(jù),比如匯總數(shù)據(jù),匯總力度多大,決定于系統(tǒng)的處理能力和用戶的要求。數(shù)據(jù)倉庫中的數(shù)據(jù)是有粒度層次的(如圖2所示)。
圖2 數(shù)據(jù)倉庫數(shù)據(jù)層次結(jié)構
2.2 數(shù)據(jù)倉庫的用戶
數(shù)據(jù)倉庫的用戶一般稱為DSS分析員,他首先是個商務人員,其次才是技術人員。DSS分析員的主要工作是定義和發(fā)現(xiàn)在企業(yè)決策中使用的信息。DSS分析員的態(tài)度對數(shù)據(jù)倉庫的開發(fā)方式和分析應用系統(tǒng)怎樣使用被開發(fā)的數(shù)據(jù)倉庫有深遠的影響。
數(shù)據(jù)倉庫用戶群中有多種多樣的最終用戶,每類最終用戶都有自己獨特的特征和使用數(shù)據(jù)倉庫的需求。從使用方式出發(fā),數(shù)據(jù)倉庫用戶群可以分成兩大類:一類是信息使用者;一類是信息探索者。
數(shù)據(jù)倉庫的用戶大多數(shù)屬于信息使用者,信息使用者以一種可預測的重復性的方式來使用數(shù)據(jù)倉庫,他們通常查看相同商業(yè)維度(客戶、業(yè)務、地域、終端)和指標(時長、話費)隨時間的發(fā)展趨勢、預測發(fā)展走向、觀察業(yè)務發(fā)展效果、監(jiān)測客戶狀況以支持銷售或營銷決策,他們主要利用數(shù)據(jù)倉庫平臺進行多維分析;而探索者有一個完全不可預測的、非重復性的數(shù)據(jù)使用模式,本質(zhì)上探索者是典型的數(shù)據(jù)挖掘者,他需要查看海量數(shù)據(jù),他并不能精確地知道什么必須分析,他需要查看沒有被預關聯(lián)的數(shù)據(jù)關系和數(shù)據(jù)集,探索者利用數(shù)據(jù)倉庫數(shù)據(jù)的廣度和深度來支持他們的探索性分析活動。這兩類用戶對數(shù)據(jù)倉庫的性能要求是截然不一樣的,分清數(shù)據(jù)倉庫的用戶,具有針對性地進行數(shù)據(jù)倉庫管理以提高數(shù)據(jù)倉庫的性能,減少運作和維護的費用是數(shù)據(jù)倉庫成功的一個關鍵因素。
2.3 數(shù)據(jù)倉庫體系結(jié)構
如圖3所示,以數(shù)據(jù)倉庫為中心的,滿足企業(yè)決策支持、企業(yè)商業(yè)智能的數(shù)據(jù)倉庫體系結(jié)構包括以下內(nèi)容。
圖3 數(shù)據(jù)倉庫體系結(jié)構
(1)數(shù)據(jù)源:數(shù)據(jù)源是數(shù)據(jù)倉庫數(shù)據(jù)的來源,主要包括存在于企業(yè)內(nèi)部的各個應用系統(tǒng)中的結(jié)構化數(shù)據(jù),還包括來自于企業(yè)外的結(jié)構或非結(jié)構數(shù)據(jù)。隨著決策分析的要求越來越精確,范圍越來越廣,許多外部數(shù)據(jù)(比如企業(yè)價值鏈上的各種非本企業(yè)數(shù)據(jù)或信息)逐漸納入到體系結(jié)構中。
(2)中心數(shù)據(jù)倉庫:中心數(shù)據(jù)倉庫是整個體系結(jié)構的核心,來自于各個數(shù)據(jù)源的數(shù)據(jù)經(jīng)過ETL處理后裝載入數(shù)據(jù)倉庫。數(shù)據(jù)倉庫中數(shù)據(jù)是按照主題的方式組織的,具有多重粒度性。數(shù)據(jù)倉庫中包括大量的能滿足各種回答能力的歷史細節(jié)數(shù)據(jù),同時也包括各種能滿足查詢性能要求的綜合性數(shù)據(jù)。數(shù)據(jù)量大是數(shù)據(jù)倉庫的最大特征,如何進行大數(shù)據(jù)量的管理,達到性能和功能的平衡是數(shù)據(jù)倉庫相關技術要求的核心內(nèi)容;數(shù)據(jù)倉庫的另一個重要特征是它的數(shù)據(jù)不可更新性,數(shù)據(jù)倉庫的可行性,很大程度依賴于這個前提,由此,在空間設計上可以不用考慮寫操作帶來的空間預留,可以不用一直將鎖管理打開而有效地節(jié)省系統(tǒng)開銷,保證大數(shù)據(jù)量管理的實現(xiàn);另外,數(shù)據(jù)倉庫不具有快速反應的特征,這是因為一方面數(shù)據(jù)倉庫的數(shù)據(jù)量非常大,在這樣大的數(shù)據(jù)量的數(shù)據(jù)操作中追求快速反應是不現(xiàn)實的,另一方面數(shù)據(jù)倉庫的工作負載是不均衡的,有時很小,有時很大,在一個大數(shù)據(jù)量的查詢過程中,要求另一個查詢的快速是不現(xiàn)實的也是不科學的。
(3)數(shù)據(jù)集市:所謂數(shù)據(jù)集市就是指基于某一特定部門的決策支持需要而組織的主題域的一個集合,它支持部門的定制化使用,是部門的數(shù)據(jù)體。當越來越多的部門或用戶加入到數(shù)據(jù)倉庫的使用中時,數(shù)據(jù)倉庫的性能受到很大的壓力,以致于一些訪問數(shù)據(jù)倉庫的要求和分析工作被推遲。為了解決這種矛盾,在數(shù)據(jù)倉庫平臺中引入數(shù)據(jù)集市,將部門所需要的數(shù)據(jù)從數(shù)據(jù)倉庫中復制到部門處理環(huán)境中,數(shù)據(jù)集市是平衡數(shù)據(jù)倉庫性能的一個重要組件。數(shù)據(jù)集市概念的提出和在現(xiàn)代數(shù)據(jù)倉庫體系中突出了數(shù)據(jù)集市的一個主要原因是為了調(diào)節(jié)大數(shù)據(jù)量管理和用戶數(shù)據(jù)訪問需求間的關系。對于一個數(shù)據(jù)規(guī)模非常大的數(shù)據(jù)倉庫結(jié)構,通過數(shù)據(jù)集市將部分商業(yè)智能應用和數(shù)據(jù)倉庫隔離開來,使數(shù)據(jù)倉庫的結(jié)構和組織更自由一些,使得數(shù)據(jù)從操作型環(huán)境中遷移到數(shù)據(jù)倉庫環(huán)境中的處理可以更加靈活一些。在數(shù)據(jù)倉庫體系中加入數(shù)據(jù)集市的元素能夠更快速地反映用戶的要求,也可以更方便地滿足用戶的多樣性需求。數(shù)據(jù)集市是數(shù)據(jù)倉庫的一個有效和自然的補充,數(shù)據(jù)集市延伸決策支持到部門級環(huán)境中。數(shù)據(jù)倉庫提供粒狀數(shù)據(jù),不同數(shù)據(jù)集市應用不同的方法來解釋和構造這種粒狀數(shù)據(jù)以滿足他們的需求。對數(shù)據(jù)集市來說,最適當?shù)臄?shù)據(jù)源是數(shù)據(jù)倉庫。但是數(shù)據(jù)倉庫和數(shù)據(jù)集市又具有很大的差異性,不能以數(shù)據(jù)集市代替數(shù)據(jù)倉庫,因為數(shù)據(jù)集市不能支持數(shù)據(jù)挖掘,數(shù)據(jù)集市不能支持企業(yè)級的決策分析,數(shù)據(jù)集市不能滿足企業(yè)的商業(yè)智能化要求,不能夠集中體現(xiàn)出企業(yè)的整體運營策略。
(4)數(shù)據(jù)訪問:為了充分發(fā)揮數(shù)據(jù)倉庫的作用,需要利用各種訪問方式找出它所包含的信息,并充分利用這些信息。用戶對數(shù)據(jù)倉庫的使用形式各種各樣,對于數(shù)據(jù)倉庫的使用要求也是各種各樣的,為了有效地運用數(shù)據(jù)倉庫進行決策支持,根據(jù)用戶的不同要求提供相應的訪問工具和應用是數(shù)據(jù)倉庫體系的一個重要內(nèi)容。目前數(shù)據(jù)訪問形式可以歸納為以下方面:
① OLAP:聯(lián)機分析處理(OLAP)是當前信息處理領域比較流行的一種訪問技術,一般支持多維性、下鉆、旋轉(zhuǎn)和多視圖模式等功能。用戶通過OLAP可以對數(shù)據(jù)進行非常靈活的訪問,可以用多種方法對數(shù)據(jù)進行切片、分割,動態(tài)地考察匯總數(shù)據(jù)和細節(jié)數(shù)據(jù)的關系。
② 分析:采用數(shù)據(jù)庫查詢語言(例如SQL)直接訪問數(shù)據(jù)倉庫,并獲得分析結(jié)果。這是訪問數(shù)據(jù)倉庫最原始的方法,一般由數(shù)據(jù)庫專家采用。
③ 報表:通過預先制定好的報表為用戶提供分析。這種方式對數(shù)據(jù)的獲取比較受限制,一般運用在一些常規(guī)的關鍵數(shù)據(jù)呈現(xiàn)上。
④ 數(shù)據(jù)挖掘:數(shù)據(jù)挖掘也叫做數(shù)據(jù)庫中的數(shù)據(jù)發(fā)現(xiàn)(KDD)。數(shù)據(jù)挖掘就是一個發(fā)現(xiàn)過程,它能夠幫助用戶理解有關數(shù)據(jù)的真正含義,并了解數(shù)據(jù)之間所存在的關系。數(shù)據(jù)挖掘能夠在信息內(nèi)容中揭示出相應的模式和趨勢。
⑤ WEB訪問:最終用戶通過具有數(shù)據(jù)倉庫數(shù)據(jù)訪問能力的WEB應用程序訪問數(shù)據(jù)倉庫。目前的技術已可以創(chuàng)建高級的交互式應用程序,允許客戶端查詢數(shù)據(jù)倉庫和多維數(shù)據(jù)集中的數(shù)據(jù)。
⑥ EIS:高級管理人員信息系統(tǒng)(EIS)為高級管理人員制定相關決策提供支持。最典型的用途包括趨勢分析和發(fā)現(xiàn)、關鍵比例指示器度量和跟蹤、向下探察分析、問題監(jiān)控、競爭分析等。
⑦ 操作型應用系統(tǒng):這是一類比較特殊的對數(shù)據(jù)倉庫的訪問。這類系統(tǒng)一方面具有對數(shù)據(jù)倉庫的數(shù)據(jù)訪問能力,一方面又將相關的數(shù)據(jù)“寫回”到數(shù)據(jù)倉庫中,例如CRM系統(tǒng)。
(5)元數(shù)據(jù)管理:元數(shù)據(jù)就是關于數(shù)據(jù)的數(shù)據(jù),是對數(shù)據(jù)倉庫中的數(shù)據(jù)的描述。在數(shù)據(jù)倉庫體系中元數(shù)據(jù)扮演一個新的重要角色,這是因為使用者是DSS人員,他不具有象IT人員那樣多的計算機或相關的知識;另外數(shù)據(jù)倉庫的數(shù)據(jù)從操作型環(huán)境中遷移到數(shù)據(jù)倉庫環(huán)境中經(jīng)過了集成、清洗等處理,所以操作型環(huán)境到數(shù)據(jù)倉庫環(huán)境的映射是數(shù)據(jù)理解的關鍵。元數(shù)據(jù)的內(nèi)容一般包括程序員所應知的數(shù)據(jù)結(jié)構、DSS分析員所知的數(shù)據(jù)結(jié)構、數(shù)據(jù)倉庫的源數(shù)據(jù)、數(shù)據(jù)加入數(shù)據(jù)倉庫時的轉(zhuǎn)換、數(shù)據(jù)模型、數(shù)據(jù)模型和數(shù)據(jù)倉庫的關系、抽取數(shù)據(jù)的歷史記錄等內(nèi)容。和元數(shù)據(jù)比較相近的一個重要概念是上下文,所謂上下文就是某種分析結(jié)果的前因后果,它非常重要,有時在將數(shù)據(jù)轉(zhuǎn)化成信息時起了很大的作用。
3 數(shù)據(jù)倉庫的實施
3.1 數(shù)據(jù)倉庫實施的特點
數(shù)據(jù)倉庫的實施一般是指如何組織數(shù)據(jù)并將數(shù)據(jù)從操作型環(huán)境中遷移到數(shù)據(jù)倉庫環(huán)境中,并在數(shù)據(jù)倉庫的基礎上建立適于用戶訪問數(shù)據(jù),進行決策分析的應用。數(shù)據(jù)倉庫的實施具有以下特點:
(1)建立數(shù)據(jù)倉庫不是一蹴而就的:由于在數(shù)據(jù)倉庫載入第一個主題數(shù)據(jù)前,業(yè)務分析人員是不知道需要什么的,所以數(shù)據(jù)倉庫的實施具有一定的風險性,一次一步的方式有效地降低了風險。
(2)數(shù)據(jù)倉庫的建立要采用有序地反復的方式,即迭代的方式:在建立數(shù)據(jù)倉庫的過程中,不可避免地會出現(xiàn)新主題的增加,新數(shù)據(jù)的抽取等要求,尤其是現(xiàn)在市場變化這么快,一兩年后的要求也許和現(xiàn)在就有很大的差異,所以說數(shù)據(jù)倉庫的實施實際上是一個建立一個良性循環(huán)的迭代過程,成功的標志在于是否建立了一個良性的迭代過程,是否持續(xù)地使用。
(3)數(shù)據(jù)倉庫成功的一個關鍵因素在于數(shù)據(jù)倉庫設計者和DSS分析人員之間的反饋循環(huán):數(shù)據(jù)倉庫載入數(shù)據(jù)后需要使用者積極地去使用和觀察數(shù)據(jù),然后反饋意見給設計人員進行數(shù)據(jù)倉庫的修正完善。如果分析人員發(fā)現(xiàn)了問題又不及時反饋給設計人員,不能形成一個良性的循環(huán),數(shù)據(jù)倉庫成功的幾率是很低的。
3.2 數(shù)據(jù)倉庫實施的過程
數(shù)據(jù)倉庫的實施是從一個模型開始的。然后定義記錄系統(tǒng)即確定數(shù)據(jù)源,設計數(shù)據(jù)倉庫,設計接口程序,進行ETL開發(fā)和應用開發(fā),和DSS分析人員進行循環(huán)反饋,如圖4所示。數(shù)據(jù)倉庫的實施包括以下3個部分。
圖4 數(shù)據(jù)倉庫實施的循環(huán)
(1)數(shù)據(jù)倉庫規(guī)劃:以企業(yè)的業(yè)務模型為基礎進行企業(yè)決策相關的業(yè)務理解和探索,制定相應的商業(yè)/分析數(shù)據(jù)模型,該模型描述了企業(yè)的信息需求(指出企業(yè)所需要的而不考慮企業(yè)所具有的),至少需要包括企業(yè)的主要主題、各個主題之間的關系以及對主題主鍵(組)和屬性(組)的盡可能全面的描述等內(nèi)容。根據(jù)該模型定義記錄系統(tǒng),即分析和確定由哪些生產(chǎn)應用系統(tǒng)提供滿足要求的數(shù)據(jù)后,就可以建立數(shù)據(jù)倉庫的邏輯模型和進行數(shù)據(jù)倉庫結(jié)構設計了。
(2)數(shù)據(jù)倉庫設計和實施:該部分包括知識探索、根據(jù)邏輯模型和性能要求進行物理模型設計、制定數(shù)據(jù)存儲策略、根據(jù)記錄系統(tǒng)和數(shù)據(jù)倉庫模型進行ETL開發(fā)和實施、進行滿足用戶使用特征的應用開發(fā)、包括數(shù)據(jù)倉庫數(shù)據(jù)和元數(shù)據(jù)的管理等內(nèi)容的數(shù)據(jù)倉庫管理以及數(shù)據(jù)倉庫性能的監(jiān)測等內(nèi)容。
(3)數(shù)據(jù)倉庫支持和完善:該部分包括根據(jù)數(shù)據(jù)倉庫的運作情況并對數(shù)據(jù)倉庫的結(jié)構和容量進行相應的調(diào)整,根據(jù)用戶的使用反饋對數(shù)據(jù)倉庫的邏輯模型、物理模型進行審查,確定是否需要調(diào)整迭代,對數(shù)據(jù)倉庫進行審計,確定數(shù)據(jù)倉庫的價值等過程。
最后,值得一提的是,數(shù)據(jù)倉庫的實施是一個企業(yè)行為。在企業(yè)實施數(shù)據(jù)倉庫過程中,有一個問題擺在了決策者的面前,就是如何評價數(shù)據(jù)倉庫的投資收益(ROI),這個問題在國外的企業(yè)中是一個非常重要的問題。如果把數(shù)據(jù)倉庫作為一個項目來看的話,應該如何正確計算ROI呢?這個問題難倒了很多人,包括很多專家。后來人們重新審視數(shù)據(jù)倉庫在企業(yè)運營中的作用時,發(fā)現(xiàn)不應該把數(shù)據(jù)倉庫僅僅作為一個項目來看。數(shù)據(jù)倉庫是企業(yè)的一個重要資產(chǎn),是企業(yè)運營的一個基礎,應該把數(shù)據(jù)倉庫的實施和完善作為企業(yè)的一項運營內(nèi)容/活動來看,這時再去評價數(shù)據(jù)倉庫的ROI就容易理解了。
4 總 結(jié)
數(shù)據(jù)倉庫是為企業(yè)決策支持服務的,市場的快速變化、競爭的日益激烈使得企業(yè)越來越急迫地需要數(shù)據(jù)和信息以快速應對市場變化,以全面了解客戶,迫切地需要方便地獲取信息支持以能夠及時作出正確和有效的決策,建立新的銷售和營銷渠道,實現(xiàn)商業(yè)智能。運用數(shù)據(jù)倉庫體系建立包括市場經(jīng)營分析系統(tǒng)(MAS)、客戶關系管理系統(tǒng)(CRM)、企業(yè)決策支持系統(tǒng)(EDSS)等在內(nèi)的企業(yè)商業(yè)智能系統(tǒng)以提升企業(yè)競爭力、拓展企業(yè)新的發(fā)展空間正逐步成為各個運營商新的重點發(fā)展目標。
- 1福州OA實施中被企業(yè)忽視的六大致命傷
- 2企業(yè)實施知識管理中的難點逐個解決
- 3PDM信息化管理的實施與應用
- 4中小企業(yè)信息安全保障之PC選購指南
- 5軟件服務時代解讀2008年十大SaaS術語
- 6并購所引發(fā)的信息安全產(chǎn)業(yè)思考
- 7經(jīng)濟危機中支持中小企業(yè)要從制度性因素入手
- 8計世獨家:企業(yè)如何預防數(shù)據(jù)外泄?
- 9業(yè)務流程再造與福州OA互促互動共助企業(yè)
- 10收購不良貸款的范圍、額度及資金來源
- 11業(yè)務流程優(yōu)化 企業(yè)通向精細化管理之路
- 12生產(chǎn)及物料控制部門的管理流程及注意事項
- 13中小企業(yè)如何避免福州OA項目十大致命死結(jié)
- 14SOA在金融行業(yè)的應用 業(yè)務流程為切入點
- 15企業(yè)如何利用商業(yè)智能支持福州OA?
- 16完善信息化管理制度是信息化建設的保障
- 17福州OA上線后客戶遲遲不肯驗收怎么辦?
- 18信息化應用新的熱點——商業(yè)智能
- 19毒奶粉事件突顯電子監(jiān)管“真空”
- 20中小企業(yè)信息化應用模式發(fā)生重大轉(zhuǎn)變
- 21如何進行項目計劃及質(zhì)量管理
- 22Gartner公布五種新興的SOA設計模式
- 23業(yè)務流程管理在供應商協(xié)同產(chǎn)品開發(fā)中的應用
- 24基于eTOM和ITIL的運維流程管理體系探討
- 25網(wǎng)絡營銷或會給中小企業(yè)帶來暖冬
- 26企業(yè)商業(yè)智能平臺體系分析
- 27利用數(shù)據(jù)倉庫技術輔助CRM決策
- 28實施熱點:IT監(jiān)理不是“替罪羊”
- 29天降財神PK錙銖必較 南北民企之差別
- 30商業(yè)智能+福州OA=企業(yè)競爭優(yōu)勢
成都公司:成都市成華區(qū)建設南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓