ILM標準化與實踐

文章來源：泛普軟件

信息生命周期管理（ILM，Information Lifecycle Management）是一個相對新的概念。ILM有兩個目標：降低管理成本，最有效地利用存儲硬件。為了實現(xiàn)這兩個目標，ILM需要依靠能夠與其協(xié)調配合的備份系統(tǒng)。隨著信息生命周期管理解決方案的發(fā)展，業(yè)界不斷遇到一些始料未及的問題：由于存儲資源管理標準不統(tǒng)一，很多存儲系統(tǒng)在實施ILM的時候遇到了障礙。

本期選題介紹了ILM在標準化方面的一些進展情況。并且探討了使用ILM工具來管理數(shù)據(jù)的方法和其所具有的商業(yè)價值。

無重復備份是ILM成功的關鍵

為什么需要ILM？

可靠安全的數(shù)據(jù)存儲對實現(xiàn)業(yè)務連續(xù)性是至關重要的。由于企業(yè)對技術流程信息的依賴，數(shù)據(jù)存儲在某種程度上正在成為全球高層IT管理人員和存儲系統(tǒng)管理員的難題。而且，金融、醫(yī)療衛(wèi)生等很多行業(yè)面對著很多新法規(guī)，它們需要與不斷發(fā)展的法規(guī)保持一致，滿足這些法規(guī)對數(shù)據(jù)保留期限的要求。再加上企業(yè)存儲的數(shù)據(jù)量不斷增多，因此管理信息的成本每年有可能增長20%到30%?；谏鲜鲈颍?jīng)濟的數(shù)據(jù)存儲系統(tǒng)和存儲管理對企業(yè)和IT經(jīng)理們來說變得極端重要了。

重復備份問題是怎么產生的？

由于媒體的宣傳，企業(yè)正在認識到，ILM是值得投資的，而且也非常希望用這種新方法提高數(shù)據(jù)存儲管理效率。但是在實施ILM解決方案的時候，企業(yè)有可能忘記考慮已有備份系統(tǒng)的影響，從而無法確保無重復數(shù)據(jù)存儲。

一般的備份系統(tǒng)每天會將主存儲系統(tǒng)中的文件（關鍵狀態(tài)）存儲到成本較低的磁盤或磁帶上。如果一個特定文件一直保持關鍵狀態(tài)，那么每天對其進行備份的過程就會一直持續(xù)下去。

ILM進行的數(shù)據(jù)歸檔與文件備份是不同的，前者進行歸檔時，是把運營性的、非關鍵數(shù)據(jù)轉移到長期存儲系統(tǒng)中，而備份則在關鍵數(shù)據(jù)歸檔前將其保護起來。

在不能與ILM解決方案協(xié)調配合的備份系統(tǒng)中，不管數(shù)據(jù)是否已經(jīng)歸檔到其他地方，系統(tǒng)都會持續(xù)在磁帶或二級磁盤上存儲備份文件。這樣做嚴重忽視了一個問題: 可能必須管理兩套相同的數(shù)據(jù)，這必然增加成本、影響效率。

如何解決這一問題？

要消除備份系統(tǒng)這個嚴重的缺陷，一個現(xiàn)實和有效的方法是實施能與ILM解決方案協(xié)調配合的備份系統(tǒng)，如分布式備份系統(tǒng)。分布式備份系統(tǒng)徹底消除了每天將關鍵數(shù)據(jù)備份到昂貴的磁帶上的需求，因此減輕了企業(yè)的存儲管理負擔。

分布式備份系統(tǒng)從網(wǎng)絡中的客戶機中收集數(shù)據(jù)，并以壓縮和加密格式將數(shù)據(jù)發(fā)送到離站磁盤存儲系統(tǒng)中。當數(shù)據(jù)需要恢復時，系統(tǒng)會按要求檢索數(shù)據(jù)?；謴秃蜋z索的過程是完全自動進行的，這確?？焖俸投嗦穫浞荩覠o重復備份。這種備份過程效率很高，可以保證用戶獲得預期的投資回報。

這種可與ILM解決方案協(xié)調配合的分布式備份系統(tǒng)，有效利用ILM方案中的指針，可在備份系統(tǒng)或二級存儲系統(tǒng)中只保留一份文件。備份系統(tǒng)用指針能辨認出哪些文件已經(jīng)歸檔，從而自動從備份磁盤中去除這些多余的文件。由于不存在重復存儲和浪費存儲空間的問題，因此這種系統(tǒng)提高了成本效益。

在這種系統(tǒng)中，備份到磁盤上的是主存儲系統(tǒng)當前的數(shù)據(jù)，這最大限度地降低了對磁盤存儲容量的需求并降低了成本。分布式備份可更快、更經(jīng)常地進行備份，恢復操作也更簡單，同時它還降低了硬件和存儲系統(tǒng)成本，減少了每天必須進行的管理工作。

備份文件的存在狀態(tài)需要單獨看待，從產生到保存在不同的存儲介質層上，再到備份文件被刪除，備份文件的存在狀態(tài)在不同階段是不同的。在備份文件的整個存在期中對備份數(shù)據(jù)進行管理可以稱為備份生命周期管理（BLM），它不是只管理主數(shù)據(jù)，只管理主數(shù)據(jù)叫做ILM。

ILM邁向標準化

■ SNIA ILM 技術工作組

ILM是一套策略、流程、實踐、服務和工具，用來從信息創(chuàng)建之初直到最后被處理，使信息的業(yè)務價值和最合適、最具有成本效率的基礎設施保持一致。但目前由于存儲資源管理標準的不統(tǒng)一，造成了ILM實施的困難。這一困境正期待改變。

SNIA力促ILM標準化

ILM是業(yè)務驅動型管理實踐，使用信息價值和該信息的處理需求，為數(shù)據(jù)保存、數(shù)據(jù)保護和數(shù)據(jù)安全等服務設定策略和服務級別目標（SLO）。

IT資源需要應對不斷變化的業(yè)務需求。從業(yè)務需求轉變?yōu)閿?shù)據(jù)處理和數(shù)據(jù)管理需求，這勢必需要業(yè)務部門的用戶和數(shù)據(jù)中心的人員進行合作。如何管理數(shù)據(jù)成為這種轉變的重中之重。

數(shù)據(jù)服務的管理最好作為幾項基礎服務的集合來加以提供。存儲、數(shù)據(jù)保護和安全等基礎服務密切相關，以至于其中一項服務的提供會影響到另一項服務的行為，這可能有助于整個服務提供，也可能有礙于服務提供。因此，通過單一集合來提供服務讓數(shù)據(jù)中心可以為行為、可靠性及性能都能提供預測的服務，提供規(guī)劃及測試配置模板。

SNIA眼中的ILM

ILM是一套策略、流程、實踐、服務和工具，從信息創(chuàng)建之初直到最后被處理，使信息的業(yè)務價值和最合適、最具有成本效率的基礎設施保持一致。通過與應用、元數(shù)據(jù)和數(shù)據(jù)相關的管理策略及服務級別，使信息與業(yè)務需求保持一致。

因為ILM的這種定義似乎涵蓋了方方面面，我們不妨把定義簡化為與SNIA及本文有關的一些方面。ILM提供了使業(yè)務需求和基礎設施保持一致的手段。從SNIA的角度來看，這意味著必須有一套已定義、標準化的以數(shù)據(jù)為中心的服務、服務級別目標（SLO）及生命周期管理功能——這些功能支持以業(yè)務流程為中心的信息生命周期。同樣，必須有一套標準化的屬性，以描述異構存儲配置的功能及為數(shù)據(jù)提供服務的相關數(shù)據(jù)管理功能。

SNIA在ILM方面的工作支持業(yè)務流程工作流的定義，包括文檔在整個轉換過程中的信息狀態(tài)，但SNIA沒有期望定義這方面的任何標準，因為這項工作對其他行業(yè)組織來說更合適。同樣，使用服務級別目標（SLO）規(guī)定計算和網(wǎng)絡需求無疑是ILM的一部分，但SNIA也沒有期望定義相關標準，這些標準最好由其他行業(yè)專家來定義。

本文側重介紹的內容主要包括:

● 定義標準的數(shù)據(jù)服務級別目標（SLO），備份、復制和網(wǎng)絡存儲等存儲和數(shù)據(jù)管理產品可實現(xiàn)這些服務級別目標。這種服務級別目標是一種關鍵績效指標（KPI），用來描述數(shù)據(jù)方面的服務級別，而不是描述應用性能方面的服務級別。正因為如此，它們可應用于各種類型的數(shù)據(jù)或者應用。

● 存儲和數(shù)據(jù)管理產品的服務聚合，這些產品旨在解決與法規(guī)遵從、參考數(shù)據(jù)和資源分類相關的重要客戶管理問題。

● 基于策略的ILM，以便可以在數(shù)據(jù)生命周期中對數(shù)據(jù)進行合理分類和保存。這種管理為標準的數(shù)據(jù)分類定義做好了準備，而且還允許基于應用和內容的分類方法可以驅動數(shù)據(jù)分類。這種基于應用和內容的分類方法的定義超出了本文的討論范圍。譬如說，對數(shù)據(jù)進行分類以確定它可能受到哪些政府法規(guī)的制約，這就是知識驅動型活動。如果這種活動需要基于內容的分類，那么這項標準工作將可以通過外部分類服務來實現(xiàn)。

數(shù)據(jù)服務抽象

這項規(guī)范引入了抽象級別，如圖1所示。這不是什么正式的架構，而是表明了功能的層次結構。

它被分為三個抽象層，外加第四個使用層——業(yè)務和管理應用。位于底部的是可通過存儲和數(shù)據(jù)管理產品獲得的原始功能。以存儲管理為例，許多這些服務自最早版本的存儲管理計劃規(guī)范（SMI-S）以來就有了。

在單項資源上面的是為數(shù)據(jù)中心而規(guī)劃的特定配置來組合這些服務。組合存儲集（CSS）聚合了存儲和服務，它們代表不同配置生成同等功能的特性。這一層還允許根據(jù)站點特定的需求和偏好進行定制，并且允許手動及自動創(chuàng)建配置。

數(shù)據(jù)服務由數(shù)據(jù)分類、生命周期管理和服務級別管理組成。它在存儲行為和提供數(shù)據(jù)服務級別之間提供了一種轉換。應用正是通過這一數(shù)據(jù)服務管理接口來指定數(shù)據(jù)需求為服務級別目標（SLO），數(shù)據(jù)管理層也正是通過這一數(shù)據(jù)服務管理接口來提供數(shù)據(jù)服務級別目標（SLO）描述的服務。這個管理接口可用來把數(shù)據(jù)生命周期作為一組策略加以定義及管理。數(shù)據(jù)中心的管理員（IT架構師和存儲管理員等）負責定義提供數(shù)據(jù)服務級別和組合存儲集之間的關系。實際上，這種層次結構里面的所有關系都基于管理員手動或者隨著技術的發(fā)展、使用自動化程度不一的管理軟件進行的映射。

總的來說，這種層次結構的關鍵要素包括:

● 數(shù)據(jù)服務級別目標（SLO）的標準定義: 這一概念為傳達作為需求或者作為已定義服務級別的服務級別目標（SLO）屬性提供了標準框架。這樣一來，就可以獨立于滿足這些需求的功能，指定數(shù)據(jù)服務級別。隨著功能因技術的進步或者環(huán)境的變動而發(fā)生變化，現(xiàn)有的服務級別目標屬性只需映射成新功能，不會帶來破壞?？蛻舳藨檬褂脭?shù)據(jù)服務級別目標（SLO）來規(guī)定數(shù)據(jù)需求; 數(shù)據(jù)服務資源管理器使用數(shù)據(jù)服務級別目標來定義數(shù)據(jù)服務級別。

● 描述數(shù)據(jù)和存儲服務配置的標準屬性: 這一定義專注于預期特定產品配置的性能和行為。負責確定這些預期的是數(shù)據(jù)中心，而不是廠商開發(fā)的工具或者文檔。尤其是，這些功能不僅僅代表單一產品的性能和行為，還代表組合產品的性能和行為——為了提供可預測的服務級別，可能需要組合產品的組合配置。這個配置模板提供的“功能”被稱為組合存儲集。

● 管理數(shù)據(jù)層的服務: 提供這些服務的根本，主要包括如下功能: 配置、監(jiān)控及控制數(shù)據(jù)管理服務，譬如數(shù)據(jù)備份、數(shù)據(jù)復制、數(shù)據(jù)安全和數(shù)據(jù)移動。這包括基于特定情況及基于策略來執(zhí)行操作的功能。

● 抽象配置及管理存儲層的存儲和服務: 這將通過當前及將來版本的SMI-S加以提供。

● 數(shù)據(jù)生命周期管理策略: 這些策略允許自動化管理與促使服務級別目標（SLO）的變化適用于數(shù)據(jù)的事件相關的決策。

這些策略來自信息生命周期需求，并指定了數(shù)據(jù)管理層里面的信息生命周期。

● 數(shù)據(jù)分類: 這種結構允許數(shù)據(jù)被組織成數(shù)據(jù)組以便管理，譬如服務級別管理和生命周期管理等，這可能包括自動化管理數(shù)據(jù)分類的策略。

概念模型

數(shù)據(jù)服務資源管理器里面體現(xiàn)了數(shù)據(jù)服務，圖2里面的抽象層表明了這種管理器的諸多組件。這部分定義了與每一個組件及其基礎服務相關的基本功能。ILM的“標準化”針對的是這些組件與服務如何銜接，以及每一個管理接口的定義。

數(shù)據(jù)放置、數(shù)據(jù)保護、數(shù)據(jù)安全、存儲及存儲服務: 這是數(shù)據(jù)服務資源管理器的各種不同服務。每種服務必須為發(fā)現(xiàn)、配置和管理屬于數(shù)據(jù)中心一部分的資源及功能做好準備，以便它們可以作為組合存儲集（CSS）的一部分使用。這些原始服務可以作為不同的管理域加以管理，也可以集成到全面管理環(huán)境。不同服務通過CSS聚合到單一服務。數(shù)據(jù)服務還可以直接利用這些基礎服務來提供直通式管理功能（譬如復制、刪除、使其不可改變）。

組合存儲集（CSS）: CSS為配置及管理組合已知可以協(xié)同工作、提供可預測的服務級別的不同資源做好了準備。CSS通過作為CSS配置一部分的這些資源，為定義預期的行為和性能做好了準備。這表明要用專家知識把資源組合到工作配置中，并用來定義預期行為。CSS模型允許有不同的實現(xiàn)方式: 可以發(fā)現(xiàn)及記錄數(shù)據(jù)中心里面的現(xiàn)有配置、由數(shù)據(jù)中心的架構師手動配置CSS，還可以根據(jù)每個對象或者每筆交易，完全自動組合動態(tài)選擇的資源，以達到數(shù)據(jù)服務級別目標（SLO）。

數(shù)據(jù)服務: 數(shù)據(jù)服務為數(shù)據(jù)分類、數(shù)據(jù)服務級別管理及數(shù)據(jù)生命周期管理做好了準備。數(shù)據(jù)服務組件為業(yè)務和管理應用提供了面向服務的接口，業(yè)務和管理應用使用數(shù)據(jù)服務級別目標（SLO）作為規(guī)定服務需求的屬性。規(guī)定數(shù)據(jù)需求的服務級別目標集合被稱為SLOG即SLO群組。這種需求通常是使用者為了確定數(shù)據(jù)在生命周期中需要哪些服務而執(zhí)行的分類流程的結果。

數(shù)據(jù)服務還可能使用SLO屬性來描述數(shù)據(jù)服務資源管理器支持的數(shù)據(jù)服務級別（ODSL）。數(shù)據(jù)服務將管理功能，以管理ODSL和CSS之間的映射。

組合存儲集

在為某個數(shù)據(jù)中心實現(xiàn)應用解決方案時，數(shù)據(jù)管理功能、存儲與用于提供該解決方案的存儲服務往往存在密切的依賴關系。組合存儲集是一個特定的集合，結合了數(shù)據(jù)管理功能、存儲和存儲服務，數(shù)據(jù)中心的架構師（即IT架構師）在定義提供可預測的數(shù)據(jù)服務級別解決方案時要用到它們。

廠商和客戶都面臨的困境就是，不同產品配置的各種組合有可能會帶來同等的數(shù)據(jù)服務級別。在任何一個點評估吞吐量或者可用性并不能足夠準確地為不同組合（有時產品配置截然不同）描述總體吞吐量或者可用性。

此外，數(shù)據(jù)中心管理變化無常，以至于每個數(shù)據(jù)中心各自都有特定的細微差別，這些差別與廠商、配置及評估方法有關。為解決這些問題，CSS為這項功能做好了準備: 把數(shù)據(jù)中心的原始功能規(guī)范，定制成由數(shù)據(jù)中心管理的一系列特定配置的功能，這些配置可以在該環(huán)境提供特定的服務級別。至少，CSS是一種文檔管理方案，可供IT架構師選擇可用技術配置，以便可與提供數(shù)據(jù)服務級別之間來回映射。

數(shù)據(jù)服務

數(shù)據(jù)服務由數(shù)據(jù)分類、生命周期管理和服務級別管理組成。

（1）數(shù)據(jù)分類

數(shù)據(jù)分類是把數(shù)據(jù)組織成數(shù)據(jù)組，以便管理。分類方案的目的在于，根據(jù)數(shù)據(jù)組對業(yè)務的價值以及處理和存儲需求，把服務級別目標與數(shù)據(jù)組聯(lián)系起來。

數(shù)據(jù)分類的前身是信息分類，信息分類用于把數(shù)據(jù)組與特定的生命周期聯(lián)系起來。一般可通過數(shù)據(jù)中心、業(yè)務部門、記錄信息管理員及公司在獲取及使用信息方面的其他利益相關者相互協(xié)作來獲得信息分類方案。圖3和圖4闡述了這些概念。

（2）服務級別管理

提供數(shù)據(jù)服務級別（ODSL）發(fā)送給使用者，譬如業(yè)務和管理應用層當中的電子郵件或者企業(yè)內容管理應用，使用目前在通用信息模型（CIM）中實現(xiàn)的“功能”模型。

ODSL功能的屬性基于數(shù)據(jù)SLO的屬性，它們與分配數(shù)據(jù)服務級別目標（SLO）需求時作為“設置”所用的一組屬性相同。數(shù)據(jù)需求的設置被稱為服務級別目標群組即SLOG。

服務級別管理提供了創(chuàng)建及管理ODSL及其功能的功能，如圖4所示。服務級別管理還提供了這一功能: 執(zhí)行從數(shù)據(jù)的SLOG設置到ODSL、從ODSL到CSS的“最佳適合的”映射。

SLOG/ODSL和CSS的目的在于，提供兩種“準獨立的”抽象: 一種是描述數(shù)據(jù)需求和服務的特點，另一個是組織管理存儲系統(tǒng)功能。通過把數(shù)據(jù)與SLOG和ODSL聯(lián)系起來，可以讓需求隨著時間不斷變化，只要重新分配數(shù)據(jù)與SLOG的關系。SLOG本身保持不變（當然，除非引入了新的目標。）同樣，存儲層或者數(shù)據(jù)管理層的拓撲結構、技術或者特點發(fā)生變化，可能不會改變CSS本身，只有表明這些CSS如何物理實現(xiàn)的映射才會改變。

（3）生命周期管理

數(shù)據(jù)生命周期是一種抽象概念，通過使用SLOG和SLOG分配策略來實現(xiàn)。數(shù)據(jù)生命周期來自并支持信息生命周期。這包括并非事先規(guī)劃的特定的生命周期事件，譬如“現(xiàn)在運用這個SLOG”。信息生命周期和數(shù)據(jù)生命周期之間的區(qū)別包括:

“信息生命周期”定義了適用于數(shù)據(jù)的業(yè)務需求和業(yè)務價值，并定義了可能會在數(shù)據(jù)生命周期改變價值和需求的事件。這些通過信息以及/或者應用特有的關鍵績效指標（KPI）來表達。SMI-S里面沒有信息生命周期的模型。

“數(shù)據(jù)生命周期”定義了在信息生命周期的每個階段都可以適用的數(shù)據(jù)SLOG，以及用來把數(shù)據(jù)轉換成初始或者新的SLOG和SLOG分配策略。數(shù)據(jù)生命周期支持信息生命周期，但通過專門針對數(shù)據(jù)的術語來表示。數(shù)據(jù)生命周期是一種抽象概念，通過使用數(shù)據(jù)SLOG和SLOG分配策略在SMI-S建立了模型。

圖5闡明了數(shù)據(jù)分類、服務級別管理和數(shù)據(jù)生命周期管理等概念。信息管理層的業(yè)務應用生成數(shù)據(jù)。

進行的“最佳適合”服務級別映射是從數(shù)據(jù)生命周期每個階段的所需SLOG映射到提供數(shù)據(jù)服務級別。如今，這通常通過業(yè)務部門的應用管理員和IT架構師或者存儲管理員之間討論或者協(xié)商進行。另外，IT架構師定義了從每個ODSL到一個或者若干CSS的一組有效映射，這些CSS能夠滿足ODSL里面定義的服務級別。

圖5中顯示為“策略”的SLOG分配策略用來為數(shù)據(jù)生命周期的每個階段應用一組新的數(shù)據(jù)需求。有時，應用新的SLOG會導致映射成新的ODSL，有時不會。同樣，映射成新的ODSL可能會導致映射成新的CSS（參閱能夠支持兩個ODSL的CSS-y），也可能不會。映射成新的CSS可能會有后續(xù)行動，譬如數(shù)據(jù)移動到新的存儲位置，還有可以確定是不是該刪除數(shù)據(jù)的SLOG分配策略。

鏈接:SNIA ILM技術工作組

SNIA（Storage Networking Industry Association，全球網(wǎng)絡存儲工業(yè)協(xié)會）ILM技術工作組將開發(fā)共享數(shù)據(jù)管理及相關存儲管理服務，這些服務散布于跨越網(wǎng)絡存儲的應用。ILM技術工作組將定義流程、控制機制及工件，可把數(shù)據(jù)管理需求（保護和可用性等方面的服務級別目標及策略）映射成數(shù)據(jù)管理服務。雖然單個應用能夠、也可以提供部分這些服務，但ILM技術工作組將滿足對一組公用數(shù)據(jù)和存儲管理服務及它們跨共享及使用網(wǎng)絡存儲的多個應用進行協(xié)調的需求。

挖掘ILM的金礦

■Howard Marks

本文分析了運用信息生命周期管理（ILM）工具和實踐來管理數(shù)據(jù)所具有的商業(yè)價值，IT人員據(jù)此能夠制訂出統(tǒng)一的ILM方案。

如果說時間就是金錢，那么大多數(shù)數(shù)據(jù)管理員都被透支了。用戶需要查看四年前創(chuàng)建的有關銷售會議的PowerPoint文檔; 法律人員說要盡快處置商業(yè)文檔。新的法規(guī)在不斷涌現(xiàn)，要求對數(shù)據(jù)保留政策進行細微改動。更讓人忙得暈頭轉向的是，要是上頭要求你提供與某樁官司有關的所有電子商業(yè)文檔: 電子郵件、即時通信、電子表格、Word和Excel文件，去年底生效的《聯(lián)邦民事訴訟規(guī)則》規(guī)定你只有120天的時間來完成這項工作。

由于時間如此緊迫，你能夠從倉庫取回所有相關的備份磁帶、把內容恢復到新服務器、抽取相關的數(shù)據(jù)、讓律師審查一切內容嗎？

我們認為不能。當然，這讓涉足數(shù)據(jù)管理領域的廠商們在一邊偷著樂，它們預料到新的電子發(fā)現(xiàn)規(guī)則會給IT人員帶來麻煩。據(jù)弗雷斯特研究公司聲稱，去年，記錄管理市場的產值高達2.8億美元。到明年，預計會增長近500%，增至驚人的13億美元。

其中許多資金可能會用于ILM應用程序。簡而言之，ILM就是IT人員符合“物應各有其所，亦應各在其所”這句老話的法寶。它要求把數(shù)據(jù)存放在與價值相稱的位置，同時，任何特定數(shù)據(jù)項的價值會隨著時間而變化; 不同的訪問方法可能適用于生命周期中不同時期的數(shù)據(jù)項。

辛苦的工作

目前這沒有統(tǒng)一的ILM產品。你可以通過以下方法來達到局部目標: 組合電子郵件歸檔工具及文件管理和數(shù)據(jù)庫歸檔工具，并且制訂全面政策來定義數(shù)據(jù)（結構化數(shù)據(jù)、電子郵件和文件等）的商業(yè)價值，那樣就可以通過與當前值相稱的方式來管理數(shù)據(jù)。但想正中ILM的要害，就需要現(xiàn)在根本還沒有面市的技術，譬如復雜的數(shù)據(jù)分類引擎。

你可以靜觀事變嗎？除非你在數(shù)據(jù)存儲方面的要求極低，并處于相對缺乏監(jiān)管的行業(yè)，否則恐怕不行。當然磁盤仍很便宜，但保留方面的規(guī)則，加上文件大小增加了千倍（10年前一封WordPerfect信函只有2KB大小，而現(xiàn)在一個微軟Word文件卻有2MB大?。?，這把小公司之外的所有公司推到了再也忍受不下去的地步。

沒必要這樣。向ILM遷移并不容易，但值得為之努力: 一項針對用戶的調查表明，實施了ILM計劃的調查對象有四分之三簡化了主存儲系統(tǒng)的管理，并且減少了高端磁盤方面的開支。

著手行動

如果你現(xiàn)在被淹沒在大量信息中，電子郵件歸檔程序等單點解決方案讓你有一點喘息的機會，同時確保你能滿足法規(guī)要求。在今后兩三年內，諸多廠商會提供新一代文件管理系統(tǒng)（包括分類和遷移服務），譬如Acopia Networks、博科通訊系統(tǒng)、NeoPath Networks、Njini和EMC（集成Infoscape和Rainfinity）。

但愿這些廠商會認識到: 占用電子郵件歸檔大部分空間的是文件系統(tǒng)中也存在的郵件附件，隨后為IT人員提供集成這些歸檔文件的辦法。我們在后面測試了一些產品，它們聲稱可以使用詳細、靈活的標準對非結構化文件進行分類、遷移文件，或者為不同的數(shù)據(jù)遷移引擎提供界面。

最后，管理結構化數(shù)據(jù)總是不但要依賴數(shù)據(jù)庫服務器環(huán)境，還要依賴應用程序的數(shù)據(jù)庫模式和利用率。因而，應用感知（application-aware）的單點產品其效果遠遠好于任何集成的解決方案。譬如說，Princeton Softech公司的Optim和Solix Technologies公司的ArchiveJinni為PeopleSoft和Oracle財務軟件等應用程序提供了模塊和政策。

需要付出

ILM項目從頭搞起需要投入大量的時間和資金。從人力角度來看，ILM首先是個政策問題。ILM工具把查找數(shù)據(jù)、遷移到相應存儲設備的過程實現(xiàn)自動化之前，企業(yè)先要制訂相應的保留政策。

啟動ILM項目是一筆財政投資。文件分類軟件往往會使企業(yè)平均花費5萬到10萬美元。電子郵件歸檔的成本每個郵箱是10到50美元。不過有些方面的節(jié)省起到了抵消作用: 存儲設備越來越便宜; 通過刪除非活動數(shù)據(jù)，從而縮減備份和恢復窗口，加快電子郵件服務器和數(shù)據(jù)庫的速度; 另外還能夠在幾天內滿足電子發(fā)現(xiàn)請求，而用不著取回磁盤，讓幾名管理員干上一個月的磁帶恢復工作。

郵件首當其沖

美國企業(yè)界距離借助電子郵件歸檔產品實現(xiàn)ILM夢想最接近，譬如EMC的EmailXtender、賽門鐵克的Enterprise Vault和Zantaz的EAS，這些產品可以根據(jù)時間把電子郵件消息從主數(shù)據(jù)存儲區(qū)遷移出去。郵件消息放在輔助數(shù)據(jù)存儲區(qū)。在這里，用戶能夠以半透明的方式訪問它們，如果以后企業(yè)的數(shù)據(jù)保護政策需要，還可加以刪除。

盡管我們現(xiàn)在認為電子郵件歸檔這個工具主要用來確保遵從數(shù)據(jù)保留法規(guī)，并提供檢索電子郵件消息、跨多個郵箱進行搜索用于電子發(fā)現(xiàn)的功能，但這些系統(tǒng)原先的市場定位是作為簡化電子郵件管理員工作的工具。因為哪怕是恢復一則消息到Exchange服務器，也需要恢復整個信息存儲區(qū)，或者以極慢的速度對多個郵箱進行逐個備份，所以管理員有著強烈動機來限制信息存儲區(qū)大小。

但對用戶郵箱規(guī)定限額導致用戶的.PST文件數(shù)量激增，隨意刪除郵件消息，而且數(shù)據(jù)管理轉到了單個用戶手里——而這是極不明智的，因為用戶可能會刪除屬于公司記錄的郵件。

大多數(shù)歸檔軟件需要Outlook或者Notes客戶軟件插件，為用戶顯示“消息已遷移”圖標，并且自動從歸檔文件檢索消息和附件。使用Mac和Linux機器的用戶可能不具備全部功能。

理想情況下，ILM廠商會集成電子郵件和文件管理工具。因為許多用戶在文件服務器上創(chuàng)建文檔，然后把文件通過附件形式發(fā)送給同事，所以在文件系統(tǒng)和郵件服務器的數(shù)據(jù)存儲區(qū)都有同一個文件。如果使用SHA-2等抗沖突的散列算法，集成的文件/電子郵件ILM系統(tǒng)就能夠確認這些冗余現(xiàn)象，只保留一份文件，從而節(jié)省磁盤空間。

數(shù)據(jù)庫面臨的困境

如果擁有數(shù)據(jù)庫遷移引擎，存儲管理員和數(shù)據(jù)庫管理員稍加努力，就可以為生產、測試、開發(fā)及閑置等數(shù)據(jù)庫分配相應的存儲池。不過，說到隨著數(shù)據(jù)老化、價值變小而遷移出去，文件和電子郵件消息具有優(yōu)勢，因為它們在同一地方始終有時間戳（time stamp）。

相比之下，Oracle或者SQL Server數(shù)據(jù)庫里面的行和列可能被時間分離，或者有不同的時間戳，而每個程序組織數(shù)據(jù)的方式各不相同。因而，對結構化數(shù)據(jù)進行分類需要應用程序創(chuàng)建的數(shù)據(jù)庫模式和分類引擎具有更密切的關系。

因而，一些數(shù)據(jù)庫ILM解決方案提供了面向SAP這些常見應用程序的版本，從而簡化這個過程，譬如EMC的DatabaseXtender、惠普的數(shù)據(jù)庫參考信息管理器和Princeton的Optim。Solix同樣有應用程序定義，提供給使用其ArchiveJinni數(shù)據(jù)庫歸檔軟件的客戶。

除了隨著數(shù)據(jù)在生命周期中老化而進行遷移外，大多數(shù)廠商還有一個模塊作為數(shù)據(jù)庫ILM套件的一部分，生成工作數(shù)據(jù)庫的較小拷貝，用于開發(fā)及測試。這種微型數(shù)據(jù)庫可能含有一整套觸發(fā)器和存儲過程，一組代表性的數(shù)據(jù)可能只有主數(shù)據(jù)庫大小的十分之一，這樣編程員不必占用數(shù)TB的磁盤空間，就可以測試代碼。

Oracle的ILM助理（可從該公司的網(wǎng)站免費下載）讓數(shù)據(jù)庫管理員可以輕松定義數(shù)據(jù)生命周期，根據(jù)生命周期來分配數(shù)據(jù)庫表。然后它會使用Oracle的表分區(qū)技術，把數(shù)據(jù)從一個表空間的分區(qū)遷移到另一個表空間的分區(qū)——這另一個表空間位于成本較低的存儲層上。因為Oracle分區(qū)對用戶應用來說是透明的，所以用戶覺察不到這一點。

HSM的軟肋

上世紀80年代末90年代初，EMC、Commvault及其他廠商試圖利用大型機領域所用的分級存儲管理（HSM）技術，解決數(shù)據(jù)生命周期問題。幾家廠商竭力推銷Windows和Novell NetWare文件服務器采用三層HSM: 根據(jù)上一次修改及上一次訪問等日期屬性，把文件從標準硬驅遷移到光盤庫，再從光盤庫遷移到磁帶庫。用戶或者應用程序訪問時，遷移文件被存根文件（stub）取代，然后從近線存儲設備中取回。

HSM似乎是個很好的想法，連微軟也把它集成到了Windows 2000中，稱之為遠程存儲（Remote Storage）。

盡管HSM在批處理大型機環(huán)境比較成功，但在互動性更強的分布式系統(tǒng)領域卻一敗涂地。HSM沒有流行起來有眾多原因——其中許多問題如今仍是ILM的癥結。

HSM的最大問題是什么呢？硬驅容量在增加，而成本跌得非常快，以至暫時存儲文件、甚至暫時存儲到磁盤庫上也節(jié)省不了多少資金，不值得這么做。許多企業(yè)還發(fā)現(xiàn)，要對數(shù)據(jù)進行分類，光有數(shù)據(jù)年齡這種信息還不夠。企業(yè)制訂了保留80天后遷移的政策，結果用戶卻抱怨無法打開上一個季度的季末電子表格，因為他們沒有足夠耐性等待系統(tǒng)從磁帶恢復文件?，F(xiàn)在這仍是個問題。

存根文件和檢索機制也成問題。如果員工試圖使用Windows搜索或者Google Desktop，通過查找文檔文件里面的客戶姓名來查找發(fā)到某個重要客戶的一封信件，HSM系統(tǒng)就會取回所有文件，這給服務器帶來了相當大的負擔，或者因沒有及時取回文件而導致搜索失敗，嚴重影響了用戶體驗和工作效率。

不過市面上有一些HSM方案，譬如CommVault的DataMigrator、EMC的Disk Extender和賽門鐵克的NetBackup Storage Migrator，它們經(jīng)常被數(shù)據(jù)管理系統(tǒng)作為遷移引擎使用，而數(shù)據(jù)管理系統(tǒng)有自己的數(shù)據(jù)分類方法。CommVault還在添加數(shù)據(jù)分類選項，可以根據(jù)年齡和內容來遷移文件。

鏈接:ILM實施三步走之一: 對數(shù)據(jù)分級

一旦你實施了管理政策，也準備好了電子郵件和數(shù)據(jù)庫，就可以把重點放在生命周期上。這意味著做一條有三條腿的凳子：分級數(shù)據(jù)、數(shù)據(jù)分類（通過結合業(yè)務流程和自動化分類引擎，對每組數(shù)據(jù)進行評估）以及遷移引擎（把數(shù)據(jù)遷移到與當前值相稱的位置）。

要是跟大多數(shù)IT人士說起分級存儲，他們就會想到高性能光纖通道驅動器用于存儲寶貴數(shù)據(jù)、低成本SATA驅動器用于存儲價值較低的數(shù)據(jù)。這只是個開頭，但以一種與商業(yè)價值相一致的方式來存儲數(shù)據(jù)的關鍵根本不是從每TB成本來看選擇昂貴還是不太昂貴的存儲設備。要把存儲層看成提供不同的服務級別協(xié)議（SLA），而不只是不同的成本：主存儲層針對性能進行了優(yōu)化，經(jīng)常備份以減少恢復點目標（RPO）；并且保持得很小，以便盡量縮短恢復時間。

我們在定義存儲層時還要考慮到安全。比如從投資銀行業(yè)務部門和經(jīng)紀業(yè)務部門一邊訪問的服務器需要對所有敏感數(shù)據(jù)進行加密，還要有全面的訪問審查及控制手段。

分析在不同存儲層之間遷移數(shù)據(jù)帶來的成本節(jié)省時，不但要考慮磁盤陣列每GB的原始成本，還要考慮存儲數(shù)據(jù)的全部成本，包括快照和數(shù)據(jù)恢復副本。以典型的大企業(yè)為例：關鍵的應用程序把數(shù)據(jù)傳送到單一磁盤陣列。陣列經(jīng)配置后，可以每小時拍一次分離鏡像快照，并復制到一個或者多個數(shù)據(jù)恢復站點；而在數(shù)據(jù)恢復站點，又要拍快照。這種企業(yè)可能會把六個或者更多拷貝的應用數(shù)據(jù)存放在最昂貴的第一層存儲設備上。

如果發(fā)現(xiàn)某部分數(shù)據(jù)在生命周期中基本到了靜態(tài)階段，并把它遷移到只有兩個拷貝處于聯(lián)機狀態(tài)的存儲環(huán)境——一個在主數(shù)據(jù)中心，一個在數(shù)據(jù)恢復站點，可以節(jié)省大量磁盤空間。

另外還要牢記：數(shù)據(jù)在生命周期中逐漸移動時，讀寫比會大大提高，所以RAID 5或者RAID 6變得更有吸引力，它們與鏡像陣列相比存儲容量較大、讀性能較低。

根據(jù)塊訪問頻率，把數(shù)據(jù)塊從高成本、高性能驅動器遷移到低成本驅動器。雖然這可能會對存儲數(shù)據(jù)的原始成本帶來一些影響，但它不會對備份和恢復時間帶來任何重大影響，因為這些功能是在卷、文件或者數(shù)據(jù)庫等級別上執(zhí)行的。

鏈接:ILM實施三步走之二: 確認數(shù)據(jù)的價值

第二步就是知道任何一部分數(shù)據(jù)的商業(yè)價值。大部分信息在一段時間后會失去實用價值。所以盡快刪除這些數(shù)據(jù)可消除數(shù)據(jù)泄露的可能性，并盡量減少了成本高昂的搜索工作。

不過，有些文件（譬如有關營銷資料和年度報告的歸檔）在更長的一段時間內具有價值。永久歸檔里面的數(shù)據(jù)不需要讓用戶易于訪問，只需要在元數(shù)據(jù)方面留下一點線索。

確定結構化數(shù)據(jù)的保留期限比較簡單。數(shù)據(jù)庫管理員知道每個數(shù)據(jù)庫有什么用途、如何影響貴公司業(yè)務。

確定非結構化數(shù)據(jù)的保留期限則要難得多。電子郵件就包括發(fā)送者、接收者及內容。從Linux的ext3到Network Appliance的WAFL，現(xiàn)代的文件系統(tǒng)保存文件創(chuàng)建、上一次修改及上一次訪問日期，同時還保存了“隱藏”、“只讀”或者“該文件離線保存”等文件屬性。

每個文件還附有安全信息，包括訪問控制列表；對大多數(shù)系統(tǒng)而言，還附有文件所有者。傳統(tǒng)的分級存儲管理（HSM）解決方案使用“文件上一次訪問”日期作為惟一表明價值的信息源；如果文件在一段時間后沒有被訪問，就會被遷移出去。

最終，我們會看到足夠智能化的分類引擎，能夠認出這樣的文字處理文檔是商業(yè)信函：最上面是日期，然后跟著姓名，接下來的6行里面有另一個姓名，最下面的姓名與最上面的姓名相一致。然后它會搜索數(shù)據(jù)庫，看看目標接收者是不是某個客戶；如果是，引擎就知道這是需要符合證券交易委員會17a-4規(guī)則或者其他法規(guī)保留要求的商業(yè)信函。

理想情況下，ILM分類引擎還會知道文件的訪問頻率。遺憾的是，使用普通的NAS和文件服務器系統(tǒng)還無法實現(xiàn)這一點。分類方案廠商有望開發(fā)出文件系統(tǒng)過濾器或者類似的代理，使用NetApp存儲設備（filer）或者EMC Celerra的反病毒掃描API來跟蹤文件訪問頻率，但這需要在每個被管理的服務器上安裝代理。

鏈接:ILM實施三步走之三: 確定適合的存儲位置

最后，數(shù)據(jù)的存儲位置必須與其價值相一致。我們還要決定數(shù)據(jù)要不要仍可以從初始位置來訪問：當我們制訂數(shù)據(jù)遷移政策、規(guī)定“把在過去90天沒有訪問的所有Word文檔從用戶的主目錄遷移到中間歸檔文件共享區(qū)”，你該如何管理用戶訪問呢？

最簡單的情況就是單單遷移文件，然后把它們從主目錄上刪除。雖然這對IT人員和ILM廠商來說很簡單，但這會讓用戶非常惱火。我們既要遷移數(shù)據(jù)，又要讓所有者可以從初始位置來訪問。帶內NAS虛擬化設備（譬如Neopath和Acopia Networks的設備）可以把用戶訪問已遷移文件的請求重定向至新位置，具有真正的透明度，甚至會顯示用戶目錄下實際文件的大小。

我們還可以在初始位置留下一個指針文件（pointer file），讓用戶的計算機可以從新服務器裝入文件。但不同的操作系統(tǒng)對待鏈接和指針的方式可能有所不同。即便你的工作站全部使用Windows，通過鏈接打開遷移文件的用戶也會保存對遷移位置的更改，這會使這個位置時常變更，會干擾歸檔文件保留狀態(tài)和版本。

遷移引擎也會集成到存儲管理工具包的其他部分里面，移動文件時，可以更新企業(yè)搜索索引；最好與備份程序集成在一起，利用新的文件位置來更新目錄。

顯然，有許多部分需要組合起來。但另一種情況就是數(shù)據(jù)無序（data anarchy），眼看著存儲成本不斷耗用預算。因此，為了向監(jiān)管部門表明貴公司在誠信經(jīng)營，制訂政策非常重要。甚至一些小步驟也會讓你處于有利地位，譬如在實施電子郵件歸檔、規(guī)劃將來采購存儲硬件時考慮到存儲層。 (ccw)

發(fā)布：2025-10-25 14:56 編輯：泛普軟件 · xiaona [打印此頁] [關閉]