申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114
cr
知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)中發(fā)現(xiàn)有用知識(shí)的整個(gè)過程;數(shù)據(jù)開采是知識(shí)發(fā)現(xiàn)過程中的一個(gè)特定步驟,它用專門算法從數(shù)據(jù)中抽取模式(patterns)。1996年,Fayyad、PiatetskyShapiror和Smyth將知識(shí)發(fā)現(xiàn)過程定義為:從數(shù)據(jù)中鑒別出有效模式的非平凡過程,該模式是新的、可能有用的和最終可理解的。
知識(shí)發(fā)現(xiàn)過程是多個(gè)步驟相互連接、反復(fù)進(jìn)行人機(jī)交互的過程。具體包括以下步驟:
1.學(xué)習(xí)某個(gè)應(yīng)用領(lǐng)域:包括應(yīng)用中的預(yù)先知識(shí)和目標(biāo)。
2.建立目標(biāo)數(shù)據(jù)集:選擇一個(gè)數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦。
3.數(shù)據(jù)預(yù)處理:去除噪聲或無關(guān)數(shù)據(jù),去除空白數(shù)據(jù)域,考慮時(shí)間順序和數(shù)據(jù)變化等。
4.數(shù)據(jù)轉(zhuǎn)換:找到數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換方法減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式。
5.選定數(shù)據(jù)挖掘功能:決定數(shù)據(jù)挖掘的目的。
6.選定數(shù)據(jù)挖掘算法:用知識(shí)發(fā)現(xiàn)過程中的準(zhǔn)則,選擇某個(gè)特定數(shù)據(jù)挖掘算法(如匯總、分類、回歸、聚類等)用于搜索數(shù)據(jù)中的模式。
7.數(shù)據(jù)挖掘:搜索或產(chǎn)生一個(gè)特定的感興趣的模式或一個(gè)特定的數(shù)據(jù)集。
8.解釋:解釋某個(gè)發(fā)現(xiàn)的模式,去掉多余的不切題意的模式,轉(zhuǎn)換某個(gè)有用的模式,以使用戶明白。
9.發(fā)現(xiàn)知識(shí):把這些知識(shí)結(jié)合到知識(shí)管理系統(tǒng)中,獲得這些知識(shí)的作用或證明這些知識(shí)。用預(yù)先、可信的知識(shí)檢查和解決知識(shí)中可能的矛盾。
|