資料探勘(Data Mining)
資料探勘(Data mining)是一個跨學科的電腦科學分支,它是用人工智慧、機器學習、統計學和資料庫的交叉方法在相對較大型的資料集(data set)中發現模式的一種計算過程,對此,資料探勘過程的總體目標是從一個資料集中提取資訊,並將其轉換成可理解的結構,以進一步使用;連帶地,除了原始分析步驟,它還涉及到資料庫和資料管理方面、資料預處理(data pre-processing)、模型與推斷方面考量、興趣度度量和複雜度的考慮以及發現結構、視覺化與線上更新等後處理。
資料探勘這個術語其實是誤稱,因為主要的目標是從大量資料中提取模式和知識,而不是所探勘的資料本身,同時它也是一個流行語而且經常用於大規模的資料或資訊處理(包括資料採集、資料提取、資料儲存、資料分析和資料統計等),還有決策支援系統方面的應用(包括人工智慧、機器學習和商業智慧等)。
資料探勘的實際工作是對大規模資料進行自動或半自動的分析,以提取過去未知的有價值的潛在資訊,例如資料的分組(通過聚類分析)、資料的異常記錄(通過異常檢測)和資料之間的關係(通過關聯式規則挖掘),通常這會涉及到資料庫技術例如空間索引(spatial index),而這些潛在資訊可通過對輸入資料處理之後的總結來呈現,之後可以用於進一步分析,比如機器學習和預測分析。
舉例來說,進行資料探勘操作時可能要把資料分成多組,然後可以使用決策支援系統以獲得更加精確的預測結果,不過,資料收集、資料預處理、結果解釋和撰寫報告都不算資料探勘的步驟,但是它們確實屬於「資料庫知識發現」(KDD)過程,只不過是一些額外的環節。
至於,實務的應用情形則是在商業上主要藉由顧客者的歷史消費行為,以推論出未來的購買模式,著名應用案例為購物籃分析(Target零售商客製化折價卷)與交叉行銷(Wal-Mart尿布與啤酒),而在犯罪上的應用案例是分析網路瀏覽紀錄,用以預測駭客攻擊風險,這也可應用於受刑人犯案紀錄,分析未來再犯機率與期程,可用於假釋評估時使用;此外,依序樣式法則(Sequential pattern mining)則是分析具有時間或先後順序之資料,所需資料大、高度結構化且計算更為複雜,但是,卻是可以獲得更準確且有時效的預測結果。
再則,傳統預測犯罪熱區多半係使用靜態資料,比如人口普查資料或戶籍地址,無法具體反映真實的居住狀況,更遑論人類實際日常活動情形,因此,有學者主張犯罪的巨量分析,應結合網路與社群資料,以期能夠達到即早發現、早期預警和即時回饋等功能。
參考資料:維基百科
延伸概念:資料探勘技術、關聯法則、分類樹、隨機森林
(本則小百科係由洪文玲整理)