大數據(Big data)

巨量資料,又稱為大數據,指的是在傳統資料處理應用軟體不足以處理的大或複雜的資料集的術語,巨量資料也可以定義為來自各種來源的大量非結構化或結構化資料,至於,從學術角度而言,巨量資料的出現促成廣泛主題的新穎研究,這也導致各種巨量資料統計方法的發展。事實上,巨量資料並沒有統計學的抽樣方法,它只是觀察和追蹤發生的事情,因此,巨量資料通常包含的資料大小超出傳統軟體在可接受的時間內處理的能力。由於近期的技術進步,發布新資料的便捷性以及全球大多數政府對高透明度的要求,巨量資料分析在現代研究中越來越突出,對此,大數據必須藉由電腦對數據進行統計、比對、解析方能得出客觀結果。美國在2012年就開始著手大數據,歐巴馬總統更在同年投入2億美金在大數據的開發中,更強調大數據會是之後的未來石油。數據勘查(data mining)則是在探討用以解析大數據的方法。
大數據由巨型數據集組成,這些數據集大小常超出人類在可接受時間下的收集、應用、管理和處理能力。大數據的大小經常改變,截至2012年,單一數據集的大小從數太位元組(TB)至數十兆億位元組(PB)不等,在一份2001年的研究與相關的演講中,麥塔集團(META Group)分析員Doug Laney指出數據增長的挑戰和機遇有三個方向:量(Volume,數據大小)、速(Velocity,數據輸入輸出的速度)與多變(Variety,多樣性),三者合稱“3V”或“3Vs”,現在大部分大數據產業中的公司,都繼續使用3V來描述大數據,對此,Doug Laney於2012年修改對大數據的定義:“大數據是大量、高速、及/或多變的信息資產,它需要新型的處理方式去促成更強的決策能力、洞察力與最優化處理。”另外,有機構在3V之外定義第4個V:真實性(Veracity)為第四特點。
大數據現在不只是資料處理工具,更是一種企業思維和商業模式,因為資料量急速成長、儲存設備成本下降、軟體技術進化和雲端環境成熟等種種客觀條件就位,方才讓資料分析從過去的洞悉歷史進化到預測未來,甚至是破舊立新,開創從所未見的商業模式,例如有一款稱之為Ovia Fertility 96的App,藉由分析30萬名會員的數據,開發演算法,精準計算排卵期,提高懷孕的機率,這個App已幫助5萬名會員成功懷孕。又比如Workday 61推出一套軟體,預測員工的薪水漲幅和可能跳槽時間,幫助企業決定每名員工的加薪幅度、時間點和轉職時機。理財也逃不過大數據的掌控,騰訊就於年初推出第一家用大數據決定借貸與否的銀行,微眾銀行 22結合辨識人臉和公安部門資料,決定借貸者的信用等級。從懷孕生子、工作到理財,大數據將全面影響每個人與每家企業。大數據揭示的是一種「資料經濟」的精神,而非只是「大」,就此而言,對企業來說,大數據可望提升服務品質、增加管理效率、幫助決策和創造商業模式;對一般民眾,大數據是另一個自我,它可能比本人更了解本人,為你預先解決每個未知。
傳統商業分析會有的風險,大數據也都會有,這並非大數據才有的問題,「個資安全問題」一直都存在,只是隨著資料來源越來越多且資料量越來越大,資安問題更顯迫切罷了。市場研究機構Gartner研究副總裁Brian Prentice指出,大數據本身並沒有資安問題,問題在企業應用資料的方式,Gartner預測2018年,企業違反商業倫理的案件中,有近50%都來自不當的大數據應用。另一值得關切的是大數據可能帶來的「資料獨裁問題」,根據大數據領域權Viktor Mayer-Schönberger的說法,資料獨裁指的是任由資料來管控我們,盲目受到分析結果的制約,導致濫用或誤用資料。例如根據數據分析將人群分類,其實有可能會把個體給標籤化,甚至污名化某些族群。
資料來源: 維基百科、數位時代
延伸性概念:資料經濟、巨型數據、數據挖掘
(本則小百科係由吳思慧整理)