Paper
這是我第一篇記錄的 paper,會有我的個人心得,這篇主要是在講述 Big Data 在雲端裡的應用,為了交大雲端計算報告才看的,我的架構會是先從摘要和結論開始,再講述他們的 Methodology。
- 題目: LEVERAGING CLOUD BASED BIG DATA ANALYTICS IN KNOWLEDGE MANAGEMENT FOR ENHANCED DECISION MAKING IN ORGANIZATIONS
- 等級: Journal
- 出版: International Journal of Distributed and Parallel Systems (IJDPS) Vol.8, No.1, January 2017
前言
Big Data 可以幫助組織在 KM 上更加突破,不過因為 Big Data 具 5V 特性(甚至到10V,相關定義可以到此連結查看),傳統的資料管理技術已經無法提供有效的儲存和分析,因此本篇提出新的技術和架構想要解決這個問題。
能夠儲存和處理大量資料的雲端計算因此用於高效的 Big Data 處理,因為能夠最大限度降低 Big Data 分析所需的大規模計算基礎設施的成本。
- 貢獻
- 分析 Big Data 對 KM 的影響。
- 提出基於雲的概念框架,可以即時分析 Big Data,以促進主要在獲得競爭優勢的增強決策。
- 為加強組織探索 Big Data 和 KM 之間的關係,因其通常是被分開討論。
結論
對於組織來說,收集大量資料為了做出更好的決策,並且根據研究得到
利用資料推動決策的組織可以得到更多利潤。
Big Data 可以為組織有效管理 KM 創造新的可能性和機會。
- 這篇論文主要是在研究 Big Data 在 KM 的作用,並將兩者連結,因此他們提出一基於雲的框架,透過分析從 Big Data 中提取價值,用於 KM 開發出有效的決策。
- 在這個框架中,Big Data 平台將用具有雲端服務的技術來支持,像是 HDFS 和 MapReduce,以實現跨資料中心 cluster 的分散式處理。並且利用 NoSQL 在 Big Data 的即時處理上。
- 通過分析舉例說明 Big Data 獲取和分析的完整週期,將 Big Data 價值轉為可操作的洞察力,用以支持包括知識獲取、分發和共享、呈現和儲存以及利用的 KM 過程。
- 最後,由於在 KM 中利用這項新技術面臨著許多挑戰,例如數據科學家的可用性和保護資料隱私等,這些問題需要先解決才能實現這個框架。
Big Data 與 KM 之間的關係
由於 Big Data 和 雲端計算的盛行,組織在尋找如何有效收集和處理資料的方法,而使 KM 創造價值。
Davenport 等人提出(連結),組織可以通過使用與 KM 相關的 Big Data 來實現一些好處,組織主要使用的是資料流而不是歷史資料,因此逐漸益賴數據科學家而不是數據分析師,這項工作最後逐漸從 IT 中分離出來,並作為核心業務和運營職能。因此組織可以創造有價值的知識,並利用其來改進 KM 和 競爭優勢,因此得到 Big Data 和分析可以有助於即時 KM。
KM 兩種方法比較
傳統方法 vs. 基於 Big Data 的方法
- 傳統方法
著重在將隱性知識轉為顯性知識,將人們的專業知識轉為程式碼並存入資料庫中。 - 基於 Big Data 的方法
由累積的大量數據來形成新知識,除了內部收集,更是可以從雲中收集,基於 Big Data 的 KM 主要是進行知識預測、知識導航和知識發現,以增強支持組織中的營運和決策制定。
Big Data Driven KM Framework
- 首先從技術角度概述系統架構
- 描述在 KM 中利用 Big Data 架構模式
- 描述 Big Data 的功能視圖,Big Data 分析技術是管理系統和相關 Big Data 工具的關鍵
基礎設施層(Infrastructure Layer)
- 基礎設施由 sensor 網路、設備網路、數據和管理接口組成
- 網路組件由各類型的 sensor、執行器、軟體組件和其他設備組成,從不同來源收集(或驅動)數據。
可以看到下圖,管理底層網路基礎設施並處理其中生成的數據,增加了由定義良好的 Data 和 Management API組成的控制平面,
除了上述的 Big Data source 外,我們還將客戶的參與視為他們福利、業務規劃和決策的重要數據來源,這通常被稱為”眾包”(crowdsourcing)。 簡而言之,這些大數據的生成速度非常快,必須快速捕獲和處理(如即時監控的情況)。
平台層(Platform Layer)
架構的核心是第二層(平台層),包含三個建構塊(building block)
知識管理層(Knowledge Management Layer)
可以看到圖中,最上層就是 KM layer 可以提供知識獲取、創建、分配和共享、存儲和利用知識管理的cycle。以達到即時創建Actionable Insights (代表可以作為依據做某些事情的,可操作的; 深入準確的理解; 合起來就是對公司而言有價值、可操作的有用信息。可以參考這個文章),用於支持依照需求的決策。
這個框架會利用下層的分析結果會輸入到知識管理層,來完成剛剛提到的知識管理。在這個框架的基礎上,企業、政府和股東社群可以更好地規劃他們的商業活動,甚至是參與增強和有效的決策制定。
實作上的挑戰
Question: 你覺得這個基於大數據的知識管理框架具提供即時資訊的功能,結合了大數據和雲端計算的優點,有什麼問題或挑戰嗎?
這個基於大數據的知識管理框架,在理論上相要結合大數據和雲端計算的優點,但實際上有許多問題和挑戰。
- 最重要的是面臨了技術挑戰。現在的技術可以很容易收集和管理大量的資料,這個框架必須解決處理大量不同資料和處理時間太長的問題,因為剛剛有提到需要有即時提供資訊的功能。在實際上,資料在沒處理前有很多種,無論是非結構或結構化的資料都十分龐大,很難分析和提取有效的價值。
- 另一個問題是這些資料很難管理,這也是從大數據很難提取有用價值的主因。同時,擺脫傳統的資料管理技術並提出有效的分析演算法來處理結構化和非結構化資料是比較難的。
- 最後,這個框架的實作需要跨領域的知識,例如: 大數據分析需要統計學、機器學習和資料管理上的專業知識,才能從組織大數據中得到有價值的見解,這將是一個挑戰。因此,該框架的成功會產生知識管理領域的新專家,主要是利用大數據和雲計算。
案例說明 – Yahoo的大數據活動
主要是關於為自己的產品和服務做廣告的預測模型,據他們觀察的資料,這篇文是在五年前發表的,所以現在已經不是這樣了,在當時美國 80% 的用戶會使用 Yahoo 提供的各種服務,每月會有來自世界各地超過 6 億用戶。提供的產品包括媒體、商業、貿易、搜索和訪問產品,並擁有像是 E-mail、電視、新聞、金融等的資產,相信現在這些服務也不是主流了。不過在當時,他們每天收集的資料量達到 25 TB 以上。資料主要是合作夥伴、廣告商和消費者。
他們採用的商業策略是行為定位(這個機制能藉由消費者在網路中的行為,利用標籤進行興趣分類,來增加品牌跟消費者之間關聯性,舉例來說,像我平常可能搜尋或是講到 iPhone 這個關鍵字,過沒多久就會出現許多相關廣告),以獲得競爭優勢的增強決策。他們維護每個消費者的行為或興趣和盈利能力指標。該策略通過將廣告定位到最新行為或在線活動表明與他們相關的產品或服務類別的客戶。以這種方式,最相關的用戶類別被識別。
- Enhance Decision Making
- Look in — Restructure your IT organization for the “new normal” with trends, forecasts, and benchmarking.
- 通過趨勢、預測和基準測試,使 IT 組織可以適應新環境。
- Look across — Understand your colleagues’ and constituents’ needs and expectations so you can refine your IT service management.
- 了解同事和委託人的需求和期望,這樣就可以改進 IT 服務的管理。
- Look up — Align IT with the institutional mission through strategic uses of technology and data.
- 通過技術和資料的策略性應用,使 IT 與組織目標保持一致。
- Look in — Restructure your IT organization for the “new normal” with trends, forecasts, and benchmarking.
下圖說明了他們的預測建模如何在非常抽象的級別上工作:
- 預測模型開始以數十萬個產品類別週期分析購買歷史,這些產品類別包含大量資料以進行前置處理。
- 在這些產品的每個類別中,都建立了一個行為模型來描述消費者的購買行為,這也代表消費者對廣告的網路點擊流量。
- 在下一階段,每個消費者每天都會標記適合產品類別的分數。
- 然後根據在每個產品類別中獲得的分數對消費者進行排序,並且預測方案選擇消費者來定位所選產品類別中獲得最高相關性分數的廣告。