隨著互聯(lián)網(wǎng)技術的發(fā)展,現(xiàn)有計算機擁有了在極短時間內(nèi)處理海量數(shù)據(jù)的能力,進而催生了一大批企業(yè)利用大量的數(shù)據(jù),將傳統(tǒng)的企業(yè)運營方式進行顛覆,使得企業(yè)實現(xiàn)了從靠人力決策到靠數(shù)據(jù)決策的轉(zhuǎn)變,這意味著更少的決策失誤和更大的利潤,而對于普通民眾而言則能享受到更好的服務質(zhì)量和辦事效率。
在以上過程中,大量的企業(yè)決策與服務提供需要依靠大數(shù)據(jù)技術支撐,并且大數(shù)據(jù)帶來的經(jīng)濟效益已經(jīng)大于開發(fā)成本,由此進入大數(shù)據(jù)時代。
01.內(nèi)涵與特征
1)大數(shù)據(jù)的內(nèi)涵
大數(shù)據(jù)的定義方法有很多種,如果仔細觀察,會發(fā)現(xiàn)不同領域?qū)<覍W者給出了不同的定義。通常所說的“大數(shù)據(jù)”往往指的是“大數(shù)據(jù)現(xiàn)象”。
(1)計算機科學與技術:當數(shù)據(jù)量、數(shù)據(jù)的復雜程度、數(shù)據(jù)處理的任務要求等超出了傳統(tǒng)數(shù)據(jù)存儲與計算能力時,稱之為大數(shù)據(jù)(現(xiàn)象)??梢?,計算機科學與技術中是從存儲和計算能力視角理解大數(shù)據(jù)——大數(shù)據(jù)不僅是“數(shù)據(jù)存量”的問題,還與數(shù)據(jù)增量、復雜度和處理要求(如實時分析)有關。
(2)統(tǒng)計學:當能夠收集足夠的全部(總體中的絕大部分)個體的數(shù)據(jù),且計算能力足夠強,可以不用抽樣,直接在總體上就可以進行統(tǒng)計分析時,稱之為大數(shù)據(jù)(現(xiàn)象)??梢?,統(tǒng)計學主要從所處理的問題和總體的規(guī)模之間的相對關系視角理解“大數(shù)據(jù)”。
(3)機器學習:當訓練集足夠大,且計算能力足夠強,只需要通過對已有的實例進行簡單查詢即可達到“智能計算的效果”時,稱之為大數(shù)據(jù)(現(xiàn)象)??梢?,機器學習主要從“智能的實現(xiàn)方式”理解大數(shù)據(jù)-智能可以通過簡單的實例學習和機械學習的方式來實現(xiàn)。
(4)社會科學家:當多數(shù)人的大部分社會行為可以被記錄下來時,稱之為大數(shù)據(jù)(現(xiàn)象)。可見,社會科學家眼里的大數(shù)據(jù)主要是從“數(shù)據(jù)規(guī)模與價值密度角度”談的,即數(shù)據(jù)規(guī)模過大導致的價值密度過低。
總之,術語大數(shù)據(jù)的內(nèi)涵已超出了數(shù)據(jù)本身,代表的是數(shù)據(jù)帶來的機遇與挑戰(zhàn),可以總結(jié)如下。
(1)機遇:原先無法(或不可能)找到的數(shù)據(jù),現(xiàn)在可能找到;原先無法實現(xiàn)的計算目的(如數(shù)據(jù)的實時分析),現(xiàn)在可以實現(xiàn)。
(2)挑戰(zhàn):原先一直認為正確或最佳的理念、理論、方法、技術和工具越來越凸現(xiàn)出其局限性,在大數(shù)據(jù)時代需要改變思考模式。
2)大數(shù)據(jù)的特征
通常,用4V來表示大數(shù)據(jù)的基本特征。但是,建議讀者結(jié)合上述對大數(shù)據(jù)的內(nèi)涵的討論,靈活理解大數(shù)據(jù)的特征。
(1)Volume(數(shù)據(jù)量大):數(shù)據(jù)量大是一個相對于計算和存儲能力的說法,就目前而言,當數(shù)據(jù)量達到PB級以上,一般稱為“大”的數(shù)據(jù)。但是,應該注意到,大數(shù)據(jù)的時間分布往往不均勻,近幾年所生成的數(shù)據(jù),相對占比最高。
(2)Variety(類型多):數(shù)據(jù)類型多是指大數(shù)據(jù)存在多種類型的數(shù)據(jù),不僅包括結(jié)構(gòu)化數(shù)據(jù),還包括非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。有統(tǒng)計顯示,在未來,非結(jié)構(gòu)化數(shù)據(jù)的占比將達到90%以上。非結(jié)構(gòu)化數(shù)據(jù)所包括的數(shù)據(jù)類型很多,例如網(wǎng)絡日志、音頻、視頻、圖片、地理位置信息等。數(shù)據(jù)類型的多樣性往往導致數(shù)據(jù)的異構(gòu)性,進而加大了數(shù)據(jù)處理的復雜性,對數(shù)據(jù)處理能力提出了更高要求。
(3)Value(價值密度低):在大數(shù)據(jù)中,價值密度的高低與數(shù)據(jù)總量的大小之間并不存在線性關系,有價值的數(shù)據(jù)往往被淹沒在海量無用數(shù)據(jù)之中,也就是人們常說的“我們淹沒在數(shù)據(jù)的海洋,卻又在忍受著知識的饑渴(We are drowning in a sea of data and thirsting for knowledge)”。例如,一段長達120min連續(xù)不間斷的監(jiān)控視頻中,有用數(shù)據(jù)可能僅有幾秒。因此,如何在海量數(shù)據(jù)中洞見有價值的數(shù)據(jù)成為數(shù)據(jù)科學的重要課題。
(4)Velocity(速度快):大數(shù)據(jù)中所說的“速度”包括兩種——增長速度和處理速度。一方面,大數(shù)據(jù)增長速度快。有統(tǒng)計顯示,2009—2020年期間的數(shù)字宇宙的年均增長率將達到41%,另一方面,對大數(shù)據(jù)處理的時間(計算速度)要求也越來越高,“大數(shù)據(jù)的實時分析”成為熱門話題。
02.業(yè)務數(shù)據(jù)化
隨著互聯(lián)網(wǎng)的快速發(fā)展,企業(yè)逐漸面臨越來越多大數(shù)據(jù)時代的不確定性和挑戰(zhàn),很可能因為成本高居不下而逐漸失去份額,被競爭對手超越并最終出局。企業(yè)每天都會產(chǎn)生大量的業(yè)務數(shù)據(jù),通過實現(xiàn)業(yè)務數(shù)據(jù)化可以幫助企業(yè)經(jīng)營者對尚未掌握的商業(yè)機遇進行理性評估判斷,實現(xiàn)業(yè)務增值,同時幫助企業(yè)提升內(nèi)部運營效率,降低成本。因此業(yè)務數(shù)據(jù)化是未來發(fā)展的一大趨勢。
1)設計目標和原則
業(yè)務數(shù)據(jù)化的設計目標是要從大量的、可能是雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導出對于某些特定的人或事物來說有價值、有異議的數(shù)據(jù)。設計原則包括簡約原則、綜觀原則、解釋原則以及智慧原則。
(1)簡約原則:簡化現(xiàn)有的數(shù)據(jù)集,使得一種小規(guī)模的數(shù)據(jù)就能夠產(chǎn)生同樣的分析效果。通過一些數(shù)據(jù)規(guī)約方法獲取可靠數(shù)據(jù),減少數(shù)據(jù)集規(guī)模,提高數(shù)據(jù)抽象程度,提升數(shù)據(jù)挖掘效率,使之在實際工作中,可以根據(jù)需要選用合適的處理方法,以達到操作上的簡單、簡潔、簡約和高效。
(2)綜觀原則:對認知對象進行綜合性的觀察、分析和探索,以求得解決問題的策略和戰(zhàn)略。它堅持整體的具體統(tǒng)一性,凸顯認知對象的具體實在性。
(3)解釋性原則:針對提取的數(shù)據(jù)究竟表達什么或意味什么,很大程度上,并不取決于數(shù)據(jù)信息自身所標明的“客觀實在性”,而是取決于認知主體對數(shù)據(jù)進行解讀時的主觀評價,以此揭示數(shù)據(jù)的本質(zhì)。
(4)智慧原則:在對數(shù)據(jù)的處理挖掘過程中既要兼具數(shù)據(jù)處理能力,也要具備應用算法和編寫代碼的經(jīng)驗。在大數(shù)據(jù)時代,不僅要關注數(shù)據(jù)的多樣性、差異性、精確性和實效性;還要深入挖掘各類數(shù)據(jù),并在此基礎上在不同的數(shù)據(jù)集成中分析不同的假設情境,建構(gòu)不同的可視化圖像,揭示數(shù)據(jù)集成的變化及其產(chǎn)生的效用。
2)數(shù)據(jù)線程
數(shù)據(jù)線程是指以價值鏈活動為脈絡,以業(yè)務為中心,構(gòu)建的數(shù)據(jù)建模、關聯(lián)、因果、集成、演化等全主線流程。數(shù)據(jù)線程通過建立面向業(yè)務應用的數(shù)據(jù)模型,實現(xiàn)各種信息化業(yè)務系統(tǒng)數(shù)據(jù)源的統(tǒng)一建模需求;針對設計、制造、運行、維護等生產(chǎn)環(huán)節(jié),發(fā)掘數(shù)據(jù)資源間的復雜關聯(lián)關系和因果關系;通過描述業(yè)務驅(qū)動的數(shù)據(jù)動態(tài)演化過程,提升對產(chǎn)品迭代、工藝更新、設備維護等業(yè)務決策問題的適應能力。數(shù)據(jù)線程圍繞數(shù)據(jù)生成、匯聚、存儲、歸檔、分析、使用和銷毀等全過程,實現(xiàn)了產(chǎn)品研發(fā)設計、生產(chǎn)制造、經(jīng)營管理和銷售服務等全價值鏈活動中業(yè)務數(shù)據(jù)的有效組織,為業(yè)務數(shù)據(jù)化提供了良好的基礎。
3)業(yè)務數(shù)據(jù)系統(tǒng)
業(yè)務數(shù)據(jù)系統(tǒng)主要包括業(yè)務數(shù)據(jù)集成系統(tǒng)、業(yè)務數(shù)據(jù)管理系統(tǒng)、業(yè)務數(shù)據(jù)分析系統(tǒng)、業(yè)務數(shù)據(jù)可視化系統(tǒng)等多個子系統(tǒng)。
(1)業(yè)務數(shù)據(jù)集成系統(tǒng):是面向業(yè)務的數(shù)據(jù)集成系統(tǒng)。隨著企業(yè)信息化建設的發(fā)展,企業(yè)建立了眾多的信息系統(tǒng),以幫助企業(yè)進行內(nèi)外部業(yè)務的管理。但是,企業(yè)各系統(tǒng)的數(shù)據(jù)是分布的、異構(gòu)的,為了共享這些業(yè)務數(shù)據(jù),需要一個業(yè)務數(shù)據(jù)集成系統(tǒng)來完成數(shù)據(jù)的共享與轉(zhuǎn)換。業(yè)務數(shù)據(jù)集成系統(tǒng)通過對具體的數(shù)據(jù)庫業(yè)務數(shù)據(jù)進行訪問,實現(xiàn)了基于變量的增量數(shù)據(jù)的獲取和發(fā)送,不僅解決了分布式環(huán)境下異構(gòu)數(shù)據(jù)的集成,還具有良好的擴展性及部署的簡單性。
(2)業(yè)務數(shù)據(jù)管理系統(tǒng):是業(yè)務數(shù)據(jù)系統(tǒng)的核心組成部分,主要完成對業(yè)務數(shù)據(jù)的操縱與管理功能,實現(xiàn)數(shù)據(jù)對象的創(chuàng)建、數(shù)據(jù)存儲數(shù)據(jù)的查詢、添加、修改與刪除操作和數(shù)據(jù)庫的用戶管理、權(quán)限管理等。業(yè)務數(shù)據(jù)管理系統(tǒng)可以依據(jù)它所支持的數(shù)據(jù)庫模型來做分類,例如關系式、XML;或依據(jù)所支持的計算機類型來做分類,例如服務器群集、移動電話;或依據(jù)所用查詢語言來做分類,例如SQL、XQuery;或依據(jù)性能沖量重點來做分類,例如最大規(guī)模、最高運行速度。
(3)業(yè)務數(shù)據(jù)分析系統(tǒng):主要功能是從眾多外部系統(tǒng)中,采集相關的業(yè)務數(shù)據(jù),集中存儲到系統(tǒng)的數(shù)據(jù)庫中。系統(tǒng)內(nèi)部對所有的原始數(shù)據(jù)通過一系列處理轉(zhuǎn)換之后,存儲到數(shù)據(jù)倉庫的基礎庫中;然后,通過業(yè)務需要進行一系列的數(shù)據(jù)轉(zhuǎn)換到相應的數(shù)據(jù)集市,供其他上層數(shù)據(jù)應用組件進行專題分析或者展示,并將數(shù)據(jù)加以匯總和理解并消化,以求最大化地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。
(3)業(yè)務數(shù)據(jù)可視化系統(tǒng):將數(shù)據(jù)進行更清晰的展示,能夠準確而高效、精簡而全面地傳遞信息和知識??梢暬軐⒉豢梢姷臄?shù)據(jù)現(xiàn)象轉(zhuǎn)化為可見的圖形符號,能將錯綜復雜、看起來沒法解釋和關聯(lián)的數(shù)據(jù),建立起聯(lián)系和關聯(lián),發(fā)現(xiàn)規(guī)律和特征,獲得更有商業(yè)價值的洞見和價值。
4)智能制造業(yè)務數(shù)據(jù)
智能制造業(yè)務數(shù)據(jù)主要包括以下6個方面。
(1)從底層的設備控制系統(tǒng)中采集的數(shù)據(jù),包括設備的狀態(tài)數(shù)據(jù)、設備參數(shù)等,如數(shù)控系統(tǒng)、產(chǎn)線控制系統(tǒng)等。
(2)直接采集各類終端及傳感器的數(shù)據(jù),如溫度傳感器、振動傳感器、噪聲傳感器、手持終端等。
(3)從各類業(yè)務應用信息系統(tǒng)中獲取數(shù)據(jù),如MES系統(tǒng)從PDM系統(tǒng)獲取BOM數(shù)據(jù),從ERP系統(tǒng)獲取訂單數(shù)據(jù)等。
(4)從各類業(yè)務運行過程中獲取的樣本數(shù)據(jù)集,是指以業(yè)務為中心,積累的歷史樣本數(shù)據(jù),可用于智能制造過程中模型的訓練。
(5)指算法和模型數(shù)據(jù),是指機器學習、深度學習、強化學習等算法和已訓練好的模型,用戶可以直接從業(yè)務數(shù)據(jù)系統(tǒng)中調(diào)用這些算法和模型數(shù)據(jù),用于制造大數(shù)據(jù)分析、預測、決策等。
(6)從互聯(lián)網(wǎng)獲取數(shù)據(jù),如獲取市場信息數(shù)據(jù)、環(huán)境數(shù)據(jù),上下游供應商數(shù)據(jù)等。還包括來源于人類軌跡產(chǎn)生的數(shù)據(jù),包括在現(xiàn)代工業(yè)制造鏈中,從采購,生產(chǎn),物流與銷售市場的內(nèi)部流程等。通過行為軌跡數(shù)據(jù)與設備數(shù)據(jù)的結(jié)合,可以幫助我們實現(xiàn)客戶的分析和挖掘。
03.大數(shù)據(jù)時代的新理念
大數(shù)據(jù)時代的到來改變了人們的生活方式、思維模式和研究范式,也帶來了很多全新的理念。
(1)研究范式的新認識——從第三范式到第四范式:2007年,圖靈獎獲得者Jim Gray提出了科學研究的第四范式——數(shù)據(jù)密集型科學發(fā)現(xiàn)(Data-intensive Scientific Discovery)。在他看來,人類科學研究活動已經(jīng)歷過3種不同范式的演變過程(原始社會的實驗科學范式、以模型和歸納為特征的理論科學范式和以模擬仿真為特征的計算科學范式),目前正在從計算科學范式轉(zhuǎn)向數(shù)據(jù)密集型科學發(fā)現(xiàn)范式。第四范式,即數(shù)據(jù)密集型科學發(fā)現(xiàn)范式的主要特點是科學研究人員只需要從大數(shù)據(jù)中查找和挖掘所需要的信息和知識,無須直接面對所研究的物理對象。
(2)數(shù)據(jù)重要性的新認識——從數(shù)據(jù)資源到數(shù)據(jù)資產(chǎn):在大數(shù)據(jù)時代,數(shù)據(jù)不僅是一種資源,而更是一種重要的資產(chǎn)。因此,數(shù)據(jù)科學應把數(shù)據(jù)當作一種資產(chǎn)來管理,而不能僅僅當作資源來對待。也就是說,與其他類型的資產(chǎn)相似,數(shù)據(jù)也具有財務價值,且需要作為獨立實體進行組織與管理。
(3)對方法論的新認識——從基于知識解決問題到基于數(shù)據(jù)解決問題:傳統(tǒng)方法論往往是基于知識的,即從大量實踐(數(shù)據(jù))中總結(jié)和提煉出一般性知識(定理、模式、模型、函數(shù)等)之后,用知識去解決(或解釋)問題。因此,傳統(tǒng)的問題解決思路是問題→知識→問題,即根據(jù)問題找知識,并用知識解決問題。然而,數(shù)據(jù)科學中興起了另一種方法論——問題→數(shù)據(jù)→問題,即根據(jù)問題找數(shù)據(jù),并直接用數(shù)據(jù)(不需要把數(shù)據(jù)轉(zhuǎn)換成知識的前提下)解決問題。
(4)對數(shù)據(jù)分析的新認識——從統(tǒng)計學到數(shù)據(jù)科學:在傳統(tǒng)科學中,數(shù)據(jù)分析主要以數(shù)學和統(tǒng)計學為直接理論工具。但是,云計算等計算模式的出現(xiàn)以及大數(shù)據(jù)時代的到來,提升了人們對數(shù)據(jù)的獲取、存儲、計算與管理能力。在海量、動態(tài)、異構(gòu)的數(shù)據(jù)環(huán)境中,人們開始重視相關分析,而不僅僅是因果分析。人們更加關注的是數(shù)據(jù)計算的“效率”而不再盲目追求其精準度。
(5)對計算智能的新認識——從復雜算法到簡單算法:“只要擁有足夠多的數(shù)據(jù),我們可以變得更聰明”是大數(shù)據(jù)時代的一個新認識。因此,在大數(shù)據(jù)時代,原本復雜的智能問題變成簡單的數(shù)據(jù)問題——只要對大數(shù)據(jù)的進行簡單查詢就可以達到“基于復雜算法的智能計算的效果”。
(6)對數(shù)據(jù)管理重點的新認識——從業(yè)務數(shù)據(jù)化到數(shù)據(jù)業(yè)務化:在大數(shù)據(jù)時代,企業(yè)需要重視一個新的課題——數(shù)據(jù)業(yè)務化,即如何基于數(shù)據(jù)動態(tài)地定義、優(yōu)化和重組業(yè)務及其流程,進而提升業(yè)務的敏捷性,降低風險和成本。
(7)對決策方式的新認識——從目標驅(qū)動型決策到數(shù)據(jù)驅(qū)動型決策:傳統(tǒng)科學思維中,決策制定往往是目標或模型驅(qū)動的——根據(jù)目標(或模型)進行決策。在大數(shù)據(jù)時代出現(xiàn)了另一種思維模式,即數(shù)據(jù)驅(qū)動型決策,數(shù)據(jù)成為決策制定的主要觸發(fā)條件和重要依據(jù)。
(8)對產(chǎn)業(yè)競合關系的新認識——從以戰(zhàn)略為中心競合關系到以數(shù)據(jù)為中心競合關系:在大數(shù)據(jù)時代,企業(yè)之間的競合關系發(fā)生了變化,原本相互激烈競爭,甚至不愿合作的企業(yè),不得不開始合作,形成新的業(yè)態(tài)和產(chǎn)業(yè)鏈。
(9)對數(shù)據(jù)復雜性的新認識——從不接受到接受數(shù)據(jù)的復雜性:在傳統(tǒng)科學看來,數(shù)據(jù)需要徹底凈化和集成,計算目的是需要找出精確答案,其背后的哲學是“不接受數(shù)據(jù)的復雜性”。然而,大數(shù)據(jù)中更加強調(diào)的是數(shù)據(jù)的動態(tài)性、異構(gòu)性和跨域等復雜性——彈性計算、魯棒性、虛擬化和快速響應,開始把復雜性當作數(shù)據(jù)的一個固有特征來對待,組織數(shù)據(jù)生態(tài)系統(tǒng)的管理目標轉(zhuǎn)向?qū)⒔M織處于混沌邊緣狀態(tài)。
(10)對數(shù)據(jù)處理模式的新認識——從小眾參與到大眾協(xié)同:傳統(tǒng)科學中,數(shù)據(jù)的分析和挖掘都是基于專家經(jīng)驗,但在大數(shù)據(jù)時代,基于專家經(jīng)驗的創(chuàng)新工作成本和風險越來越大,而基于專家-業(yè)余相結(jié)合(Pro-Am)的大規(guī)模協(xié)作日益受到重視,正成為解決數(shù)據(jù)規(guī)模與形式化之間矛盾的重要手段。
違法和不良信息舉報投訴電話:0377-62377728 舉報郵箱:fbypt@m.4729d.com
網(wǎng)絡警察提醒你 a>
中國互聯(lián)網(wǎng)舉報中心
網(wǎng)絡舉報APP下載
掃黃打非網(wǎng)舉報專區(qū)