行業(yè)新聞

智與理的結(jié)合：當(dāng)數(shù)據(jù)治理遇上人工智能

2018-09-16

近日，中國(guó)移動(dòng)研究院發(fā)布文章，解說(shuō)了數(shù)據(jù)治理和人工智能兩者之間各自發(fā)展歷程，論證了兩者在結(jié)構(gòu)功能上的相互作用，闡明了兩者共同發(fā)展的前景。

Part 1

數(shù)據(jù)治理：大數(shù)據(jù)產(chǎn)業(yè)生態(tài)系統(tǒng)中的新熱點(diǎn)

近些年來(lái)，隨著大數(shù)據(jù)在各個(gè)行業(yè)領(lǐng)域應(yīng)用的不斷深入，數(shù)據(jù)作為基礎(chǔ)性戰(zhàn)略資源的地位日益凸顯，數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)確權(quán)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、隱私保護(hù)、數(shù)據(jù)流通管控、數(shù)據(jù)共享開(kāi)放這些問(wèn)題越來(lái)越受到國(guó)家、行業(yè)、企業(yè)各個(gè)層面的高度關(guān)注。更多的人開(kāi)始意識(shí)到，大數(shù)據(jù)一方面給現(xiàn)有信息技術(shù)體系帶來(lái)了大挑戰(zhàn)，需要更多的研發(fā)投入和創(chuàng)新；另一方面，也需要營(yíng)造更有利于大數(shù)據(jù)產(chǎn)業(yè)健康有序發(fā)展的良好環(huán)境，這樣一來(lái)，數(shù)據(jù)治理的概念就越來(lái)越多受到了關(guān)注，成為目前大數(shù)據(jù)產(chǎn)業(yè)生態(tài)系統(tǒng)中的新熱點(diǎn)。

在上世紀(jì)80年代，隨著數(shù)據(jù)隨機(jī)存儲(chǔ)和數(shù)據(jù)庫(kù)技術(shù)應(yīng)用，產(chǎn)業(yè)界首次提出了數(shù)據(jù)管理的概念，這就是數(shù)據(jù)治理最早的起源。2009年，國(guó)際數(shù)據(jù)管理協(xié)會(huì)（DAMA）發(fā)布了數(shù)據(jù)管理知識(shí)體系DMBOK1.0，提出DAMA數(shù)據(jù)管理理論框架模型，成為了目前行業(yè)最權(quán)威的數(shù)據(jù)管理理論模型，DAMA 數(shù)據(jù)管理模型包括10個(gè)活動(dòng)職能，分別是數(shù)據(jù)治理、數(shù)據(jù)架構(gòu)管理、數(shù)據(jù)開(kāi)發(fā)、數(shù)據(jù)操作管理、數(shù)據(jù)安全管理、參考數(shù)據(jù)和主數(shù)據(jù)管理、數(shù)據(jù)倉(cāng)庫(kù)和商務(wù)智能管理、文檔和內(nèi)容管理、元數(shù)據(jù)管理和數(shù)據(jù)質(zhì)量管理。2015年，DAMA 新發(fā)布的DBMOK2.0知識(shí)領(lǐng)域中又將該模型擴(kuò)展為11個(gè)活動(dòng)職能。在2012年，另一個(gè)行業(yè)組織數(shù)據(jù)管控協(xié)會(huì) (DGI，The Data Governance Institute)提出了DGI數(shù)據(jù)管控框架模型。2014年，軟件工程研究所(SEI)基于軟件能力成熟度集成模型(CMMI)，提出數(shù)據(jù)能力成熟度模型（DMM）。2015年，一個(gè)主要面向金融保險(xiǎn)行業(yè)數(shù)據(jù)管理的公益性組織企業(yè)數(shù)據(jù)管理協(xié)會(huì)(EDM Council)，提出數(shù)據(jù)管理能力評(píng)價(jià)模型(DCAM)，另外還有像Gartner提出的企業(yè)信息能力成熟度模型（the EIM Maturity Model）、IBM企業(yè)數(shù)據(jù)管理能力成熟度模型以及一些咨詢公司如畢馬威、普華永道等發(fā)布的細(xì)分行業(yè)數(shù)據(jù)管理體系架構(gòu)等。、

在我國(guó)，2015年，工信部電子技術(shù)標(biāo)準(zhǔn)化研究院制定《數(shù)據(jù)治理白皮書(shū)》國(guó)際標(biāo)準(zhǔn)研究報(bào)告。2017年，工信部信息通信研究院發(fā)布《數(shù)據(jù)資產(chǎn)管理白皮書(shū)》。2018年4月，國(guó)家大數(shù)據(jù)標(biāo)準(zhǔn)化工作組發(fā)布了國(guó)家標(biāo)準(zhǔn)《數(shù)據(jù)管理能力成熟度評(píng)估模型GB/T 36073-2018》（簡(jiǎn)稱《DCMM模型》）。2018年5月，銀保監(jiān)會(huì)印發(fā)《銀行業(yè)金融機(jī)構(gòu)數(shù)據(jù)治理指引的通知》。近年來(lái)，國(guó)內(nèi)各行業(yè)大型企業(yè)也紛紛發(fā)起企業(yè)內(nèi)部數(shù)據(jù)治理項(xiàng)目，制定數(shù)據(jù)治理規(guī)范，成立專(zhuān)業(yè)的數(shù)據(jù)管理實(shí)體團(tuán)隊(duì)來(lái)開(kāi)展企業(yè)數(shù)據(jù)治理工作。

上面提到的這些種種數(shù)據(jù)管理模型，奠定了此后諸多行業(yè)化、定制化數(shù)據(jù)管理模型的基礎(chǔ)，各個(gè)企業(yè)紛紛在這些已有理論模型基礎(chǔ)上擴(kuò)展、裁剪、引申、演化，可謂百花齊放。

企業(yè)開(kāi)展數(shù)據(jù)管理類(lèi)的工作，除了使用“數(shù)據(jù)治理”這個(gè)詞，業(yè)界也經(jīng)常使用“數(shù)據(jù)管理”、“數(shù)據(jù)管控”、“數(shù)據(jù)資產(chǎn)管理”等說(shuō)法?？傊?，這幾個(gè)詞語(yǔ)，概念略有差異，內(nèi)涵基本一致，大家做的事，基本都跳不出DAMA數(shù)據(jù)管理模型的范圍。

Part 2

人工智能：大型科技企業(yè)爭(zhēng)奪未來(lái)的主戰(zhàn)場(chǎng)

提到人工智能，近年來(lái)可謂炙手可熱，產(chǎn)業(yè)界資本的積極布局，國(guó)家政府層面的大力宣傳，還有一些像自動(dòng)駕駛、機(jī)器人、智能客服、語(yǔ)音識(shí)別等方面實(shí)際應(yīng)用的涌現(xiàn)，使得人工智能方面的人才身價(jià)倍增，很多大型科技企業(yè)也緊隨趨勢(shì)，成立了AI研究院、人工智能研發(fā)中心等實(shí)體組織。百度李彥宏宣稱：“百度公司將不再是互聯(lián)網(wǎng)公司，而是一家人工智能公司”。中國(guó)移動(dòng)也高度重視人工智能，于2017年發(fā)布了“九天”人工智能平臺(tái)，正努力將人工智能技術(shù)應(yīng)用在網(wǎng)絡(luò)、市場(chǎng)、服務(wù)、安全、管理和衍生業(yè)務(wù)等多個(gè)領(lǐng)域。”就如一句段子所說(shuō)：現(xiàn)在混在科技圈的，如果不說(shuō)自己搞人工智能，都不好意思跟人打招呼。

人工智能已經(jīng)成為了大型科技企業(yè)爭(zhēng)奪未來(lái)的主戰(zhàn)場(chǎng)，雖然尚不清楚，借助了更大的數(shù)據(jù)量（大數(shù)據(jù)）、更快的計(jì)算力（GPU）、更強(qiáng)的算法技術(shù)（深度學(xué)習(xí)等），過(guò)去數(shù)年間這個(gè)一度沉寂的領(lǐng)域，這一波的爆發(fā)能持續(xù)多久的時(shí)間，但技術(shù)發(fā)展一般都呈現(xiàn)波浪狀，大數(shù)據(jù)的一波未平，人工智能一波又起，隨著人工智能和社會(huì)各行業(yè)各領(lǐng)域不斷融合和創(chuàng)新，相信在這新一輪的科技革命和產(chǎn)業(yè)變革進(jìn)程中，人工智能技術(shù)將扮演更加重要的角色。

人工智能的研究范疇包括自然語(yǔ)言處理，知識(shí)表現(xiàn)，智能搜索，機(jī)器學(xué)習(xí)，知識(shí)獲取，組合調(diào)度問(wèn)題，感知問(wèn)題，模式識(shí)別，神經(jīng)網(wǎng)絡(luò)等等，它的目標(biāo)是希望計(jì)算機(jī)擁有像人一樣的智力能力，可以替代人類(lèi)實(shí)現(xiàn)識(shí)別、認(rèn)知、分類(lèi)和決策等多種功能。

人工智能更是歷史悠久，1959年，計(jì)算機(jī)科學(xué)之父圖靈發(fā)表了一篇?jiǎng)潟r(shí)代的論文《計(jì)算機(jī)器與智能》，文中提出了人工智能領(lǐng)域著名的圖靈測(cè)試：如果電腦能在5分鐘內(nèi)回答由人類(lèi)測(cè)試者提出的一系列問(wèn)題，且其超過(guò)30%的回答讓測(cè)試者誤認(rèn)為是人類(lèi)所答，則電腦就通過(guò)測(cè)試并可下結(jié)論為機(jī)器具有智能。1956年，達(dá)特茅斯會(huì)議推動(dòng)了全球第一次人工智能浪潮的出現(xiàn)，當(dāng)時(shí)樂(lè)觀的氣氛彌漫著整個(gè)學(xué)界，在算法方面出現(xiàn)了很多世界級(jí)的發(fā)明，其中包括一種叫做增強(qiáng)學(xué)習(xí)的雛形（即貝爾曼公式），增強(qiáng)學(xué)習(xí)就是谷歌AlphaGo算法核心思想內(nèi)容?，F(xiàn)在常聽(tīng)到的深度學(xué)習(xí)模型，其雛形叫做感知器，也是在那幾年間發(fā)明的。第一次人工智能冬天出現(xiàn)在1974年到1980年,人們發(fā)現(xiàn)邏輯證明器、感知器、增強(qiáng)學(xué)習(xí)等等只能做很簡(jiǎn)單、非常專(zhuān)業(yè)且使用場(chǎng)景很窄的任務(wù)，稍微超出范圍就無(wú)法應(yīng)對(duì)。在80年代出現(xiàn)了人工智能數(shù)學(xué)模型方面的重大發(fā)明，其中包括著名的多層神經(jīng)網(wǎng)絡(luò)（1986）和BP反向傳播算法（1986）等，也出現(xiàn)了能與人類(lèi)下象棋的高度智能機(jī)器（1989）。于是，大家又開(kāi)始覺(jué)得人工智能可能還有戲。

然而，1987年到1993年現(xiàn)代PC的出現(xiàn)，讓人工智能的寒冬再次降臨。當(dāng)時(shí)蘋(píng)果、IBM開(kāi)始推廣第一代臺(tái)式機(jī)，計(jì)算機(jī)開(kāi)始走入個(gè)人家庭，其費(fèi)用遠(yuǎn)遠(yuǎn)低于專(zhuān)家系統(tǒng)所使用的Symbolics和Lisp等機(jī)器。相比于現(xiàn)代PC，專(zhuān)家系統(tǒng)被認(rèn)為古老陳舊而非常難以維護(hù)。于是，政府經(jīng)費(fèi)開(kāi)始下降，寒冬又一次來(lái)臨。人們開(kāi)始思考人工智能到底往何處走，到底要實(shí)現(xiàn)什么樣的人工智能。之后，出現(xiàn)了新的數(shù)學(xué)工具、新的理論和摩爾定律。人工智能也在確定自己的方向，其中一個(gè)選擇就是要做實(shí)用性、功能性的人工智能，這導(dǎo)致了一個(gè)新的人工智能路徑。由于對(duì)于人工智能任務(wù)的明確和簡(jiǎn)化，帶來(lái)了新的繁榮。標(biāo)志性事件就是1997年IBM深藍(lán)戰(zhàn)勝國(guó)際象棋大師。2011年，“深藍(lán)”的同門(mén)師弟“沃森”在美國(guó)老牌智力問(wèn)答節(jié)目《危險(xiǎn)邊緣》中挑戰(zhàn)兩位人類(lèi)冠軍，又使人工智能更上了一層臺(tái)階。2016年3月15日，谷歌研發(fā)的AlphaGo挑戰(zhàn)圍棋九段高手李世石，最后AlphaGo以4:1擊敗李世石，完爆人類(lèi)，由此將人工智能推向了高潮。人們開(kāi)始意識(shí)到機(jī)器智能已經(jīng)在很多領(lǐng)域超越人類(lèi)，甚至有人擔(dān)心，未來(lái)機(jī)器人會(huì)控制人類(lèi)，人工智能的發(fā)展已經(jīng)到了前所未有的高度。

數(shù)據(jù)治理和人工智能，看似不相關(guān)的兩個(gè)詞，他們兩者放一起，會(huì)發(fā)生什么故事呢。

Part 3

確保數(shù)據(jù)質(zhì)量和安全是發(fā)展人工智能的第一需求

如今，企業(yè)對(duì)于全面數(shù)據(jù)治理的需求從未如此強(qiáng)烈。監(jiān)管機(jī)構(gòu)希望企業(yè)能更加清晰地了解數(shù)據(jù)，對(duì)它進(jìn)行有效的管控；企業(yè)管理層希望理清數(shù)據(jù)資產(chǎn)，降低數(shù)據(jù)應(yīng)用的復(fù)雜性，對(duì)企業(yè)進(jìn)行更高效的管理；企業(yè)員工也開(kāi)始認(rèn)識(shí)到數(shù)據(jù)的重要性，更多地采用數(shù)據(jù)驅(qū)動(dòng)的方式來(lái)開(kāi)展工作。數(shù)據(jù)治理正迅速發(fā)展成一種企業(yè)核心策略，只有做好數(shù)據(jù)治理，讓數(shù)據(jù)更加準(zhǔn)確完整，并且安全合規(guī)，才能釋放出數(shù)據(jù)的無(wú)限潛能，挖掘出更多有價(jià)值的數(shù)據(jù)應(yīng)用。

而人工智能技術(shù)在應(yīng)用和實(shí)踐中，確保數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全是最基礎(chǔ)的底層保障。由于人工智能的落地應(yīng)用效果會(huì)受到數(shù)據(jù)質(zhì)量和安全的影響，更多的企業(yè)開(kāi)始反思并轉(zhuǎn)而去推動(dòng)數(shù)據(jù)質(zhì)量和安全的提升，提供數(shù)據(jù)質(zhì)量和安全評(píng)測(cè)工具，建立好的數(shù)據(jù)環(huán)境，再進(jìn)行人工智能應(yīng)用的同步研發(fā)。

大數(shù)據(jù)是人工智能技術(shù)研發(fā)、訓(xùn)練的關(guān)鍵，是人工智能長(zhǎng)期發(fā)展的重要保障。只有當(dāng)人工智能系統(tǒng)能夠獲取更為準(zhǔn)確、及時(shí)、一致的高質(zhì)量數(shù)據(jù)，才能提供更有效、有用、精準(zhǔn)性高的智能化服務(wù)。根據(jù)埃森哲在2018年4月的一份調(diào)研發(fā)現(xiàn)，中國(guó)制造企業(yè)在運(yùn)用人工智能技術(shù)時(shí)面臨一系列挑戰(zhàn)。其中，52%的受訪中國(guó)企業(yè)將數(shù)據(jù)質(zhì)量列為突出挑戰(zhàn)，數(shù)據(jù)安全與網(wǎng)絡(luò)安全緊隨其后（47%）。在2017年4月的一次研討會(huì)上，圍繞人工智能話題，華為任正非提出：“高質(zhì)量的數(shù)據(jù)是人工智能的前提和基礎(chǔ)”。當(dāng)前，不管是人工智能技術(shù)的研發(fā)，還是人工智能應(yīng)用領(lǐng)域的發(fā)展，“數(shù)據(jù)質(zhì)量”都是一個(gè)不可或缺、位于重中之重的要素。

人工智能發(fā)展的另一個(gè)重點(diǎn)保障就是數(shù)據(jù)安全，人工智能系統(tǒng)的基礎(chǔ)是大數(shù)據(jù)，要對(duì)外提供服務(wù)，就會(huì)涉及數(shù)據(jù)的安全保護(hù)，在這個(gè)過(guò)程中，一系列的數(shù)據(jù)安全防護(hù)手段是必不可少的，如數(shù)據(jù)脫敏管理，對(duì)敏感信息的風(fēng)險(xiǎn)評(píng)估、使用監(jiān)控，對(duì)數(shù)據(jù)的泄露檢測(cè)，數(shù)據(jù)庫(kù)保密檢查等。人工智能需要海量的數(shù)據(jù)，人工智能技術(shù)的進(jìn)步取決于各種來(lái)源數(shù)據(jù)的可用性，如何確保這些數(shù)據(jù)的安全性與保證用戶數(shù)據(jù)的隱私性是數(shù)據(jù)質(zhì)量之外又一個(gè)重要問(wèn)題。同時(shí)，通過(guò)對(duì)業(yè)務(wù)數(shù)據(jù)應(yīng)用語(yǔ)義計(jì)算、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、知識(shí)圖譜、認(rèn)知計(jì)算等人工智能技術(shù)，也可以促進(jìn)企業(yè)數(shù)據(jù)安全保障體系完善。因此，數(shù)據(jù)安全和人工智能兩種技術(shù)起到了相互促進(jìn)、相互完善的作用。

Part 4

搭借AI東風(fēng) 傳統(tǒng)數(shù)據(jù)治理悄然向“智能化”升級(jí)

經(jīng)過(guò)多年的理論更新、技術(shù)演進(jìn)和應(yīng)用實(shí)踐，與前些年前相比，如今的數(shù)據(jù)治理從概念到技術(shù)已經(jīng)發(fā)生了很多變化。特別是隨著這一波人工智能浪潮的重新興起，數(shù)據(jù)治理技術(shù)和人工智能技術(shù)在一些方面也開(kāi)始有了結(jié)合使用，應(yīng)用了人工智能技術(shù)的新一代數(shù)據(jù)治理可以稱之為“智能化數(shù)據(jù)治理”。

數(shù)據(jù)治理工作中，可以通過(guò)對(duì)大數(shù)據(jù)應(yīng)用機(jī)器學(xué)習(xí)技術(shù)，作數(shù)據(jù)挖掘和分析，來(lái)識(shí)別哪些可能是用戶隱私性數(shù)據(jù)、哪些數(shù)據(jù)可能有異常，一旦數(shù)據(jù)特征被確認(rèn)，打上標(biāo)簽，未來(lái)再做數(shù)據(jù)管理時(shí)，就可以使用元數(shù)據(jù)管理的方法機(jī)制，對(duì)外提供服務(wù)。比如當(dāng)碰到涉及的某特殊標(biāo)記數(shù)據(jù)，就會(huì)有相應(yīng)的流程啟動(dòng)，或在相關(guān)的數(shù)據(jù)對(duì)外服務(wù)提供過(guò)程中，一旦數(shù)據(jù)涉及個(gè)人隱私，則一定要小心處理，以避免引起政策方面的風(fēng)險(xiǎn)。通過(guò)上述應(yīng)用，可以增強(qiáng)大數(shù)據(jù)系統(tǒng)數(shù)據(jù)安全管理和元數(shù)據(jù)管理的能力。

另外，也可以在針對(duì)大數(shù)據(jù)開(kāi)展數(shù)據(jù)質(zhì)量核查過(guò)程中，配合傳統(tǒng)根據(jù)預(yù)置的質(zhì)量核查規(guī)則進(jìn)行核查的方式，僅針對(duì)少量核心核查規(guī)則，從大數(shù)據(jù)中選取訓(xùn)練數(shù)據(jù)樣本，經(jīng)過(guò)預(yù)處理，利用機(jī)器學(xué)習(xí)算法進(jìn)行深度分析，提取公共特征和模型，可以用來(lái)定位數(shù)據(jù)質(zhì)量原因，做數(shù)據(jù)質(zhì)量問(wèn)題的預(yù)測(cè)，并進(jìn)一步形成知識(shí)庫(kù)。這樣就可以更進(jìn)一步增強(qiáng)大數(shù)據(jù)系統(tǒng)數(shù)據(jù)質(zhì)量管理的能力。

對(duì)于數(shù)據(jù)模型的管理，機(jī)器學(xué)習(xí)技術(shù)可用來(lái)分析數(shù)據(jù)庫(kù)中數(shù)據(jù)實(shí)體的引用熱度，通過(guò)聚類(lèi)算法自動(dòng)識(shí)別數(shù)據(jù)模型間的內(nèi)在關(guān)系，還可以用于數(shù)據(jù)模型質(zhì)量的檢測(cè)和評(píng)估。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的管理，像文檔內(nèi)容，圖像，音頻，視頻，更是可以充分利用人工智能中的自然語(yǔ)言處理、圖像識(shí)別、語(yǔ)音識(shí)別、視頻處理等技術(shù)。

Part 5

大數(shù)據(jù)治理如何全面擁抱AI

大數(shù)據(jù)治理，顧名思義，即基于大數(shù)據(jù)的數(shù)據(jù)治理。大數(shù)據(jù)，一般指符合4V特征的數(shù)據(jù)，包括社交數(shù)據(jù)，機(jī)器數(shù)據(jù)等，大數(shù)據(jù)對(duì)傳統(tǒng)數(shù)據(jù)治理工作帶來(lái)很多的擴(kuò)展。在政策和流程上，大數(shù)據(jù)治理應(yīng)覆蓋大數(shù)據(jù)的獲取、處理、存儲(chǔ)、安全等環(huán)節(jié)；在數(shù)據(jù)生命周期管理各階段，如數(shù)據(jù)存儲(chǔ)、保留、歸檔、處置時(shí)，要考慮大數(shù)據(jù)保存時(shí)間與存儲(chǔ)空間的平衡；大數(shù)據(jù)量大，因此應(yīng)識(shí)別對(duì)業(yè)務(wù)有關(guān)鍵影響的數(shù)據(jù)元素，檢查和保證數(shù)據(jù)質(zhì)量；大數(shù)據(jù)還需要定義與其內(nèi)容相關(guān)的元數(shù)據(jù)，需與傳統(tǒng)數(shù)據(jù)定義標(biāo)準(zhǔn)保持一致，術(shù)語(yǔ)字典應(yīng)包含大數(shù)據(jù)的術(shù)語(yǔ)，需要為非結(jié)構(gòu)化數(shù)據(jù)提供分類(lèi)、語(yǔ)義支持，Hadoop、NoSQL數(shù)據(jù)庫(kù)的技術(shù)元數(shù)據(jù)也同樣需要納入元數(shù)據(jù)存儲(chǔ)庫(kù)管理；此外，在隱私方面，應(yīng)考慮社交數(shù)據(jù)的隱私保護(hù)需求，制定相應(yīng)政策，還要將大數(shù)據(jù)治理與企業(yè)內(nèi)外部風(fēng)險(xiǎn)管控需求建立聯(lián)系。

數(shù)字化時(shí)代，大數(shù)據(jù)治理應(yīng)該如何和人工智能技術(shù)深度結(jié)合，人工智能技術(shù)在大數(shù)據(jù)治理領(lǐng)域能有哪些應(yīng)用，下面提供一些簡(jiǎn)單的思路。

數(shù)據(jù)安全管理

當(dāng)前已經(jīng)有許多行業(yè)信息安全解決方案都開(kāi)始使用機(jī)器學(xué)習(xí)算法來(lái)識(shí)別潛在的系統(tǒng)攻擊，通過(guò)機(jī)器學(xué)習(xí)可以建立用于檢測(cè)異常情況的“正?！毙袨榈幕€，一切不符合基線標(biāo)準(zhǔn)的異常情況都能及時(shí)預(yù)警和處理。

元數(shù)據(jù)管理

互聯(lián)網(wǎng)企業(yè)使用機(jī)器學(xué)習(xí)，分析用戶點(diǎn)擊過(guò)哪些鏈接，為用戶生成畫(huà)像，打上特定的標(biāo)簽，來(lái)做商品、內(nèi)容的推薦和優(yōu)化用戶搜索結(jié)果。這些描述用戶消費(fèi)形為、興趣偏好特征的元數(shù)據(jù)信息，已經(jīng)成為互聯(lián)網(wǎng)企業(yè)得以生存發(fā)展的核心數(shù)據(jù)資產(chǎn)。

數(shù)據(jù)質(zhì)量管理

在金融行業(yè)，銀行信用卡發(fā)卡部門(mén)很早就開(kāi)始利用機(jī)器學(xué)習(xí)技術(shù)，來(lái)識(shí)別不合規(guī)的申請(qǐng)人、虛假申請(qǐng)信息以及可能存在欺詐性的交易行為。此外，既然機(jī)器學(xué)習(xí)可以識(shí)別信息系統(tǒng)中的異常數(shù)據(jù)，那它也可以檢測(cè)制成品或食品中的異常情況。企業(yè)可以通過(guò)將實(shí)體物品生產(chǎn)過(guò)程數(shù)字化，然后使用經(jīng)過(guò)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)來(lái)識(shí)別不符合標(biāo)準(zhǔn)或規(guī)格的產(chǎn)品數(shù)據(jù)，挑出異常數(shù)據(jù)，從而部分替代人類(lèi)檢測(cè)員的工作。

非結(jié)構(gòu)化數(shù)據(jù)管理

近年來(lái)，利用機(jī)器學(xué)習(xí)的人臉識(shí)別系統(tǒng)能力一直在提高，已經(jīng)大量應(yīng)用在識(shí)別已知的犯罪分子、員工上班考勤、或者識(shí)別公共場(chǎng)所中超出規(guī)范或違反法律的行為或活動(dòng)。而醫(yī)療行業(yè)，則可以利用機(jī)器學(xué)習(xí)工具，通過(guò)對(duì)大量紙質(zhì)和圖像病例資料的訓(xùn)練學(xué)習(xí)，構(gòu)建醫(yī)療知識(shí)庫(kù)，輔助專(zhuān)業(yè)醫(yī)護(hù)人員，診斷疾病并提出最有效的治療策略。

各類(lèi)社交網(wǎng)站每天都在產(chǎn)生著大量非結(jié)構(gòu)化數(shù)據(jù)，企業(yè)可以利用機(jī)器學(xué)習(xí)技術(shù)來(lái)實(shí)時(shí)發(fā)現(xiàn)和識(shí)別潛在的問(wèn)題，手寫(xiě)識(shí)別、語(yǔ)音轉(zhuǎn)寫(xiě)、自然語(yǔ)言處理技術(shù)也在不同場(chǎng)景中大量應(yīng)用，可以提高人們識(shí)別、理解和處理非結(jié)構(gòu)化數(shù)據(jù)的能力。

數(shù)據(jù)共享開(kāi)放

企業(yè)可以充分利用人工智能技術(shù)，以信息化、自動(dòng)化方式，共享和開(kāi)放一部分?jǐn)?shù)據(jù)或數(shù)據(jù)加工結(jié)果，對(duì)外提供服務(wù)，提升企業(yè)競(jìng)爭(zhēng)力。最典型的就是現(xiàn)在各種客戶服務(wù)機(jī)器人，可以使用自然語(yǔ)言處理技術(shù)處理回答客戶提出的常見(jiàn)問(wèn)題，并隨著時(shí)間的推移提高答案的質(zhì)量。據(jù)悉，中國(guó)移動(dòng)客戶服務(wù)系統(tǒng)中機(jī)器服務(wù)的比例已經(jīng)提升到了20%。

另外一個(gè)常見(jiàn)的應(yīng)用領(lǐng)域就是營(yíng)銷(xiāo)推薦，在許多行業(yè)中，將適合的產(chǎn)品投放到正確的位置對(duì)于商業(yè)成功至關(guān)重要。機(jī)器學(xué)習(xí)系統(tǒng)可以使用企業(yè)收集的用戶數(shù)據(jù)，根據(jù)用戶過(guò)去的購(gòu)物習(xí)慣預(yù)測(cè)可能喜歡的物品，再將預(yù)測(cè)結(jié)果數(shù)據(jù)向企業(yè)電商系統(tǒng)或銷(xiāo)售決策系統(tǒng)開(kāi)放。Facebook前科學(xué)家Jeffrey Hammerbacher曾感嘆道：“我們這一代最聰明的大腦，沒(méi)有花多少精力思考如何利用人工智能改善人們的生活，而是思考怎么讓人們點(diǎn)擊更多廣告…”。

數(shù)據(jù)資產(chǎn)分析

物聯(lián)網(wǎng)（IOT）的大發(fā)展提供了許多潛在的機(jī)器學(xué)習(xí)使用場(chǎng)景，其中就包括預(yù)測(cè)性維護(hù)，企業(yè)可以使用歷史設(shè)備數(shù)據(jù)開(kāi)展預(yù)測(cè)分析，推斷機(jī)器可能發(fā)生故障的時(shí)間，使其能夠在影響業(yè)務(wù)運(yùn)行之前主動(dòng)進(jìn)行維修或安裝更換部件。對(duì)于物流企業(yè)來(lái)說(shuō)，設(shè)置時(shí)間表和路線是一件復(fù)雜而費(fèi)時(shí)的工作，機(jī)器學(xué)習(xí)系統(tǒng)可以通過(guò)對(duì)交通數(shù)據(jù)的分析和監(jiān)控，幫助企業(yè)規(guī)劃貨物運(yùn)輸路線及計(jì)劃，提出最有效和最具成本效益的方法。

另外，在金融市場(chǎng)交易中，每個(gè)交易者都希望在市場(chǎng)上找到能讓他們低買(mǎi)高賣(mài)的模式，大的金融機(jī)構(gòu)更是花費(fèi)重金，使用人工智能技術(shù)針對(duì)金融交易數(shù)據(jù)做深度的分析挖掘，打造自己的量化交易系統(tǒng)，以期望能在變幻莫測(cè)的市場(chǎng)風(fēng)云中更早一步識(shí)別潛在的風(fēng)險(xiǎn)和機(jī)會(huì)。

Part 6

讓懂?dāng)?shù)據(jù)治理的人來(lái)做人工智能

2018年5月，中國(guó)國(guó)際大數(shù)據(jù)博覽會(huì)上，中國(guó)科學(xué)院院士梅宏發(fā)表演講中表示，大數(shù)據(jù)治理體系建設(shè)是我們國(guó)家實(shí)施大數(shù)據(jù)戰(zhàn)略的重要保障，是發(fā)揮大數(shù)據(jù)作用，做大做強(qiáng)大數(shù)據(jù)產(chǎn)業(yè)的重要因素，也是關(guān)鍵基礎(chǔ)。當(dāng)下，做人工智能的企業(yè)很多，人工智能的基礎(chǔ)就是大數(shù)據(jù)，數(shù)據(jù)首先要能互通、共享，如果數(shù)據(jù)不通，標(biāo)準(zhǔn)不一致，質(zhì)量不高，就很難做分析、建模，更談不上預(yù)測(cè)的準(zhǔn)確性。開(kāi)展數(shù)據(jù)治理則能為企業(yè)提供一個(gè)高質(zhì)量的數(shù)據(jù)工作環(huán)境，促進(jìn)人工智能技術(shù)的研究和實(shí)踐?？傊瑪?shù)據(jù)治理是人工智能的基礎(chǔ)，想做人工智能，需要先把數(shù)據(jù)治理這個(gè)基礎(chǔ)打好。

對(duì)大型科技企業(yè)來(lái)說(shuō)，面對(duì)日益激烈的競(jìng)爭(zhēng)環(huán)境，企業(yè)亟需進(jìn)行數(shù)字化轉(zhuǎn)型，一方面要做好數(shù)據(jù)治理，另一方面，數(shù)據(jù)治理政策也對(duì)人工智能發(fā)展發(fā)揮著重要的影響。

作為歐盟“史上最嚴(yán)”的數(shù)據(jù)保護(hù)法規(guī)，備受關(guān)注的《通用數(shù)據(jù)保護(hù)條例》（General Data Protection Regulation，GDPR）于2018年5月25日正式生效，相關(guān)組織機(jī)構(gòu)需于該生效日起遵照新規(guī)行事。一方面，GDPR適用的地域范圍不僅限于歐盟境內(nèi)，也適用于提供業(yè)務(wù)給歐盟境內(nèi)個(gè)人的境外組織機(jī)構(gòu)；另一方面，GDPR在全面加強(qiáng)個(gè)人信息保護(hù)、強(qiáng)調(diào)用戶知情權(quán)、訪問(wèn)權(quán)和被遺忘權(quán)的同時(shí)，對(duì)相關(guān)組織機(jī)構(gòu)提出更為嚴(yán)格的合規(guī)要求，并以最高罰沒(méi)其全球營(yíng)業(yè)額的4%或2千萬(wàn)歐元（以金額較高者為準(zhǔn)）為條例的施行保駕護(hù)航。

GDPR的制定者認(rèn)為，在大數(shù)據(jù)時(shí)代，隱私權(quán)就是人權(quán)。根據(jù)這一條例，個(gè)人消費(fèi)者可以享有更多權(quán)力，并通過(guò)對(duì)違規(guī)行為的嚴(yán)厲處罰，更好地保護(hù)消費(fèi)者的數(shù)據(jù)資產(chǎn)和個(gè)人隱私。但同時(shí)， GDPR將會(huì)對(duì)國(guó)內(nèi)互聯(lián)網(wǎng)及商業(yè)科技公司會(huì)產(chǎn)生長(zhǎng)遠(yuǎn)的影響。有業(yè)內(nèi)人士表示：“如果歐盟對(duì)GDPR的執(zhí)行力度非常嚴(yán)，中國(guó)企業(yè)會(huì)“中槍”99%的條款。”對(duì)以消費(fèi)者數(shù)據(jù)應(yīng)用為主要業(yè)務(wù)的國(guó)內(nèi)科技公司來(lái)說(shuō)，更不可能成為例外。GDPR是一部重整全球數(shù)據(jù)秩序的法令，將成為未來(lái)全球網(wǎng)絡(luò)空間規(guī)則的基石。GDPR對(duì)基于個(gè)人信息搜集和隱私驅(qū)動(dòng)的中國(guó)互聯(lián)網(wǎng)產(chǎn)業(yè)收入模式將產(chǎn)生重大影響，甚至可能是顛覆性的影響。

此外，我國(guó)對(duì)個(gè)人信息保護(hù)方面，《信息安全技術(shù)個(gè)人信息安全規(guī)范》于2018年5月1日的正式實(shí)施，已經(jīng)對(duì)我國(guó)科技公司產(chǎn)生了實(shí)質(zhì)性的影響。過(guò)去幾年，隨著我國(guó)大型科技企業(yè)在人工智能領(lǐng)域突飛猛進(jìn)的發(fā)展，從支付領(lǐng)域的身份識(shí)別（人臉、指紋、虹膜、語(yǔ)音識(shí)別）到信貸領(lǐng)域的大數(shù)據(jù)風(fēng)控，我國(guó)科技企業(yè)通過(guò)使用消費(fèi)者數(shù)據(jù)，提供了智能化服務(wù)便利性的同時(shí)，由于法律制度和文化環(huán)境等因素，在保護(hù)消費(fèi)者隱私的合規(guī)性方面做得還不到位。

未來(lái)，以歐盟為代表的監(jiān)管者，拿著“GDPR”大棒，隨時(shí)對(duì)違規(guī)企業(yè)進(jìn)行處罰。在這種內(nèi)外多重因素的推動(dòng)下，開(kāi)展數(shù)據(jù)治理，以及對(duì)數(shù)據(jù)治理的政策研究和應(yīng)對(duì)，將成為企業(yè)人工智能技術(shù)應(yīng)用過(guò)程中亟待解決的重大問(wèn)題。

Part 7

管理數(shù)據(jù)資產(chǎn)，決勝智能時(shí)代

隨著數(shù)字時(shí)代的到來(lái)，企業(yè)在開(kāi)展數(shù)據(jù)治理和人工智能研究研發(fā)工作中，兩者的結(jié)合必不可少，近年來(lái)一些互聯(lián)網(wǎng)企業(yè)在享受人工智能技術(shù)紅利的同時(shí)，存在數(shù)據(jù)認(rèn)知不清、數(shù)據(jù)治理不當(dāng)、客戶隱私數(shù)據(jù)使用不合規(guī)等現(xiàn)象，出現(xiàn)了不少負(fù)面事件。要防止大數(shù)據(jù)和人工智能的濫用和失控，應(yīng)該從人工智能的源頭 – 大數(shù)據(jù)上開(kāi)始建立科學(xué)的數(shù)據(jù)治理體系，包括數(shù)據(jù)的質(zhì)量規(guī)范、制度政策、管理流程、職責(zé)定位和技術(shù)管控工具。數(shù)據(jù)治理體系是對(duì)商業(yè)價(jià)值和用戶隱私，以及企業(yè)長(zhǎng)期利益和短期利益選擇的基礎(chǔ)，建立數(shù)據(jù)治理體系是一個(gè)長(zhǎng)期的過(guò)程，對(duì)于大型科技企業(yè)，都應(yīng)當(dāng)在數(shù)據(jù)治理的規(guī)范和約束下應(yīng)用大數(shù)據(jù)，挖掘數(shù)據(jù)資產(chǎn)價(jià)值，提供人工智能服務(wù)。

結(jié)語(yǔ)

數(shù)據(jù)治理是人工智能的基礎(chǔ)，數(shù)據(jù)治理的目的是在業(yè)務(wù)價(jià)值驅(qū)動(dòng)下提供高質(zhì)量的大數(shù)據(jù)，而人工智能本身是大數(shù)據(jù)應(yīng)用的一種商業(yè)模式，數(shù)據(jù)治理和人工智能就好比一枚硬幣的正反面一樣密不可分，數(shù)據(jù)治理強(qiáng)調(diào)修煉內(nèi)功，人工智能側(cè)重預(yù)測(cè)未來(lái)。

聲明：本文源自網(wǎng)絡(luò)，由樂(lè)教科技整合整理，如有版權(quán)問(wèn)題，請(qǐng)及時(shí)聯(lián)系我司，我們會(huì)盡快處理。