智與理的結(jié)合:當(dāng)數(shù)據(jù)治理遇上人工智能
近日,中國(guó)移動(dòng)研究院發(fā)布文章,解說(shuō)了數(shù)據(jù)治理和人工智能兩者之間各自發(fā)展歷程,論證了兩者在結(jié)構(gòu)功能上的相互作用,闡明了兩者共同發(fā)展的前景。
Part 1
數(shù)據(jù)治理:大數(shù)據(jù)產(chǎn)業(yè)生態(tài)系統(tǒng)中的新熱點(diǎn)
近些年來(lái),隨著大數(shù)據(jù)在各個(gè)行業(yè)領(lǐng)域應(yīng)用的不斷深入,數(shù)據(jù)作為基礎(chǔ)性戰(zhàn)略資源的地位日益凸顯,數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)確權(quán)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、隱私保護(hù)、數(shù)據(jù)流通管控、數(shù)據(jù)共享開(kāi)放這些問(wèn)題越來(lái)越受到國(guó)家、行業(yè)、企業(yè)各個(gè)層面的高度關(guān)注。更多的人開(kāi)始意識(shí)到,大數(shù)據(jù)一方面給現(xiàn)有信息技術(shù)體系帶來(lái)了大挑戰(zhàn),需要更多的研發(fā)投入和創(chuàng)新;另一方面,也需要營(yíng)造更有利于大數(shù)據(jù)產(chǎn)業(yè)健康有序發(fā)展的良好環(huán)境,這樣一來(lái),數(shù)據(jù)治理的概念就越來(lái)越多受到了關(guān)注,成為目前大數(shù)據(jù)產(chǎn)業(yè)生態(tài)系統(tǒng)中的新熱點(diǎn)。
在上世紀(jì)80年代,隨著數(shù)據(jù)隨機(jī)存儲(chǔ)和數(shù)據(jù)庫(kù)技術(shù)應(yīng)用,產(chǎn)業(yè)界首次提出了數(shù)據(jù)管理的概念,這就是數(shù)據(jù)治理最早的起源。2009年,國(guó)際數(shù)據(jù)管理協(xié)會(huì)(DAMA)發(fā)布了數(shù)據(jù)管理知識(shí)體系DMBOK1.0,提出DAMA數(shù)據(jù)管理理論框架模型,成為了目前行業(yè)最權(quán)威的數(shù)據(jù)管理理論模型,DAMA 數(shù)據(jù)管理模型包括10個(gè)活動(dòng)職能,分別是數(shù)據(jù)治理、數(shù)據(jù)架構(gòu)管理、數(shù)據(jù)開(kāi)發(fā)、數(shù)據(jù)操作管理、數(shù)據(jù)安全管理、參考數(shù)據(jù)和主數(shù)據(jù)管理、數(shù)據(jù)倉(cāng)庫(kù)和商務(wù)智能管理、文檔和內(nèi)容管理、元數(shù)據(jù)管理和數(shù)據(jù)質(zhì)量管理。2015年,DAMA 新發(fā)布的DBMOK2.0知識(shí)領(lǐng)域中又將該模型擴(kuò)展為11個(gè)活動(dòng)職能。在2012年,另一個(gè)行業(yè)組織數(shù)據(jù)管控協(xié)會(huì) (DGI,The Data Governance Institute)提出了DGI數(shù)據(jù)管控框架模型。2014年,軟件工程研究所(SEI)基于軟件能力成熟度集成模型(CMMI),提出數(shù)據(jù)能力成熟度模型(DMM)。2015年,一個(gè)主要面向金融保險(xiǎn)行業(yè)數(shù)據(jù)管理的公益性組織企業(yè)數(shù)據(jù)管理協(xié)會(huì)(EDM Council),提出數(shù)據(jù)管理能力評(píng)價(jià)模型(DCAM),另外還有像Gartner提出的企業(yè)信息能力成熟度模型(the EIM Maturity Model)、IBM企業(yè)數(shù)據(jù)管理能力成熟度模型以及一些咨詢公司如畢馬威、普華永道等發(fā)布的細(xì)分行業(yè)數(shù)據(jù)管理體系架構(gòu)等。、
在我國(guó),2015年,工信部電子技術(shù)標(biāo)準(zhǔn)化研究院制定《數(shù)據(jù)治理白皮書(shū)》國(guó)際標(biāo)準(zhǔn)研究報(bào)告。2017年,工信部信息通信研究院發(fā)布《數(shù)據(jù)資產(chǎn)管理白皮書(shū)》。2018年4月,國(guó)家大數(shù)據(jù)標(biāo)準(zhǔn)化工作組發(fā)布了國(guó)家標(biāo)準(zhǔn)《數(shù)據(jù)管理能力成熟度評(píng)估模型GB/T 36073-2018》(簡(jiǎn)稱《DCMM模型》)。2018年5月,銀保監(jiān)會(huì)印發(fā)《銀行業(yè)金融機(jī)構(gòu)數(shù)據(jù)治理指引的通知》。近年來(lái),國(guó)內(nèi)各行業(yè)大型企業(yè)也紛紛發(fā)起企業(yè)內(nèi)部數(shù)據(jù)治理項(xiàng)目,制定數(shù)據(jù)治理規(guī)范,成立專(zhuān)業(yè)的數(shù)據(jù)管理實(shí)體團(tuán)隊(duì)來(lái)開(kāi)展企業(yè)數(shù)據(jù)治理工作。
上面提到的這些種種數(shù)據(jù)管理模型,奠定了此后諸多行業(yè)化、定制化數(shù)據(jù)管理模型的基礎(chǔ),各個(gè)企業(yè)紛紛在這些已有理論模型基礎(chǔ)上擴(kuò)展、裁剪、引申、演化,可謂百花齊放。
企業(yè)開(kāi)展數(shù)據(jù)管理類(lèi)的工作,除了使用“數(shù)據(jù)治理”這個(gè)詞,業(yè)界也經(jīng)常使用“數(shù)據(jù)管理”、“數(shù)據(jù)管控”、“數(shù)據(jù)資產(chǎn)管理”等說(shuō)法??傊?,這幾個(gè)詞語(yǔ),概念略有差異,內(nèi)涵基本一致,大家做的事,基本都跳不出DAMA數(shù)據(jù)管理模型的范圍。
Part 2
人工智能:大型科技企業(yè)爭(zhēng)奪未來(lái)的主戰(zhàn)場(chǎng)
提到人工智能,近年來(lái)可謂炙手可熱,產(chǎn)業(yè)界資本的積極布局,國(guó)家政府層面的大力宣傳,還有一些像自動(dòng)駕駛、機(jī)器人、智能客服、語(yǔ)音識(shí)別等方面實(shí)際應(yīng)用的涌現(xiàn),使得人工智能方面的人才身價(jià)倍增,很多大型科技企業(yè)也緊隨趨勢(shì),成立了AI研究院、人工智能研發(fā)中心等實(shí)體組織。百度李彥宏宣稱:“百度公司將不再是互聯(lián)網(wǎng)公司,而是一家人工智能公司”。中國(guó)移動(dòng)也高度重視人工智能,于2017年發(fā)布了“九天”人工智能平臺(tái),正努力將人工智能技術(shù)應(yīng)用在 網(wǎng)絡(luò)、市場(chǎng)、服務(wù)、安全、管理和衍生業(yè)務(wù)等多個(gè)領(lǐng)域。”就如一句段子所說(shuō):現(xiàn)在混在科技圈的,如果不說(shuō)自己搞人工智能,都不好意思跟人打招呼。
人工智能已經(jīng)成為了大型科技企業(yè)爭(zhēng)奪未來(lái)的主戰(zhàn)場(chǎng),雖然尚不清楚,借助了更大的數(shù)據(jù)量(大數(shù)據(jù))、更快的計(jì)算力(GPU)、更強(qiáng)的算法技術(shù)(深度學(xué)習(xí)等),過(guò)去數(shù)年間這個(gè)一度沉寂的領(lǐng)域,這一波的爆發(fā)能持續(xù)多久的時(shí)間,但技術(shù)發(fā)展一般都呈現(xiàn)波浪狀,大數(shù)據(jù)的一波未平,人工智能一波又起,隨著人工智能和社會(huì)各行業(yè)各領(lǐng)域不斷融合和創(chuàng)新,相信在這新一輪的科技革命和產(chǎn)業(yè)變革進(jìn)程中,人工智能技術(shù)將扮演更加重要的角色。
人工智能的研究范疇包括自然語(yǔ)言處理,知識(shí)表現(xiàn),智能搜索,機(jī)器學(xué)習(xí),知識(shí)獲取,組合調(diào)度問(wèn)題,感知問(wèn)題,模式識(shí)別,神經(jīng)網(wǎng)絡(luò)等等,它的目標(biāo)是希望計(jì)算機(jī)擁有像人一樣的智力能力,可以替代人類(lèi)實(shí)現(xiàn)識(shí)別、認(rèn)知、分類(lèi)和決策等多種功能。
人工智能更是歷史悠久,1959年,計(jì)算機(jī)科學(xué)之父圖靈發(fā)表了一篇?jiǎng)潟r(shí)代的論文《計(jì)算機(jī)器與智能》,文中提出了人工智能領(lǐng)域著名的圖靈測(cè)試:如果電腦能在5分鐘內(nèi)回答由人類(lèi)測(cè)試者提出的一系列問(wèn)題,且其超過(guò)30%的回答讓測(cè)試者誤認(rèn)為是人類(lèi)所答,則電腦就通過(guò)測(cè)試并可下結(jié)論為機(jī)器具有智能。1956年,達(dá)特茅斯會(huì)議推動(dòng)了全球第一次人工智能浪潮的出現(xiàn),當(dāng)時(shí)樂(lè)觀的氣氛彌漫著整個(gè)學(xué)界,在算法方面出現(xiàn)了很多世界級(jí)的發(fā)明,其中包括一種叫做增強(qiáng)學(xué)習(xí)的雛形(即貝爾曼公式),增強(qiáng)學(xué)習(xí)就是谷歌AlphaGo算法核心思想內(nèi)容?,F(xiàn)在常聽(tīng)到的深度學(xué)習(xí)模型,其雛形叫做感知器,也是在那幾年間發(fā)明的。第一次人工智能冬天出現(xiàn)在1974年到1980年,人們發(fā)現(xiàn)邏輯證明器、感知器、增強(qiáng)學(xué)習(xí)等等只能做很簡(jiǎn)單、非常專(zhuān)業(yè)且使用場(chǎng)景很窄的任務(wù),稍微超出范圍就無(wú)法應(yīng)對(duì)。在80年代出現(xiàn)了人工智能數(shù)學(xué)模型方面的重大發(fā)明,其中包括著名的多層神經(jīng)網(wǎng)絡(luò)(1986)和BP反向傳播算法(1986)等,也出現(xiàn)了能與人類(lèi)下象棋的高度智能機(jī)器(1989)。于是,大家又開(kāi)始覺(jué)得人工智能可能還有戲。
然而,1987年到1993年現(xiàn)代PC的出現(xiàn),讓人工智能的寒冬再次降臨。當(dāng)時(shí)蘋(píng)果、IBM開(kāi)始推廣第一代臺(tái)式機(jī),計(jì)算機(jī)開(kāi)始走入個(gè)人家庭,其費(fèi)用遠(yuǎn)遠(yuǎn)低于專(zhuān)家系統(tǒng)所使用的Symbolics和Lisp等機(jī)器。相比于現(xiàn)代PC,專(zhuān)家系統(tǒng)被認(rèn)為古老陳舊而非常難以維護(hù)。于是,政府經(jīng)費(fèi)開(kāi)始下降,寒冬又一次來(lái)臨。人們開(kāi)始思考人工智能到底往何處走,到底要實(shí)現(xiàn)什么樣的人工智能。之后,出現(xiàn)了新的數(shù)學(xué)工具、新的理論和摩爾定律。人工智能也在確定自己的方向,其中一個(gè)選擇就是要做實(shí)用性、功能性的人工智能,這導(dǎo)致了一個(gè)新的人工智能路徑。由于對(duì)于人工智能任務(wù)的明確和簡(jiǎn)化,帶來(lái)了新的繁榮。標(biāo)志性事件就是1997年IBM深藍(lán)戰(zhàn)勝國(guó)際象棋大師。2011年,“深藍(lán)”的同門(mén)師弟“沃森”在美國(guó)老牌智力問(wèn)答節(jié)目《危險(xiǎn)邊緣》中挑戰(zhàn)兩位人類(lèi)冠軍,又使人工智能更上了一層臺(tái)階。2016年3月15日,谷歌研發(fā)的AlphaGo挑戰(zhàn)圍棋九段高手李世石,最后AlphaGo以4:1擊敗李世石,完爆人類(lèi),由此將人工智能推向了高潮。人們開(kāi)始意識(shí)到機(jī)器智能已經(jīng)在很多領(lǐng)域超越人類(lèi),甚至有人擔(dān)心,未來(lái)機(jī)器人會(huì)控制人類(lèi),人工智能的發(fā)展已經(jīng)到了前所未有的高度。
數(shù)據(jù)治理和人工智能,看似不相關(guān)的兩個(gè)詞,他們兩者放一起,會(huì)發(fā)生什么故事呢。
Part 3
確保數(shù)據(jù)質(zhì)量和安全是發(fā)展人工智能的第一需求
如今,企業(yè)對(duì)于全面數(shù)據(jù)治理的需求從未如此強(qiáng)烈。監(jiān)管機(jī)構(gòu)希望企業(yè)能更加清晰地了解數(shù)據(jù),對(duì)它進(jìn)行有效的管控;企業(yè)管理層希望理清數(shù)據(jù)資產(chǎn),降低數(shù)據(jù)應(yīng)用的復(fù)雜性,對(duì)企業(yè)進(jìn)行更高效的管理;企業(yè)員工也開(kāi)始認(rèn)識(shí)到數(shù)據(jù)的重要性,更多地采用數(shù)據(jù)驅(qū)動(dòng)的方式來(lái)開(kāi)展工作。數(shù)據(jù)治理正迅速發(fā)展成一種企業(yè)核心策略,只有做好數(shù)據(jù)治理,讓數(shù)據(jù)更加準(zhǔn)確完整,并且安全合規(guī),才能釋放出數(shù)據(jù)的無(wú)限潛能,挖掘出更多有價(jià)值的數(shù)據(jù)應(yīng)用。
而人工智能技術(shù)在應(yīng)用和實(shí)踐中,確保數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全是最基礎(chǔ)的底層保障。由于人工智能的落地應(yīng)用效果會(huì)受到數(shù)據(jù)質(zhì)量和安全的影響,更多的企業(yè)開(kāi)始反思并轉(zhuǎn)而去推動(dòng)數(shù)據(jù)質(zhì)量和安全的提升,提供數(shù)據(jù)質(zhì)量和安全評(píng)測(cè)工具,建立好的數(shù)據(jù)環(huán)境,再進(jìn)行人工智能應(yīng)用的同步研發(fā)。
大數(shù)據(jù)是人工智能技術(shù)研發(fā)、訓(xùn)練的關(guān)鍵,是人工智能長(zhǎng)期發(fā)展的重要保障。只有當(dāng)人工智能系統(tǒng)能夠獲取更為準(zhǔn)確、及時(shí)、一致的高質(zhì)量數(shù)據(jù),才能提供更有效、有用、精準(zhǔn)性高的智能化服務(wù)。根據(jù)埃森哲在2018年4月的一份調(diào)研發(fā)現(xiàn),中國(guó)制造企業(yè)在運(yùn)用人工智能技術(shù)時(shí)面臨一系列挑戰(zhàn)。其中,52%的受訪中國(guó)企業(yè)將數(shù)據(jù)質(zhì)量列為突出挑戰(zhàn),數(shù)據(jù)安全與網(wǎng)絡(luò)安全緊隨其后(47%)。在2017年4月的一次研討會(huì)上,圍繞人工智能話題,華為任正非提出:“高質(zhì)量的數(shù)據(jù)是人工智能的前提和基礎(chǔ)”。當(dāng)前,不管是人工智能技術(shù)的研發(fā),還是人工智能應(yīng)用領(lǐng)域的發(fā)展,“數(shù)據(jù)質(zhì)量”都是一個(gè)不可或缺、位于重中之重的要素。
人工智能發(fā)展的另一個(gè)重點(diǎn)保障就是數(shù)據(jù)安全,人工智能系統(tǒng)的基礎(chǔ)是大數(shù)據(jù),要對(duì)外提供服務(wù),就會(huì)涉及數(shù)據(jù)的安全保護(hù),在這個(gè)過(guò)程中,一系列的數(shù)據(jù)安全防護(hù)手段是必不可少的,如數(shù)據(jù)脫敏管理,對(duì)敏感信息的風(fēng)險(xiǎn)評(píng)估、使用監(jiān)控,對(duì)數(shù)據(jù)的泄露檢測(cè),數(shù)據(jù)庫(kù)保密檢查等。人工智能需要海量的數(shù)據(jù),人工智能技術(shù)的進(jìn)步取決于各種來(lái)源數(shù)據(jù)的可用性,如何確保這些數(shù)據(jù)的安全性與保證用戶數(shù)據(jù)的隱私性是數(shù)據(jù)質(zhì)量之外又一個(gè)重要問(wèn)題。同時(shí),通過(guò)對(duì)業(yè)務(wù)數(shù)據(jù)應(yīng)用語(yǔ)義計(jì)算、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、知識(shí)圖譜、認(rèn)知計(jì)算等人工智能技術(shù),也可以促進(jìn)企業(yè)數(shù)據(jù)安全保障體系完善。因此,數(shù)據(jù)安全和人工智能兩種技術(shù)起到了相互促進(jìn)、相互完善的作用。
Part 4
搭借AI東風(fēng) 傳統(tǒng)數(shù)據(jù)治理悄然向“智能化”升級(jí)
經(jīng)過(guò)多年的理論更新、技術(shù)演進(jìn)和應(yīng)用實(shí)踐,與前些年前相比,如今的數(shù)據(jù)治理從概念到技術(shù)已經(jīng)發(fā)生了很多變化。特別是隨著這一波人工智能浪潮的重新興起,數(shù)據(jù)治理技術(shù)和人工智能技術(shù)在一些方面也開(kāi)始有了結(jié)合使用,應(yīng)用了人工智能技術(shù)的新一代數(shù)據(jù)治理可以稱之為“智能化數(shù)據(jù)治理”。
數(shù)據(jù)治理工作中,可以通過(guò)對(duì)大數(shù)據(jù)應(yīng)用機(jī)器學(xué)習(xí)技術(shù),作數(shù)據(jù)挖掘和分析,來(lái)識(shí)別哪些可能是用戶隱私性數(shù)據(jù)、哪些數(shù)據(jù)可能有異常,一旦數(shù)據(jù)特征被確認(rèn),打上標(biāo)簽,未來(lái)再做數(shù)據(jù)管理時(shí),就可以使用元數(shù)據(jù)管理的方法機(jī)制,對(duì)外提供服務(wù)。比如當(dāng)碰到涉及的某特殊標(biāo)記數(shù)據(jù),就會(huì)有相應(yīng)的流程啟動(dòng),或在相關(guān)的數(shù)據(jù)對(duì)外服務(wù)提供過(guò)程中,一旦數(shù)據(jù)涉及個(gè)人隱私,則一定要小心處理,以避免引起政策方面的風(fēng)險(xiǎn)。通過(guò)上述應(yīng)用,可以增強(qiáng)大數(shù)據(jù)系統(tǒng)數(shù)據(jù)安全管理和元數(shù)據(jù)管理的能力。
另外,也可以在針對(duì)大數(shù)據(jù)開(kāi)展數(shù)據(jù)質(zhì)量核查過(guò)程中,配合傳統(tǒng)根據(jù)預(yù)置的質(zhì)量核查規(guī)則進(jìn)行核查的方式,僅針對(duì)少量核心核查規(guī)則,從大數(shù)據(jù)中選取訓(xùn)練數(shù)據(jù)樣本,經(jīng)過(guò)預(yù)處理,利用機(jī)器學(xué)習(xí)算法進(jìn)行深度分析,提取公共特征和模型,可以用來(lái)定位數(shù)據(jù)質(zhì)量原因,做數(shù)據(jù)質(zhì)量問(wèn)題的預(yù)測(cè),并進(jìn)一步形成知識(shí)庫(kù)。這樣就可以更進(jìn)一步增強(qiáng)大數(shù)據(jù)系統(tǒng)數(shù)據(jù)質(zhì)量管理的能力。
對(duì)于數(shù)據(jù)模型的管理,機(jī)器學(xué)習(xí)技術(shù)可用來(lái)分析數(shù)據(jù)庫(kù)中數(shù)據(jù)實(shí)體的引用熱度,通過(guò)聚類(lèi)算法自動(dòng)識(shí)別數(shù)據(jù)模型間的內(nèi)在關(guān)系,還可以用于數(shù)據(jù)模型質(zhì)量的檢測(cè)和評(píng)估。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的管理,像文檔內(nèi)容,圖像,音頻,視頻,更是可以充分利用人工智能中的自然語(yǔ)言處理、圖像識(shí)別、語(yǔ)音識(shí)別、視頻處理等技術(shù)。
Part 5
大數(shù)據(jù)治理如何全面擁抱AI
大數(shù)據(jù)治理,顧名思義,即基于大數(shù)據(jù)的數(shù)據(jù)治理。大數(shù)據(jù),一般指符合4V特征的數(shù)據(jù),包括社交數(shù)據(jù),機(jī)器數(shù)據(jù)等,大數(shù)據(jù)對(duì)傳統(tǒng)數(shù)據(jù)治理工作帶來(lái)很多的擴(kuò)展。在政策和流程上,大數(shù)據(jù)治理應(yīng)覆蓋大數(shù)據(jù)的獲取、處理、存儲(chǔ)、安全等環(huán)節(jié);在數(shù)據(jù)生命周期管理各階段,如數(shù)據(jù)存儲(chǔ)、保留、歸檔、處置時(shí),要考慮大數(shù)據(jù)保存時(shí)間與存儲(chǔ)空間的平衡;大數(shù)據(jù)量大,因此應(yīng)識(shí)別對(duì)業(yè)務(wù)有關(guān)鍵影響的數(shù)據(jù)元素,檢查和保證數(shù)據(jù)質(zhì)量;大數(shù)據(jù)還需要定義與其內(nèi)容相關(guān)的元數(shù)據(jù),需與傳統(tǒng)數(shù)據(jù)定義標(biāo)準(zhǔn)保持一致,術(shù)語(yǔ)字典應(yīng)包含大數(shù)據(jù)的術(shù)語(yǔ),需要為非結(jié)構(gòu)化數(shù)據(jù)提供分類(lèi)、語(yǔ)義支持,Hadoop、NoSQL數(shù)據(jù)庫(kù)的技術(shù)元數(shù)據(jù)也同樣需要納入元數(shù)據(jù)存儲(chǔ)庫(kù)管理;此外,在隱私方面,應(yīng)考慮社交數(shù)據(jù)的隱私保護(hù)需求,制定相應(yīng)政策,還要將大數(shù)據(jù)治理與企業(yè)內(nèi)外部風(fēng)險(xiǎn)管控需求建立聯(lián)系。
數(shù)字化時(shí)代,大數(shù)據(jù)治理應(yīng)該如何和人工智能技術(shù)深度結(jié)合,人工智能技術(shù)在大數(shù)據(jù)治理領(lǐng)域能有哪些應(yīng)用,下面提供一些簡(jiǎn)單的思路。
數(shù)據(jù)安全管理
當(dāng)前已經(jīng)有許多行業(yè)信息安全解決方案都開(kāi)始使用機(jī)器學(xué)習(xí)算法來(lái)識(shí)別潛在的系統(tǒng)攻擊,通過(guò)機(jī)器學(xué)習(xí)可以建立用于檢測(cè)異常情況的“正?!毙袨榈幕€,一切不符合基線標(biāo)準(zhǔn)的異常情況都能及時(shí)預(yù)警和處理。
元數(shù)據(jù)管理
互聯(lián)網(wǎng)企業(yè)使用機(jī)器學(xué)習(xí),分析用戶點(diǎn)擊過(guò)哪些鏈接,為用戶生成畫(huà)像,打上特定的標(biāo)簽,來(lái)做商品、內(nèi)容的推薦和優(yōu)化用戶搜索結(jié)果。這些描述用戶消費(fèi)形為、興趣偏好特征的元數(shù)據(jù)信息,已經(jīng)成為互聯(lián)網(wǎng)企業(yè)得以生存發(fā)展的核心數(shù)據(jù)資產(chǎn)。
數(shù)據(jù)質(zhì)量管理
在金融行業(yè),銀行信用卡發(fā)卡部門(mén)很早就開(kāi)始利用機(jī)器學(xué)習(xí)技術(shù),來(lái)識(shí)別不合規(guī)的申請(qǐng)人、虛假申請(qǐng)信息以及可能存在欺詐性的交易行為。此外,既然機(jī)器學(xué)習(xí)可以識(shí)別信息系統(tǒng)中的異常數(shù)據(jù),那它也可以檢測(cè)制成品或食品中的異常情況。企業(yè)可以通過(guò)將實(shí)體物品生產(chǎn)過(guò)程數(shù)字化,然后使用經(jīng)過(guò)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)來(lái)識(shí)別不符合標(biāo)準(zhǔn)或規(guī)格的產(chǎn)品數(shù)據(jù),挑出異常數(shù)據(jù),從而部分替代人類(lèi)檢測(cè)員的工作。
非結(jié)構(gòu)化數(shù)據(jù)管理
近年來(lái),利用機(jī)器學(xué)習(xí)的人臉識(shí)別系統(tǒng)能力一直在提高,已經(jīng)大量應(yīng)用在識(shí)別已知的犯罪分子、員工上班考勤、或者識(shí)別公共場(chǎng)所中超出規(guī)范或違反法律的行為或活動(dòng)。而醫(yī)療行業(yè),則可以利用機(jī)器學(xué)習(xí)工具,通過(guò)對(duì)大量紙質(zhì)和圖像病例資料的訓(xùn)練學(xué)習(xí),構(gòu)建醫(yī)療知識(shí)庫(kù),輔助專(zhuān)業(yè)醫(yī)護(hù)人員,診斷疾病并提出最有效的治療策略。
各類(lèi)社交網(wǎng)站每天都在產(chǎn)生著大量非結(jié)構(gòu)化數(shù)據(jù),企業(yè)可以利用機(jī)器學(xué)習(xí)技術(shù)來(lái)實(shí)時(shí)發(fā)現(xiàn)和識(shí)別潛在的問(wèn)題,手寫(xiě)識(shí)別、語(yǔ)音轉(zhuǎn)寫(xiě)、自然語(yǔ)言處理技術(shù)也在不同場(chǎng)景中大量應(yīng)用,可以提高人們識(shí)別、理解和處理非結(jié)構(gòu)化數(shù)據(jù)的能力。
數(shù)據(jù)共享開(kāi)放
企業(yè)可以充分利用人工智能技術(shù),以信息化、自動(dòng)化方式,共享和開(kāi)放一部分?jǐn)?shù)據(jù)或數(shù)據(jù)加工結(jié)果,對(duì)外提供服務(wù),提升企業(yè)競(jìng)爭(zhēng)力。最典型的就是現(xiàn)在各種客戶服務(wù)機(jī)器人,可以使用自然語(yǔ)言處理技術(shù)處理回答客戶提出的常見(jiàn)問(wèn)題,并隨著時(shí)間的推移提高答案的質(zhì)量。據(jù)悉,中國(guó)移動(dòng)客戶服務(wù)系統(tǒng)中機(jī)器服務(wù)的比例已經(jīng)提升到了20%。
另外一個(gè)常見(jiàn)的應(yīng)用領(lǐng)域就是營(yíng)銷(xiāo)推薦,在許多行業(yè)中,將適合的產(chǎn)品投放到正確的位置對(duì)于商業(yè)成功至關(guān)重要。機(jī)器學(xué)習(xí)系統(tǒng)可以使用企業(yè)收集的用戶數(shù)據(jù),根據(jù)用戶過(guò)去的購(gòu)物習(xí)慣預(yù)測(cè)可能喜歡的物品,再將預(yù)測(cè)結(jié)果數(shù)據(jù)向企業(yè)電商系統(tǒng)或銷(xiāo)售決策系統(tǒng)開(kāi)放。Facebook前科學(xué)家Jeffrey Hammerbacher曾感嘆道:“我們這一代最聰明的大腦,沒(méi)有花多少精力思考如何利用人工智能改善人們的生活,而是思考怎么讓人們點(diǎn)擊更多廣告…”。
數(shù)據(jù)資產(chǎn)分析
物聯(lián)網(wǎng)(IOT)的大發(fā)展提供了許多潛在的機(jī)器學(xué)習(xí)使用場(chǎng)景,其中就包括預(yù)測(cè)性維護(hù),企業(yè)可以使用歷史設(shè)備數(shù)據(jù)開(kāi)展預(yù)測(cè)分析,推斷機(jī)器可能發(fā)生故障的時(shí)間,使其能夠在影響業(yè)務(wù)運(yùn)行之前主動(dòng)進(jìn)行維修或安裝更換部件。對(duì)于物流企業(yè)來(lái)說(shuō),設(shè)置時(shí)間表和路線是一件復(fù)雜而費(fèi)時(shí)的工作,機(jī)器學(xué)習(xí)系統(tǒng)可以通過(guò)對(duì)交通數(shù)據(jù)的分析和監(jiān)控,幫助企業(yè)規(guī)劃貨物運(yùn)輸路線及計(jì)劃,提出最有效和最具成本效益的方法。
另外,在金融市場(chǎng)交易中,每個(gè)交易者都希望在市場(chǎng)上找到能讓他們低買(mǎi)高賣(mài)的模式,大的金融機(jī)構(gòu)更是花費(fèi)重金,使用人工智能技術(shù)針對(duì)金融交易數(shù)據(jù)做深度的分析挖掘,打造自己的量化交易系統(tǒng),以期望能在變幻莫測(cè)的市場(chǎng)風(fēng)云中更早一步識(shí)別潛在的風(fēng)險(xiǎn)和機(jī)會(huì)。
Part 6
讓懂?dāng)?shù)據(jù)治理的人來(lái)做人工智能
2018年5月,中國(guó)國(guó)際大數(shù)據(jù)博覽會(huì)上,中國(guó)科學(xué)院院士梅宏發(fā)表演講中表示,大數(shù)據(jù)治理體系建設(shè)是我們國(guó)家實(shí)施大數(shù)據(jù)戰(zhàn)略的重要保障,是發(fā)揮大數(shù)據(jù)作用,做大做強(qiáng)大數(shù)據(jù)產(chǎn)業(yè)的重要因素,也是關(guān)鍵基礎(chǔ)。當(dāng)下,做人工智能的企業(yè)很多,人工智能的基礎(chǔ)就是大數(shù)據(jù),數(shù)據(jù)首先要能互通、共享,如果數(shù)據(jù)不通,標(biāo)準(zhǔn)不一致,質(zhì)量不高,就很難做分析、建模,更談不上預(yù)測(cè)的準(zhǔn)確性。開(kāi)展數(shù)據(jù)治理則能為企業(yè)提供一個(gè)高質(zhì)量的數(shù)據(jù)工作環(huán)境,促進(jìn)人工智能技術(shù)的研究和實(shí)踐??傊瑪?shù)據(jù)治理是人工智能的基礎(chǔ),想做人工智能,需要先把數(shù)據(jù)治理這個(gè)基礎(chǔ)打好。
對(duì)大型科技企業(yè)來(lái)說(shuō),面對(duì)日益激烈的競(jìng)爭(zhēng)環(huán)境,企業(yè)亟需進(jìn)行數(shù)字化轉(zhuǎn)型,一方面要做好數(shù)據(jù)治理,另一方面,數(shù)據(jù)治理政策也對(duì)人工智能發(fā)展發(fā)揮著重要的影響。
作為歐盟“史上最嚴(yán)”的數(shù)據(jù)保護(hù)法規(guī),備受關(guān)注的《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation,GDPR)于2018年5月25日正式生效,相關(guān)組織機(jī)構(gòu)需于該生效日起遵照新規(guī)行事。一方面,GDPR適用的地域范圍不僅限于歐盟境內(nèi),也適用于提供業(yè)務(wù)給歐盟境內(nèi)個(gè)人的境外組織機(jī)構(gòu);另一方面,GDPR在全面加強(qiáng)個(gè)人信息保護(hù)、強(qiáng)調(diào)用戶知情權(quán)、訪問(wèn)權(quán)和被遺忘權(quán)的同時(shí),對(duì)相關(guān)組織機(jī)構(gòu)提出更為嚴(yán)格的合規(guī)要求,并以最高罰沒(méi)其全球營(yíng)業(yè)額的4%或2千萬(wàn)歐元(以金額較高者為準(zhǔn))為條例的施行保駕護(hù)航。
GDPR的制定者認(rèn)為,在大數(shù)據(jù)時(shí)代,隱私權(quán)就是人權(quán)。根據(jù)這一條例,個(gè)人消費(fèi)者可以享有更多權(quán)力,并通過(guò)對(duì)違規(guī)行為的嚴(yán)厲處罰,更好地保護(hù)消費(fèi)者的數(shù)據(jù)資產(chǎn)和個(gè)人隱私。但同時(shí), GDPR將會(huì)對(duì)國(guó)內(nèi)互聯(lián)網(wǎng)及商業(yè)科技公司會(huì)產(chǎn)生長(zhǎng)遠(yuǎn)的影響。有業(yè)內(nèi)人士表示:“如果歐盟對(duì)GDPR的執(zhí)行力度非常嚴(yán),中國(guó)企業(yè)會(huì)“中槍”99%的條款。”對(duì)以消費(fèi)者數(shù)據(jù)應(yīng)用為主要業(yè)務(wù)的國(guó)內(nèi)科技公司來(lái)說(shuō),更不可能成為例外。GDPR是一部重整全球數(shù)據(jù)秩序的法令,將成為未來(lái)全球網(wǎng)絡(luò)空間規(guī)則的基石。GDPR對(duì)基于個(gè)人信息搜集和隱私驅(qū)動(dòng)的中國(guó)互聯(lián)網(wǎng)產(chǎn)業(yè)收入模式將產(chǎn)生重大影響,甚至可能是顛覆性的影響。
此外,我國(guó)對(duì)個(gè)人信息保護(hù)方面,《信息安全技術(shù)個(gè)人信息安全規(guī)范》于2018年5月1日的正式實(shí)施,已經(jīng)對(duì)我國(guó)科技公司產(chǎn)生了實(shí)質(zhì)性的影響。過(guò)去幾年,隨著我國(guó)大型科技企業(yè)在人工智能領(lǐng)域突飛猛進(jìn)的發(fā)展,從支付領(lǐng)域的身份識(shí)別(人臉、指紋、虹膜、語(yǔ)音識(shí)別)到信貸領(lǐng)域的大數(shù)據(jù)風(fēng)控,我國(guó)科技企業(yè)通過(guò)使用消費(fèi)者數(shù)據(jù),提供了智能化服務(wù)便利性的同時(shí),由于法律制度和文化環(huán)境等因素,在保護(hù)消費(fèi)者隱私的合規(guī)性方面做得還不到位。
未來(lái),以歐盟為代表的監(jiān)管者,拿著“GDPR”大棒,隨時(shí)對(duì)違規(guī)企業(yè)進(jìn)行處罰。在這種內(nèi)外多重因素的推動(dòng)下,開(kāi)展數(shù)據(jù)治理,以及對(duì)數(shù)據(jù)治理的政策研究和應(yīng)對(duì),將成為企業(yè)人工智能技術(shù)應(yīng)用過(guò)程中亟待解決的重大問(wèn)題。
Part 7
管理數(shù)據(jù)資產(chǎn),決勝智能時(shí)代
隨著數(shù)字時(shí)代的到來(lái),企業(yè)在開(kāi)展數(shù)據(jù)治理和人工智能研究研發(fā)工作中,兩者的結(jié)合必不可少,近年來(lái)一些互聯(lián)網(wǎng)企業(yè)在享受人工智能技術(shù)紅利的同時(shí),存在數(shù)據(jù)認(rèn)知不清、數(shù)據(jù)治理不當(dāng)、客戶隱私數(shù)據(jù)使用不合規(guī)等現(xiàn)象,出現(xiàn)了不少負(fù)面事件。要防止大數(shù)據(jù)和人工智能的濫用和失控,應(yīng)該從人工智能的源頭 – 大數(shù)據(jù)上開(kāi)始建立科學(xué)的數(shù)據(jù)治理體系,包括數(shù)據(jù)的質(zhì)量規(guī)范、制度政策、管理流程、職責(zé)定位和技術(shù)管控工具。數(shù)據(jù)治理體系是對(duì)商業(yè)價(jià)值和用戶隱私,以及企業(yè)長(zhǎng)期利益和短期利益選擇的基礎(chǔ),建立數(shù)據(jù)治理體系是一個(gè)長(zhǎng)期的過(guò)程,對(duì)于大型科技企業(yè),都應(yīng)當(dāng)在數(shù)據(jù)治理的規(guī)范和約束下應(yīng)用大數(shù)據(jù),挖掘數(shù)據(jù)資產(chǎn)價(jià)值,提供人工智能服務(wù)。
結(jié)語(yǔ)
數(shù)據(jù)治理是人工智能的基礎(chǔ),數(shù)據(jù)治理的目的是在業(yè)務(wù)價(jià)值驅(qū)動(dòng)下提供高質(zhì)量的大數(shù)據(jù),而人工智能本身是大數(shù)據(jù)應(yīng)用的一種商業(yè)模式,數(shù)據(jù)治理和人工智能就好比一枚硬幣的正反面一樣密不可分,數(shù)據(jù)治理強(qiáng)調(diào)修煉內(nèi)功,人工智能側(cè)重預(yù)測(cè)未來(lái)。