萬字解讀|數(shù)據(jù)科學(xué)家是什么
執(zhí)牛耳 發(fā)表于 2021-12-31 11:55
閱讀數(shù): 5459
近日,《中國計(jì)算機(jī)學(xué)會(huì)通訊》(CCCF)刊登IEEE Fellow、京東集團(tuán)副總裁、京東科技首席數(shù)據(jù)科學(xué)家鄭宇發(fā)表的專欄文章《數(shù)據(jù)科學(xué)家》。文章指出,數(shù)智時(shí)代的到來催生了海量的數(shù)據(jù),數(shù)據(jù)被定義成新的生產(chǎn)要素,將為經(jīng)濟(jì)發(fā)展貢獻(xiàn)新的增長(zhǎng)動(dòng)能。如何發(fā)揮數(shù)據(jù)的價(jià)值將關(guān)乎行業(yè)發(fā)展、國家發(fā)展,需要一批優(yōu)秀的數(shù)據(jù)科學(xué)家來承擔(dān)時(shí)代賦予的使命。
什么是數(shù)據(jù)科學(xué)家?他們應(yīng)該具備哪些素質(zhì)和技能,如何開展工作,又如何培養(yǎng)這樣的人才?基于以上行業(yè)關(guān)切,作者結(jié)合自身15年從業(yè)經(jīng)歷及業(yè)務(wù)實(shí)踐,通過《數(shù)據(jù)科學(xué)家》一文對(duì)以上問題進(jìn)行深入探討和經(jīng)驗(yàn)總結(jié),希望能幫助行業(yè)培養(yǎng)出一批優(yōu)秀的數(shù)據(jù)科學(xué)家,為社會(huì)創(chuàng)造價(jià)值、為國家貢獻(xiàn)力量。
關(guān)于作者
鄭宇
IEEE Fellow、京東集團(tuán)副總裁、京東智能城市研究院院長(zhǎng)、京東科技首席數(shù)據(jù)科學(xué)家,ACM數(shù)據(jù)挖掘中國分會(huì)(KDDChina)新一屆主席,在數(shù)據(jù)挖掘領(lǐng)域影響力排名中國第一。中國計(jì)算機(jī)學(xué)會(huì)CCF杰出會(huì)員,CCCF前編委。上海交通大學(xué)講座教授,南京大學(xué)、香港科技大學(xué)客座教授。主要研究方向?yàn)槌鞘杏?jì)算。鄭宇所在的京東智能城市團(tuán)隊(duì)近年來不斷推進(jìn)智能城市領(lǐng)域的產(chǎn)學(xué)研一體化進(jìn)程,已經(jīng)為全國近百個(gè)城市提供技術(shù)服務(wù)。
《中國計(jì)算機(jī)學(xué)會(huì)通訊》(CCCF)由中國計(jì)算機(jī)學(xué)會(huì)主辦。中國計(jì)算機(jī)學(xué)會(huì)(CCF)是全國一級(jí)學(xué)會(huì)。12月17日,中國計(jì)算機(jī)學(xué)會(huì)(CCF)頒獎(jiǎng)典禮上,京東云技術(shù)支持的京東智能城市操作系統(tǒng)斬獲2021CCF科學(xué)技術(shù)獎(jiǎng)科技進(jìn)步杰出獎(jiǎng)。
以下為《數(shù)據(jù)科學(xué)家》全文
文章來源:《中國計(jì)算機(jī)學(xué)會(huì)通訊》,點(diǎn)擊底部“閱讀原文”,下載原文。
關(guān)鍵詞:數(shù)據(jù)科學(xué) 數(shù)據(jù)科學(xué)家 數(shù)據(jù)工程師 生產(chǎn)要素
引言
信息時(shí)代的到來催生了海量的數(shù)據(jù),每個(gè)人、每個(gè)機(jī)構(gòu)、每個(gè)設(shè)備既能成為數(shù)據(jù)產(chǎn)生的源頭,也可以是數(shù)據(jù)的使用者。數(shù)據(jù)已經(jīng)在各行業(yè)中得到應(yīng)用,在降低成本、提升效率和改善用戶體驗(yàn)等方面起到了關(guān)鍵性作用。繼土地、勞動(dòng)力、資金和技術(shù)之后,數(shù)據(jù)被定義成新的生產(chǎn)要素,其本身也逐漸形成一個(gè)新興行業(yè)。孵化以數(shù)據(jù)為核心資產(chǎn)的產(chǎn)業(yè),將為全球經(jīng)濟(jì)發(fā)展貢獻(xiàn)新的增長(zhǎng)動(dòng)能。
在數(shù)據(jù)如此重要的時(shí)代,如何使用好數(shù)據(jù)、發(fā)揮數(shù)據(jù)的價(jià)值就變得至關(guān)重要,能影響各行業(yè)的發(fā)展,甚至是國家發(fā)展和世界格局。這樣一個(gè)新的時(shí)代也將培育出一批圍繞數(shù)據(jù)開展工作的機(jī)構(gòu)和從業(yè)者,造就一系列以數(shù)據(jù)為中心的職業(yè)來肩負(fù)時(shí)代賦予的使命。數(shù)據(jù)工程師、數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家等職業(yè)和崗位應(yīng)運(yùn)而生。其中數(shù)據(jù)科學(xué)家(DataScientist)尤其受到關(guān)注,被歐美國家稱為21世紀(jì)最“性感”的工作[1]。
到底什么是數(shù)據(jù)科學(xué)家?他們應(yīng)該具備哪些素質(zhì)和技能,如何開展工作,又如何培養(yǎng)這樣的人才,至今還缺乏準(zhǔn)確的回答和清晰的思路。這個(gè)職業(yè)的諸多未知因素和培養(yǎng)難度跟行業(yè)的強(qiáng)烈需求形成了巨大反差。因此,作者結(jié)合自身15年從業(yè)經(jīng)歷,對(duì)以上問題進(jìn)行探討,希望能幫助行業(yè)培養(yǎng)出一批優(yōu)秀的數(shù)據(jù)科學(xué)家,為社會(huì)創(chuàng)造價(jià)值、為國家貢獻(xiàn)力量。
為什么需要培養(yǎng)數(shù)據(jù)科學(xué)家
為什么要培養(yǎng)數(shù)據(jù)科學(xué)家,可以從以下三個(gè)方面來分析:
1. 應(yīng)用場(chǎng)景需求大。數(shù)據(jù)極大豐富,驅(qū)動(dòng)大量應(yīng)用,滲透各種場(chǎng)景,催生龐大產(chǎn)業(yè),只要有數(shù)據(jù)的地方,就需要有人來管理和利用好這些數(shù)據(jù),需要大量的數(shù)據(jù)科學(xué)家。
2. 數(shù)據(jù)要素價(jià)值高。數(shù)據(jù)作為繼土地、勞動(dòng)力、資金和技術(shù)之后的第五種生產(chǎn)要素,其創(chuàng)造的價(jià)值將超過前四者的總和,原因如下:
? 數(shù)據(jù)產(chǎn)生的門檻低,人人都能產(chǎn)生數(shù)據(jù),很多系統(tǒng)和設(shè)備還能自動(dòng)地產(chǎn)生數(shù)據(jù);
? 數(shù)據(jù)不斷產(chǎn)生,總量沒有天花板;
? 數(shù)據(jù)被使用后不會(huì)被消耗,可重復(fù)使用;
? 前四種生產(chǎn)要素都可以被數(shù)字化,成為數(shù)據(jù)。
3. 人才培養(yǎng)難度大。當(dāng)前學(xué)校培養(yǎng)的學(xué)生僅僅學(xué)習(xí)了一些算法和理論,缺乏對(duì)業(yè)務(wù)的理解和實(shí)戰(zhàn)經(jīng)驗(yàn),很難滿足市場(chǎng)的需求。傳統(tǒng)行業(yè)的從業(yè)者要學(xué)習(xí)新的大數(shù)據(jù)和人工智能技術(shù)更加困難。作為一名數(shù)據(jù)科學(xué)家,除了掌握行業(yè)知識(shí)和專業(yè)技能外,還需具備優(yōu)秀的基礎(chǔ)素質(zhì)和探索精神。
什么是數(shù)據(jù)科學(xué)家
數(shù)據(jù)科學(xué)家的定義可以從兩個(gè)維度來理解,一個(gè)是“數(shù)據(jù)”+“科學(xué)家”,另一個(gè)是“數(shù)據(jù)科學(xué)”+“家”。
由于數(shù)據(jù)和科學(xué)家都有清晰的定義,因此,第一個(gè)維度可以簡(jiǎn)單理解為研究數(shù)據(jù)本身的科學(xué)家,即不斷革新數(shù)據(jù)采集、清洗、管理、分析、挖掘、展現(xiàn)理論和方法的人,這可以被認(rèn)為是數(shù)據(jù)科學(xué)家的內(nèi)涵。第二個(gè)維度是指用數(shù)據(jù)科學(xué)去研究、探索并解決各種實(shí)際問題的人,這可以被認(rèn)為是數(shù)據(jù)科學(xué)家的外延。數(shù)據(jù)科學(xué)家外延的不斷擴(kuò)大驅(qū)動(dòng)其內(nèi)涵不斷深化,兩個(gè)維度加在一起才構(gòu)成了對(duì)數(shù)據(jù)科學(xué)家的完整詮釋。
數(shù)據(jù)科學(xué)家:以數(shù)據(jù)科學(xué)為方法論,利用數(shù)據(jù)、結(jié)合行業(yè)知識(shí)來認(rèn)識(shí)和探索世界,解決各類實(shí)際問題、創(chuàng)造社會(huì)價(jià)值,并在此過程中,不斷研究、創(chuàng)新數(shù)據(jù)的采集、管理、分析、挖掘、展現(xiàn)的理論和方法,深化數(shù)據(jù)科學(xué)內(nèi)涵的人。
數(shù)據(jù)科學(xué):數(shù)據(jù)科學(xué)被稱為科學(xué)的第四范式。數(shù)據(jù)科學(xué)利用數(shù)據(jù)驅(qū)動(dòng)的方法來分析和解決問題,從數(shù)據(jù)中探尋事物的本質(zhì)和規(guī)律,研究數(shù)據(jù)獲取、管理、分析、挖掘和展示等一系列環(huán)節(jié)中的理論和方法,并探索其應(yīng)用。
數(shù)據(jù)科學(xué)家應(yīng)具備的技能:一位優(yōu)秀的數(shù)據(jù)科學(xué)家應(yīng)當(dāng)是站在(大數(shù)據(jù))平臺(tái)上看問題、想數(shù)據(jù)、關(guān)聯(lián)模型,并把這些模型有機(jī)組合起來部署到大數(shù)據(jù)平臺(tái)上,處理鮮活數(shù)據(jù)、產(chǎn)生知識(shí)、解決行業(yè)問題。這句話中蘊(yùn)含了數(shù)據(jù)科學(xué)家應(yīng)當(dāng)掌握的四大技能(如圖所示):
? 數(shù)據(jù)科學(xué)家要了解行業(yè)問題,知道影響該問題的因素。比如,空氣污染的污染源包括工廠、車輛尾氣、餐飲機(jī)構(gòu)等;既有本地污染源排放,也有外地污染物擴(kuò)散而來。只有知道導(dǎo)致污染的因素,才能去收集相關(guān)的數(shù)據(jù),并在模型中選擇相應(yīng)的特征。另外還要了解行業(yè)里現(xiàn)有的方法,一方面借鑒其思想和精髓進(jìn)行模型設(shè)計(jì);另一方面也要知道現(xiàn)有方法的不足之處,用數(shù)據(jù)科學(xué)彌補(bǔ)其缺陷。最后,還要學(xué)習(xí)行業(yè)的語言,以便與行業(yè)專家溝通,讓其理解和接納基于數(shù)據(jù)科學(xué)的解決方案。
數(shù)據(jù)科學(xué)家應(yīng)掌握的技能
? 數(shù)據(jù)科學(xué)家要深度理解數(shù)據(jù),不僅要了解數(shù)據(jù)的格式、屬性和表面意思,更要理解數(shù)據(jù)背后反映的深意。例如,出租車的軌跡數(shù)據(jù)不僅反映了出租車行駛的速度和去過的地方,也反映了行駛路段的通暢程度。此外,由于軌跡數(shù)據(jù)還體現(xiàn)了乘客的上下車地點(diǎn),當(dāng)把大量的出租車軌跡數(shù)據(jù)融合在一起后,我們可以洞察一個(gè)區(qū)域內(nèi)人們的出行規(guī)律。進(jìn)一步,人們的出行規(guī)律又可以反映出這個(gè)區(qū)域的功能,如住宅區(qū)的人們?cè)绯鐾須w,而商務(wù)區(qū)則相反。這個(gè)區(qū)域功能又能影射出對(duì)空氣污染的影響。如,公園的擴(kuò)散條件好,污染源少,則空氣相對(duì)會(huì)更好;商務(wù)區(qū)在早晚高峰時(shí)段交通擁堵、樓房密集,空氣相對(duì)較差。有了對(duì)數(shù)據(jù)背后深意的理解,我們就可以用出租車的軌跡數(shù)據(jù)來推測(cè)一個(gè)地域的功能[2],預(yù)測(cè)其空氣質(zhì)量[3]。這樣就能用領(lǐng)域A的數(shù)據(jù)去解決領(lǐng)域B的問題。
? 數(shù)據(jù)科學(xué)家要精通各種數(shù)據(jù)管理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和數(shù)據(jù)可視化模型等工具,具備數(shù)據(jù)側(cè)端到端的能力。這些能力相互關(guān)聯(lián),決定了數(shù)據(jù)應(yīng)用的效果。如只掌握其中某個(gè)環(huán)節(jié),缺乏對(duì)上下游可行性的考慮,設(shè)計(jì)的方案則很難實(shí)際落地。
? 數(shù)據(jù)科學(xué)家要熟練運(yùn)用大數(shù)據(jù)平臺(tái)。真正意義上的大數(shù)據(jù)不僅體量大,而且更新速度快,這就必須有一個(gè)大數(shù)據(jù)平臺(tái)來承載并處理這些數(shù)據(jù)。單機(jī)模式下的模型設(shè)計(jì)和工作方式無法應(yīng)對(duì)真實(shí)世界的大數(shù)據(jù)。很多數(shù)據(jù)處理算法在小數(shù)據(jù)、單機(jī)模式下可以工作,但到了大規(guī)模、高動(dòng)態(tài)的數(shù)據(jù)場(chǎng)景下就完全失效。比如很多數(shù)據(jù)驅(qū)動(dòng)的空間索引算法(如R-tree),因?yàn)槠浣Y(jié)構(gòu)會(huì)隨著數(shù)據(jù)的插入而發(fā)生巨大變化,不僅更新代價(jià)太大,而且會(huì)改變空間劃分的結(jié)構(gòu)(導(dǎo)致磁盤的映射結(jié)構(gòu)也要不斷改變),就不適合作為云計(jì)算環(huán)境下的空間數(shù)據(jù)索引結(jié)構(gòu)[4]。
數(shù)據(jù)科學(xué)家與相關(guān)崗位對(duì)比
為了能讓大家更加好地理解數(shù)據(jù)科學(xué)家這個(gè)崗位,我們將其與數(shù)據(jù)分析師、解決方案架構(gòu)師、數(shù)據(jù)工程師和AI算法工程師進(jìn)行對(duì)比。
數(shù)據(jù)科學(xué)家VS數(shù)據(jù)分析師
數(shù)據(jù)分析師面對(duì)的是確定性問題,即問題的定義、可以使用的數(shù)據(jù)源、需要輸出的結(jié)果都是確定的,然后根據(jù)這些確定信息來選擇相應(yīng)的模型,計(jì)算結(jié)果即可。
例如,在用戶申請(qǐng)信用卡時(shí),銀行要求申請(qǐng)人填寫年齡、職業(yè)、房產(chǎn)、收入等個(gè)人信息,然后根據(jù)這些信息決定是否給申請(qǐng)人發(fā)信用卡;如果發(fā),該發(fā)多少額度的信用卡才合適。這是一個(gè)非常明確的分類問題,模型的輸入數(shù)據(jù)是申報(bào)人填報(bào)的個(gè)人信息,輸出的結(jié)果就是“不發(fā)”“5000以下”“5001~20000”等額度區(qū)間。這個(gè)模型可以利用已經(jīng)發(fā)出的信用卡持有人填報(bào)的個(gè)人信息(作為輸入特征)以及他們后來的還款記錄(如能及時(shí)還款則對(duì)應(yīng)額度作為標(biāo)注)來訓(xùn)練。利用歷史數(shù)據(jù)把模型訓(xùn)練好之后,輸入一個(gè)新申請(qǐng)人的信息,就能自動(dòng)分類出相應(yīng)的額度等級(jí)結(jié)果。
但數(shù)據(jù)科學(xué)家面對(duì)的是完全開放的問題,問題沒有明確的定義,用什么數(shù)據(jù)不清楚,輸入和輸出是什么也不清楚,用什么模型更不清楚,這一切都要靠數(shù)據(jù)科學(xué)家來分析和定義。以下是數(shù)據(jù)科學(xué)家工作過程中遇到的實(shí)際問題樣例。
例1:有一條道路上面灰層很厚,如何用大數(shù)據(jù)的辦法把灰層徹底清除掉?
例2:如何降低城市里?;穾淼碾[患,保證城市的安全?
例3:空氣污染嚴(yán)重,如何用最小的經(jīng)濟(jì)損失換取更多的藍(lán)天?
例4:如何抓到違規(guī)傾倒垃圾的渣土車?
以上問題沒有清晰的定義,沒有人告訴你應(yīng)該用什么數(shù)據(jù),期待的輸出結(jié)果是什么都不知道,更無法將這些問題歸結(jié)到數(shù)據(jù)科學(xué)中的聚類、分類、回歸等模型問題上。另一方面,這些問題也不一定是一個(gè)單一模型就能解決的,往往需要把問題拆解成很多環(huán)節(jié),然后用一套“組合拳”來解決。因此,數(shù)據(jù)科學(xué)家不僅要解決完全開放的問題,還需要提供一套完整的端到端的數(shù)據(jù)解決方案,而數(shù)據(jù)分析師只需要解決確定性問題中的一個(gè)環(huán)節(jié)。
數(shù)據(jù)科學(xué)家VS解決方案架構(gòu)師
解決方案架構(gòu)師針對(duì)業(yè)務(wù)問題,根據(jù)客戶的特定場(chǎng)景需求,將產(chǎn)品和能力進(jìn)行組合、連接并作定制化的封裝,解決客戶痛點(diǎn)、為客戶創(chuàng)造價(jià)值。解決方案架構(gòu)師也不同于技術(shù)架構(gòu)師,后者更加專注于技術(shù)的耦合,而非業(yè)務(wù)和功能層面的連接。在以數(shù)據(jù)為中心的應(yīng)用中,數(shù)據(jù)科學(xué)家可以充當(dāng)解決方案架構(gòu)師的角色,反之不然。解決方案架構(gòu)師并不一定有數(shù)據(jù)科學(xué)的基礎(chǔ),在很多傳統(tǒng)的信息化項(xiàng)目中,更多只是考慮信息的流轉(zhuǎn),不涉及數(shù)據(jù)的分析和挖掘。要解決實(shí)際問題,數(shù)據(jù)科學(xué)家要具備解決方案架構(gòu)師的思維和能力。
數(shù)據(jù)科學(xué)家VS數(shù)據(jù)工程師和AI算法工程師
在實(shí)際項(xiàng)目中,數(shù)據(jù)科學(xué)家需要帶領(lǐng)數(shù)據(jù)工程師和AI算法工程師一起實(shí)施方案。數(shù)據(jù)工程師依照數(shù)據(jù)科學(xué)家設(shè)計(jì)好的方案,實(shí)施數(shù)據(jù)的采集、接入、治理、管理和展現(xiàn)等工作。AI算法工程師則根據(jù)數(shù)據(jù)科學(xué)家給出的思路完成模型的細(xì)化設(shè)計(jì)(包括模型的內(nèi)部結(jié)構(gòu)、輸入輸出的量化、詳細(xì)參數(shù)的選定以及跟其他模型的嵌套組合方式)、模型的訓(xùn)練(訓(xùn)練方法、樣本集合等)、測(cè)試和發(fā)布。雖然AI算法工程師并不直接面向客戶,但有很多具體且重要的工作需要完成。
當(dāng)模型結(jié)果與設(shè)計(jì)期望發(fā)生偏差時(shí),算法工程師應(yīng)告知數(shù)據(jù)科學(xué)家,與后者一起迭代模型思路。數(shù)據(jù)科學(xué)家應(yīng)不斷統(tǒng)籌、協(xié)調(diào)數(shù)據(jù)工程師和AI算法工程師的工作進(jìn)展,確保方案落地執(zhí)行。
與數(shù)據(jù)工程師和AI算法工程師相比,數(shù)據(jù)科學(xué)家的工作更加宏觀、全面,偏向整體方案的創(chuàng)造和設(shè)計(jì),而前兩個(gè)職位更注重?cái)?shù)據(jù)科學(xué)中某個(gè)環(huán)節(jié)深入具體的工作,偏向于執(zhí)行和實(shí)施。當(dāng)然,在這些具體環(huán)節(jié)中仍然有很多需要進(jìn)一步思考和設(shè)計(jì)的空間,并不是簡(jiǎn)單機(jī)械地執(zhí)行。為了確保設(shè)計(jì)方案的可行性,數(shù)據(jù)科學(xué)家在正式上崗前,必須要有從事數(shù)據(jù)工程師和AI算法工程師的經(jīng)驗(yàn)。
如何培養(yǎng)數(shù)據(jù)科學(xué)家
如圖所示,培養(yǎng)優(yōu)秀的數(shù)據(jù)科學(xué)家首先要讓其樹立正確的數(shù)據(jù)觀,并不斷提升其四大基礎(chǔ)素質(zhì);同時(shí)快速學(xué)習(xí)行業(yè)知識(shí),并掌握數(shù)據(jù)、模型、平臺(tái)三大專業(yè)技能。
樹立正確的數(shù)據(jù)觀
很多學(xué)生在面臨實(shí)際問題時(shí),容易陷入以下誤區(qū),這些都是沒有樹立正確數(shù)據(jù)觀的表現(xiàn):
? 拿著錘子找釘子,有了一個(gè)模型或者方法論,一定要想方設(shè)法把它用上去;
? 傾向于選擇過于復(fù)雜的模型,以體現(xiàn)自己的技術(shù)能力,生怕用的模型簡(jiǎn)單,被認(rèn)為工作沒有難度和價(jià)值;
? 抱怨數(shù)據(jù)質(zhì)量太差、想要的數(shù)據(jù)缺失,或者數(shù)據(jù)規(guī)模太小,因此認(rèn)為這件事情沒法做;
? 認(rèn)為只有AI模型部分最有技術(shù)含量,其余部分都不重要;
? 初學(xué)階段,不打好相關(guān)基礎(chǔ),直奔AI模型,從空中樓閣開始學(xué)習(xí)。
與之相對(duì)的正確的數(shù)據(jù)觀如下:
數(shù)據(jù)科學(xué)家的培養(yǎng)路徑
? 數(shù)據(jù)科學(xué)解法的選擇更多是依靠業(yè)務(wù)驅(qū)動(dòng)(根據(jù)問題的特性、數(shù)據(jù)的實(shí)際情況等),解法的價(jià)值由業(yè)務(wù)成果來體現(xiàn),是否用到某種模型不是關(guān)鍵。
? 一個(gè)工作的難度由待解決問題的復(fù)雜度決定,而不由解法的復(fù)雜程度決定。能用簡(jiǎn)單的方法解決復(fù)雜問題是非常有價(jià)值的工作。因此,面對(duì)實(shí)際問題,一定從簡(jiǎn)單方法開始嘗試,任何讓解法復(fù)雜化的付出,都需在結(jié)果側(cè)提升性能,否則就是嘩眾取寵、浪費(fèi)資源。
? 在真實(shí)世界,最初的數(shù)據(jù)永遠(yuǎn)都不會(huì)讓人滿意,永遠(yuǎn)都會(huì)面臨數(shù)據(jù)不足、質(zhì)量不好等一系列問題。如果數(shù)據(jù)好到可以直接從中看到結(jié)果,數(shù)據(jù)科學(xué)家也就沒有存在的必要了。加強(qiáng)對(duì)數(shù)據(jù)的深度理解,學(xué)會(huì)將領(lǐng)域A的數(shù)據(jù)應(yīng)用到領(lǐng)域B的問題,才能破解數(shù)據(jù)不足的難題。此外,合理的選擇模型,通過“不確定”+“不確定”得到“確定”的思維方式來應(yīng)對(duì)不理想的數(shù)據(jù)也是解法之一[5]。
? 數(shù)據(jù)科學(xué)鏈路上的所有環(huán)節(jié)都是同等重要的,AI算法并不高人一等,任何一個(gè)環(huán)節(jié)的失誤都會(huì)讓我們得不到想要的結(jié)果,失去利用數(shù)據(jù)創(chuàng)造價(jià)值的機(jī)會(huì)。
? 在不同的階段應(yīng)該練習(xí)好不同的技能。首先應(yīng)該練好程序設(shè)計(jì)的基本功,積累軟件開發(fā)的工程規(guī)范經(jīng)驗(yàn);然后學(xué)習(xí)數(shù)據(jù)管理模型,培養(yǎng)處理數(shù)據(jù)的動(dòng)手能力;再嘗試數(shù)據(jù)可視化的常用方法,積累數(shù)據(jù)展示的經(jīng)驗(yàn);之后學(xué)習(xí)AI模型,加強(qiáng)模型訓(xùn)練和部署的實(shí)踐;最后,面對(duì)客戶實(shí)戰(zhàn),快速學(xué)習(xí)行業(yè)知識(shí),增強(qiáng)業(yè)務(wù)與數(shù)據(jù)科學(xué)的結(jié)合能力,并培養(yǎng)解決方案思維,完善數(shù)據(jù)側(cè)端到端的能力。數(shù)據(jù)科學(xué)家無法一步到位,必須一步一個(gè)腳印地走出來。
提升基礎(chǔ)素質(zhì)
認(rèn)知能力、學(xué)習(xí)能力、創(chuàng)新能力和溝通能力是數(shù)據(jù)科學(xué)家應(yīng)該具備的四大重要基礎(chǔ)素質(zhì),這四大素質(zhì)相互連接,不斷提升、強(qiáng)化自身的知識(shí)體系。本質(zhì)上我們跟客戶或者行業(yè)專家的交流,就是以知識(shí)體系為核心,以四大素質(zhì)為能力支撐的“交鋒”,這四大基礎(chǔ)素質(zhì)也在交鋒過程中不斷歷煉、提升。
溝通能力包括準(zhǔn)確聽懂和正確表達(dá)。它把從接收到的語言中提煉的信息傳遞給認(rèn)知能力;調(diào)用知識(shí)體系中的知識(shí),并通過語言用合理的方式準(zhǔn)確地表達(dá)出來。
認(rèn)知能力是指接受來自視覺和溝通能力傳遞的信息,基于現(xiàn)有的知識(shí)體系來判別其深層次含義、提煉其中新的知識(shí)。這些知識(shí)通過學(xué)習(xí)能力再沉淀到知識(shí)體系中,不斷充實(shí)、壯大知識(shí)體系;創(chuàng)造能力是指基于已有的知識(shí)體系不斷創(chuàng)新、加工,讓知識(shí)體系不斷自我完善、豐富。
快速學(xué)習(xí)行業(yè)知識(shí)
數(shù)據(jù)科學(xué)家必須掌握快速學(xué)習(xí)行業(yè)知識(shí)的方法論,并將行業(yè)知識(shí)與數(shù)據(jù)、算法、平臺(tái)融合。很多精通數(shù)據(jù)模型和算法的人最終無法成為數(shù)據(jù)科學(xué)家,最大的瓶頸也在于此。通過以下四種方法可以快速學(xué)習(xí)行業(yè)知識(shí):
從相關(guān)行業(yè)的文獻(xiàn)中學(xué)習(xí):閱讀相關(guān)行業(yè)高質(zhì)量的綜述、論文以及網(wǎng)絡(luò)文章,快速學(xué)習(xí)整理和提煉行業(yè)知識(shí)。
向客戶學(xué)習(xí):如在智能城市業(yè)務(wù)中,政府的主管領(lǐng)導(dǎo)往往對(duì)業(yè)務(wù)非常了解,可以充當(dāng)半個(gè)產(chǎn)品經(jīng)理的角色。與跟他們溝通和交流,既能了解客戶需求,也可以快速學(xué)習(xí)業(yè)務(wù)知識(shí)。在這樣的交流中,要能用自己的思想和見解去引導(dǎo)客戶,并在交流過程中將從客戶那里學(xué)到的知識(shí)快速融合到自己的知識(shí)體系中,然后結(jié)合自身的知識(shí)儲(chǔ)備加以深化和拔高,再反饋給客戶,讓客戶有所收獲。通過這種不斷思考、互動(dòng)、深化的學(xué)習(xí)過程才能快速掌握行業(yè)知識(shí)。
從國家政策和政府工作報(bào)告中學(xué)習(xí):此類報(bào)告的內(nèi)容經(jīng)過專家學(xué)者和政府領(lǐng)導(dǎo)多輪論證和推敲,蘊(yùn)含專家智慧,條理清晰、高度概括,且反映了一個(gè)行業(yè)未來的發(fā)展動(dòng)向,是很好的學(xué)習(xí)材料。從其他案例中學(xué)習(xí):通過新聞報(bào)道、參觀訪問學(xué)習(xí)其他案例中的精華、亮點(diǎn),吸取經(jīng)驗(yàn)教訓(xùn),并感知行業(yè)的發(fā)展趨勢(shì)。
掌握數(shù)據(jù)專業(yè)技能
這里的專業(yè)技能包括對(duì)數(shù)據(jù)的深刻理解,以及設(shè)計(jì)模型和使用平臺(tái)的能力。
練好基本功:在學(xué)校,除了程序設(shè)計(jì)、軟件工程等基礎(chǔ)課程(計(jì)算機(jī)相關(guān)專業(yè)必修課),學(xué)生可以學(xué)習(xí)簡(jiǎn)單的數(shù)據(jù)管理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和數(shù)據(jù)可視化課程,并參照大數(shù)據(jù)平臺(tái)教程做一些實(shí)驗(yàn)。以上任何一門課程,如果想深入學(xué)習(xí),都需要花費(fèi)數(shù)年的時(shí)間。因此,建議在完成初步學(xué)習(xí)后,依托一個(gè)具體項(xiàng)目邊做邊學(xué)、逐步深入,這樣印象會(huì)更加深刻,動(dòng)力也會(huì)更足。UrbanComputing[6]一書就是按照以上思路編寫,以滿足大部分學(xué)生快速入門的需求。對(duì)于信息科學(xué)相關(guān)專業(yè)的高年級(jí)大學(xué)生來說,學(xué)習(xí)這部分知識(shí)不會(huì)有太大難度。
深入一線:學(xué)生普遍缺乏應(yīng)用數(shù)據(jù)科學(xué)的實(shí)戰(zhàn)經(jīng)驗(yàn),而數(shù)據(jù)科學(xué)家需要用真實(shí)的項(xiàng)目和數(shù)據(jù)來培育。因此,掌握算法模型的學(xué)生一定要盡快去有數(shù)據(jù)、有行業(yè)需求的一線歷練,多跟客戶和行業(yè)專家溝通學(xué)習(xí),多觀察、多動(dòng)手處理數(shù)據(jù),逐步建立起對(duì)數(shù)據(jù)的深入理解,熟悉對(duì)平臺(tái)的操作,建立對(duì)模型特性的直觀感受。可以在課程完成后選擇去工業(yè)界實(shí)習(xí),或者參與高校與工業(yè)界的聯(lián)合項(xiàng)目。
應(yīng)用閉環(huán):要經(jīng)歷數(shù)據(jù)的采集、接入、管理、分析、展現(xiàn)、決策和反控的全鏈路,避免只做其中的模型設(shè)計(jì)環(huán)節(jié)。如果前面數(shù)據(jù)處理不當(dāng),會(huì)讓本該有效的模型失效。另外,如果只參與其中的模型環(huán)節(jié),可能會(huì)脫離實(shí)際約束,使模型無法工作。如果不能將結(jié)果有效地呈現(xiàn)給客戶,就無法得到反饋,導(dǎo)致模型不能迭代優(yōu)化。
價(jià)值體現(xiàn):數(shù)據(jù)科學(xué)家設(shè)計(jì)的解決方案一定要針對(duì)業(yè)務(wù)關(guān)注的領(lǐng)域,在成本、效率、用戶體驗(yàn)中的至少一個(gè)方面直接創(chuàng)造價(jià)值。如在智能城市領(lǐng)域,政府關(guān)注城市的安全、穩(wěn)定和發(fā)展,數(shù)據(jù)科學(xué)家設(shè)計(jì)的方案就應(yīng)該在保障城市安全方面降低成本,或提高管理者的效率,或改善工作人員的體驗(yàn);也可以在促進(jìn)城市發(fā)展方面提高政府資金的利用效率、降低資源投入等;避免只做到中間結(jié)果,看不到直接的業(yè)務(wù)價(jià)值。
實(shí)戰(zhàn)案例
下面以用大數(shù)據(jù)治理空氣污染為實(shí)戰(zhàn)案例,剖析數(shù)據(jù)科學(xué)家如何結(jié)合行業(yè)知識(shí)和數(shù)據(jù)科學(xué)來解決開放式問題。
看問題
首先,弄明白這個(gè)問題為什么重要。大約十年前開始,由于環(huán)境、經(jīng)濟(jì)和人們對(duì)健康的重視程度等因素的變化,空氣質(zhì)量(尤其是PM2.5濃度)開始受到關(guān)注,一度成為指引交通出行、廠礦工作和學(xué)校運(yùn)行的重要參考指標(biāo)??諝馕廴救舨荒苤卫砗?,不僅影響人民的健康,還容易導(dǎo)致高端人才流失、吸引“發(fā)展要素”困難的局面,并引發(fā)社會(huì)輿論。
其次,搞清楚導(dǎo)致問題的因素有哪些。污染物從哪來?為什么會(huì)積聚?根據(jù)環(huán)境學(xué)的相關(guān)文獻(xiàn)以及與多位環(huán)保學(xué)專家和政府管理人員的交流,得知污染源包含廠礦排放、交通尾氣、餐飲排煙、燒煤供暖、土壤揮發(fā)等。污染物產(chǎn)生的方式有三種:本地排放、外部擴(kuò)散而來以及在大氣中發(fā)生二次化學(xué)反應(yīng)而產(chǎn)生的污染物。導(dǎo)致污染物積聚的原因是污染物的產(chǎn)生速度大于其被自然界消化(如擴(kuò)散開或被吸附)的速度。因此,除了污染源和污染物產(chǎn)生的形式,擴(kuò)散和吸附條件也是影響空氣質(zhì)量的一個(gè)很重要的因素。
然后,了解行業(yè)的解題思路。要根治空氣污染就要理清現(xiàn)狀、預(yù)知未來和回溯歷史。理清現(xiàn)狀指實(shí)時(shí)監(jiān)測(cè)細(xì)粒度的空氣質(zhì)量,了解城市中各個(gè)角落的空氣質(zhì)量的現(xiàn)狀;預(yù)知未來指能夠預(yù)測(cè)未來空氣質(zhì)量的變化;回溯歷史指搞清楚問題的根源,即污染從哪來、如何治。
以理清現(xiàn)狀為例,分析過程如下。為了做到實(shí)時(shí)監(jiān)測(cè),環(huán)保部門在城市中建立了一些高精度的空氣質(zhì)量監(jiān)測(cè)站點(diǎn),但由于價(jià)格昂貴、需占據(jù)一定的地理空間、后續(xù)維護(hù)成本較高,此類站點(diǎn)的數(shù)量有限。由于污染源的分布和大氣擴(kuò)散條件在城市的各個(gè)角落均不相同,城市中不同區(qū)域的空氣質(zhì)量也存在巨大差異,分布非常不均勻。沒有細(xì)顆粒度的空氣質(zhì)量作為支撐,后續(xù)的預(yù)警、整治等工作將無法精確開展。因此,政府需要知道每平方公里甚至更細(xì)粒度的空氣質(zhì)量。但是,由于不可能安裝太多的監(jiān)測(cè)站點(diǎn),傳統(tǒng)方案只能結(jié)合機(jī)理模型做一些假設(shè)推測(cè)。
再者,深入學(xué)習(xí)具體方法,吸取其精華,補(bǔ)其不足。傳統(tǒng)的方法有基于物理學(xué)的機(jī)理模型,也有基于化學(xué)的成份分析模型。但由于導(dǎo)致空氣污染的原因既有排放和擴(kuò)散(物理過程),也有二次化學(xué)反應(yīng)(化學(xué)過程),單純的物理模型和化學(xué)模型都無法準(zhǔn)確模擬空氣污染這一過程。此外,物理機(jī)理模型需要預(yù)知污染源信息,并對(duì)風(fēng)場(chǎng)作簡(jiǎn)化假設(shè),這兩點(diǎn)在真實(shí)世界很難成立。排放污染的工廠為了躲避懲罰會(huì)掩蓋其排放行為,汽車尾氣和餐飲排煙更是無法收集;大氣在城市樓群中的流動(dòng)更是異常紊亂,與簡(jiǎn)單模型的假設(shè)相差甚遠(yuǎn)。雖然這些方法有不足之處,但為我們后續(xù)設(shè)計(jì)模型提供了很好的思路。
最后,用行業(yè)的語言告訴行業(yè)專家,為什么基于數(shù)據(jù)科學(xué)的方法比傳統(tǒng)方法好。無論是基于數(shù)據(jù)科學(xué)的方法還是傳統(tǒng)的機(jī)理模型,都是在用模型擬合數(shù)據(jù),思路是一致的。如表1所示,對(duì)于簡(jiǎn)單問題(如重力加速度等),根據(jù)少量數(shù)據(jù)樣本,加上人的經(jīng)驗(yàn),便可構(gòu)造出經(jīng)典模型很好地?cái)M合問題。這些經(jīng)典模型通??梢杂帽容^簡(jiǎn)潔的公式來表達(dá)。
當(dāng)問題變得復(fù)雜,涉及的因素非常多,需要的數(shù)據(jù)量也越來越大時(shí),依靠人的觀察和經(jīng)驗(yàn)設(shè)計(jì)模型擬合數(shù)據(jù)就變得越來越難了。此時(shí)需要采用基于數(shù)據(jù)科學(xué)的方法,用機(jī)器學(xué)習(xí)從數(shù)據(jù)中學(xué)出一個(gè)復(fù)雜的公式來“精確打擊”這個(gè)問題,其本質(zhì)還是在用模型擬合數(shù)據(jù)。用數(shù)據(jù)驅(qū)動(dòng)的方法,通過對(duì)數(shù)據(jù)和特征進(jìn)行選擇,既借鑒了經(jīng)典模型的思想精華,又避免了依靠與現(xiàn)實(shí)有較大偏差的經(jīng)驗(yàn)假設(shè)。
經(jīng)典模型與數(shù)據(jù)科學(xué)對(duì)比
想數(shù)據(jù)
解決大氣污染首先要考慮污染源、污染物產(chǎn)生的方式和擴(kuò)散條件等,因此,我們選擇的數(shù)據(jù)應(yīng)該盡量涵蓋或間接反映這些因素,同時(shí)還要考慮獲取這些數(shù)據(jù)的可行性。這里我們選取了空氣質(zhì)量監(jiān)測(cè)站點(diǎn)的歷史和實(shí)時(shí)數(shù)據(jù)、興趣點(diǎn)(如樓房、加油站、公園、廠礦、商場(chǎng)等)、路網(wǎng)數(shù)據(jù)、出租車的軌跡數(shù)據(jù)、天氣預(yù)報(bào)和實(shí)報(bào)數(shù)據(jù)。
興趣點(diǎn)、路網(wǎng)反映了一個(gè)區(qū)域的地貌、功能,出租車的軌跡數(shù)據(jù)蘊(yùn)含了區(qū)域內(nèi)人們的出行規(guī)律(前文已做解釋),進(jìn)一步強(qiáng)化了對(duì)區(qū)域功能的推斷。這些數(shù)據(jù)也隱含了區(qū)域污染源的分布和擴(kuò)散條件。此外,雖然出租車的數(shù)據(jù)間接反映了路面的交通流量,但由于其數(shù)量遠(yuǎn)小于私家車,因此不能用其軌跡數(shù)據(jù)來直接推斷全量尾氣排放量,而要結(jié)合路網(wǎng)和興趣點(diǎn)來補(bǔ)足其信息的缺失,共同隱含、關(guān)聯(lián)整體交通流量和尾氣排放。這些都是思路,不需要也不可能把每個(gè)指標(biāo)都確切地計(jì)算出來,而是要借助大數(shù)據(jù)“不確定”+“不確定”推出“確定”的思想,用領(lǐng)域A的數(shù)據(jù)去解決領(lǐng)域B的問題。
關(guān)聯(lián)模型
這部分注重基于行業(yè)知識(shí)來選擇特征和設(shè)計(jì)模型結(jié)構(gòu)。根據(jù)之前的分析,在特征方面,從興趣點(diǎn)數(shù)據(jù)中提取了廠礦、公園、學(xué)校等重要類別興趣點(diǎn)的數(shù)量,以及建筑密度、空曠度等反映擴(kuò)散條件的特征;從路網(wǎng)中提取了交叉路口個(gè)數(shù)、路網(wǎng)密度、不同等級(jí)道路長(zhǎng)度等影響交通流量的特征;從出租車的軌跡中提取區(qū)域內(nèi)不同時(shí)間段上車和下車的人數(shù)、車輛行駛速度及速度的方差等特征。這些信息隱含了交通尾氣排放的情況,如紅綠燈很多(路口數(shù)),道路擁堵(車速)、車輛走走停停(車速方差),此時(shí)尾氣排放最為嚴(yán)重,車輛越多(車道數(shù)、道路總長(zhǎng)度)則尾氣排放越多。
在模型方面,選擇了基于協(xié)同訓(xùn)練(co-training)的多視角學(xué)習(xí)模型(見圖3)。從污染物的產(chǎn)生角度理解,一個(gè)空間分類器模擬外地?cái)U(kuò)散,一個(gè)時(shí)序分類器模擬本地排放,協(xié)同訓(xùn)練的迭代近似二次化學(xué)反應(yīng)。從空氣質(zhì)量的相關(guān)性來看,一個(gè)地方的空氣質(zhì)量既有空間相關(guān)性(會(huì)受到周邊地域空氣質(zhì)量的影響),也有時(shí)間相關(guān)性(受過去一段時(shí)間空氣質(zhì)量的影響)。
從數(shù)據(jù)科學(xué)的角度理解,空間分類器接受路網(wǎng)、興趣點(diǎn)等空間特征,擬合空氣質(zhì)量的空間相關(guān)性,在地理空間進(jìn)行非線性插值,即根據(jù)一個(gè)地域周邊地區(qū)的空氣質(zhì)量信息來判斷該地域此時(shí)的空氣情況。時(shí)序分類器接受氣象、交通和人們出行等與時(shí)間相關(guān)的動(dòng)態(tài)特征,擬合空氣質(zhì)量的時(shí)序相關(guān)性,即根據(jù)一個(gè)地域過去一段時(shí)間的情況來推斷現(xiàn)在的情況。兩個(gè)分類器從不同的角度來判斷一個(gè)地區(qū)的空氣質(zhì)量,互相補(bǔ)強(qiáng)各自的弱點(diǎn)。選擇這個(gè)模型的另一個(gè)原因是已有站點(diǎn)數(shù)量有限,訓(xùn)練樣本有限,必須采用半監(jiān)督學(xué)習(xí)的方法來解決樣本不足的問題??梢姡?dāng)把問題分析透徹后,數(shù)據(jù)科學(xué)可以跟經(jīng)典模型思想很好地融合,既能提高結(jié)果的精度,也能獲得行業(yè)認(rèn)可。
基于多視角的空氣質(zhì)量推斷模型
利用已有站點(diǎn)的空氣質(zhì)量數(shù)據(jù)訓(xùn)練好一個(gè)初步模型,就可以基于路網(wǎng)、興趣點(diǎn)、氣象、出租車軌跡,對(duì)沒有建設(shè)監(jiān)測(cè)站點(diǎn)的任意地域開始預(yù)測(cè)。之后,還需要考慮如何展現(xiàn)預(yù)測(cè)結(jié)果。如以1平方公里為最小區(qū)域,展示全國的空氣質(zhì)量則需要960多萬個(gè)網(wǎng)格,瀏覽器無法直接顯示。因此,這里又涉及到基于四叉樹的數(shù)據(jù)管理算法和可視化技術(shù)的結(jié)合,根據(jù)不同的視野層級(jí)高效、動(dòng)態(tài)地聚合空氣質(zhì)量信息。
平臺(tái)部署
利用平臺(tái)實(shí)時(shí)接入各種數(shù)據(jù),部署設(shè)計(jì)好的管理、挖掘和可視化模型,并把這些模型有機(jī)地組合起來,為全國300多個(gè)城市提供服務(wù),可以在政府側(cè)的大屏、電腦端展示空氣質(zhì)量數(shù)據(jù),也可以為各類移動(dòng)應(yīng)用提供接口。為了保證性能,哪些內(nèi)容需要放到緩存(如Redis)、哪些需要用到分布式計(jì)算環(huán)境、哪些內(nèi)存數(shù)據(jù)需要用到索引結(jié)構(gòu)、哪些內(nèi)容放到磁盤上、要用多少虛機(jī)服務(wù)器等,這都要求數(shù)據(jù)科學(xué)家對(duì)平臺(tái)的性能和使用方式非常熟悉,否則無法云行之前設(shè)計(jì)的數(shù)據(jù)科學(xué)解決方案。
結(jié)束語
數(shù)據(jù)時(shí)代已經(jīng)來臨,如何發(fā)揮數(shù)據(jù)的價(jià)值將關(guān)乎行業(yè)發(fā)展、國家發(fā)展以及世界格局,需要一批優(yōu)秀的數(shù)據(jù)科學(xué)家來承擔(dān)時(shí)代賦予的使命。數(shù)據(jù)科學(xué)家需要快速學(xué)習(xí)行業(yè)知識(shí)、深度理解數(shù)據(jù)、精通各類數(shù)據(jù)模型、熟練運(yùn)用大數(shù)據(jù)平臺(tái),并具備數(shù)據(jù)側(cè)端到端的解決方案能力。同時(shí),數(shù)據(jù)科學(xué)家還要樹立正確的數(shù)據(jù)觀,并不斷提升認(rèn)知能力、學(xué)習(xí)能力、創(chuàng)新能力和溝通能力四大基礎(chǔ)素質(zhì)。數(shù)據(jù)科學(xué)家以數(shù)據(jù)科學(xué)為方法論來認(rèn)識(shí)和探索世界,解決各類行業(yè)問題、創(chuàng)造社會(huì)價(jià)值,不斷擴(kuò)大數(shù)據(jù)科學(xué)的外延,并在此過程中,不斷研究、創(chuàng)新數(shù)據(jù)的采集、管理、分析、挖掘、展現(xiàn)的理論和方法,深化數(shù)據(jù)科學(xué)的內(nèi)涵。
0條評(píng)論