「搞錯重點啦!」數據科學應該係咁先啱

(credits: Tom Fishburne @marketoonist.com)

數據科學(data science)作為近年最火熱、人人趨之若鶩嘅行業工種,已經好迅速咁走入不同公司,甚至開始成為佢哋不可或缺,核心決策嘅其中一部分。各行各業所有公司(甚至表面上嗰太相關嘅coffee shop?[1])都玩埋一份,驚死被人淘汰、飲咗頭啖湯,趕唔到呢班人工智能、大數據社會嘅快車,包括某所謂国際都會嘅政府創科局。不過就好似當年嘅科網股熱潮,直到而家為止,真正能夠成功嘅唔多,好多都「革命/轉營」失敗,或搞到不倫不類,只係做一堆「掛羊頭賣狗肉」嘅所謂AI/數據科學項目(八段錦AI app?)。

點解會咁嘅呢?要明白背後原因,小弟認為要先探討一個,喺數據科學非常重要,但成日被人忽略,好少人提及嘅問題:「究竟數據科學項目要成功,最重要關鍵的一環係乜呢?」


數據科學嘅關鍵

(credits: Tom Fishburne @marketoonist.com)

不論行業、公司大小,(學術)研究抑或實際應用項目,喺數據科學projects入面,數據科學家同技術部門,常常會問下面哩啲問題:

「應該用/學乜嘢工具或數據模型呢?」、「點先可以將模型結果嘅預測準繩度(或者其他相關嘅量度標準)提高,好似由0.7升到0.9呢?」

而項目同財政/商業部門主管,就會關注

「最有成本效益同『容易快捷』建立到嘅相關人工智能/數據模型係乜?」、「點先可以將市場/AI研究最新、最先進嘅工具或模型,擺落公司projects度呢?」

等等。

冇錯,哩啲問題都係數據科學projects,常常會問,實際而且重要嘅問題。不過哩堆問題,唔見得一定係project嘅重點,項目成功與否嘅關鍵。事實上佢哋甚至仲有可能係會令公司、團隊分心,無關痛癢嘅問題,尤其如果你唔清楚了解project本身嘅目的,冇長遠嘅策略規劃,好似連project本身為乜,想解決或解答乜嘢學術/商業問題都搞唔清。


數據科學旅程=行/爬山

數據科學project就好似爬山咁,要去到山頂,一樣需要規劃同好多準備功夫、工具,亦有好多唔同方法(好似選擇路線)。哩啲冇錯都好重要。不過哩啲嘢就等同爬山咩?做好萬全準備,花時間預備最好嘅行山工具、行程同各種方案去應付唔同情況,甚至係訓練身體,模擬實際情況等等,哩啲又係唔係爬山嘅目的呢?

(source:https://www.istockphoto.com/vector/mountain-peak-gm1135481871-302083060)

答案好明顯唔係啦!另外單純咁將登頂睇做主要單一目的,又啱唔啱呢?就咁睇,與其真係用腳徒步去登頂,行比較需要體力、難度高,甚至需要手腳並用嘅路線,還不如行條簡單啲嘅山徑,又或者甚至去揸車,搭公共交通好似纜車咁,去山頂仲「輕鬆快捷」。冇錯,就咁表面睇,搭車/纜車的確好似係最簡單方便、最有「成本效益」嘅上山頂,到上面睇風景嘅方法。不過咁真係爬山嘅目的咩?

事實係如果你諗深一層,就算以登頂呢個結果而言係冇分別,不過徒步爬山同搭車登頂,根本就係兩樣嘢,完全唔同嘅體驗嚟。「走捷徑,捨難取易」(某國際城市嘅人最鍾意,好似係),就咁睇好似好正確,不過事實係反而會冇咗仲多。好似比較難嘅山徑,沿途嘅風景通常會靚啲,有更多獨特嘅自然生態;喺個人層面,你亦會少咗鍛練體能、身心,甚至係成長學習,重新認識自己嘅機會。而且哩啲「方便」嘅捷徑,有時反而可能仲貴或需求時間仲耐(例如要考慮埋泊車,多人排隊等等因素),又或者根本一開始就唔存在。即係變相其實徒步爬山,或走難啲山徑,其實先係最快、最有成本效益,甚至係唯一能夠登頂嘅方法。


認清目的同問題本身,先至係關鍵同重點

同人生規劃或研究/商業projects一樣,無論係個人定公司/機構,數據科學嘅旅程的確就好似爬山咁。數據科學嘅真.重點及精髓,應該喺用數據解決或/及解答問題,發掘問題背後嘅故事/真相,而唔係喺相關嘅工具或模型性能/精準度度。而喺商業公司世界,更重要嘅點樣從中俾到有用,幫到公司業務需求嘅嘢或建議。就算你個模型有幾厲害、先進、「前無古人」(好似冇八段錦app咁),用到深度學習/人工神經網絡,又或者方案能夠提升模型性能10-20%,但如果你嘅模型/方案解決(答)唔到想解決(答)嘅問題,提升唔到公司業績或效率,哩一切都係唔重要、冇意義(更何況大部分非技術出身嘅主管或老細,根本就唔會明模型或方案背後嘅技術詳情)。

數據科學project失敗嘅原因,大多喺因為冇明確嘅目的或認清問題本身,又或者團隊部門之間,冇何謂「成功」嘅標準共識

所以認清目的同問題本身,係任何數據科學旅程中,最重要、關鍵嘅第一步,而且係需要時刻重新檢討。哩樣睇落簡單,但其實通常先係最困難,因為除非你本身就有深厚嘅行業領域或公司知識,有同問題相關嘅切身體驗,唔係嘅話,就好需要技術、數據團隊、各部門主管同老細嘅參與同通力合作。要團隊一齊為數據科學projects好好合作,就需要有好嘅公司環境同文化,尊重從數據背後得出嘅建議,並將數據看做重要嘅資產及工具,同有明確同適當嘅(長遠)數據策略,總括即係公司/機構要「數據科學化」。冇哩啲,單單開個部門,組一隊數據科學團隊係遠遠唔足夠。


總結:

數據科學談及探討嘅唔只係數據,更重要嘅係解決/解答手頭上本身嘅問題,就算係簡單到「了解清楚點解最初你需要某堆數據」,都係好關鍵同重要。亦因為咁,數據科學唔應該只係技術或數據部門嘅事,而係應該涉及整間公司企業或機構團隊。


延伸閱讀:

[1] 《根據AI、大數據(?)沖咖啡?淺談乜嘢先係真·數據科學》

[2] 《How To Show Awareness Of The Wider Commercial Impact Of Data Science》https://www.datascienceweekly.org/articles/how-to-show-awareness-of-the-wider-commercial-impact-of-data-science

[3] 《Business and Data Understanding in Data Science Lifecycle》https://medium.com/@srivatsan88/business-and-data-understanding-in-data-science-lifecycle-58f8e0588c66

[4] 《Business and Data Science — Managing Expectations》https://towardsdatascience.com/business-and-data-science-managing-expectations-2e34de8e078e


中文非廣東話版:https://link.medium.com/8hszfyK0Rsb

英文版:https://link.medium.com/wucBHcI0Rsb

根據AI、大數據(?)沖咖啡?淺談乜嘢先係真·數據科學(What is data science?)

(Credits: 《Dilbert》by Scott Adams)

近年,尤其自從幾年前DeepMind研發出「神之一手」,能夠捉圍棋打敗所有職業棋士嘅AlphaGo後,人工智能(artificial intelligence,AI)機械學習(machine learning)、數據科學(data science)、大數據(big data)哩啲就成為咗潮流用語,差唔多所有行業都聽到嘅buzzword。情況就好似10幾年前嘅科網熱潮;或者原子彈冷戰年代,乜嘢都加「原子」兩隻字,又或者而家唔少嘢都加「量子」喺前面咁。

不過事實上,入面有幾多先係真材實料,有幾多其實只係9up吹水呢?真正嘅數據科學、大數據又係指𡁵乜呢?


AI大數據沖咖啡?(AI & Big Data coffee?)

(AI大數據咖啡Preface Coffee,圖擷取自[1])

就好似最近香港有單新聞講有間coffee shop,根據當日嘅時事新聞、天氣等,分析哩堆「大數據」去調節口味,沖出最適合嗰日嘅咖啡[1]。

小弟未有幸幫襯過嗰間coffee shop,唔敢貿貿然妄下判斷,就話佢哋係「咖啡機兄弟」哩類騙局啲friends。不過一杯咖啡沖得好唔好飲,啱唔啱客人心水,好明顯最重要、最關鍵嘅係師傅嘅手勢同咖啡豆嘅質素。當時附近環境嘅溫度、當日新聞頭條等等哩啲數據,好多其實唔太關事,就算有影響,都只會係次要同非常細微。

而且每個人嘅喜好準則唔同,好似有人鍾意天氣凍/熱啲,有人鍾意苦/酸啲;政治上又有黃絲/藍絲、「中立x/中間超人」,唔通喺客人買咖啡前,要做一份詳細個人問卷先?另外「開心」哩樣嘢,本身就好難可以好客觀、準確咁定義到。就好似有人見到「私煙BB」染肺炎死咗會好開心,但有人(?)就會惋惜、悼念。現實係唔存在一套適用於所有人嘅單一標準,去定義一個所謂「開心指數」。

(網上圖片)

如其花錢同時間去研發一個複雜,聲稱用到自然語言處理(Natural Language Processing)*嘅程式,去分析一堆次要或唔太關事嘅數據,其實去培訓師傅手藝、改善工作同coffee shop環境、選取優質嘅原料同鑽研唔同配方仲實際。就算真係用人工智能或大數據嘅話,都應該用嚟分析員工、咖啡豆原材料等,優先同實際過乜嘢用時事新聞、天氣等數據去分析所謂「開心指數」。所以個人認為哩個「AI大數據沖咖啡」多數只係玩綽頭,多過真係實際改善到咖啡品質或口味,增加到營業額。

*自然語言處理簡單講就係將人類語言翻譯成電腦「睇得明」嘅嘢,指用電腦將語言變成有相關意思嘅符號同關係,再根據目的作處理同分析。詳細嘅講解有機會再講。


數據科學同數據分析嘅分別(Difference between data scientists and data analysts

好啦,講咗咁耐,咁究竟乜嘢先算係數據科學或大數據呢?好老實講,始終數據科學/大數據唔係數學或理論物理學範疇,佢哋其實係冇一套統一標準定義。不過小弟都可以用自己現時做𡁵數據科學家(data scientist)嘅經驗,講吓數據科學業界,通常係點界定乜嘢係數據科學。

固名思義,數據科學要做嘅當然係分析數據(data)啦!當中數據可以包括任何範疇,基本上所有你諗得到嘅嘢都可以係數據,好似你講嘅一句說話、去過邊度、上過咩網站等等,尤其係而家哩個digital era。

不過除左分析數據之外,更加重要嘅深入理解同洞悉數據背後嘅意義,建構數學或機械學習模型,去嘗試模擬同作出準確客觀嘅預測,去幫助人類執行,甚至自動化一啲決定(decision making process)。就好似透過你上網嘅行為,去推測你鍾意嘅嘢(甚至係政治取態或價值觀,如強國)。所以識得寫程式,甚至係軟件可以話係必須,另了解整個機械學習運作流程,包括數據點得番嚟、數據清洗(data cleaning/cleansing)、點安全同有效儲存數據等等,都好重要。單純淨係用Power BI、Tableau,甚至Excel等坊間軟件,去分析數據嘅,一般只會叫數據分析師(data analyst)#。

#雖然廣義上嚟講,就咁用Excel執行曲線擬合(curve fitting),都係迴歸分析(regression analysis),係機械學習嘅一種。


數據科學嘅重點係科學(Data science should be “scientific”)

(credits: xkcd #925, https://www.explainxkcd.com/wiki/index.php/925:_Cell_Phones

除左上面講嘅之外,作為(前)物理學家,個人覺得「真.數據科學」要叫得「科學」,當然仲需要包含自然科學嘅精神喺入面。即係要(至少某種程度上)理解唔同機械學習演算法(algorithms)同模型背後嘅邏輯、合理性,甚至係唔同數據、現象背後嘅因果關係,而唔係單純嘅統計學數據分析,不求甚解咁追求最準確嘅預測,尤其哩個世界咁多數據,統計學上相關嘅巧合根本多到數都數唔晒^[2]。

^記住相關不蘊涵因果,相關不蘊涵因果,相關不蘊涵因果(correlation does not imply causation)。好重要所以要講三次,好似係

另一方面,communication、數據可視化(data visualisation)都係重要嘅一環。 數據科學家好多時仲要明白同理解哩啲模型所做出嘅決定(至少某種程度上,例如知道邊啲數據影響決定較大),然後透過簡單易明嘅圖像同語言,去講解番畀其他人聽,而唔係當機械學習模型係black-box咁。


今次講到哩度,下次有機會再講多啲人工智能、數據科學嘅嘢。最後,喺2020年嘅最後一日,等小弟送首由AI寫嘅聖誕歌[3],為哩個咁特別嘅一年劃上句號,祝大家假期愉快同新年快樂(雖然聖誕已經過咗lol)!

延伸閱讀:

[1] 《AI大數據沖咖啡 分析時事調節口味》,刊於信報財經新聞「StartupBeat創科鬥室

[2] 偽相關嘅數據例子 https://www.tylervigen.com/spurious-correlations

[3] 《It’s no Christmas No 1, but AI-generated song brings festive cheer to researchers》

https://www.theguardian.com/technology/2016/nov/29/its-no-christmas-no-1-but-ai-generated-song-brings-festive-cheer-to-researchers