「搞錯重點啦!」數據科學應該係咁先啱

(credits: Tom Fishburne @marketoonist.com)

數據科學(data science)作為近年最火熱、人人趨之若鶩嘅行業工種,已經好迅速咁走入不同公司,甚至開始成為佢哋不可或缺,核心決策嘅其中一部分。各行各業所有公司(甚至表面上嗰太相關嘅coffee shop?[1])都玩埋一份,驚死被人淘汰、飲咗頭啖湯,趕唔到呢班人工智能、大數據社會嘅快車,包括某所謂国際都會嘅政府創科局。不過就好似當年嘅科網股熱潮,直到而家為止,真正能夠成功嘅唔多,好多都「革命/轉營」失敗,或搞到不倫不類,只係做一堆「掛羊頭賣狗肉」嘅所謂AI/數據科學項目(八段錦AI app?)。

點解會咁嘅呢?要明白背後原因,小弟認為要先探討一個,喺數據科學非常重要,但成日被人忽略,好少人提及嘅問題:「究竟數據科學項目要成功,最重要關鍵的一環係乜呢?」


數據科學嘅關鍵

(credits: Tom Fishburne @marketoonist.com)

不論行業、公司大小,(學術)研究抑或實際應用項目,喺數據科學projects入面,數據科學家同技術部門,常常會問下面哩啲問題:

「應該用/學乜嘢工具或數據模型呢?」、「點先可以將模型結果嘅預測準繩度(或者其他相關嘅量度標準)提高,好似由0.7升到0.9呢?」

而項目同財政/商業部門主管,就會關注

「最有成本效益同『容易快捷』建立到嘅相關人工智能/數據模型係乜?」、「點先可以將市場/AI研究最新、最先進嘅工具或模型,擺落公司projects度呢?」

等等。

冇錯,哩啲問題都係數據科學projects,常常會問,實際而且重要嘅問題。不過哩堆問題,唔見得一定係project嘅重點,項目成功與否嘅關鍵。事實上佢哋甚至仲有可能係會令公司、團隊分心,無關痛癢嘅問題,尤其如果你唔清楚了解project本身嘅目的,冇長遠嘅策略規劃,好似連project本身為乜,想解決或解答乜嘢學術/商業問題都搞唔清。


數據科學旅程=行/爬山

數據科學project就好似爬山咁,要去到山頂,一樣需要規劃同好多準備功夫、工具,亦有好多唔同方法(好似選擇路線)。哩啲冇錯都好重要。不過哩啲嘢就等同爬山咩?做好萬全準備,花時間預備最好嘅行山工具、行程同各種方案去應付唔同情況,甚至係訓練身體,模擬實際情況等等,哩啲又係唔係爬山嘅目的呢?

(source:https://www.istockphoto.com/vector/mountain-peak-gm1135481871-302083060)

答案好明顯唔係啦!另外單純咁將登頂睇做主要單一目的,又啱唔啱呢?就咁睇,與其真係用腳徒步去登頂,行比較需要體力、難度高,甚至需要手腳並用嘅路線,還不如行條簡單啲嘅山徑,又或者甚至去揸車,搭公共交通好似纜車咁,去山頂仲「輕鬆快捷」。冇錯,就咁表面睇,搭車/纜車的確好似係最簡單方便、最有「成本效益」嘅上山頂,到上面睇風景嘅方法。不過咁真係爬山嘅目的咩?

事實係如果你諗深一層,就算以登頂呢個結果而言係冇分別,不過徒步爬山同搭車登頂,根本就係兩樣嘢,完全唔同嘅體驗嚟。「走捷徑,捨難取易」(某國際城市嘅人最鍾意,好似係),就咁睇好似好正確,不過事實係反而會冇咗仲多。好似比較難嘅山徑,沿途嘅風景通常會靚啲,有更多獨特嘅自然生態;喺個人層面,你亦會少咗鍛練體能、身心,甚至係成長學習,重新認識自己嘅機會。而且哩啲「方便」嘅捷徑,有時反而可能仲貴或需求時間仲耐(例如要考慮埋泊車,多人排隊等等因素),又或者根本一開始就唔存在。即係變相其實徒步爬山,或走難啲山徑,其實先係最快、最有成本效益,甚至係唯一能夠登頂嘅方法。


認清目的同問題本身,先至係關鍵同重點

同人生規劃或研究/商業projects一樣,無論係個人定公司/機構,數據科學嘅旅程的確就好似爬山咁。數據科學嘅真.重點及精髓,應該喺用數據解決或/及解答問題,發掘問題背後嘅故事/真相,而唔係喺相關嘅工具或模型性能/精準度度。而喺商業公司世界,更重要嘅點樣從中俾到有用,幫到公司業務需求嘅嘢或建議。就算你個模型有幾厲害、先進、「前無古人」(好似冇八段錦app咁),用到深度學習/人工神經網絡,又或者方案能夠提升模型性能10-20%,但如果你嘅模型/方案解決(答)唔到想解決(答)嘅問題,提升唔到公司業績或效率,哩一切都係唔重要、冇意義(更何況大部分非技術出身嘅主管或老細,根本就唔會明模型或方案背後嘅技術詳情)。

數據科學project失敗嘅原因,大多喺因為冇明確嘅目的或認清問題本身,又或者團隊部門之間,冇何謂「成功」嘅標準共識

所以認清目的同問題本身,係任何數據科學旅程中,最重要、關鍵嘅第一步,而且係需要時刻重新檢討。哩樣睇落簡單,但其實通常先係最困難,因為除非你本身就有深厚嘅行業領域或公司知識,有同問題相關嘅切身體驗,唔係嘅話,就好需要技術、數據團隊、各部門主管同老細嘅參與同通力合作。要團隊一齊為數據科學projects好好合作,就需要有好嘅公司環境同文化,尊重從數據背後得出嘅建議,並將數據看做重要嘅資產及工具,同有明確同適當嘅(長遠)數據策略,總括即係公司/機構要「數據科學化」。冇哩啲,單單開個部門,組一隊數據科學團隊係遠遠唔足夠。


總結:

數據科學談及探討嘅唔只係數據,更重要嘅係解決/解答手頭上本身嘅問題,就算係簡單到「了解清楚點解最初你需要某堆數據」,都係好關鍵同重要。亦因為咁,數據科學唔應該只係技術或數據部門嘅事,而係應該涉及整間公司企業或機構團隊。


延伸閱讀:

[1] 《根據AI、大數據(?)沖咖啡?淺談乜嘢先係真·數據科學》

[2] 《How To Show Awareness Of The Wider Commercial Impact Of Data Science》https://www.datascienceweekly.org/articles/how-to-show-awareness-of-the-wider-commercial-impact-of-data-science

[3] 《Business and Data Understanding in Data Science Lifecycle》https://medium.com/@srivatsan88/business-and-data-understanding-in-data-science-lifecycle-58f8e0588c66

[4] 《Business and Data Science — Managing Expectations》https://towardsdatascience.com/business-and-data-science-managing-expectations-2e34de8e078e


中文非廣東話版:https://link.medium.com/8hszfyK0Rsb

英文版:https://link.medium.com/wucBHcI0Rsb

Advertisement

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.