根據AI、大數據(?)沖咖啡?淺談乜嘢先係真·數據科學(What is data science?)

(Credits: 《Dilbert》by Scott Adams)

近年,尤其自從幾年前DeepMind研發出「神之一手」,能夠捉圍棋打敗所有職業棋士嘅AlphaGo後,人工智能(artificial intelligence,AI)機械學習(machine learning)、數據科學(data science)、大數據(big data)哩啲就成為咗潮流用語,差唔多所有行業都聽到嘅buzzword。情況就好似10幾年前嘅科網熱潮;或者原子彈冷戰年代,乜嘢都加「原子」兩隻字,又或者而家唔少嘢都加「量子」喺前面咁。

不過事實上,入面有幾多先係真材實料,有幾多其實只係9up吹水呢?真正嘅數據科學、大數據又係指𡁵乜呢?


AI大數據沖咖啡?(AI & Big Data coffee?)

(AI大數據咖啡Preface Coffee,圖擷取自[1])

就好似最近香港有單新聞講有間coffee shop,根據當日嘅時事新聞、天氣等,分析哩堆「大數據」去調節口味,沖出最適合嗰日嘅咖啡[1]。

小弟未有幸幫襯過嗰間coffee shop,唔敢貿貿然妄下判斷,就話佢哋係「咖啡機兄弟」哩類騙局啲friends。不過一杯咖啡沖得好唔好飲,啱唔啱客人心水,好明顯最重要、最關鍵嘅係師傅嘅手勢同咖啡豆嘅質素。當時附近環境嘅溫度、當日新聞頭條等等哩啲數據,好多其實唔太關事,就算有影響,都只會係次要同非常細微。

而且每個人嘅喜好準則唔同,好似有人鍾意天氣凍/熱啲,有人鍾意苦/酸啲;政治上又有黃絲/藍絲、「中立x/中間超人」,唔通喺客人買咖啡前,要做一份詳細個人問卷先?另外「開心」哩樣嘢,本身就好難可以好客觀、準確咁定義到。就好似有人見到「私煙BB」染肺炎死咗會好開心,但有人(?)就會惋惜、悼念。現實係唔存在一套適用於所有人嘅單一標準,去定義一個所謂「開心指數」。

(網上圖片)

如其花錢同時間去研發一個複雜,聲稱用到自然語言處理(Natural Language Processing)*嘅程式,去分析一堆次要或唔太關事嘅數據,其實去培訓師傅手藝、改善工作同coffee shop環境、選取優質嘅原料同鑽研唔同配方仲實際。就算真係用人工智能或大數據嘅話,都應該用嚟分析員工、咖啡豆原材料等,優先同實際過乜嘢用時事新聞、天氣等數據去分析所謂「開心指數」。所以個人認為哩個「AI大數據沖咖啡」多數只係玩綽頭,多過真係實際改善到咖啡品質或口味,增加到營業額。

*自然語言處理簡單講就係將人類語言翻譯成電腦「睇得明」嘅嘢,指用電腦將語言變成有相關意思嘅符號同關係,再根據目的作處理同分析。詳細嘅講解有機會再講。


數據科學同數據分析嘅分別(Difference between data scientists and data analysts

好啦,講咗咁耐,咁究竟乜嘢先算係數據科學或大數據呢?好老實講,始終數據科學/大數據唔係數學或理論物理學範疇,佢哋其實係冇一套統一標準定義。不過小弟都可以用自己現時做𡁵數據科學家(data scientist)嘅經驗,講吓數據科學業界,通常係點界定乜嘢係數據科學。

固名思義,數據科學要做嘅當然係分析數據(data)啦!當中數據可以包括任何範疇,基本上所有你諗得到嘅嘢都可以係數據,好似你講嘅一句說話、去過邊度、上過咩網站等等,尤其係而家哩個digital era。

不過除左分析數據之外,更加重要嘅深入理解同洞悉數據背後嘅意義,建構數學或機械學習模型,去嘗試模擬同作出準確客觀嘅預測,去幫助人類執行,甚至自動化一啲決定(decision making process)。就好似透過你上網嘅行為,去推測你鍾意嘅嘢(甚至係政治取態或價值觀,如強國)。所以識得寫程式,甚至係軟件可以話係必須,另了解整個機械學習運作流程,包括數據點得番嚟、數據清洗(data cleaning/cleansing)、點安全同有效儲存數據等等,都好重要。單純淨係用Power BI、Tableau,甚至Excel等坊間軟件,去分析數據嘅,一般只會叫數據分析師(data analyst)#。

#雖然廣義上嚟講,就咁用Excel執行曲線擬合(curve fitting),都係迴歸分析(regression analysis),係機械學習嘅一種。


數據科學嘅重點係科學(Data science should be “scientific”)

(credits: xkcd #925, https://www.explainxkcd.com/wiki/index.php/925:_Cell_Phones

除左上面講嘅之外,作為(前)物理學家,個人覺得「真.數據科學」要叫得「科學」,當然仲需要包含自然科學嘅精神喺入面。即係要(至少某種程度上)理解唔同機械學習演算法(algorithms)同模型背後嘅邏輯、合理性,甚至係唔同數據、現象背後嘅因果關係,而唔係單純嘅統計學數據分析,不求甚解咁追求最準確嘅預測,尤其哩個世界咁多數據,統計學上相關嘅巧合根本多到數都數唔晒^[2]。

^記住相關不蘊涵因果,相關不蘊涵因果,相關不蘊涵因果(correlation does not imply causation)。好重要所以要講三次,好似係

另一方面,communication、數據可視化(data visualisation)都係重要嘅一環。 數據科學家好多時仲要明白同理解哩啲模型所做出嘅決定(至少某種程度上,例如知道邊啲數據影響決定較大),然後透過簡單易明嘅圖像同語言,去講解番畀其他人聽,而唔係當機械學習模型係black-box咁。


今次講到哩度,下次有機會再講多啲人工智能、數據科學嘅嘢。最後,喺2020年嘅最後一日,等小弟送首由AI寫嘅聖誕歌[3],為哩個咁特別嘅一年劃上句號,祝大家假期愉快同新年快樂(雖然聖誕已經過咗lol)!

延伸閱讀:

[1] 《AI大數據沖咖啡 分析時事調節口味》,刊於信報財經新聞「StartupBeat創科鬥室

[2] 偽相關嘅數據例子 https://www.tylervigen.com/spurious-correlations

[3] 《It’s no Christmas No 1, but AI-generated song brings festive cheer to researchers》

https://www.theguardian.com/technology/2016/nov/29/its-no-christmas-no-1-but-ai-generated-song-brings-festive-cheer-to-researchers

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.