Dylan House: 20150321_ Big Data Seminar @中山大學

　今日早上 9 : 00 在中山大學一個嶄新的會議室，由日月光主辦邀請了來自南北兩間名校教授，為日月光公司員工及中山大學的學生們介紹，

What's Big Data ?

首先由清華大學簡禎富教授，為大家分享 結構性數據應用案例 :

　美國歐巴馬政府在 2014年 5月，大數據白皮書(Big Data : Seizing Opportunities Preserving Values ) 中，將『資料』定義為『未來的新石油』，並且勾勒如何抓住機遇，創造最大價值。美國政府認為，一國擁有資料的『規模』、『靈活性』及『解釋運用』的能力，將成為綜合國力的重要成分；更把對資料的占有和控制，視作為『陸』、『海』、『空』權之外的另一種國家核心資產。

　當我們收集回來了，500,000 筆原始數據，經過數據分析後，很可能只有 3,000 筆資料，對我們有及時的幫助；另外 497,000 筆的資料，在某些情況下分析後，還可以探究出部分的幫助。

　資料挖礦與大數據分析的問題類型分為：分類、預測、分群、關聯規則。

大數據的特性：
巨量(Volume)、變動性(Velocity)、多樣性(Variety) 及真實性(Veracity)

下半場則由中山大學黃三益教授，為大家分享非結構構化資料探勘與應用 :

首先，教授為非結構做個定義：無法定義細部欄位、不規則和模糊性企業裡約有 70~80%的資料是非結構化的資料。

談論到此，我個人突然走神了。回顧以前帶專案時，總是每週逼著工程師，一定要繳交工作進度回報，若是可以經過大數據收集、分析，也許可以向產線自動化管理般；工程師定期做專案開發進度回報，利用電腦自動追蹤進度，一發現進度未達預期時，可以很即時的呈現在PM的監控螢幕上，讓我可以很即時做一個風險控管，而不需要總是追著工程師問進度。

回來繼續非結構化資料，在數據探勘上，什麼數據來源我們要擷取，首先『定義資料來源』及『訂定關鍵字找出相關文章』，在訂定關鍵字這裡，我們必須要定義『白名單』、『黑名單』，所謂的白名單，意旨什麼數據是我們要的，相反的黑名單則是什麼數據是我們不要的，舉例針對『日月光』公司，我們做收集輿論探討，而收集過程中，意外擷取到『日月光家具公司』，則我們必須要進行增加黑名單做排除。

如何找出文章裡的情緒，分別是正面及負面情緒詞，形容詞 ：好、壞、舒適及難過；動詞：喜歡、討厭；名詞：門神、走路工。針對不同領域，正負面的情緒詞，意義很可能是相反，是我們必須要注意的：

　例如：股票昨天飆高
　　　　昨天血壓飆高

最後教授與大家分享一個現實的案例，還蠻值得我們在做服務的人省思，過年時期，他們家族要來高雄遊玩，老師以在地人主動推薦一間哨船頭的住宿，然而，他大姊最後卻是選擇
康橋商旅，原因是因為他大姊在網路上並沒有看到哨船頭住宿的評價，而是看到康橋商旅的許多正面上的評價。

對此，我心有感觸的，希望盡快告訴正在搞服務的朋友，盡可能的定期到大家常去的論壇，挖掘是否有正面的評價。若是遲遲沒有評價，很可能是什麼環節出了問題，也或是我們與大眾們保持的距離實在是太遠了，應該好好思考如何改進，如何的拉近彼此關係。