今日早上 9 : 00 在中山大學一個嶄新的會議室,由日月光主辦邀請了來自南北兩間名校教授,為日月光公司員工及中山大學的學生們介紹,
What's Big Data ?
首先由清華大學 簡禎富教授 ,為大家分享 結構性數據應用案例 :
美國歐巴馬政府在 2014年 5月,大數據白皮書(Big Data : Seizing Opportunities Preserving Values ) 中,將『資料』定義為『未來的新石油』,並且勾勒如何抓住機遇,創造最大價值。美國政府認為,一國擁有資料的『規模』、『靈活性』及『解釋運用』的能力,將成為綜合國力的重要成分;更把對資料的占有和控制,視作為『陸』、『海』、『空』權之外的另一種國家核心資產。
當我們收集回來了,500,000 筆原始數據,經過數據分析後,很可能只有 3,000 筆資料,對我們有及時的幫助;另外 497,000 筆的資料,在某些情況下分析後,還可以探究出部分的幫助。
資料挖礦與大數據分析的問題類型分為:分類、預測、分群、關聯規則。
大數據的特性:
巨量(Volume)、變動性(Velocity)、多樣性(Variety) 及真實性(Veracity)
下半場則由中山大學 黃三益教授,為大家分享非結構構化資料探勘與應用 :
首先,教授為非結構做個定義:無法定義細部欄位 、不規則和模糊性 企業裡約有 70~80%的資料是非結構化的資料。
談論到此,我個人突然走神了。回顧以前帶專案時,總是每週逼著工程師,一定要繳交工作進度回報,若是可以經過大數據收集、分析,也許可以向產線自動化管理般;工程師定期做專案開發進度回報,利用電腦自動追蹤進度,一發現進度未達預期時,可以很即時的呈現在PM的監控螢幕上,讓我可以很即時做一個風險控管,而不需要總是追著工程師問進度。
回來繼續非結構化資料,在數據探勘上,什麼數據來源我們要擷取,首先『定義資料來源』及『訂定關鍵字找出相關文章』,在訂定關鍵字這裡,我們必須要定義『白名單』、『黑名單』,所謂的白名單,意旨什麼數據是我們要的,相反的黑名單則是什麼數據是我們不要的,舉例針對『日月光』公司,我們做收集輿論探討,而收集過程中,意外擷取到『日月光家具公司』,則我們必須要進行增加黑名單做排除。
如何找出文章裡的情緒,分別是正面及負面情緒詞,形容詞 :好、壞、舒適及難過;動詞:喜歡、討厭;名詞:門神、走路工。針對不同領域,正負面的情緒詞,意義很可能是相反,是我們必須要注意的:
例如:股票昨天飆高
昨天血壓飆高
最後教授與大家分享一個現實的案例,還蠻值得我們在做服務的人省思,過年時期,他們家族要來高雄遊玩,老師以在地人主動推薦一間哨船頭的住宿,然而,他大姊最後卻是選擇
康橋商旅,原因是因為他大姊在網路上並沒有看到哨船頭住宿的評價,而是看到康橋商旅的許多正面上的評價。
對此,我心有感觸的,希望盡快告訴正在搞服務的朋友,盡可能的定期到大家常去的論壇,挖掘是否有正面的評價。若是遲遲沒有評價,很可能是什麼環節出了問題,也或是我們與大眾們保持的距離實在是太遠了,應該好好思考如何改進,如何的拉近彼此關係。
沒有留言:
張貼留言