2015年3月21日 星期六

20150321_ Big Data Seminar @中山大學


 今日早上 9 : 00 在中山大學一個嶄新的會議室,由日月光主辦邀請了來自南北兩間名校教授,為日月光公司員工及中山大學的學生們介紹,

     What's Big Data ?

首先由清華大學 簡禎富教授 ,為大家分享 結構性數據應用案例 :      

 美國歐巴馬政府在 2014年 5月,大數據白皮書(Big Data : Seizing Opportunities Preserving Values ) 中,將資料』定義為『未來的新石油』,並且勾勒如何抓住機遇,創造最大價值。美國政府認為,一國擁有資料的規模』、靈活性』及解釋運用』的能力,將成為綜合國力的重要成分;更把對資料的占有和控制,視作為』、』、之外的另一種國家核心資產。

  當我們收集回來了,500,000 筆原始數據,經過數據分析後,很可能只有 3,000 筆資料,對我們有及時的幫助;另外 497,000 筆的資料,在某些情況下分析後,還可以探究出部分的幫助。

 資料挖礦大數據分析的問題類型分為:分類、預測、分群、關聯規則



















大數據的特性
巨量(Volume)、變動性(Velocity)、多樣性(Variety) 及真實性(Veracity)

下半場則由中山大學 黃三益教授,為大家分享非結構構化資料探勘與應用 :

    首先,教授為非結構做個定義無法定義細部欄位  、不規則和模糊性  企業裡約有 70~80%的資料是非結構化的資料。

       談論到此,我個人突然走神了。回顧以前帶專案時,總是每週逼著工程師,一定要繳交工作進度回報,若是可以經過大數據收集、分析,也許可以向產線自動化管理般;工程師定期做專案開發進度回報,利用電腦自動追蹤進度,一發現進度未達預期時,可以很即時的呈現在PM的監控螢幕上,讓我可以很即時做一個風險控管,而不需要總是追著工程師問進度。
       
       回來繼續非結構化資料,在數據探勘上,什麼數據來源我們要擷取,首先定義資料來源』及訂定關鍵字找出相關文章』,在訂定關鍵字這裡,我們必須要定義白名單黑名單』,所謂的白名單,意旨什麼數據是我們要的,相反的黑名單則是什麼數據是我們不要的,舉例針對日月光』公司,我們做收集輿論探討,而收集過程中,意外擷取到日月光家具公司』,則我們必須要進行增加黑名單做排除

       如何找出文章裡的情緒,分別是正面負面情緒詞,形容詞 好、壞、舒適及難過;動詞喜歡、討厭;名詞:門神、走路工。針對不同領域,正負面的情緒詞,意義很可能是相反,是我們必須要注意的:

 例如:股票昨天飆高
    昨天血壓飆高

         最後教授與大家分享一個現實的案例,還蠻值得我們在做服務的人省思,過年時期,他們家族要來高雄遊玩,老師以在地人主動推薦一間哨船頭的住宿,然而,他大姊最後卻是選擇
康橋商旅,原因是因為他大姊在網路上並沒有看到哨船頭住宿的評價,而是看到康橋商旅的許多正面上的評價。

         對此,我心有感觸的,希望盡快告訴正在搞服務的朋友,盡可能的定期到大家常去的論壇,挖掘是否有正面的評價。若是遲遲沒有評價,很可能是什麼環節出了問題,也或是我們與大眾們保持的距離實在是太遠了,應該好好思考如何改進,如何的拉近彼此關係。

   



沒有留言:

張貼留言