第一個運用人工智慧解析網路輿論詞彙,預測產業趨勢,發現新詞與了解網路熱詞的大數據應用技術

研究方法

i-Buzz 輿情機器人為利用公開的網路語料進行資料探勘,語料來源包含:新聞、論壇、社群粉絲專頁。並依據內容,將之歸於相應的產業,予以分析產業輿情。故此研究以字詞為出發點,分析內容由字詞構成,初步使用機率模型概念篩選後,輔以AI機器學習的方式,探索產業語料之熱詞、新詞、趨勢詞。

熱詞

在單一產業情境下,統計產業語料詞彙使用次數。計算之詞彙不包含一般狀態下無意義的文字,例如:代名詞、助詞、網頁既定格式之文字、超連結、標點符號、使用者ID等。

新詞

分析各個中文字共同出現的頻率/機率,探索因應網路討論各種語境中的衍生的新詞彙。此研究方法,跳脫一般研究者思維,不引入外在需要人為詮釋的變數。藉由觀察中文字使用情形,設計專屬詞頻統計量,藉由假設檢定,選擇資料中,可能組成詞的固定單字組合為「候補詞」。經過求證後,確定有此用法且不存在於現有詞庫的單字組合,即為「新詞」。

趨勢詞

分析詞彙於不同時間區段內之變化量。此方法是考慮不同時間下,詞彙本身與環境互動因素,並修正和詞彙使用不相關的因素,得出當前討論趨勢呈現為上升的詞,即為「趨勢詞」。