全文檢索筆記 – Lucent.Net (4) 詞庫校正

體會過自動分詞(一元分詞、二元分詞)與詞庫分詞的特性差異，但是到目前為止有個問題一直被忽略，我測試用的詞庫直接下載自網路，內容是簡體中文，拆解精準度大有問題。

以 CWSharp 詞庫分詞為例，使用 Github 下載的 cwsharp.dawg 詞庫檔分析這句中文「競選活動已日趨白熱化，參選人莫不全力尋求廠商支援，其中以鄭少秋勝算最大。」，使用 Luke.net 查看分詞結果如下:

雖然還是能查到關鍵字，但分詞結果並不好，幾乎都拆成單一字元，跟一元分詞沒什麼兩樣。這意味詞庫命中率極低，其根本原因在於我們用的詞庫是簡體。將原文換成簡體 - 「竞选活动已日趋白热化，参选人莫不全力寻求厂商支持，其中以郑少秋胜算最大。」再測一次即可看出差異。大部分的動名詞都被挑出來，連人名「鄭少秋」都能被識別成單一詞彙，這才是應有的結果:

由此可知，直接用簡體字庫僅能命中簡繁體用字相同的詞彙，準確率有限，要有效解析繁體中文內容，詞庫必須轉成繁體，或更進一步改用繁體專屬詞庫。在此以 CWSharp 為例，示範如何轉換及製作詞庫。CWSharp 使用名為 DAWG(Directed Acyclic Word Graph) 的檔案格式保存詞庫(其查詢效率狂勝清單及二元樹，參考)，DAWG 是由詞彙清單及字元頻率表轉換而成，Github有簡體範例詞庫的原始檔 – cwsharp.dic, cwsharp.freq，以及轉換程式範例。

借用 NuGet 可得的微軟簡繁轉換元件 ChineseConverter將簡體轉成繁體，就能轉換出繁體中文版詞庫檔 - cwsharp-tw.dawg。

staticvoid BuildDawgFile()

            var rootPath = ".\\DAWG";

            var wordUtil = new WordDict();

//加载默认的词频

using (var sr = new StreamReader(rootPath + @"\cwsharp.freq", Encoding.UTF8))

string line = null;

while ((line = sr.ReadLine()) != null)

if (line == string.Empty) continue;

                    line = ChineseConverter.Convert(line, //簡體轉繁體

                        ChineseConversionDirection.SimplifiedToTraditional);

                    var array = line.Split(' ');

                    wordUtil.Add(array[0], int.Parse(array[1]));

//加载新的词典

using (var sr = new StreamReader(rootPath + @"\cwsharp.dic", Encoding.UTF8))

string line = null;

while ((line = sr.ReadLine()) != null)

if (line == string.Empty) continue;

                    line = ChineseConverter.Convert(line, //簡體轉繁體

                        ChineseConversionDirection.SimplifiedToTraditional);

                    wordUtil.Add(line);

//保存新的dawg文件

            wordUtil.SaveTo(new FileStream(".\\cwsharp-tw.dawg", FileMode.Create));

改用 cwsharp-tw.dawg 重測，大部分詞彙就被正確識別出來了!

理論上，詞庫愈專業愈完整愈貼近檢索文章的用語習慣，建立索引及搜尋效能愈好。中研院有數萬甚至百萬筆等級的中文詞庫，堪稱最完整最權威的來源，不過它們不是開放資料，需考量授權可用性與成本。採 CC 3.0 授權的教育部國語辭典，則是另一個專業且可行的來源。需記住一點，詞庫分詞真要做到犀利精準，不可能單靠現成詞庫，看的是長期養成培育的功夫，持續補充新名詞(例如: 比特幣、聖結石)，不斷學習及優化，是條不歸路。

考量飼養詞庫的成本，若全文檢索非網站的核心價值所在，文件數不多且對搜尋效能要求不高，二元分詞(索引及效率較一元分詞稍好)會是較省事的選擇。

全文檢索筆記 – Lucent.Net (4) 詞庫校正

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本