🦐 Yabomish MANUAL
第 11 章

📚 詞庫介紹

詞庫介紹

現代輸入法,我手寫我口——輸入法不只是輸入文字的工具,也是表達與文化的入口。

我們的生活裡,有著形形色色的語言使用方式。不管你是晶晶體的愛用者、熟句四字熟語的表達方式,還是滿口牛逼的用戶——你喜歡的詞,由你自己來決定。

你的文化傾向與需求,由自己來排序。

同樣地,台語與客語的熟語,甚至是日韓漢字慣用語中,每一層每一圈,都有可能是你最親近、最喜歡的說法。這份工作,讓輸入法來替你分擔一點:只需要找到開頭,後面就幫你接完。

Yabomish 不只是基於語料統計來組字,也不只用新聞用語或詞典,來挑選相近的詞組——它還想把文化裡濃縮的那一段接上來,用來表達你心裡熟悉的那一塊小地方。


一般詞庫

一般詞庫是日常打字時最常觸發的聯想來源。它們涵蓋生活用語、文化慣用語、多語詞彙,不限定專業領域。


萌典詞組

筆數教育部國語辭典全量詞組
來源萌典(g0v 社群整理的教育部辭典資料)
授權CC0(公眾領域)

教育部國語辭典的完整詞組,是聯想系統最基礎的一層。輸入任何一個字,萌典都能提供該字開頭的常見詞彙——「台」→「台灣、台北、台中」,「學」→「學生、學校、學習」。

這是最中性、最通用的詞庫,不帶任何風格色彩,適合所有場景。


NER 詞組

筆數102,444 實體
來源中文維基百科,經 ckip-transformers NER 管線抽取
授權CC-BY-SA 3.0

從維基百科全文中辨識出的人名、地名、機構名、作品名。高頻的如「中華人民共和國」「臺灣」「日本」,低頻的如「北歐理事會」「亞多米尼史特蕾達」「中國音樂金鐘獎」。

這些是一般辭典不會收錄的專有名詞。打「北歐」能聯想到「北歐理事會」,打「中國音樂」能接出「中國音樂金鐘獎」——讓輸入法認識真實世界的名字。


成語

筆數約 33,000 條成語
來源教育部成語典
授權政府開放資料

教育部成語典的完整收錄,從「一丁不識」到「龍飛鳳舞」。支援 prefix 聯想——打「一不」就能看到「一不做二不休」「一不拗眾」。

成語是中文書寫的骨架,四個字濃縮一個典故。這個詞庫讓你打前兩個字就能補完後面。


晶晶體

筆數188 詞條
來源PTT WomenTalk / Gossiping + 台灣社群職場常見用語,自建
授權自有

台灣特有的中英夾雜語體——「先 check 一下」「做 confirm 的動作」「要 sync 一下」「給個 feedback」。

這不是正式英文,也不是正式中文,而是台灣職場和社群裡真實在用的語言。收錄的都是「中文語境中夾帶英文」的用法,不是純英文詞彙。

獨立聯想池,不會和其他中文詞庫混在一起。適合在 Slack、LINE、Teams 裡快速打字的人。


中國流行語

筆數3,047 詞條
來源中國網路流行語整理,簡體→繁體轉換
授權衍生整理

「一顆賽艇」「丈育」「三個呆婊」「一般會社員的大勝利」——中國網路社群的流行用語和梗詞,已轉為繁體。

這些詞在台灣的日常書寫中不常見,但如果你經常接觸中國社群媒體、遊戲圈、或需要理解對岸的網路語境,這個詞庫會有用。預設關閉,需要的人自行開啟。


歇後語

筆數14,032 筆
來源chinese-xinhua(中華新華字典)
授權MIT

「做磚的坯子、插刀的鞘子 → 框框套套」「熱臉蛋貼人家冷屁股 → 奴顏媚骨」「做夢坐飛機 → 想人非非」——中式俗民智慧的精華,一萬四千多條。

歇後語的特色是前半句描述一個生動的場景,後半句才是真正要說的意思,常帶諧音雙關。句子偏長、非常口語、充滿生活氣息。這是中國北方民間文學的結晶,風格和台灣俗諺截然不同。

聯想時輸入前半句的開頭幾個字,就能補完整句。


台灣俗諺

筆數428 筆
來源教育部台灣閩南語常用詞辭典
授權政府開放資料

「一人一家代,公媽隨人祀」「一丈差九尺」「恬恬食三碗公半」「春天後母面,欲變一時間」——台灣閩南語的俗諺。

和歇後語相比,台灣俗諺更短、更抽象、更像格言。它們不描述具體場景,而是直接表達一個道理或觀察。用字是閩南語漢字(「恬恬」「食」「毋捌」),帶有強烈的台灣本土語感。

數量不多(428 筆),但每一句都是台灣民間智慧的濃縮。


客語辭典

筆數19,570 詞目(六腔去重)
來源教育部臺灣客語辭典
授權政府開放資料

涵蓋四縣腔、海陸腔、大埔腔、饒平腔、詔安腔、南四縣腔六種腔調的客語詞彙,合併去重後近兩萬詞。

這是目前最完整的客語數位辭典資料。對客語使用者來說,打中文時能聯想到客語對應詞彙;對非客語使用者來說,這是認識台灣另一個重要語言的窗口。


台灣地名

筆數519 地名
來源教育部「以本土語言標注臺灣地名計畫」
授權CC-BY 3.0 TW

台鐵站名和捷運站名,附台語、客語標注。打「板」能聯想到「板橋」,打「左」能接「左營」。

數量不多,但都是台灣人日常會打的地名。


台語學科術語

筆數4,553 術語
來源教育部臺灣台語學科術語
授權CC-BY 3.0 TW

教育部為台語教學整理的學科術語對照——從「110」(報案專線)到「a 小調音階」到「5W1H」,涵蓋數學、社會、藝術、自然科學等領域。

這是台語教育現代化的成果,讓學科概念有了台語的表達方式。


韓語漢字詞

筆數33,414 漢字詞
來源Kengdic(Joe Speigle’s Korean/English dictionary)
授權MPL 2.0 / LGPL 2.0+(雙授權)

韓語中源自漢字的詞彙,附英文釋義——「見地 → a slanting point of view」「今日 → today」「弱點 → vulnerable/weak point」。

韓語有大量漢字詞(한자어),和中文共享字形但意義可能不同。這個詞庫讓你在打中文時看到韓語的對應,適合學韓語的人、或處理中韓翻譯的場景。


日本熟語

筆數3,488 組(排除與中文成語重疊的部分)
來源MDict 日本語辭典,篩選四字熟語
授權衍生整理

日本獨有的四字熟語——「一期一會」「一世風靡」「一億一心」「一件落着」。

已排除和中文成語典重疊的詞條(如「一石二鳥」),只保留日本特有的用法。適合學日語的人、或喜歡日式表達的使用者。


專業詞典

28 個專業領域詞典,資料來源為國家教育研究院樂詞網(NAER),輔以維基百科高頻詞補充。全部為政府開放資料。

專業詞典預設收合,點擊啟用所需領域。適合特定專業的使用者——醫師開「醫學」、工程師開「資訊」「電機」、律師開「法律」。

分類總覽

商業醫學

詞典說明
商業金融、會計、管理、經濟
醫學臨床、藥理、病理、護理

人文社科

詞典說明
法律法規、判例、條文
教育教學、課綱、體育
傳播新聞、媒體、出版
社會社工、行政、福利
政府機關、職稱、公文
藝術視覺、音樂、舞蹈

資訊工程

詞典說明
資訊軟體、硬體、網路、AI
電機電機、電子、通訊
電力電力、電工、能源
土木水利土木、水利、工業工程
航太航空、太空
核能核能工程
紡織食品紡織、食品、輕工業
機械機械工程、製造

自然科學

詞典說明
數學代數、幾何、統計
物理力學、光學、計量
化學有機、無機、化工
動物生態動物學、生態學
植物植物學、物種分類
魚類魚類、水產
材料材料、礦物、冶金
農林農林、畜牧、漁業

地理軍事

詞典說明
地理地質、氣象、測繪
外國地名國教院標準譯名
海事航海、造船、輪機
軍事國防、軍語、武器

兩岸用詞對照

筆數各約 82,000 詞
來源國家教育研究院 樂詞網(NAER)
授權政府開放資料

不是聯想詞庫,而是排序權重系統。當你在「偏好設定」選擇「臺灣用詞」時,對岸的說法(如「軟件」「硬盤」「網絡」)會被降權,台灣的說法(「軟體」「硬碟」「網路」)排在前面,反之亦然。


授權摘要

授權適用詞庫
CC0萌典詞組
CC-BY-SA 3.0NER 詞組、維基語料、字級 n-gram
CC-BY 3.0 TW台灣地名、台語學科
MIT歇後語(chinese-xinhua)
MPL 2.0 / LGPL 2.0+韓語漢字詞(Kengdic)
政府開放資料成語、台灣俗諺、客語辭典、NAER 專業詞典 ×28、兩岸用詞
自有 / 衍生整理晶晶體、中國流行語、日本熟語