詞庫介紹
現代輸入法,我手寫我口——輸入法不只是輸入文字的工具,也是表達與文化的入口。
我們的生活裡,有著形形色色的語言使用方式。不管你是晶晶體的愛用者、熟句四字熟語的表達方式,還是滿口牛逼的用戶——你喜歡的詞,由你自己來決定。
你的文化傾向與需求,由自己來排序。
同樣地,台語與客語的熟語,甚至是日韓漢字慣用語中,每一層每一圈,都有可能是你最親近、最喜歡的說法。這份工作,讓輸入法來替你分擔一點:只需要找到開頭,後面就幫你接完。
Yabomish 不只是基於語料統計來組字,也不只用新聞用語或詞典,來挑選相近的詞組——它還想把文化裡濃縮的那一段接上來,用來表達你心裡熟悉的那一塊小地方。
一般詞庫
一般詞庫是日常打字時最常觸發的聯想來源。它們涵蓋生活用語、文化慣用語、多語詞彙,不限定專業領域。
萌典詞組
| 筆數 | 教育部國語辭典全量詞組 |
| 來源 | 萌典(g0v 社群整理的教育部辭典資料) |
| 授權 | CC0(公眾領域) |
教育部國語辭典的完整詞組,是聯想系統最基礎的一層。輸入任何一個字,萌典都能提供該字開頭的常見詞彙——「台」→「台灣、台北、台中」,「學」→「學生、學校、學習」。
這是最中性、最通用的詞庫,不帶任何風格色彩,適合所有場景。
NER 詞組
| 筆數 | 102,444 實體 |
| 來源 | 中文維基百科,經 ckip-transformers NER 管線抽取 |
| 授權 | CC-BY-SA 3.0 |
從維基百科全文中辨識出的人名、地名、機構名、作品名。高頻的如「中華人民共和國」「臺灣」「日本」,低頻的如「北歐理事會」「亞多米尼史特蕾達」「中國音樂金鐘獎」。
這些是一般辭典不會收錄的專有名詞。打「北歐」能聯想到「北歐理事會」,打「中國音樂」能接出「中國音樂金鐘獎」——讓輸入法認識真實世界的名字。
成語
| 筆數 | 約 33,000 條成語 |
| 來源 | 教育部成語典 |
| 授權 | 政府開放資料 |
教育部成語典的完整收錄,從「一丁不識」到「龍飛鳳舞」。支援 prefix 聯想——打「一不」就能看到「一不做二不休」「一不拗眾」。
成語是中文書寫的骨架,四個字濃縮一個典故。這個詞庫讓你打前兩個字就能補完後面。
晶晶體
| 筆數 | 188 詞條 |
| 來源 | PTT WomenTalk / Gossiping + 台灣社群職場常見用語,自建 |
| 授權 | 自有 |
台灣特有的中英夾雜語體——「先 check 一下」「做 confirm 的動作」「要 sync 一下」「給個 feedback」。
這不是正式英文,也不是正式中文,而是台灣職場和社群裡真實在用的語言。收錄的都是「中文語境中夾帶英文」的用法,不是純英文詞彙。
獨立聯想池,不會和其他中文詞庫混在一起。適合在 Slack、LINE、Teams 裡快速打字的人。
中國流行語
| 筆數 | 3,047 詞條 |
| 來源 | 中國網路流行語整理,簡體→繁體轉換 |
| 授權 | 衍生整理 |
「一顆賽艇」「丈育」「三個呆婊」「一般會社員的大勝利」——中國網路社群的流行用語和梗詞,已轉為繁體。
這些詞在台灣的日常書寫中不常見,但如果你經常接觸中國社群媒體、遊戲圈、或需要理解對岸的網路語境,這個詞庫會有用。預設關閉,需要的人自行開啟。
歇後語
| 筆數 | 14,032 筆 |
| 來源 | chinese-xinhua(中華新華字典) |
| 授權 | MIT |
「做磚的坯子、插刀的鞘子 → 框框套套」「熱臉蛋貼人家冷屁股 → 奴顏媚骨」「做夢坐飛機 → 想人非非」——中式俗民智慧的精華,一萬四千多條。
歇後語的特色是前半句描述一個生動的場景,後半句才是真正要說的意思,常帶諧音雙關。句子偏長、非常口語、充滿生活氣息。這是中國北方民間文學的結晶,風格和台灣俗諺截然不同。
聯想時輸入前半句的開頭幾個字,就能補完整句。
台灣俗諺
| 筆數 | 428 筆 |
| 來源 | 教育部台灣閩南語常用詞辭典 |
| 授權 | 政府開放資料 |
「一人一家代,公媽隨人祀」「一丈差九尺」「恬恬食三碗公半」「春天後母面,欲變一時間」——台灣閩南語的俗諺。
和歇後語相比,台灣俗諺更短、更抽象、更像格言。它們不描述具體場景,而是直接表達一個道理或觀察。用字是閩南語漢字(「恬恬」「食」「毋捌」),帶有強烈的台灣本土語感。
數量不多(428 筆),但每一句都是台灣民間智慧的濃縮。
客語辭典
| 筆數 | 19,570 詞目(六腔去重) |
| 來源 | 教育部臺灣客語辭典 |
| 授權 | 政府開放資料 |
涵蓋四縣腔、海陸腔、大埔腔、饒平腔、詔安腔、南四縣腔六種腔調的客語詞彙,合併去重後近兩萬詞。
這是目前最完整的客語數位辭典資料。對客語使用者來說,打中文時能聯想到客語對應詞彙;對非客語使用者來說,這是認識台灣另一個重要語言的窗口。
台灣地名
| 筆數 | 519 地名 |
| 來源 | 教育部「以本土語言標注臺灣地名計畫」 |
| 授權 | CC-BY 3.0 TW |
台鐵站名和捷運站名,附台語、客語標注。打「板」能聯想到「板橋」,打「左」能接「左營」。
數量不多,但都是台灣人日常會打的地名。
台語學科術語
| 筆數 | 4,553 術語 |
| 來源 | 教育部臺灣台語學科術語 |
| 授權 | CC-BY 3.0 TW |
教育部為台語教學整理的學科術語對照——從「110」(報案專線)到「a 小調音階」到「5W1H」,涵蓋數學、社會、藝術、自然科學等領域。
這是台語教育現代化的成果,讓學科概念有了台語的表達方式。
韓語漢字詞
| 筆數 | 33,414 漢字詞 |
| 來源 | Kengdic(Joe Speigle’s Korean/English dictionary) |
| 授權 | MPL 2.0 / LGPL 2.0+(雙授權) |
韓語中源自漢字的詞彙,附英文釋義——「見地 → a slanting point of view」「今日 → today」「弱點 → vulnerable/weak point」。
韓語有大量漢字詞(한자어),和中文共享字形但意義可能不同。這個詞庫讓你在打中文時看到韓語的對應,適合學韓語的人、或處理中韓翻譯的場景。
日本熟語
| 筆數 | 3,488 組(排除與中文成語重疊的部分) |
| 來源 | MDict 日本語辭典,篩選四字熟語 |
| 授權 | 衍生整理 |
日本獨有的四字熟語——「一期一會」「一世風靡」「一億一心」「一件落着」。
已排除和中文成語典重疊的詞條(如「一石二鳥」),只保留日本特有的用法。適合學日語的人、或喜歡日式表達的使用者。
專業詞典
28 個專業領域詞典,資料來源為國家教育研究院樂詞網(NAER),輔以維基百科高頻詞補充。全部為政府開放資料。
專業詞典預設收合,點擊啟用所需領域。適合特定專業的使用者——醫師開「醫學」、工程師開「資訊」「電機」、律師開「法律」。
分類總覽
商業醫學
| 詞典 | 說明 |
|---|---|
| 商業 | 金融、會計、管理、經濟 |
| 醫學 | 臨床、藥理、病理、護理 |
人文社科
| 詞典 | 說明 |
|---|---|
| 法律 | 法規、判例、條文 |
| 教育 | 教學、課綱、體育 |
| 傳播 | 新聞、媒體、出版 |
| 社會 | 社工、行政、福利 |
| 政府 | 機關、職稱、公文 |
| 藝術 | 視覺、音樂、舞蹈 |
資訊工程
| 詞典 | 說明 |
|---|---|
| 資訊 | 軟體、硬體、網路、AI |
| 電機 | 電機、電子、通訊 |
| 電力 | 電力、電工、能源 |
| 土木水利 | 土木、水利、工業工程 |
| 航太 | 航空、太空 |
| 核能 | 核能工程 |
| 紡織食品 | 紡織、食品、輕工業 |
| 機械 | 機械工程、製造 |
自然科學
| 詞典 | 說明 |
|---|---|
| 數學 | 代數、幾何、統計 |
| 物理 | 力學、光學、計量 |
| 化學 | 有機、無機、化工 |
| 動物生態 | 動物學、生態學 |
| 植物 | 植物學、物種分類 |
| 魚類 | 魚類、水產 |
| 材料 | 材料、礦物、冶金 |
| 農林 | 農林、畜牧、漁業 |
地理軍事
| 詞典 | 說明 |
|---|---|
| 地理 | 地質、氣象、測繪 |
| 外國地名 | 國教院標準譯名 |
| 海事 | 航海、造船、輪機 |
| 軍事 | 國防、軍語、武器 |
兩岸用詞對照
| 筆數 | 各約 82,000 詞 |
| 來源 | 國家教育研究院 樂詞網(NAER) |
| 授權 | 政府開放資料 |
不是聯想詞庫,而是排序權重系統。當你在「偏好設定」選擇「臺灣用詞」時,對岸的說法(如「軟件」「硬盤」「網絡」)會被降權,台灣的說法(「軟體」「硬碟」「網路」)排在前面,反之亦然。
授權摘要
| 授權 | 適用詞庫 |
|---|---|
| CC0 | 萌典詞組 |
| CC-BY-SA 3.0 | NER 詞組、維基語料、字級 n-gram |
| CC-BY 3.0 TW | 台灣地名、台語學科 |
| MIT | 歇後語(chinese-xinhua) |
| MPL 2.0 / LGPL 2.0+ | 韓語漢字詞(Kengdic) |
| 政府開放資料 | 成語、台灣俗諺、客語辭典、NAER 專業詞典 ×28、兩岸用詞 |
| 自有 / 衍生整理 | 晶晶體、中國流行語、日本熟語 |