我也来评测中文输入法(一)

曾有幸看到 Vocaloid 词人内木一郎氐大作我学中文输入法。显然,作者作这个系列或许着意于回击其自认杂乱无章的呒虾米氐拥众之批判仓颉。不过,至于主战场在内地啇所谓「万码奔腾」即社会争相研制输入法啇时期,作者恐未曾听闻;而 Rime「中州韵」引擎风靡及所谓「语圈」膨胀所致啇又一次「万码奔腾」,则与作者氐志趣恐怕相隔不知多少鸿沟了。

我七年来一向在用五笔字型,除借用他人设备屡次不顺外,未曾对输入法有很深感受。更早的记忆,则只有用全拼敲入一句幽灵每周食用一个姓男童云者时,被呵斥不要一次输入整句——尽管整句输入作为机器学习课题当时已付诸实践了,父辈们氐印象却几乎均停留在智能 ABC 氐年月。

的确,时代变了。许多人印象中全拼氐一家独大,其实已悄然成为过去。双拼、注音、中世语、方言、仓颉、郑码、希顶字母……只要想得到,总有若个乖戾的人在用。输入法创制也竟从近乎幼稚的标准化理想,骤然转至近乎极端的全盘个性化。当然,多几种输入法用一定是好事,且内木一郎口中输入法氐相轻与营销也因输入法繁多而自动贬值,善莫大焉。

因此,今日重提输入法评测,个中如内木般啇批判活动最好完全舍弃,而以实证性研究、案例研究代之。这立场是符合比较法的。另一个目的则是反思:内木在大谈拆字,然而彼时我只有前几周真在拆字,此后数年虽然生僻字仍能拆,但常用字与词组已几乎全数肌肉记忆了。看内木蝦米族說只要『多看多練』就可,不免感叹这种冲着输入法制造原则本身啇否定亦需多加探讨。

因此,我决定开展这个项目。

仓颉

内木一郎首推氐仓颉输入法,我在上面「幽灵」句之前实已知晓,但当时只看到几张拆分例图,如堕五里雾中,也未能详查。如今在维基教科书看了教程,首先感到辅根位置虽然皆有形变关系,但并非终南捷径,有时仍须记住位置,或至少记得存在这个辅根。114 个字根可谓相当少了,然而习惯键位仍旧困难:我总认为「竹」在 T 键,「木」在 S 键等,而「女」因五笔同在 V 键,就省了事,哈。这种转捩纵使内木认为理所应当,诸多小语种学习者仍为之掣肘,难怪有人推荐用拟音键位(亦称助记键)输入语,我也还要靠拟音键位打语了。

「首尾首尾尾」取码,是内木认为仓颉编码最讲究者,其奏效建基于区分字形之处主要在外围,与四角号码暗合。事实上,机械年代中文输入法氐雏形明快打字机亦是在左上和右下两角各取一码。退一万步讲,传统书写字面率小,中宫紧缩,特征藏在中间确实不地道。「四角号码」式编码自然要忽略笔顺,如此编码与笔顺无关,故而视觉思维者可直接想象整个字形,可省去复现书写过程啇时间1

内木以为取码规则和小字根使仓颉显得难用,但我发现非然。其实简单的总是一般规律,困难的总是特例或特别规则。如「八」上方视作连接,「亠」下方视作断开(我所用码表又以「兴」为整体字,与「亠」下断开不相类),只能以权宜解释。而「夜」「威」等字取码异于我书写习惯时,虽无可辩驳亦足以沮丧。

不免意料之外的是,简体重码率稍大。不难想象,部件减少后,区分字形之处主要在外围这一假设大打折扣。这不意味着简体汉字有失自然性,而是在同样自然的整个文字体系中,仓颉更易处理其中较复杂者,因其与主创未曾言明啇假设更相符。

  1. 笔顺是将二维图形一维化啇方式之一,但其实仓颉规则不过是另一种。有人仅因不用虑及笔顺,就说仓颉易于打怪字,未免轻率。此论常以 biang 类字或隶定过渡态字举例,此时笔顺确实不利,但「鹿」之类错综的笔画,仓颉则只好求助于「难」X 键了。事实上,这只能算特例,于汉字系统而言影响甚小,因为汉字毕竟不够二维化呐。