模糊元码输入法

http://www.mhym.com

解决中文信息化问题的三大核心技术

作者:吴宗怡(北京)

论战进入这个阶段,谁输谁赢其实不是大家所关心的事了,大家翘首以待的是模糊元码输入法对中文信息化问题所作的贡献究竟是什么?是不是能说出一些道道来?

不错,模糊元码输入法从1999年开始研制,到2004年11月26日止,所有编码理论与规则才真正研究到位,其间整整花了五年的时间,这与王永明先生研制五笔字型所用时间大致相同。

三大创新是:

1、“取大”法则

汉字拆分时,一般情况下可以直观地将其一分为二,并将含首画的部件放在前面,不含首画的部件放在后面。例如:

【jiàn|亻牛|jrn

碰到有几种二分方式时,则按“取大”法则优先取笔画多的拆分结果。例如:

【shǐ|丿天|spt

【shì|丶帀|snz】 “帀zā”同“匝”。

注意千万不要与五笔中的“取大”优先相混同。五笔是要考虑书写顺序的,按书写顺序取最大。模糊元码输入法按认知心理学中的“完形”理论(德国心理学家库勒在19世纪发展起来的理论)作为理论基础,按整体性原则将汉字一分为二,仅在有多种拆分方式时,按“取大”法则优先取含笔画多的拆分结果。

“取大”法则是您进入模糊元码输入法大门的金钥匙,可千万别忘了时时带在身边。

例如:

章→音十→zyi

孔子曰:十为最大的数,表示结束,一个乐章的结束代表一“章”。

2、取补分散

元码是老祖宗们定死的,在自然状态下,编码在各键分布是极不均匀的,这必然致使编码“冷热不均”的现象,并导致编码任务较重的键,如:z、s、y等键中重码偏高。世界上阴和阳总是相互矛盾又相互补充的。元码的不均,可以用闲之不用的韵母首键(a、o、e、i、u、v)分散重码。这就是取补分散。

见到“上三山长羊”类,就打“a”,见到“水竖川与雨”类,就打“u”,其余类推。例如:

上→a、三→一二→ah、王→三丨→wau……

25个补码字是经过反复计算制定的,虽然有一定程度的“吴宗怡制造”的痕迹,但这只是前人没有定,有我来定的问题,因为,没有它们,重码将会有33%那么高。

补码技术让您真正享受低重码所带来的打字乐趣。

3、部件结构

以上两项技术解决了汉字的拆分和取码定位问题,最后一个问题,也是最重要和最具挑战性的问题是无限数目的部件的归类问题了。

为什么说部件数目是无限的呢?因为汉字除一键字外,都要按“取大”法则一分为二,中国人祖先造了不知多少汉字,因此,理论上讲,二分后出来的“东西”就不知有多少了。

五笔以及所有传统的输入法的一个最显而易见的“信条”是,尽量少用部件,部件少您不就可以少记忆一些吗,似乎就“容易”了。殊不知,汉字中本来就有那么多的部件,您偏偏贴上“王永明制造”或“吴宗怡制造”,用户首先是不是就得了解究竟王永明先生制造什么,否则,若是您自己制造,王永明先生没有制造,您不就抓瞎了吗?还有万一王永明先生制造了哪个“臭虫”,而您没有制造,您是不是还是抓瞎了。

可见,传统的封闭式的编码思维并不是让人容易学,而是让人几乎一辈子也学不通。更有甚者,有限部件类编码思维接着的问题是您不能按汉字本来具有的整体性来拆分汉字,遇到没有被王先生制造的部件,您必须拆分为更小的部件或笔画,这就难以符合《规范》,因为《规范》定义了560个部件,98五笔为什么自找苦吃呢?将部件数目由传统五笔的125个左右增加到了234个,因为,王先生想让五笔成为中国的标准编码,要符合《规范》。可是,这明显是徒劳的,要不就把部件数目增加至560部试试?对于,形码类编码思维,地球人是不堪重负的。

所以说,中文信息化问题就变得老、大、难的世纪难题了,取部件少几个,与《规范》冲突,全部按《规范》来处理,地球上无人能够将其处理的干干净净。于是乎,笔画编码思维开始登场了。

“笔画”先生说,笔画是有限的,取笔画编码不就是可以解决问题了吗?五笔→四笔→三笔→二笔→一笔→○笔……

会写字就会输入汉字,重码经过适当调整,也是可以做到让人满意的,于是,笔画编码者大喊大叫,中文信息化问题彻底解决了。

热闹一阵子,热度就下降了。爱用的人还是寥寥无几,好用的输入法几乎没有。因为,笔画的零零碎碎实在太“丑”了。人人爱“美”,“丑”笔画无人问津。

似乎,中文信息化问题没指望了,许多人又开始梦想语音输入、手写输入……

解决无限部件的键盘定位问题,需要有新的理论,需要有新的思路。

1975年,已故中国科学院院士,上海仪器仪表研究所的支秉彝博士,首先提出具有无限部件的输入法,叫“见字识码”,支先生提出的概念叫“拓朴结构”。可惜,“见字识码”没有“长大”,就夭折了。

之后是五笔“繁荣昌盛”的时代,人们都信奉部件“少”点好,无限部件被人们认为是不可能在键盘中无需记忆就可以解决定位问题的。

殊不知,这个举世称难的问题是有正解的,地球上还有一种方法,可以让人在无需记忆的前提下,处理汉字由拆分而得到的无限部件,这就是模糊元码输入法采用的部件按模糊判断进行归类所形成的部件结构思想。

如果将一类具有类似或相同特征的部件,定义为一个类,按类的发音在键盘中定位,这个问题其实就这么简单地轻易解决了。

鼎→dmv、妻→qpn、衡→hvp、庸→ygp、祭→jvi……

实在是一个奇迹,模糊元码输入法用几个部件结构,就轻易地,干干净净地把无限数目的部件处理的与英文abc天衣无缝,26键正好不多不少地处理全部汉字,包括过去、现在的所有汉字,也包括将来未造的汉字,也包括您将制造的一幅画,一条“臭虫”,都可以处理的干干净净。这真是神奇,这真是令人叹为观止。

中文信息化之路,就在您眼前,关键要您的参与,要您的一份热情,要您的举一反三的智慧,要您的点点滴滴的爱的浇灌和关怀……

在此,我要特别感谢广大元码迷们对模糊元码输入法的关爱,和不计报酬的辛勤劳作,感谢您们在我个人孤独无助时所给予的点点滴滴的爱的奉献。

发表日期:2005-03-20,首发于《五笔爱好者论坛》的《介绍一种优秀的中文输入法》主题中。

版权所有(C)2001-2005  北京首书林文化有限公司 更新:2007年03月20日