元码输入法

http://www.mhym.com

论信息熵之原理在汉字编码中的应用

作者:吴宗怡(北京)

1、信息熵之概念

信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。

熵的概念源自热物理学。

假定有两种气体a、b,当两种气体完全混合时,可以达到热物理学中的稳定状态,此时熵最高。如果要实现反向过程,即将a、b完全分离,在封闭的系统中是没有可能的。只有外部干预(信息),也即系统外部加入某种有序化的东西(能量),使得a、b分离。这时,系统进入另一种稳定状态,此时,信息熵最低。

热物理学证明,在一个封闭的系统中,熵总是增大,直至最大。若使系统的熵减少(使系统更加有序化),必须有外部能量的干预。

2、汉字编码中的信息熵问题

汉字经由拆分形成编码元素,我们叫其为部件。部件是汉字拆分后所形成的。由于汉字的数目理论上是无限的,因此,拆分后所形成的部件也是无限的。汉字编码中的一个主要问题是解决部件与键盘abc的一一对应问题,其实质就是如何将众多的部件归入abc中。

若没有约束条件(前提)的话,这个问题可以轻易得到解决。例如:

按首画定位或按前二画定位,这样,众多部件都可以按此排序,只要定义相应的键位,问题也就算解决了。

再如,若众多部件都有发音的话,按音排序,也可以轻易解决这个问题了。

如此看来,若仅仅是为解决编码,而不要求别的约束条件的话,这将是一个简单的问题了。随着约束条件的增加,问题就会变得困难了,以至于变成一个世纪难题了。

有哪些约束条件呢?

⑴ 编码最终是人使用的,因此,一个基本前提就是兼容人们已有的对汉字的认知习惯。(此谓贴近人心——习俗。——苦主语)。

⑵ 不能将汉字支解的零零碎碎,应服从汉字本身具有的整体性和层次性的要求。(此谓贴近汉字的原始状态。——苦主语)

⑶ 尽量不改变西文abc的原始含义。(此谓不改动键盘自然定义:a=a。——苦主语)

⑷ 除以上三条外,还有最重要的一条就是效率。击键次数要少、重码要低。(错字少——效率一也;能记住字的写法——效率二也;不用专门背诵和练习就能上机且在短时间就能达到准专业的水平——效率三也!——苦主)

⑸ 处理所有已定义与未定义的(指将来或过去定义)全部汉字或符号。此谓不留死角,不留遗憾。

…………

在以上限制条件下,将众多部件有序化,使信息熵最低的解将是中文信息化的正解。

3、传统编码思维的缺陷

传统的编码思维如拼音、五笔、表形、笔画等等都不能同时满足以上约束条件,因此,只能说是解决了问题的一个方面而已。传统编码思维都有如下缺陷:

⑴ 只是强调一个侧面。例如:拼音强调易学,但不好用;五笔强调效率,但门槛较高;表形思维强调部件与abc的相象,但只能解决一小块问题。笔画强调简单,但是不能维护汉字的整体性要求。

⑵ 都是封闭式的。封闭式指有限部件,或取10个、125个、234个……。封闭式的编码思维的两个明显的缺点是:一是要知道已定义和未定义的界线;二是 肢解未定义的部件。

⑶ 都只是对汉字编码,对符号普遍有困难。

4、元码思维的实质

元码思维将是中文信息化的必由之路了。它可以在全部满足以上约束条件下,实现真正的中文信息化。

那么,何谓元码思维呢?

元码思维指以一个核心概念为中心的模糊判断。例如:

“两笔相连l”:丩丄丆丅……

核心概念是两笔画连在一起,除以上列举的几个部件外,边缘还有什么部件是模糊的(即外延是模糊的)。

那么,这种边缘模糊的特征好不好用呢?结论是很好,其实质正是汉字部件归类的有效方法。接上例:

亥→亠~ 人→hllr

由此可见,元码思维是开放的,可以处理无限数目的部件,并且可以充分维护汉字本身具有的整体性和层次性。实践表明,元码输入法的各项指标都充分满足了以上5种约束条件。

发表日期:2005-04-13

版权所有(C)2001-2005  北京首书林文化有限公司 更新:2008年07月10日