|
模糊元码输入法 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
编码语法作者:吴宗怡(北京) 1 前言1.1 介绍 模糊元码输入法是目前唯一一款按编码语法实现中文与西文abc的无缝对接的高级中文输入法。元码输入法具有举一反三的特点,让您学一字通一片,通一片就能一通百通。 1.2 适用范围 本输入法适用于具有一定拼音和汉字基础,且有中文输入效率要求的各类人群。 2 引用标准GF 3001-1997 《信息处理用 GB 13000.1 字符集汉字部件规范》 3 术语与语法3.1 元码(original code) 元码定义为音首(b、p、m、f、d、t、n、l、g、k、h、j、q、x、z、c、s、r、y、w、a、o、e),共23键。例如: 吴(wú)→口(kǒu)天(tiān)→wkt 这里,“w”为“吴”的元码,“k”为“口”的元码,“t”为“天”的元码。“wkt”依次是“吴口天”的元码。 3.2 补码(supplementary code) 补码定义为韵首(a、o、e、i、u)及模糊键(v)和重字键(p),共7键。 下列25字及相关部件编码时须舍元码取补码:
见到“上三山长羊”类,就打“a”,见到“水竖川与雨”类,就打“u”,其余类推。现举“山”字为例: 山→丨凵(开口框)→auk “山”的音首是“s”,“山”字的编码的第一键要求移位至韵首“a”。 妇→女彐→fna 互→一彑→hha 补码字的第一键都要求从音首移位至韵首或模糊键(v)和重字键(p)上。 3.3 元码诗(Keyboard Poem) 元码中一键字按abc顺序排列,只是将“o”放在最后,就可组成一首诗:
上不出的这发国, 3.4 部件(components) 由笔画组成的具有组配汉字功能的相对完整的构字单位,叫部件。 元码中,部件由汉字二分后自然形成。 3.4.1 笔画(strokes) 笔画指构成楷书汉字字形的最小连笔单位。按习惯归纳为下列五种:
3.4.2 部件一般情况下按约定俗成的习惯认读。
注:“夂”叫折文,“攵”叫反文;“阝”叫双耳朵,“卩”叫单耳朵,“⺋”叫弯耳朵;“宀”叫宝盖,“冖”叫秃宝盖。另:“”并入“羊”。 3.4.3 部件结构(components structure) 部件结构指具有相同特征的一类部件的总称。元码中15个重要的部件结构如下: ⑴ 模糊对称(v):⺮癶卝夗双北…… 模糊对称指左右或上下相似的一类结构。例如: 鼎→目~→dmv 兹→丬~→zmv(“兹”的上部元码中定义为“米”结构) 丝→~一→ivh(“丝”为25个补码之一,规定要取韵首) ⑵ 部件交重(p):聿禺夬朿巿冘…… 部件交重指两部件交叉重叠的一类结构。例如: 妻→~女→qpn 庸→广~→ygp 寨→宀~木→zbpm ⑶ 有钩组合(o):勹尢冂卂旡…… 有钩组合指有笔画钩的一类结构,通常都没有读音。例如: 句→勹口→jok 周→冂吉→zoj 既→艮旡→jgo ⑷ 一笔串两笔(c):艹卄廾…… 一笔串两笔指一笔画串两笔画的一类结构。例如: 专→卄丶→zcn 戈→卄丶→gcn 书→卄丶→scn 升→丿廾→spc 毛→丿廾→mpc 手→丿廾→opc ⑸ 两笔相交(i):十乂廴…… 两笔相交指两笔画相交的一类结构。例如: 卉→十廾→hic 艾→艹乂→aci 建→聿廴→jpi 左→工→zig ⑹ 一笔串三笔(f):丰韦卅…… 一笔串三笔指一笔画串三笔画,以“丰”字作代表。例如: 带→卅冖巾→dfbj 艳→丰色→yfs 戋→丰丶→jfn ⑺ 两笔相连(l):丁卜丩丆…… 两笔相连指两笔画相连的一类结构。例如: 收→丩攵→slw 面→丆囬→mlh 万→丆乙→wle ⑻ 有戈组合(g):戈弋戋戉…… 有戈组合指有“弋”的一类部件。例如: 代→亻弋→drg 越→走戉→yog 载→车→zgc ⑼ 有止组合(z):止疋疌⺪⻊…… 有止组合指有“止”的一类部件。例如: 捷→扌疌→joz 疏→⺪~→szu 蛋→疋虫→dzc ⑽ 有戊组合(w):戊戍戌成咸臧…… 有戊组合指有“戊”的一类部件。例如: 盛→成皿→swm 感→咸心→gwx 威→戊一女→wwhn ⑾ 土结构(t):土士干千于乇 土结构指“土”变形或旋转后的一类结构。例如: 迁→千辶→qto 志→士心→ztx 宅→宀乇→zbt ⑿ 米结构(m):丬丌…… 米结构指“丬”部件旋转后形成的四个部件。例如: 将→丬夕寸→jmxc 前→丬月刂→qmyd 乍→~→zlm 兴→⺌丌→xxm ⒀ 三横三撇三折三点(a):三彡巛…… 王→三丨→wau 须→彡页→xay 巢→巛果→cag 心→~乚→xae ⒁ 二横二撇二折二点(e):二巜…… 枣→朿~→zpe 勿→勹~→woe 云→二厶→yes 粼→米舛巜→lmve ⒂ “八”旋转(b):八冫丷…… 冰→冫水→bbu 关→丷天→gbt 飞→⺄八→feb 兵→丘八→bqb 部件结构思想充分体现了人类模糊思维的特征,是元码的大手笔之作。 3.5 部件拆分(component disassembly) 将汉字拆分为部件叫做部件拆分。 3.5.1 取大法则(the rule of large first) 元码中汉字拆分的基本思维是将汉字一分为二。汉字二分时,优先取含笔画多的拆分结果(“一大一小”或“一小一大”),并将含首画的部件放在前面,将不含首画的部件放在后面。二分汉字时,元码中不考虑书写汉字的笔画顺序。 例如: 矢→丿天→spt 注:“矢”的另一种二分是“大”,这个二分与“丿天”比较,小的没有“丿”小,大的没有“天”大。 日→囗一→rfh 注:“囗”部件中含了最后一画,从笔画角度看,是不连续的。 3.5.2 细分规则(the rule of further disassembly) 二分后的结构都可以直接用于编码,细分规则将进一步分散重码。
⑴ 上下或左右结构的字,可分。例如:
盟→明皿→日月皿→mrym 程→禾呈→禾口王→chkw ⑵ 部首不分。例如:
集→隹木→jzm(隹,音zhū,短尾巴鸟的总称) ⑶
整字音首和尾字音首相同时,尾字可分。例如: 杈→木叉→木又丶→cmon
注:杈→木叉→cmc,也是合法的编码,在没有重码时也是最好的编码。 3.6 特别说明 ⑴ 《规范》中定义的基础部件字都可以直接拆分为笔画,并按笔画编码。模糊元码输入法中推荐按普通字处理,一律可以二分,以最大限度保持内部一致性。 ⑵ 二分干净的字,二分后都可以直接编码,若重码不理想,应考虑细分问题。 ⑶ “莫、敖、贵、辟”四字推荐按不分字处理。 ⑷ “寨、赛、塞、骞……”等字中间结构可以省略。 ⑸ 下列字处理的不规范:九→je、门→mo、夜→yix。 ⑹ 字典中可以尽量三分或四分,以提高查询输入的速度。 发表日期:2006-10-03(修订) |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
版权所有(C)2001-2005 北京首书林文化有限公司 更新:2006年10月06日 |