汉字输入法专利技术迎来新一轮挑战

发布时间:2019-08-29 16:51:15


  4月16日上午9时,号称“中国输入法第一案”的搜狗起诉腾讯QQ拼音输入法案在北京市第二中级人民法院第二次开庭审理。从数月之前 起诉开始,此案一直为社会广泛关注,其中的重要原因之一是,该案涉及的是实现人机对话的重要工具——汉字输入法技术。

  王码五笔、郑码五笔、极品五笔、智能ABC输入法、搜狗拼音输入法、腾讯QQ拼音输入法……近30多年来,随着电子计算机技术的快速发展和普及,从寥若晨星到繁花似锦,汉字编码输入法技术发展到今天可谓是百花齐放,百家争鸣。

  在汉字输入法技术方面,由于市场利益之争而引发纠纷的事件间有发生。从王码专利诉讼、郑码专利纠纷、自然码与T9输入法的争端,到近来的搜狗与腾讯拼音输入法之争,专利纠纷几乎与汉字输入法的发展相随相伴,也在一定程度上扩大了其知名度。

  据不完全统计,截至目前,已申请中国专利的汉字输入法技术有上千种之多。在实用价值、潜在市场利益等因素驱动下,汉字输入法专利技术的竞争日趋激烈。但是,在对技术方法和技术路线的选择上,业内对汉字输入法未来的发展走向一直存在争议。

  汉字输入法进入百家争鸣时代

  从20世纪70年代末开始,汉字输入法技术随着电子计算机的应用和推广而逐渐为人们所重视。

  西方的文字由字母组成,而且其使用键盘打字机已有很长的历史,因此计算机输入没有障碍。而汉字是方块字,每个字都不同,而且中国人也没有使用键盘的传统,因此计算机的汉字输入问题成为计算机在中国普及和发展的一大门槛。“如果过不了汉字输入这一关,在信息时代不仅无法使用计算机,而且汉字是否能继续存在下去还是个未知数。”汉字输入法“五笔字型”专利技术发明人、北京王码公司董事长王永民在接受中国知识产权报记者采访时表示。

  一项技术的发展,总是在不断更新换代中实现,回首汉字输入法技术的发展历程也是如此。1978年,上海电工仪器研究所工程师支秉彝创造了一种“见字识码”汉字输入法,并被上海市电话局采用,从而率先使计算机的汉字输入进入了实用阶段。“见字识码”用26个拉丁字母进行编码,以4个拉丁字母表示一个汉字。这种编码方案建立在字音和字形的双重关系上,见字就能识码、见字就能打码,不必死记硬背。由于每个汉字的字码是固定的,这就给计算机码的存储和软件的应用带来很大方便。这种编码曾得到一定程度的应用,为建立中文计算机网络和数据库打开了大门,并使建立在电子计算机基础上的照相、排版、印刷的自动化得以实现。

  在业界众多专家看来,汉字输入法的发展经历了3个阶段。第一阶段从1978年开始,针对计算机信息输入的数以千计的汉字编码方案相继问世,这一阶段产生的汉字编码方案增加了词组、联想等功能,输入方式以词为主,大大提高了输入速度。

  第二阶段是从1995年开始,智能化输入技术取得很大进展,并出现了一些成果。智能化输入技术,只需将欲录入的汉字转换成汉语拼音,然后逐字连贯地输入由拼音组成的序列,系统则会一一排除同音字的干扰,在屏幕上显示出要表达的汉字,实现整句输入。如人名和地名一经“提醒”,就能“记忆”起来,并能存储用户的每一次纠正。原来由人记忆的大部分内容都改为由计算机来承担,使其有学习、记忆和判断的功能。在这期间,从字、词输入,到实现整句输入,一个汉字的平均击键次数为两次左右。有人做过这样的比较,同样内容的文本,中文输入比英文输入要少击键30%左右,也就是说,同样的击键速度,中文的录入速度要比英文快。另外,在语音输入、手写体输入等方面,这些年也取得了一定的成绩,识别率也达到了相当高的水平,但目前它们还只是计算机汉字输入的一些辅助手段。从语音识别、文字识别、机器翻译、语义理解等方面的研究水平及其目前已投放市场的产品来看,都离人们所期望的目标相差甚远。

  第三阶段,即目前不断优化的阶段,亟需可将不同汉字输入法的优势集于一身的输入方法,尚处于探索中。

  尽管汉字输入方案众多,但能够被广大用户所接受、得到普遍推广的只有为数不多的几种。一项专门对输入法使用者的调查显示,五笔字型输入法使用者为51%,双拼输入法使用者占32%,全拼输入法使用者为24%,其他大多数输入法的使用者不超过10%。这充分表明,影响广泛、为业界普遍公认并真正达到普及的汉字输入法,是由王永民发明的“五笔字型”输入法。1984年9月,,达到每分钟输入120个字的速度,每个汉字及词组的输入最多需4键。从此,计算机的汉字输入问题得到了有效解决。此后,汉字输入技术的发展越来越快,但都是利用西文电脑键盘为汉字编制代码,输入代码就相应完成了汉字的输入。

  随着计算机技术的发展,越来越多的发明人投入到汉字输入法技术的研发中来,一时间“万码奔腾”,为汉字输入法技术的研发增添了活力,也使该技术得到了快速发展,极大方便了信息时代的社会需求。1983年“五笔字型”输入法问世,1987年“智能ABC”输入法诞生,分别奠定了形码和声码的基础。

  近年来,随着计算机技术的普及、集成电路的大规模应用,微型电脑、手机等小巧、方便的电子设备逐渐走进大众,因此,汉字输入法的需求也有了新的变化,社会呼唤着适应这一新变化的汉字输入法的出现。许许多多的研发者对此进行了不懈的探索。以王永民为例,他在“五笔字型”输入法的基础上,推出了“数字王码”,只需0到9十个数字,就可实现汉字输入,为手机等微型设备的汉字快速输入提供了新的途径。此外,他历时6年、投入1000多万元资金最新研发的“大一统五笔字型”不仅包含和覆盖以前的3种五笔字型,还新增了25项新功能,可输入2.7533万个简体和繁体汉字,成为目前常见的高级五笔字型软件。尤其值得骄傲和自豪的是,“五笔字型”被授予2007年度国家技术发明奖,这是在我国近千种汉字编码技术中,唯一获得国家技术发明奖的输入法技术。

  相关专利技术亟待重大突破

  从1985年4月1日提交第一件汉字输入法技术中国专利申请以来,汉字输入法技术专利申请多年来一直呈现快速增长态势。

  4月30日,记者在国家知识产权局官方网站的“专利检索”系统中,以“汉字输入法”为检索词,检索到与汉字输入有关的专利申请1031件,其中发明专利1020件、实用新型专利8件、外观设计专利3件。

  这上千件的汉字输入法专利技术,主要可分为形码、声码和形声码,以及少量的手写板输入法、语音输入法。五笔字型就是形码,它把汉字分解为若干字根,分别由字母代表;声码则是根据汉语拼音制作的编码,如搜狗和腾讯QQ拼音输入法都属于这一类;形声码是把形码和声码的特点结合起来,将字根转换成拼音进行编码。此外,手写板输入法虽然使用容易,但因为输入速度慢,推广较为缓慢;而语音输入法对地域辽阔、方言众多的我国来说,也还有很多尚待解决的问题。因此,目前使用较为普遍的是以“五笔字型”输入法为代表的形码和以拼音输入法为代表的声码编码输入法。

  原最高人民法院副院长李国光认为,把汉字编码方法与该编码方法所使用的特定键盘相结合,作为计算机系统处理汉字的一种计算机汉字输入方法或者计算机汉字信息处理方法,使原来不能运行中文汉字的公知计算机系统能够以汉字信息为指令,产生出若干新的功能,以至能实现生产过程的自动化控制或者办公系统的自动化管理,那么,这种计算机汉字输入方法或者计算机汉字信息处理方法属于可给予专利保护的客体。对于这种由汉字编码方法与该编码方法所使用的特定键盘相结合而构成的计算机汉字输入方法的发明专利申请,在说明书及权利要求书中应当描述该汉字输入方法的技术特征,必要时,还应当描述该输入方法所使用键盘的技术特征,包括该键盘中对各键位的定义以及各键位在该键盘中的位置等。

  翻阅这些专利技术文献,记者发现其呈现出几个显著的特点,即申请人基本来自国内,且个人申请占有绝对比例,近10年来的申请量显著高于以往,而且同期对手机的汉字输入法技术专利申请量占有比例逐渐增多。例如,专利申请号为96101649.3的“一种将汉字输入计算机的方法”说明摘要为:是用0至9十个阿拉伯数字分别代表汉字的十类特征笔形;按照从上到下、从左至右、从外向内的采码顺序,对汉字进行直接编码,编制出由1至6个数字组成的数码,然后用计算机键盘上0至9的数字键输入计算机。本发明的编码方法直观、简单、十分易学,且重码率在2%以下。本汉字输入法只用数字键输入汉字,既便于盲打,也利于计算机的微型化。

  有关专家认为,从已申请专利的汉字输入法技术来看,我国汉字输入法中,具备较强的基础理论的为数不多,虽然专利申请的数量较多,但近似的技术方案不少,这也是导致纠纷的根源之一。同时,由于很多技术方案的优势与缺点都较为明显,所以很多方法成为来去匆匆、昙花一现的“过客”。

  时至今日,汉字输入法技术专利申请的创造性要求也在“水涨船高”。1990年申请的一件名称为“普及型六笔二维汉字编码及键盘”的发明专利申请经实质审查,在1993年3月由国家知识产权局专利局作出了驳回决定。驳回理由为,该申请尽管与现有技术相比,采用笔画数不同,字根数量不同,以及其他某些形式上的区别,但与现有技术相比不具有突出的实质性特点。之后,申请人向国家知识产权局专利复审委员会提出复审请求。1998年,经过修改后的权利要求书满足了有关要求,在国家知识产权局专利复审委员会支持下,该专利最终被授权。

  有关专家认为,随着计算机汉字输入方法的发展,其发明目的早已不仅仅是为了能够利用计算机实现汉字的输入及处理,而是为了能够优化拆字规则和输入步骤,合理分配键位,从而达到易学易记、输入快捷高效、重字率较低的技术效果,因此与对待其他类型的发明专利申请一样,一项计算机汉字输入方法发明相对于现有技术是否取得了上述方面的预料不到的技术效果也是创造性判断中的一项辅助性判断基准。

  2001年,在由中国工程院主办的“20世纪我国重大工程技术成就”评选中,共评出了25项重大工程技术成就,包括汉字输入法技术在内的“汉字信息处理与印刷革命” 仅次于“两弹一星”,居第二位。“汉字输入法填平了中国人使用计算机的技术鸿沟。”中国工程院院士、中国中文信息学会理事长倪光南在接受中国知识产权报记者采访时表示,在上世纪60年代到70年代,计算机和汉字之间横着一条鸿沟;到了上世纪80年代到90年代,这个问题基本上得到了解决;现在,计算机和汉字之间的鸿沟已经填平,计算机处理汉字就像处理拼音文字一样方便。如今,计算机进入了中国的千家万户,成为人人都可使用的工具,倪光南认为,汉字处理在其中发挥了重要的作用。

  截至今年3月底,我国已有7.8亿手机用户,但80%以上的手机嵌入的汉字输入技术都是国外的技术和专利,每年国产手机为此支付的专利费高达数亿元。据业内人士介绍,这些技术主要为美国的T输入法和加拿大的Z输入法,国产输入法市场占有率不足20%。究其原因,主要是一种汉字输入法技术要从专利走向市场,需要数百万乃至数千万的费用投入,而国内的技术发明人一般都没有这个实力;此外,国内的专利风险投资机制尚未完全建立。专家认为,从目前的市场情况来看,假如将发展汉字输入法按纯商业模式去运作,以盈利为唯一目的,将很难有大的成就,在一定程度上,还需要有关部门给予支持。

  汉字输入法创新在争议中前行

  与任何学术研究一样,汉字输入法在研发十分活跃、为使用者带来极大便利的同时,对于其发展方向的争议也不可避免。

  王永民认为,汉字不能走拼音化道路。他解释说,“拼音输入法”,实际上正裹挟着汉字在“拼音化道路”的迷途上前行。这是一个值得各界警惕的新动向。“拼音输入法”虽源于“汉语拼音方案”,但两者不是一个概念。“汉语拼音方案”的贯彻,为推广普通话、规范统一汉字的读音,发挥了划时代的作用。然而,汉字和汉语拼音的“主-辅”关系是早有定论的。而且,“拼音输入”的错误率是“字形输入”的9倍。在数字方式的字形编码输入法、查字法研究成功并达到实用化程度的今天,我们必须大讲特讲“拼音输入法”危及汉字生命的严重性,必须大力强调和重点推广那些科学实用、符合规范、依照“字形”和“笔画”编码的汉字输入法,将“拼音输入法”逐步淡而化之,至少不能使之愈演愈烈。无论在字母键上或在数字键上,均应大力提倡“形码输入”,使其成为主流。他建议,“形码输入”应当成为中小学生的基础素质和必备技能,应当尽快将依照字形对汉字编码的输入法和检索查字法,纳入中小学和对境外汉语教育的基础教学之中,使人们每输入一个字,每查一个字,就等于巩固一次书写。

  而国家语言文字工作委员会原主任许嘉璐认为,汉字输入法研究起点要高,要避免在低层次上投入力量,比如对基于拆分汉字的键盘输入编码方案的发明、研制可以止矣,用不了多久就可望解决的智能化汉语拼音输入方法,说不定将独霸天下,一般键盘编码输入方法将逐渐科学地、有说服力地被淘汰。

  当然,其中也不乏一些中和的观点。国家智能计算机中心的一位专家认为,中国计算机用户最缺的就是好的汉字输入方法。现在看来,笔画输入、语音输入、容错拼音流中任何一项技术的突破性进展,都会对人机界面的自然语言化产生深远的影响。

  语言文字是社会交流的工具。中国是世界文明发源地之一。其他文明发源地的文字,如两河流域苏美尔人的楔形文字、尼罗河流域古埃及的圣书字、美洲的玛雅文字,都已成为历史的陈迹。唯独中国的汉字“长生不老”,青春永在。在6000多年时间里,汉字的演变过程经历了声、形、象、数、理5个阶段的变化,从甲骨文、金文到篆、隶、楷、行书,每一次都是一次划时代的革命,推动着社会、经济和文明的发展。

  目前,互联网已成为人们生活、工作、学习不可或缺的工具,正对社会生活的方方面面产生深刻影响。电子商务、网络广告、网络游戏、搜索引擎等互联网产业市场规模同比增长均超过20%,而这一切都离不开汉字输入技术。4月22日,工业和信息化部发布的数据显示,截至今年一季度末,中国互联网网民网民总数达到4.04亿人,中国社交网站的用户群达到1.91亿人,如此众多的人们,几乎每时每刻都在进行着人机对话,能够实现对话的,还是汉字输入技术。正因如此,汉字输入技术的发展始终牵挂着众多的人心,牵动着产业的神经,伴随着文明的脉搏在跃动。

  “汉字输入法是一项伟大的发明。”倪光南认为,它推动了计算机产业体系的发展。只要大力增强自主创新能力,中国一定能建立自主的计算机产业体系,中国计算机学科和产业将会在世界上占有一席之地。倪光南指出,实践将会证明,中国能够做价廉物美的高技术产品,而且是基于自主的核心技术和知识产权。(知识产权报 记者 赵建国)