合作共赢,灵云开发者社区筑梦HCI

来源:中国云南热线    日期:2013-07-23   

CTI论坛记者专访捷通华声董事长张连毅   

记者:王丽娜    

    当盲人无法看到手机短信,却可以听取这些信息;当老年人看不清手机按键,却可以通过说来对手机下达“命令”;当司机在驾驶过程中为保证安全,通过收听语音播报获得叫车信息…… 

    那么是什么,给我们的生活、工作带来了这些实实在在的便捷?不得不说,它们是包括语音合成、语音识别、光学字符识别、手写识别等技术在内的智能人机交互(HCI)技术。 

    如果说智能人机交互技术是继键盘、鼠标、触控技术之后的人与计算机交互的一种全新的手段,你是否会有一些感动,为这种高新技术带来的全新体验而感动。或许,随着技术的不断成熟,不但人们使用计算机及移动智能终端的方式将得到全面颠覆,智能人机交互技术也将广泛深入到各行各业中去。 

    近日,CTI论坛记者采访到北京捷通华声语音技术有限公司(以下简称“捷通华声”)董事长张连毅先生。张连毅对于智能人机交互技术怀揣了多年的梦想、热衷于技术的不断完善与进步、一步一个脚印深耕于HCI这块儿土地。就是他,用执着两个字将所有的坚持与热情一带而过,换来一个智能人机交互技术应用更加广阔而开放的时代。

    智能人机交互技术锦上添花 

    张连毅涉足智能人机交互技术可以追溯到90年代初,当时致力于推进中国汉字印刷体识别系统商品化进程;到90年代末,智能人机交互技术掀起了一股光学字符识别的热潮,而捷通华声也是在此时正式成立的;到现阶段,各项智能人机交互技术成熟度都大幅提高,相互支撑,达到了一个融合状态。“相对来讲,可以说目前智能人机交互技术初步进入一个百花齐放、全面发展的阶段”张连毅说。 

    实际上,张连毅个人本身的工作经历也见证了智能人机交互技术的起起伏伏。所以,他对智能人机交互技术也有着深刻的理解:“乐视智能电视增加了语音点播,汽车导航可以听新闻、给某某打电话,完成这些功能的就是HCI技术,这就促进了产业升级。当我们认同产业的变革,智能人机交互技术起到的作用就是锦上添花。” 

   “HCI技术使得人和机器的距离拉近了,但如果抛开这个表象之后,实际上我们并没有改变什么。HCI技术是为内容服务的。” 

    为了更好地为内容服务,一直以来,捷通华声潜心研究智能人机交互技术,张连毅讲到,“HCI技术具有旺盛的生命力,这种旺盛的生命力来自于需求、来自于技术的不完美。因为不完美,所以人们不断提出新的要求,不断去提升它的性能、指标, 从而成为可持续发展到动力。而捷通华声务实、低调的氛围,助力实现这种可持续性发展。”

    新技术将重构社会,HCI助力发展 

    “一个全新时代的大幕才刚刚拉开,云、移动、大数据这些技术蓬勃发展,新的商业模式也初现曙光。当我们把所有用户的行为和需求汇集到一块去的时候,整个社会都将被技术的发展所重构。”张连毅引用百度大数据首席架构师林仕鼎的话来展开他的观点与想法。 

    在他看来,云计算势如破竹撞击着传统产业,移动互联网改变着人们生活工作的方式,大数据让整个世界变得更加有规律可循,而智能人机交互技术虽然没那么轰轰烈烈,但它却悄然地在人们的生活、工作中助力着这几大板块的应用。 

    “当今HCI进入一个相对成熟的阶段,大众对它也日益了解,无论移动互联网、大数据、云计算,其实和HCI都是息息相关的。”张连毅认为,这几项新兴技术与HCI技术之间具有相互作用的关系,他分析到: 

    首先,移动互联网及智能终端的普及,使得运用HCI技术的广泛应用成为可能,并深入到每个人的生活当中;反过来,HCI技术同时也助力了移动互联网的发展。 

    其次,作为灵云云服务平台,所研究的是怎么才能实现大家对HCI的应用,怎么才能实现灵云能力的共享。答案是通过云计算能力实现。云计算使得智能人机交互技术的服务能够满足everybody希望使用HCI技术的需求。 

    再次,对于大数据,如果没有大数据,语音识别技术不一定能够得到突破。比如说,语音识别需要对语音语料进行训练。过去可能是两三百小时,现在轻则两三千小时,重则上万小时;过去的原始文本语料有几个GB就很了不起,现在都可以以TB来计算了。无论是成千上万的语音语料、还是基础的的文本语料,都属于大数据。由此可以看出,大数据助力智能人机交互技术性能的提升。 

    云计算、大数据、移动互联网,甚至是HCI技术,彼此相互交融,正是这种技术的发展,在悄然地改变着人们的生活。

    灵云开发者社区打造合作共赢局面 

    顺应时代的变化发展,为了将自身优质的资源向合作伙伴全部敞开,打造一个合作共赢的局面,捷通华声灵云平台开发者社区面向开发者,全面开放语音识别、语音合成、手写识别、OCR等HCI技术能力。 

    “灵云开发者社区将改变原有商业合作模式,全面开放SDK,需要开发者做的只是简单地注册而已。”张连毅表示,全面开放灵云能力,目的是推广HCI技术的应用,他这样说: 

    首先,对于开发商及企业,希望通过使用灵云能力,能够提高企业产品品质和技术创新能力,使产品的应用性更强、更有趣。例如,嘀嘀打车,使用的便是捷通华声的语音合成技术。 

    其次,对于个人开发者,捷通华声希望激发民众之中的创意,让他们的创意能够通过应用HCI技术得益于实现,从而服务于大众、服务于社会。 

    所以,对于灵云开发者社区,对于不同的点有不同的期许,但核心本质是希望大家都能够了解、掌握、应用HCI技术,使得灵云开发者社区更加大众化,开启一个HCI全面开放的时代。 

    灵云开发者社区为打造一个合作共赢的局面,张连毅同时也强调:“也希望通过商业模式同从事同一领域的企业加强合作,把更多的HCI技术如人脸识别、指纹识别、声纹识别、虹膜识别等生物特征识别技术纳入到灵云平台来。” 

    为与合作伙伴建立合作共赢的关系,捷通华声多年来都遵循着自己的原则,张连毅肯定地讲到:“捷通华声非常尊重合作伙伴,绝不和用我们技术的企业或行业抢生意,这是我们一直以来的信念。” 

    “当然,捷通华声也希望塑造自己的品牌,但这种塑造是按照尊重产业发展规律的方式、尊重合作的商业规则来实现的。捷通华声希望加强一些宣传方面的规范,如在合同中要求:需要在厂商产品或者界面上,显示相关HCI技术由捷通华声提供。” 

    为深刻认识HCI技术的一些应用,捷通华声首先运用灵云能力为自己开发了“捷通知道”这样一个智能客服系统。智能客服的核心是自然语言处理技术。通过对一定数据的处理,把一些共性问题提取出来。随着技术的发展,智能客服在呼叫中心的应用将会越来越广,“将逐渐成为呼叫中心领域的一个‘配件’、一个功能模块。” 

    之所以要做“捷通知道”,张连毅说:“一个好的产品一定要具有一定的通用性。作为设计者、开发者,我们必须抓住灵云智能客服系统的本质,从而更好地为企业服务。而‘捷通知道’本身具有对捷通品牌宣传的特点,起到提高企业形象、促进企业宣传、提升企业规范化建设的作用。”

    大力推进HCI发展,从容应对竞争挑战 

    捷通华声近期设立了启动资金1000万元的“灵云HCI技术合作发展基金”,据张连毅介绍,“灵云HCI技术合作发展基金”的意义重在合作交流,主要用于以下几个方面:对内,在技术研发方面,通过专有资金来支持技术的突破、提升;对外,加强与学术界、同行及高校的合作,拓展在应用层面上的合作开发。同时,将一部分基金扶持一些公益性、学术性的交流活动。而对于一些为盲人等弱势群体开发的软件,捷通华声也非常愿意并曾经免费提供HCI技术支持。“其实这些事情我们多年以来一直都在做,只是现在更加规范化而已。”张连毅说。 

    而随着技术的发展进步,参与到智能人机交互技术研发的不再仅仅是一些专业化的企业,一些大型的互联网公司出于自身的利益也已经或将要参与进来,这就无形之中增加了不少强势的竞争对手。因此,从某种意义上来说,HCI技术将面临一个多元化的产业竞争格局。 

    对此,张连毅分析到:“智能人机交互技术是一场马拉松,是一个长期的过程。智能人机交互技术没有最好,只有更好,不会形成绝对的垄断。你可以做到在一个阶段领先,能够对市场起到强势的领导地位,但一旦落后,很快就会被甩到后面。所以说,HCI技术是一项长期的技术,本身并不完美,只要你把它做的更好,就会有一定的市场空间。” 

    毫无疑问,任何一个市场都是机遇和风险并存,如何来应对是一个大问题。从根本上来讲,相信只要把自己的事情做好,肯定是没有错的。 

    借用学环境出生的张连毅的一句话,或许让我们对事物的认识更加积极、更加理性。“任何事物的发展都有规律可循,相信不久的将来,随着国家更加强大,中国的任何一条河流都会重新变得清澈,任何一片天空都会重现晴朗。 ” 

   而对于开放的灵云智能人机交互技术平台,相信未来也会形成一个健康、成熟的产业生态圈,为人们带来更加简单便捷的生活和体验。

    事物源于“简单”,也将归于“简单”。 

    关于张连毅:北京捷通华声语音技术有限公司董事长。1989年获得清华大学环境工程系学士学位。1992年,与清华大学吴佑寿、丁晓清教授合作,推进汉字印刷体识别系统(OCR)商品化进程。1992年底至1998年6月赴美学习、工作。1998年8月归国创建北京捷通软件技术有限公司,2000年与吕士楠、顾小凤教授共同创建北京捷通华声语音技术有限公司。 

    发展中,坚持“开发有价值的产品,培养有价值的人,创建有价值的企业”,专注发展中文语音合成技术,在中文语音技术领域与国内外企业展开力量悬殊的激烈竞争中,最终捷通华声不但赢得了技术、市场,也赢得了国际语音界的尊重。 

    捷通华声取得立足中文语音技术市场之后,提出以“技术为核心,服务为己任,技术服务生活”的发展新思路,领导企业全面整和语音、手写等智能人机交互技术(HCI)力量,2011年,在国际云服务领域推出首个感知云—灵云,带领捷通华声进入企业规模化发展的全新阶段。 
 

来源:CTI论坛