人脑可以不费吹灰之力地解读一个简单的要求、一个短句,建立起逻辑关联,并对其作出响应。但对机器而言,这一过程要复杂百倍。要想通过语音去控制技术设备,必须经历若干步骤。
“给我支笔!” 这样一句简单的指令,背后的计算机处理流程却十分复杂。首先,要将这句语音指令转换为文本。在通过频率模式识别指令词语的过程中,语言识别软件必须要克服诸多挑战,例如模糊的发音、同音异义词以及不同的音调或方言等。通过将这些词语与存有大量词汇示例及对应频率模式的庞大数据库进行比对,判断出指令使用的具体词语。
下一步是推断句子的含义。为此,语言识别软件会将文本发送至语言接口,语言接口会核对其是否含有特定关键字。在此之前,编程人员必须事先确定所有必要的术语与命令(称为“意向”)以及它们的同义词,并定义其指向的行为。例如,“给”会被识别为将一个物体传送至某一特定位置的请求,而“我”一词则会被理解为“给”这个动作的对象,即某个人或目标。
一旦语言接口识别了句子的含义,就会提供上下文对象,即设备控制系统所需的软件代码。为了给机器下达一个清晰的指令,人工智能现在要开始使用其他软件。这个软件可以分析上下文对象的内容的同时通过不同的传感器收集关于设备位置与环境的信息。软件中包含许多模块,其中存有指定给特定动作的不同解决方案。
程序综合所有这些信息构建一条命令(例如,机械手臂该如何运动以及向哪个方向运动),然后将命令发送给设备控制器。传感器技术会根据命令识别铅笔在书桌上的具体位置,以及机器要采取何种路线才能拿起它,并将其递给某个人。软件逐渐学习适合各种动作的最佳解决方案,并在下一次做动作时加以运用。
所有这些复杂的流程必须在转瞬间完成,因为人类希望设备能够迅速作出正确响应。经过三十年的应用实践,语音识别功能已然相对稳定,但要让人类与机器像与邻居一般自如交流,在机器语音控制方面还有很多的研究与开发工作要做。