与机器对话

2018年1月26日文章 

Sprachsteuerung

“Siri,今天天气怎么样?”“好的,Google,把音乐调小点!”“Alexa,再帮我订一双那款蓝色运动鞋!”这些听从于语言的技术化身为语音助手,早已成为我们日常生活的一部分。语音控制之所以能顺畅工作,要得益于其背后运行着的复杂的软件程序。若要正确解读所发出的指令,众多准备工作、高性能计算机、以及人工智能均不可或缺。

人脑可以不费吹灰之力地解读一个简单的要求、一条短句。也就是说,人脑可以建立起逻辑关联,并相应地作出反应。但这对机器而言要复杂百倍。若想通过语音去控制技术设备,必须经历若干步骤。

识别与解读语音

“给我一支铅笔!”这样一句简单的指令,背后的计算机处理流程却十分复杂。首先,要将发出的语音指令转换为文本。只有借助频率模板,语言识别软件才能确定指令中包含哪些词语,并克服诸多挑战:譬如模糊的发音,同音异义词,不同的音调或方言。浩瀚的数据库中储存了大量的双关语及其频率模板,通过与数据库进行比对,软件能够判断当前出现的是哪些词。

下一步是推断句义。为此,软件要将文本发送至语言界面,界面会根据特定关键词来审核文本。在准备阶段,程序员必须确定并定义所有重要的概念与指令——即所谓的目的——以及它们的近义词,以应对每一次不确定的任务。例如发出“给”这个指令时,对应的是将一个物体传送至某个具体的位置。“我”一词则被理解为某个人、或某个行为的目的。

人工智能可以找到最优解

当语言界面识别出句义时,将会出现一个所谓的环境对象:借助一个软件代码可以实现对设备的操控。为了给机器下达一个无歧义的命令,需要使用另一个软件所配备的“人工智能”技术。人工智能可以分析语境对象的内容,并同时通过不同的传感器收集关于设备位置与环境的信息。软件中包含许多针对不同解决途径所设置的模块,它们分别对应某种指定的行为。综合所有信息,程序将建立一个指令,例如抓臂该如何运动以及往哪个方向运动,然后将指令发送给设备操控系统。传感技术能够识别铅笔在书桌的哪个位置,以及机器要采取何种路线才能拿起它,并将之递给某个人。此外,软件还能逐渐学习哪条解决路径对当前行为而言是最优解,并在下一次处理这一行为时运用这个知识。

以上所有复杂的流程必须在转瞬间进行,因为人希望机器能够作出迅速且必须正确的反应。经过三十余年的应用,语音识别在一定程度上能够运行得当。但在我们能与机器像与邻居一般自如流畅地交流之前,还需要对机器的语音控制展开众多研究与发展。

至于费斯托公司如何在仿生学习网络的一项全新设计中运用语音控制技术,这一谜底将在2018年的汉诺威博览会上揭晓。敬请期待!