语音识别技术的应用场景有多广阔？何时会迎来应用爆发？

乌鸦小编

摘要：语音技术的应用范围有多广，市场有多大，场景有多广？只需要试想一下未来的哪些电器设备可以智能化，但凡智能化的地方都会用到语音识别技术。

乌鸦部落注：当既有的趋势即将进入增长乏力的高原期时，技术界永远都会拼命地去寻找下一个大趋势。于是可穿戴技术、VR/AR以及语音、AI技术纷纷被炒作起来。以Amazon Echo和Google Home为标志的语音应用无疑是今年的大趋势之一。但是这种语音UI能否成为下一个大平台呢？A16Z的合伙人Ben Evans认为也许还没有那么快，语音的应用可能要经历一条漫长的U型曲线才能迎来真正的应用爆发。

语音是今年技术的大事件。Amazon大概已经卖出了1000万台Echo，在CES上你根本不能提Alexa的合作关系，Google也做了自己的智能音箱，所以看起来这似乎是个新平台。这场爆发有好几个不同的原因，此外也会引起一些问题。我们先从原因开始。

首先，语音是个大东西是因为语音输入现在的工作方式是直到最近才取得突破的。过去几年机器学习取得的进展意味着计算机在识别人说什么方面已经变得好很多了。从技术上来说，这涉及到两个不同的领域，一个是语音识别，另一个是自然语言处理。语音识别是将音频转化为文字，而自然语言处理则是要弄明白文字的意思，提取出具体要求。自2012年以来，这些任务的错误率已经从1/3邹游降到了5%。换句话说，这些过去干不了的事情现在可以了。当然现在还不算完美——正常使用的话5%的错误率大概每天或者每2天就会出现一次错误，Twitter上语音助手根本不理解人在说什么的例子比比皆是。但这个还在不断改进——起码我们现在已经知道怎么做了。

其次，智能手机供应链意味着做个带麦克风、有足够快的CPU以及无线芯片的盒子要容易多了——随着去年卖出了15亿部智能手机，越来越好、越来越便宜的各种为该市场制造的大规模组件在其他地方有了用武之地。而围绕着智能手机的专家和合同制造商生态体系基本上都普遍集中在深圳不仅意味着你可以获得需要的零部件，而且也能找到人来帮你组装。做硬件仍然很难，但已经没有过去难了。所以，如果你想要一个会魔术，打算从云端点亮魔力的语音盒子的话，你可以做一个。

第三点，主要的互联网平台公司（Google、苹果、Facebook和Amazon）的收入加起来可能是1990年代叱咤风云、令小公司谈虎色变的Wintel联盟的10倍左右。那么，为有趣的编外项目提供支持的资金也会多很多。

第四点原因，智能手机不像桌面web浏览器那样（大部分）属于中立的平台——苹果和Google控制着谁能进入移动互联网，就像微软在桌面互联网时代那样。这使得互联网公司很紧张——Google对苹果感到紧张（这也是它要买下Android的原因之一），Amazon和Facebook对前面这两家都很紧张。他们想要自己的消费者平台，但是却没有。所以这才是Kindle Fire、Alexa、Facebook Messenger机器人等各种项目出台的重要推动力之一。

所有这些都构成了动机和机会。但是，这未必就意味着语音就能“有效”——或者相反，对于“有效”究竟是什么意思我们还需要具体很多。

所以，当我说语音输入“有效”时，意思是说你现在可以用音频波形的方式填充对话框——你可以把声音变成文字，再把文字（来自语音以及去年的大事物聊天机器人）变成结构化的查询，而且还可以知道把查询发到哪里去。问题是实际上你可能没有地方可发出去。你可以用语音填充那个对话框，但是那个对话框必须存在——你得先建好那个对话框。在这背后得先建好机票预订系统、酒店预订系统、调度系统、音乐会预订系统——以及其他一切用户希望做的事情的支撑系统，然后你才可以用语音与之连接。否则的话，如果用户向你提出任何上述请求时，就算你可以精确地把声音变成文字，但是却不能做任何事情——你得到的就只有一个语音转录系统而已。那么问题就来了——你能建立多少这样的查询呢？建立多少才够呢？你能不能把这些查询都交到web查询就行呢？还是说需要更多？

机器学习（这个说法经过了极大简化）意味着我们可以大规模地利用数据来生成可以理解语音和自然语言的模型，而不是像过去那样要靠手工写下讲话和语言的规则。但是我们并没有相应方式来利用数据建立所有你希望连接的查询——也就是所有的对话框。你还得通过手工去做这件事情。你已经用机器学习建立了一个专家系统的前端，但是这套专家系统仍然采用数据需预先准备、要靠手工搭建的模型。尽管你也许可以通过API和开发者生态体系把能回答的问题占比从0.1%提高到1%（只是一种比喻，未必是这么确切），但是仍然有99%的错误率（真正的自然语言理解非常困难）。而且这种做法不具备扩展性——如果你想给出任何人以自然的方式可能问到的任何问题的答案的话，基本上靠机器是没有办法做到的。如果我们做到了这一点的话，从定义上来说也就意味着我们有了通用AI，而实现这点还有好几十年之遥。

换句话说，一些语音UI掉进的坑是你假装用户在跟HAL 9000（科幻片《太空漫游》里面的那台先进且具有人工智能超智慧的电脑）对话，但实际上你只是开发出来了一个更好的IVR，但却不知道怎么从这套IVR过渡到HAL。

鉴于你不能回答每一个问题，也就产生了另一个尺度问题——用户知道自己可以问什么吗？我怀疑语音UI理想的功能数实际上会遵循U性曲线：一条命令很好，0条也OK，但50或者100个就恐怖了，因为还是不能任何问题都可以回答，但是哪些可以回答你又记不住那么多。曲线的另一头则是当你做出的系统可以回答的问题数越来越接近于任何问题时，但再次地，如果是这样的话也就意味着实现了“通用AI”（强AI）了。

这里引出的一个有趣的潜在影响是，尽管有了足够的钱和足够的开否则话你也许可以开发出能回答数百乃至数千不同查询的系统，但实际上结果却可能事与愿违。

你可能会反驳说一些大型的平台公司（比如Google、Amazon可能还包括Facebook）已经有大量的人输入自然语言查询作为搜索请求。今天，它们回答的形式是返回搜索结果页面，但是他们可以进入那条曲线的头部，为最常见的100或500中请求类型建立结构化的响应——这就是Google的知识图谱。那么用户现在就不需要知道哪50件事情自己可以问，而是对于前50（或500）种问题类型他们现在可以得到比页面链接好得多的响应了。显然，这种做法在屏幕上可以很好展现，但是在只有语音的设备上是不行的。不过展开来说的话，这种做法的有效性其实是一个分布问题——有可能有一半的问题都落在了Google（打比方）建立的针对前500问题类型的结构化响应当中，但是我每天向Google Home提出的问题里面有多少属于那500种问题类型呢？对方不知道我说什么的频率究竟怎样？

所以这往往会让人得出了一个结论，那就是对于大多数公司来说，对于语音要想真正行之有效来说，你得有一个缩小范围的、可预测的问题领域。你需要知道用户可能会问什么，然后用户也需要知道自己可以问什么。这就是Siri的结构性问题——无论语音识别那部分表现有多出色，你能问的也只有20来件事情，但苹果还是想给人留下你可以问任何事情的印象，所以你势必会问出不在清单之内的问题，然后得到的只有电脑化的耸耸肩。与之相比，Amazon的Alexa在沟通什么可以问什么不可以问方面做得似乎要好多了。其他范围收窄的领域（酒店房间、音乐、地图）似乎也做得很好，再次地，还是因为你知道可以问什么。你得挑选一个无法扩展也没关系的领域。

与此同时，如果我们真的有了HAL 9000，并且所有的规模问题都已经解决了的话，语音对于一些任务来说未必就是合适的UI。让人通过手机替你重新预定机票或者订酒店都是错误的UI。你会想看看有什么选项。通过IVR去买衣服的体验也会很糟糕。那么语音的问题也许并不仅仅是因为AI部分做得还不够好，而在于即便是人类语音的能力也太过有限。你可以通过增加一块触摸屏，为不同的设备提供一些图标来解决其中一些问题。可能你还可以称之为“图形化用户界面”，而语音部分就变成了可选项……

在我思考有关意识的问题时，把Alexa和Apple Watch一起拿来进行对比似乎比较有用。这两个都不能做你在手机上做不了的事情，但是他们把手机上也能做的事情搬到了一个不同的背景下进行，而且做起来阻力更小了——如果你还记得的话。比方说，当你在厨房的时候，通过Alexa或者智能手表设置定时器或者进行重量转换遇到的阻力会小一些，但是记住你可以做这些事情遇到的阻力却会更大。你有关如何实现某件事情的心智模式需要做出改变，而那种事情是简单的、反射性的任务，你早已经把拿出手机变成了肌肉记忆，那么这种新设备能否打破这种习惯并让你形成新的习惯呢？对于一些事情来说，语音助手或者手表（当然也可以是手表上的语音助手）要比掏出手机好得多，一旦形成了这种习惯或者意识，但不管怎么说这种习惯必须先树立起来。

引申而言，可能会有一组行为用语音UI会更合适，不过这不是因为更容易开发或者因为语音命令就统计而言被使用得更多，而是因为相应的心智模式工作得更好——用语音来开灯或者打开音乐（Echo的关键用例）或定时器可能就比处理约见之类的事情更好。也就是说，设备做一件事情或者只有一个命令也许最适合语音，尽管从理论上来说这完全是开放式的。

我认为这里有一系列矛盾。语音UI与智能手机相比，就概念而言，看起来似乎不受约束得多，属于更加通用的界面，但实际上却是适用范围更窄、用途更单一的那个。语音UI看起来比掏出手机、解锁然后加载app等的使用阻力更小，而且的确也是——但前提是你已经改变了自己的心智模式。它们看起来像是智能手机之后的未来，但就其封闭、锁定的性质而言，却也像是功能手机或者航母甲板。它们是平台，但却是一个随着开发者生态体系壮大而变得糟糕的平台。计算机动画里面的“神秘谷”概念很好地捕捉了这种局面：随着对人物的渲染从“卡通”进入到“真人”，现实主义增加到一定程度之后，看起来往往反而会不那么逼真——也就是说，技术变得更好之后一开始反而产生更糟糕的用户体验。

所有这些都把我带回开始时的观点——有一系列的理由使得大家希望把语音用到新的事情上。不过还有一件事情我没提到，那就是移动现在已经不是高速增长的板块了，所以技术产业正在到处寻找下一个大事物。语音无疑是个大事物，但也许我们还需要等久一点才能迎来下一场平台转移的时刻。

目前小微企业中车二级公司供应商找资方合作

一款饮料的制造生产寻找天使投资人

我们要做全球领先的AI泛娱乐语音平台，现寻

海外站网络项目每天5000访问量寻找资金投资

deepseek评估五星、千亿级国医连锁项目找资

坐标湖南长沙的单身经济伴游项目找投资

经营抖音共创平台的项目找资金合作扩大体量

科技传播类项目找投资-投资回报高

发布导航关闭