人机交互的交互方式分为语音交互，主要的人机交互方式为语音加视觉-东辰安华生活网

　　 VUI的现状

　　随着智能音箱的快速发展，Google Home、亚马逊(echo)、天猫精灵、萧艾音箱等，以及智能产品的井喷式增长，人们对智能语音产品的需求也越来越大，智能音箱对人们生活的影响也越来越深。自然，一些新的职业需求出现了。比如VUI(语音用户界面设计师)和VUE(语音用户体验设计师)，但其实VUI和Vue的分界线很模糊，这里就不描述了。一些国际大公司已经做了很好的示范，比如亚马逊、谷歌等。都会设立专门的岗位，做一些专门的研究。当然，近期国内相关招聘中，也会有相关职位，而且薪资不低。然后我会和你详细分享VUI(语音用户界面)。

　　 VUI的起源/历史

　　 1.vui的第一阶段

　　 20世纪50年代，贝尔实验室建立了单一语音数字系统。20世纪90年代，第一个可行的非特定人语音识别系统诞生了。交互式语音应答IVR系统的出现代表了VUI的一个重要时期。

　　 2.Vui的第二阶段

　　 VUI的第二个时期，也就是我们现在所处的时期。

　　我们正处于下一阶段的前期。我们的手机已经可以通过语音处理很多事情，但是还有很多事情是语音做不到的。

　　 3.VUI的一些优势和局限性

　　优势

　　速度：很明显速度变快了，国内的语音和语音转文字技术大大提高了人们的效率。

　　放开双手：比如在开车的时候，你可以直接对着手机语音助手说，喂XX，帮我一下XXX。

　　直觉：说话是每个人的天性。

　　移情：语音学包含语气、音量、语气、语速。这些特征包含了大量的感性信息，可以让你感受到对方在说什么。

　　限制

　　环境：对环境的要求比较高。在公共场所，人多的地方不利于语音接收和输入。

　　不合适：还是有很多用户不喜欢，不适应对着语音设备说话。

　　喜欢打字：有些用户就是喜欢打字，打字在某种程度上能给他带来快感。

　　隐私：每个人都不希望自己的隐私被别人知道。

　　什么是VUI设计师(它是做什么的)？

　　 VUI设计师是做什么的？

　　需要思考，系统和最终用户的整个对话过程，从头到尾。用户调研不可或缺。负责设计、产品原型和产品描述。需要了解底层技术的优缺点。分析数据的能力。从项目开始到发布阶段，它都起着非常重要的作用。

　　当然，很多人看到以上五项可能会有点害怕。其实他们并不需要全部。他们还可以负责其中一个链路和节点。例如用户研究、数据分析.

　　 VUI的基本设计原则

　　 1.对话设计

　　定义：对话式设计。简单来说，我问你答。

　　目前我们使用的智能设备只能支持一轮对话，但这并不是人们习惯的对话方式。多轮对话符合用户心理预期。

　　请回忆一些使用智能音箱的场景体验，例如(天猫精灵):

　　用户：天猫精灵，我明天有闹钟吗？

　　天猫：你明天没有闹钟。

　　用户：能给我设置一个吗？

　　天猫：

　　你会发现智能音箱好像失忆了，此时没有反应。显然，这不是我们想要的交互体验。从用户的社交属性来说，人与人的交流方式从来都是多轮对话，而不是一个轮子。一般来说，我们必须让用户决定对话将持续多长时间。显然，如果你自己经历过，很少有几轮对话。

　　不过最近天猫精灵更新了游戏语音的玩法，这是一个进步。虽然不是很棒的体验，但至少是前进了一步。相信未来会越来越好。

　　对话风格是如何设计的？一般流程是怎样的？

　　 2.设计工具

　　这里的设计工具不是具体的工具，而是方法论。

　　对话示例

　　定义：范例对话字面意思是演示一个范例对话。看起来像电影剧本，像两个人在一起说话。

　　特点：是整个设计对话过程中的关键方法。成本低，简单易操作。

　　用法：用文字写出要做的场景，然后大声朗读出来。你会发现书面语和口语还是有很多区别的，甚至有些奇怪。这个时候你会发现有很多需要改进的地方，所以你会看到有的招聘会有这个相应的要求，有的甚至要求戏剧基本功。有剧本写作经验者优先。

　　功能：可以让你在开始研发之前就知道自己的设计效果如何。

　　 3.视觉原型

　　虽然是语音交互，但还是离不开GUI，可以结合样例对话，将用户体验可视化。例子、对话和原型构成了我们产品的故事板，GUI VUI是一套完整的用户体验。因此，VUI和GUI在早期就开始合作，这样用户体验会更流畅。

　　 4.流程图

　　流程图，也叫调用流程图，一般来说我们的流程图需要包含用户使用中所有可能的分支，但是这样会出现成千上万种复杂的情况，流程图会很乱，很难整理，所以我们采用分组的方式。具体分类方法可以分为多组(日历功能、搜索功能、电话等。)或按不同用途分组。

　　流程图中用到的工具很多，这里就不一一列举了。

　　列举了。

　　我们设计完成了一组示例对话之后，就要对一些细节进行细致地研究，比如：确认。

　　如何进行确认

　　如何进行确认：

　　用户语音的确认非语言式确认通用确认视觉的确认

　　1. 用户语音的确认

　　最重要的是用户语音的确认，分为显性确认和隐形确认。

　　显性确认：比较重要，强制用户确认信息。比如：天猫精灵你能帮我点一份奶茶么？查到附近XXX奶茶，使用优惠后的价格是XX元，你要来一份么？

　　隐形确认：即不需要用户确认消息，。比如，用户：XX你能帮我设定明天10点的闹钟么？好的，已经帮你设定好明天早上10点的闹钟。

　　那么如何去判定什么时候用隐性确认和显性确认呢？

　　下面就要介绍一下三级置信度。系统将在一定的阀值内作出明确的形式确认信息。而这个阀值我们设定为三个等级。

　　置信度，就是智能音箱能识别到声音的清晰度。

　　用易懂的话说就是人与人之间沟通的语言接受的清晰度，当然听不清对方说什么话的时候一般会发起询问，或者直接说，对不起，我没有听清，你可以再说一遍吗？

　　三级置信度，比如帮我再买一份外卖，当置信度大于80%，使用隐性确认，好了已经帮你在订了一份外卖。当置信度为45~79%，使用显性确认，您是想再多订一份外卖是吗？当置信度小于45%，对不起，我没有听清您的讲话，您想买些什么？

　　只用隐形确认

　　智能语音音箱能够非常清晰的识别到你说的内容的时候，可以直接用隐形确认，这样带来的体验流畅感舒服很多。

　　非语言式：比如说，灯光花几秒才亮，那么只是让系统先恢复好了或者知道了来让用户知道后面发生什么。还有加一些特定的音效，来代表特定某一个意思。

　　有趣的通用确认

　　有趣的通用确认，就是说智能语音音箱不会单独的回答你是和否，会主动对您进行一些问候的对话，通过这样情感化的设计，能够让用户感到更加的温暖和舒服。

　　前面讲到了那么多的确认策略，那我们接下来再说一下对话式的标识。因为是让用户了解交谈进展以及进展情况的重要方式。

　　对话式的标识

　　它包括了以下三个方面：

　　时间线，开始、进行中、结束。接收回执，谢谢、知道了、好的、了解了。积极反馈，哇，你这个消息真的很棒。

　　那对话式对话作用是什么呢？是让用户了解交谈进展以及进展情况的重要方式。能够更好地追踪到用户的使用过程中的一种路径方法。

　　大家会发现很多时候智能语音设备并不是每次都能够快速，精准接受识别我们的信息的。出错率相对来说是比较高的，下面大概说下语音识别的出现错误异常的几种情况。

　　语音出现错误异常和解决方法

　　错误异常的几种情况：

　　未检测到语音检测到语音，但没有识别检测到语音，但没有回应部分语音识别错误

　　1. 未检测到语音

　　未检测到语音有大概两种情况，一是用户说了，系统没有接收到。二是用户没说。

　　主要说说用户说了的情况，系统没有接收到的情况，建议采取两种解决方式。

　　第一种前面我们说到的三级置信度，我们采取直接询问，「对不起，我没有听清你说的话，你能再说一遍么？」第二种是采取什么也不做。

　　什么情况下使用询问？

　　用户必须回复后，系统才能继续进行任务。你的系统只是支持语音，没有其他回复方式了。

　　什么情况下更适合使用什么也不做？

　　用户还有其他选择（比如手机界面可通过一个按键操作）。什么也不做，不会中断对话。有视觉信息可以提示用户做出明确地选择。

　　2. 检测到语音，但没有识别

　　处理方式和未检测到语音基本是一致的，这里就带过了。

　　3. 检测到语音，但没有回应

　　出现这种情况的原因一般是两点：

　　系统程序没有针对这种情况的回复。程序中写了错误的回复。

　　解决方法，这里我们就要通过测试来发现具体是哪个环节出了问题了，通过数据的收集分析能够找到具体的答案。

　　4. 部分识别错误

　　大概就是这样的场景：

　　用户：天猫精灵，嗯…我想..。

　　天猫精灵：嗯，好的，为您带来一首XXX的歌曲。

　　解决方法：这个还是需要技术的介入，可以通过使用N-Best列表（可以通过这个列表规避二次错误）和适用固件后相应的数据分析来构建此问题的解决方法。

　　说完了错误异常处理以及解决方式，我们接下来说下延迟和消除歧义。

　　5. 延迟

　　在交互中一般用户等待的时间是7秒（现在可能是5秒），当你询问等待回答的时间超过这个阈值，用户就会怀疑是不是系统出问题了，甚至烦躁。

　　解决方法：一是通过「请稍等」让用户知道你在运作和查找。二是非语言提示，比如音效等等。

　　6. 消除歧义

　　很多时候用户提供的信息只有一部分，再加上中文的多层含义的特殊性，消除歧义对用户体验的提升有重要作用。

　　比如：问地名的天气，中国很多地区的地名都是一样的。

　　鼓楼：河南省开封市鼓楼区、福建省福州市鼓楼区、江苏省南京市鼓楼区、江苏省徐州市鼓楼区。

　　解决方法：还是可以采用置信度的方式去判别，如果很确定就直接回答，要么就多轮询问确定。

　　7. 帮助功能

　　最后的模块说下帮助功能。也是至关重要的，能够在一定程度上消除用户的「恐慌」，所以，在我们VUI中设计对应的帮助是非常有必要的，比如：询问智能语音设备你能干什么呢？它会告诉你他能做些什么？比如：我的设备怎么样链接你的蓝牙。APP：好的，长按……

　　语音交互的几点原则

　　语音交互的几点原则：

　　应该是省时、高效的简短的能够被随时打断能够链接上下文语境

　　1. 应该是省时、高效的

　　和视觉界面交互其实是差不多的，用户是非常不愿意花很多时间达到他想要完成的任务的。越高效，越短时间，用户的体验会更加愉悦。

　　2. 简短的

　　只需要告诉用户主要关键信息即可，不要过于冗余。举个简单的例子购物APP 的商品表现形式，一般都是把名称和价格放在主要的位置，把详情放进下一级页面。采用尽可能简短的表现形式，让用户直接获取到他想要的，当然这对用户的了解和洞察都需要经验的积累和感知的。

　　3. 能够被随时打断

　　举个例子，用户：明天的天气怎么样？APP：明天XXX地方的天气19℃，小雨，适合穿…….用户可能只是想知道天气而已，这时候我们是需要做到可以被用户打断，而不是「执拗」的把话说完，如果一直说下去，不允许用户打断，用户的请求没有被回应，这时候用户会产生反感心理。

　　4. 能够链接上下文语境

　　这是目前很多智能语音设备体验上没有那么好的地方，也就是前面说的，可以进行多轮对话，当然如果要设定多轮对话，中间的交互情况将会比现在更加庞大，需要考虑的可能性也会更加复杂。

　　语音交互设计的前半部分设计流程基本已经概述完了，主要说了VUI的起源，VUI中用到的一些方法论，设计工具，一些异常情况的处理，和VUI设计的几点原则。下面将会和大家聊下用户测试和预发布、确认发布……

　　用户测试

　　语音用户界面的测试其实和视觉界面测试的方法有一些相同的地方，但也有一些差异。

　　一般来说，在开始测试之前是需要做用户调研的。大概分为以下几个步骤。

　　1.了解需求（用户用例背景研究）

　　做用户研究和访谈之前，我们要先搞清楚，这个利益方的需求是什么，业务需求，用户诉求是什么，我们的产品能够给用户带来什么？能够给他们解决什么问题？最后我们要确定我们的目标用户，然后进行访谈和调研。（大体的方法，详情请看阿里提出的五导家方法论）

　　2. 制定设计研究方案。

　　给目标用户制定任务流程

　　给目标用户制定任务流程，就是给每一个受访的用户，一个特定的任务流程，但很多时候我们并不只是测试一个任务，会有很多任务，那就会涉及到任务排序的问题。还有最好的方法是采用拉丁方阵设计，这样的话不必通过出现所有可能的排斥方式来试验。

　　那么设定好这次任务之后呢，我们就要进行招募受试人员了。

　　招募受试人员

　　招募受试人员，需要注意以下几点：

　　要在目标用户里抽取测试用户。人数大概控制在5~12人，可用性专家 Jakob Nielseb 提出效果一般控制在5~8人左右为最佳。

　　对于小公司招募测试用户可能会相对比较困难，成本相对来说会比较高，当然是可以招募你身边的朋友和公司的同事来协助你的，但最好避开项目的直接核心人员。

　　那么在目前人员完成之后，我们大概会进行一些测试，比如说我们做一些提问。

　　这里会涉及到一个方法，我们在交互设计里面叫它为用户体验地图。

　　3. 用户体验地图

　　我会给到用户一些任务的体验流程，然后根据他的一些反馈，通过语言、表情，然后绘制出用户体验地图，从而判断出，用户在这个任务流程中，得到了一些体验感受，找到可能存在问题的所在节点，然后进行修改。

　　下面说说在访谈中需要注意的一点，如何进行访谈。

　　4. 访谈需要注意的点

　　那么在口头提问的过程中，我们需要注意些什么呢？

　　提问不要有语句上的偏袒，不要出现故意引导，比如说你喜欢这个功能吗？这样提问是不太合理的。最好是提问，你用完这个功能之后，你是什么样的一个感受？或者说你觉得怎么样？

　　要注意引导用户得出具体的结论。而不是用户说大概，可能我觉得应该是等等之类的词。要有具体的例子，不要一个抽象的结果。

　　少用为什么开头，会让受访者觉得你是在质疑他，或者说故意的刁难他。比如受访者说，语音天气询问功能特别难用。能够简单说一下你的使用场景吗？他是在什么情况下让你感觉到难用？我们需要描述的更加具体化一些，而不是笼统的，抽象的。

　　5. 可用性测试（用户调研）

　　目的是测试工作流程和易用性。但是在语音交互过程中，识别问题往往会阻碍用户完成任务。最好是找几位测试用户，尝试找出主要的识别问题，然后修复它。

　　可用性测试大概分为几类：

　　远程测试（电话/视频访谈）

　　优点：

　　更容易找到符合特征的用户。成本较低，只需要远程即可，不需要支付其他额外的支出，比如说来到你约定地方的差旅费。会更加自然，更贴近真实情景。用户心理负担没有那么大会比较自在。可以没有测试主持人。

　　条件允许的话，最好使用视频通话，这样我们可以录制影像，后期方便我们去观察用户的表情和反应，以得出更加正确的测试结果。

　　缺点：没有办法实时跟进参与人员的反应。

　　拦访

　　这种测试方式是非常有难度的。意味着我们要去到公共场合去拦截受访者，然后让他参与到你这个测试当中，因为人与人的戒备心理，所以很多人都会拒绝你。如果你想提高成功率，最好准备一些小礼品或者其他的小奖励，这样有助于你提高拦访的成功率。当然你也很有可能得到的结果，会有一些偏差，受访者会出于某些目的而回答你的一些问题，有可能并不是出于真心的。所以，这里不是很建议大家用这种方法。

　　测试完成

　　测试完之后，我们需要进行我们的结果分析和统计。

　　测试衡量的一些指标，我们大概分为5个关键指标：准确性，响应速度，认知速度，清晰度，友好度和声音。

　　注意事项

　　这里需要注意的点是，一定要预先设定好，确定每项任务完成的标志是什么。不然后期对结果的一个标准很难去统计，会比较混乱。

　　我们需要总结这是用户对问题的回答及完成任务率错误数量和类型等等，从中找出用户的痛点，用户的一些干扰点。按任务出错时，用户是否能够自己解决呢？等等，具体需要得出的一些结论，要根据自己想要测试的一些目的来定。

　　这样我们就完成了整个可用性测试的流程。

　　预测试

　　发布之前需要做一次预测试，可以权重没有那么高，但也是关键的一步。

　　识别测试

　　最重要的还是识别测试，这关系着整个产品的体验问题，整体的测试流程需要用三级置信度和N-Best列表，以及后台的表格相结合，找出相对应的问题节点，并且修复它。

　　负载测试

　　你得清楚明白你的设备，最多的承载量，不然流量一进来，服务器就崩溃了，这样的体验是极其差的。

　　效果的评估

　　你还得去做效果的评估。在试运行开始之前，你需要制定目标，然后看是否达到这个目标，这个效果大概是什么样的？是否达到预期？任务的完成率也是非常关键的一个成功指标。

　　试运行

　　最后到达发布阶段。为了产品的稳妥起见，我们还是会进行一次试运行。

　　发布

　　迭代

　　条件允许的话，重复上面一次的用户调研的方法，然后得出现阶段的一些问题。我们需要实时跟踪系统的故障并快速地改进，这是我们非常需要做到的。

　　结语

　　大概全部的语音交互流程就说到这里了，我们简单的回顾下：

　　语音交互设计的起源语音交互设计的设计原则 – 示例对话确认原则/纠错方法 – 三级置信度可用性测试发布

　　那语音交互设计的未来点在那里？设计师的机会在哪里？

　　战略选择

　　世界一直都是存在不确定性的，如何应对呢？眼界和选择。

　　这里延伸下梁宁在《产品思维30讲》里面说到的点线面的战略选择的问题，她大概说了这样的例子：比如有一对双胞胎，2010年一起大学毕业，一个进入了腾讯，一个进入了报社。7年之后，腾讯的那位如果不出意外应该是年薪百万，而且猎头在挖，投资人在挖，只要出来创业就给钱。而去了报社的那位呢？今天的报社情况整个产业都沉沦了，曾经他寄托理想的整个产业都没有了，其实一切都需要重来，在这个时候并不是说双胞胎他们的个人素质有问题，或者是他们的能力有问题。问题是这两个单位所附着的经济体，一个是在快速崛起，一个是在快速崩溃。你努力工作的公司收益，远远不如2010年或者2013年以前。

　　我们本身是一个点，我们这个点需要附着在整个快速崛起的「线」上，战略的选择，眼界的层面显得尤为重要，和努力一样重要，甚至往往有时候选择比努力更重要，但选择也是努力累计的结果。我们设计师如何做出顺应这个迅速崛起的经济体的选择，也是我们当下的机会，我们能看到什么机会，我们要附着到什么样的线上，在当下职业边界愈发模糊的时代，我们能力和眼界的提升，可以做到从容的应对未来的种种变故。

　　那么同样，随之AI的发展，5G的到来，我们的很多工作方式都有可能被颠覆，语音交互设计将会是一片蓝海，虽然现在有诸多的桎梏，但这是趋势，是快速崛起的趋势。你能想象未来没有显示器么？没有臃肿的主机么？等等。未来都有可能会发生，而这一切也正在发生。无论世界如何变幻，未来可期，我们在路上