首页 国内 国际 财经 娱乐 军事 体育
主页 > 国内 >

AI产品经理需要了解的语音交互评价指标

来源:未知 2021-04-05 13:48  

  本文主要从5大方面具体介绍了现在行业内对语音交互系统的常见评价指标,分别是语音识别、自然语言处理、语音合成、对话系统和整体用户数据指标。enjoy~

  最近,在饭团“AI产品经理大本营”里,有团员提问:如何制定针对自然语言语音交互系统的评价体系?有没有通用的标准?例如在车载环境中,站在用户角度,从客观,主观角度的评价指标?

  上周,我在专属微信群内抛出了这个问题,当晚,胡含、我偏笑、艳龙等朋友就分享了不少干货心得;最近几天,在飞艳同学的协助整理下,我又补充了一些信息,最终形成这篇文章,以飨大家。

  语音识别(Automatic Speech Recognition),一般简称ASR,是将声音转化为文字的过程,相当于人类的耳朵。

  看纯引擎的识别率,以及不同信噪比状态下的识别率(信噪比模拟不同车速、车窗、空调状态等),还有在线/离线识别的区别。

  定义:为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换、删除或者插入某些词,这些插入、替换或删除的词的总个数,除以标准的词序列中词的总个数的百分比,即为WER。

  因为有插入词,所以理论上WER有可能大于100%,但实际中、特别是大样本量的时候,是不可能的,否则就太差了,不可能被商用。

  站在纯产品体验角度,很多人会以为识别率应该等于“句子识别正确的个数/总的句子个数”,即“识别(正确)率等于96%”这种,实际工作中,这个应该指向“SER(句错误率,Sentence Error Rate)”,即“

  近场识别时,比如使用语音输入法时,用户可以按住手机上siri的语音按钮,直接说话(结束之后松开);近场情况下信噪比(Signal to Noise Ratio, SNR)比较高,信号清晰,简单算法也能做到有效可靠。

  但是在远场识别时,比如在智能音箱场景,用户不能用手接触设备,需要进行语音唤醒,相当于叫这个AI(机器人)的名字,引起ta的注意,比如苹果的“Hey Siri”,Google的“OK Google”,亚马逊Echo的“Alexa”等。

  简单来说是“喊名字,引起听者(AI)的注意”。如果语音唤醒判断结果是正确的唤醒(激活)词,那后续的语音就应该被识别;否则,不进行识别。

  。没叫AI的时候,ta自己跳出来讲话的比率。如果误唤醒比较多,特别比如半夜时,智能音箱突然开始唱歌或讲故事,会特别吓人的……

  。一般技术上要求,最少3个音节,比如“OK Google”和“Alexa”有四个音节,“Hey Siri”有三个音节;国内的智能音箱,比如小雅,唤醒词是“小雅小雅”,而不能用“小雅”——如果音节太短,一般误唤醒率会比较高。

  。之前看过傅盛的文章,说世界上所有的音箱,除了Echo和他们做的小雅智能音箱能达到1.5秒,其他的都在3秒以上。

  。看过报道,说iPhone 4s出现Siri,但直到iPhone 6s之后才允许不接电源的情况下直接喊“Hey Siri”进行语音唤醒;这是因为有6s上有一颗专门进行语音激活的低功耗芯片,当然算法和硬件要进行配合,算法也要进行优化。

  自然语言处理(Natural Language Processing),一般简称NLP,通俗理解就是“让计算机能够理解和生类语言”。

  举个栗子:全班一共30名男生、20名女生。需要机器识别出男生的数量。本次机器一共识别出20名目标对象,其中18名为男性,2名为女性。则

  模型调优后追求F1值提升,准确率召回率单独下降在一个小区间内,整体F1值的增量也是分区间看(F1值在60%内,与60%以上肯定是不一样的,90%以上可能只追求1%的提升)。

  P是精准率,R是召回率,Fa是在F1基础上做了赋权处理:Fa=(a^2+1)PR/(a^2P+R)

  语音合成(Text-To-Speech),一般简称TTS,是将文字转化为声音(朗读出来),类比于人类的嘴巴。大家在Siri等各种语音助手中听到的声音,都是由TTS来生成的,并不是真人在说话。

  对话系统(Dialogue System),简单可以理解为Siri或各种Chatbot所能支持的聊天对线、用户任务达成率(表征产品功能是否有用以及功能覆盖度)

  。虽然是传统的指标,但是能够发现用户有没有形成这样的使用习惯;留存的计算甚至可以精确到每个功能,然后进一步根据功能区做归类,看看用户对哪类任务的接受程度较高,还可以从用户的问句之中分析发出指令的习惯去针对性的优化解析和对话过程;到后面积累的特征多了,评价机制建立起来了,就可以上强化学习;比如:之前百度高考,教考生填报志愿,就是这么弄的;

  (即,前文提过的“用户任务达成率”)。由于任务型最后总要去调一个接口或者触发什么东西来完成任务,所以可以计算多少人进入了这个对话单元,其中有多少人最后调了接口;

  。即,完成一个任务,平均需要多少轮,平均填写了百分之多少的槽位slot。对于槽位的介绍,可详见《填槽与多轮对话 AI产品经理需要了解的AI技术概念》。

  的方式进行。这里的语料,通常不是单个句子,而是分为单轮的问答对或多轮的一个session。一般来讲,评分范围是1~5分:

  (Daily Active User,日活跃用户数,简称“日活”)在特殊场景会有变化,比如在车载场景,会统计“DAU占比(占车机DAU的比例)”。

  。尤其对于生气的情绪检测,这些对话样本是可以挑选出来分析的。比如,有公司会统计语音中有多少是骂人的,以此大概了解用户情绪。还比如,在同花顺手机客户端中,拉到最底下,有个一站式问答功能,用户对它说“怎么登录不上去”和说“怎么老是登录不上去”,返回结果是不一样的——后者,系统检测到负面情绪,会提示转接人工。

  黄钊(hanniman),图灵机器人-人才战略官,人人都是产品经理专栏作家,前腾讯产品经理,微信公众号/知乎/在行/饭团“hanniman”。5年人工智能实战经验,8年互联网行业背景。“人工智能产品经理”概念的推动者,被AI同行广泛传播的200页PPT《人工智能产品经理的新起点》的作者。关注人机交互(特别是语音交互)在手机、机器人、智能汽车、智能家居、AR/VR等前沿场景的可行性和产品体验。

  人人都是产品经理(是以产品经理、运营为核心的学习、交流、分享平台,集媒体、培训、社群为一体,全方位服务产品人和运营人,成立9年举办在线+期,线+场,产品经理大会、运营大会20+场,覆盖北上广深杭成都等15个城市,在行业有较高的影响力和知名度。平台聚集了众多BAT美团京东滴滴360小米网易等知名互联网公司产品总监和运营总监,他们在这里与你一起成长。

相关新闻:
频道推荐
  • AI产品经理需要了解的语音
  • 美国是“院子里的流氓”
  • 把握国内语音产业发展主
  • 请北京机场停止对出口邮
  • 国际物流小包公司哪家价
  • 图文看点
    国内首个新生儿健康教育 国内首个新生儿健康教育
    AI产品经理需要了解的语音 AI产品经理需要了解的语音
    热点排行
    中国移动公布4G全国套餐: 近期时事:2020国际新闻热 2019充电桩三大龙头全国充 文旅部:国庆中秋假期首 国家邮政局公布万国邮联 世界各国人均国民收入排 明星私募一季度最新动向 揭秘200位“私募大佬”校