无障碍的新定义,一种确保用户意图被理解的交互

  • 日期:08-13
  • 点击:(603)

凯发k87777

  爱范儿昨天我要分享

  如何让听残疾人接听电话,如何让语言障碍与外界交流?在这个阶段的脑机接口技术还不成熟,为了完成这个不可能的事,我们必须依靠人工智能和机器学习。

▲LiveTranscribe

今年2月,Google在Android手机上推出了LiveTranscribe应用程序,并在5月的Google I/O中发布了LiveRelay,它可以实时转录语音/文本支持,ProjectEuphonia项目可以为语言障碍人群实现语音传输。

在“帮助人们更好地沟通”的问题上,这些应该是人工智能的最前沿,可以广泛应用。

它应该是世界上最先进的语音识别应用程序

LiveTranscribe

LiveTranscribe是一项免费的Android辅助功能服务,适用于耳聋和听力障碍患者。基于之前的自动语音识别(ASR)研究,LiveTranscribe引入了自动生成字幕到移动设备的功能。

▲较亮的内部同心圆表示本底噪声,外部同心圆表示通过手机麦克风接收扬声器的声音。

使用LiveTranscribe的场景如下:打开LiveTranscribe软件后,它将实时读取外部语音,并将实时语音转录成文本显示在手机屏幕上。即使演讲者笑,吹口哨等,也会有相应的文字提示。

换句话说,只有联网的移动电话才能实现实时的语音到文本功能。该软件目前支持70多种语言。

然而,LiveTranscribe的实时转录不仅需要移动设备上的神经网络对声音进行分类,还需要云中的三个神经网络模型来完成语音转录为单词的过程。

▲SagarSavla正在播放LiveTranscribe

在Love Fan,我问GoogleAIResearchGroup的产品经理Sagar Savla,当LiveTranscribe能够完全在本地运行而不依赖于云网络时,他告诉我们:

我们正在做这种工作,但目前还没有准确的时间表。例如,在中文的语言中,需要一个大型模型。将大型模型集成到终端设备中并确保其准确性非常具有挑战性。

LiveRelay

Google在今年的开发者大会上展示了LiveRelay的强大功能:如何在无法听到或说话的情况下拨打电话。

如果由于语言障碍,社交恐惧,牙齿拔除等而无法说话,请在LiveRelay页面上键入单词,文本将快速转换为音频。将它发送给另一个人的手机。

如果由于听力受损,噪音等原因听不到声音,LiveRelay也可以将对方的声音转录成文字。

LiveRelay仍处于研究阶段,只能在特定的Pixel手机上使用,暂时只支持英语。

LiveRelay将通过在设备上使用语音识别和文本到语音识别完全在设备上运行。

通过即时响应和预测输入建议(smartrelay和smartcompose),可以提高打字速度以跟上电话呼叫的速度。

在我看来,虽然LiveRelay被归类为Google可访问性项目,特别是对于听力受损的用户,但很多人可能会使用它。例如,当您在会议期间突然收到重要电话但无法用完时,LiveRelay将派上用场。

ProjectEuphonia

据统计,患有逐渐冷冻,多发性硬化,脑外伤,中风等神经系统疾病的患者通常会有语言障碍,而外界通常无法理解这些人说什么以及如何表达。

Euphonia项目为语言障碍人士建立语音识别模型,并识别基于计算机视觉的模型,如手势,眨眼和面部表情,以帮助他们更好地与外界沟通。

通过与渐进式冷冻组织合作,他们训练AI来学习和识别逐渐冷冻的患者的声音,从而实现其发音的转录。

与此同时,他们仍在为特定患者培训特定的AI。

例如,已被诊断为逐渐冻结十多年的史蒂夫萨林有一个经过专门训练的模型,当他观看体育赛事并确定他想表达的情绪时,他会识别面部表情。

当他想要欢呼时,电脑会发出一声呼吸声;当它喝醉了,它会成为一个嘘声。

Euphonia项目产品经理Julie Cattiau表示,他们面临的最大困难是收集语音样本。由于语言障碍人群人群不多,而且往往有特定需求,他们仍在招募寻找合适语言识别研究的人。

可访问性的新定义:确保理解每个用户的意图

拥有备用容量的技术公司将在产品设计和开发中或多或少地考虑信息可访问性。

信息可访问性在一定程度上是智能产品交互设计中特殊产品组的功能,使人们更加平等地享受硬件和软件的功能。

技术产品中的“可访问性”相当于互联网世界中的盲道,扶手,助听器和假肢。

无论是Android,iOS,屏幕阅读,放大镜,对比色设置中的辅助功能菜单,还是某些具有辅助功能障碍并为功能按钮添加“标签”的应用程序,这些都是基本的无障碍用户体验。

基本的可访问用户体验旨在使用户能够更准确地从移动电话,计算机和应用程序等产品接收信息。

通过人工智能和机器学习,Google可以通过“用户准确的接收者信息”访问“确保用户能够理解用户的意图”。

这也意味着“可访问性”将成为未来人机交互的新方式。它可以为特定人群提供更多信息,用户操作也更容易,更快捷,更重要的是,让我帮助您完成。

技术的发展正在重新定义“可访问性”,它也对产品和技术公司提出了新的要求。能够很好地获得无障碍体验的产品通常可以为普通用户提供更好的体验。

该地图来自searchenginejournal.com

收集报告投诉

如何让听障人士接听电话,如何让语言障碍人士与外界交流?在这个阶段的脑机接口技术还不成熟,为了完成这个不可能的事,我们必须依靠人工智能和机器学习。

▲LiveTranscribe

今年2月,Google在Android手机上推出了LiveTranscribe应用程序,并在5月的Google I/O中发布了LiveRelay,它可以实时转录语音/文本支持,ProjectEuphonia项目可以为语言障碍人群实现语音传输。

在“帮助人们更好地沟通”的问题上,这些应该是人工智能的最前沿,可以广泛应用。

它应该是世界上最先进的语音识别应用程序

LiveTranscribe

LiveTranscribe是一项免费的Android辅助功能服务,适用于耳聋和听力障碍患者。基于之前的自动语音识别(ASR)研究,LiveTranscribe引入了自动生成字幕到移动设备的功能。

▲较亮的内部同心圆表示本底噪声,外部同心圆表示通过手机麦克风接收扬声器的声音。

使用LiveTranscribe的场景如下:打开LiveTranscribe软件后,它将实时读取外部语音,并将实时语音转录成文本显示在手机屏幕上。即使演讲者笑,吹口哨等,也会有相应的文字提示。

换句话说,只有联网的移动电话才能实现实时的语音到文本功能。该软件目前支持70多种语言。

然而,LiveTranscribe的实时转录不仅需要移动设备上的神经网络对声音进行分类,还需要云中的三个神经网络模型来完成语音转录为单词的过程。

▲SagarSavla正在播放LiveTranscribe

在Love Fan,我问GoogleAIResearchGroup的产品经理Sagar Savla,当LiveTranscribe能够完全在本地运行而不依赖于云网络时,他告诉我们:

我们正在做这种工作,但目前还没有准确的时间表。例如,在中文的语言中,需要一个大型模型。将大型模型集成到终端设备中并确保其准确性非常具有挑战性。

LiveRelay

Google在今年的开发者大会上展示了LiveRelay的强大功能:如何在无法听到或说话的情况下拨打电话。

如果由于语言障碍,社交恐惧,牙齿拔除等而无法说话,请在LiveRelay页面上键入单词,文本将快速转换为音频。将它发送给另一个人的手机。

如果由于听力受损,噪音等原因听不到声音,LiveRelay也可以将对方的声音转录成文字。

LiveRelay仍处于研究阶段,只能在特定的Pixel手机上使用,暂时只支持英语。

LiveRelay将通过在设备上使用语音识别和文本到语音识别完全在设备上运行。

通过即时响应和预测输入建议(smartrelay和smartcompose),可以提高打字速度以跟上电话呼叫的速度。

在我看来,虽然LiveRelay被归类为Google可访问性项目,特别是对于听力受损的用户,但很多人可能会使用它。例如,当您在会议期间突然收到重要电话但无法用完时,LiveRelay将派上用场。

ProjectEuphonia

据统计,患有逐渐冷冻,多发性硬化,脑外伤,中风等神经系统疾病的患者通常会有语言障碍,而外界通常无法理解这些人说什么以及如何表达。

Euphonia项目为语言障碍人士建立语音识别模型,并识别基于计算机视觉的模型,如手势,眨眼和面部表情,以帮助他们更好地与外界沟通。

通过与渐进式冷冻组织合作,他们训练AI来学习和识别逐渐冷冻的患者的声音,从而实现其发音的转录。

与此同时,他们仍在为特定患者培训特定的AI。

例如,已被诊断为逐渐冻结十多年的史蒂夫萨林有一个经过专门训练的模型,当他观看体育赛事并确定他想表达的情绪时,他会识别面部表情。

当他想要欢呼时,电脑会发出一声呼吸声;当它喝醉了,它会成为一个嘘声。

Euphonia项目产品经理Julie Cattiau表示,他们面临的最大困难是收集语音样本。由于语言障碍人群人群不多,而且往往有特定需求,他们仍在招募寻找合适语言识别研究的人。

可访问性的新定义:确保理解每个用户的意图

拥有备用容量的技术公司将在产品设计和开发中或多或少地考虑信息可访问性。

信息可访问性在一定程度上是智能产品交互设计中特殊产品组的功能,使人们更加平等地享受硬件和软件的功能。

技术产品中的“可访问性”相当于互联网世界中的盲道,扶手,助听器和假肢。

无论是Android,iOS,屏幕阅读,放大镜,对比色设置中的辅助功能菜单,还是某些具有辅助功能障碍并为功能按钮添加“标签”的应用程序,这些都是基本的无障碍用户体验。

基本的可访问用户体验旨在使用户能够更准确地从移动电话,计算机和应用程序等产品接收信息。

通过人工智能和机器学习,Google可以通过“用户准确的接收者信息”访问“确保用户能够理解用户的意图”。

这也意味着“可访问性”将成为未来人机交互的新方式。它可以为特定人群提供更多信息,用户操作也更容易,更快捷,更重要的是,让我帮助您完成。

技术的发展正在重新定义“可访问性”,它也对产品和技术公司提出了新的要求。能够很好地获得无障碍体验的产品通常可以为普通用户提供更好的体验。

该地图来自searchenginejournal.com