佳木斯众诚科技研发有限公司

在搜集人类语音数据上，谷歌与火狐展开正面交锋

17-05-15 10:32:28

他说：“我们已经超越了TED演讲，那是其中一个较大的开源数据集。

Mozilla的目标是在今年晚些时候发布一个版本的数据集，希望能在这段时间内拥有10,000小时的音频，这个数字估计足以训练现代的生产质量标准的系统。这远远超过谷歌刚刚提供的18小时的音频剪辑数据库。拥有大量和各种各样的语音样本的关键原因之一是使得在其上训练的算法避免了意想不到的偏见。因为任何一个尝试使用语音助手的重口音的人都可以证明，这些系统在理解简单的英语方面比别的更好。

谷歌收购的数据科学社区 Kaggle 的数据准备分析师 Rachael Tatman 在今年早些时候发表了一篇关于性别和方言如何影响 YouTube 自动化标题准确性的文章。她发现 YouTube 自动标题对于女性和苏格兰口音的演讲不太准确，但根据训练数据的使用情况，不同的系统可能会出现不同的错误模式。

“如果是我看了很多弗吉尼亚州的女性发表的演讲，我也会对来自弗吉尼亚州的女性的演讲听得更准确，而对来自加利福尼亚州的男性就听不了这么准确。”Tatman 说。

现有的开源数据集已经被发现存有“偏见”——例如德州仪器最初收集的交换机对话数据集，现在托管在宾夕法尼亚大学语言数据联盟。有偏见的数据在人工智能的其他领域一直是个问题，一些算法被认为更好地识别白人面孔，或者在理解推特上非裔美国人的英语时有困难，这对旨在为不同受众服务的高科技公司和开源项目来说尤其是问题。

Mozilla 还邀请用户验证提交的样本，验证录音的正确性。最近，由网站进行验证的样品包括来自英语世界各个地方口音的正确录音，还配了一个听不清的样本，以及一段猫王的音乐。

Tatman 说，大多数语音助手背后的公司都没有提供内部语音记录，这并不完全是为了防止竞争。由于很多查询都包含了个人信息，例如网络搜索或短信，如果开放数据将会造成隐私泄露。通过一个人独特的声音就可以识别他。

不过，这些公司仍会在内部使用这些数据：苹果公司过去曾表示，它可以保留两年的Siri数据，以及相应的用户标识（如抽取出的 ID 号码和电子邮件地址），以帮助改进算法。该公司没有对其当前Siri音频保留政策引发的每个评论的进行反馈。

“你的声音是可识别的，”Tatman 说。 “这被认为是可识别的信息。”

Mozilla 也采取了措施来保护用户隐私，因为它收集的是开源语音数据。“我们费尽心力地将用户与相应的录音分开，使得剪辑本身没有嵌入个人识别信息。”

和一些现有的公开可用语音记录数据集（如经过标记的 TED 演讲）相比，Mozilla 数据集的一个优点是，和Siri或Alexa设备的声音样本一样，录音时的环境条件与人们实际使用语音识别软件时的环境条件相似。

Rudnicky解释道：“他们基本上是用浏览器来收集数据，这意味着所收集的数据的更多地代表了目标用户可能具有的特征。例如，我坐在办公室里，我用的麦克风是办公环境下桌面使用的那种，类似这样。”

所收集的录音拥有各种各样的讲者及口音以及所预期规模的数据集，因而会比现有的那些免费的音频资源更实用，甚至比那些大公司秘而不宣的数据集更有价值。“我们在尽可能地撒一张大网”，Henretty称。

|<< << < 1 2 > >> >>|

上一篇：网红经济步步紧逼，耍大牌的明星们还能得瑟几天？　　　

下一篇：《中华人民共和国中小企业促进法》（2017年修订版）全文

佳木斯众诚科技研发有限公司

电话：0454-8661931

地址：黑龙江省佳木斯市长安路606号6楼