本篇文章1976字,读完约5分钟

[人工智能系统自动捕捉带有文字描述的图片信息,并能通过语音识别大声朗读,为盲人阅读图片信息开创了新的篇章]

在网络时代,大多数人可以分享社交媒体带来的便利,但视力障碍者很难进入社交媒体圈与他人分享他们的喜怒哀乐。

基于互联网世界的开放和平等精神,大公司肯定会尽最大努力弥补这一缺陷。

最近,facebook使用机器学习技术,通过“自动文本转换”功能来识别图片中的信息。

Facebook正试图将其图片功能的影响力扩大到全世界3900万视力受损的人。Facebook开发了一个人工智能系统,可以自动捕捉带有文字描述的图片信息,并可以通过语音识别大声朗读,这为盲人阅读图片信息开创了新的篇章。这离扎克伯格将互联网连接到“每个人”的目标又近了一步。

人工智能系统 为盲人读取图片信息迎来新篇章

该功能被称为“自动文本转换器”,它是基于具有数亿个参数的神经网络,通过图像识别技术和数百万次训练而开发的。

虽然这是一个新的突破,但到目前为止,这项技术还不够成熟,文字的描述更像是罗列信息,而不是用图片描述故事。尽管如此,facebook表示,对于盲人来说,从0%到50%获取图片信息的变化已经是一个巨大的飞跃,这种人工智能有着巨大的前景。目前,有5万名盲人使用了这项服务。

人工智能系统 为盲人读取图片信息迎来新篇章

在国内,百度(bidu)开发了一套人工智能操作系统dulight来帮助盲人识别周围物体,并配备了一个由百度大脑驱动的智能可穿戴设备“小明”,类似于蓝牙耳机。“小明”除了接收用户的指令外,还利用内置摄像头从第一视角捕捉用户的视觉信息,并对摄像头捕捉到的信息进行图像识别。最后,通过图像语义理解对核心信息进行分析和解释。经过一段时间的使用,该设备可以自动推断用户在下一步可能的行为。

人工智能系统 为盲人读取图片信息迎来新篇章

利用百度新开发的“机器阅读图片”技术,达利的图像识别,尤其是通用识别功能,非常强大。机器本身可以根据捕捉到的图片内容自动生成一个“描述性文本”,在高级语义层面上搭建图像与自然语言之间的桥梁,使计算机能够真正自主学习,构建语言系统,感知物理世界中的联系。这也是人工智能领域的一大飞跃。目前,小明的人脸识别错误率仅为0.23%。

人工智能系统 为盲人读取图片信息迎来新篇章

事实上,语言一直是机器学习的最大障碍。百度研究院的科学家许巍曾经告诉《中国商报》记者:“人类语言是一种抽象的东西。在百度,我们强调传统人工智能不同分支的紧密结合,如图像识别、语言理解和语言生成。有了统一的神经网络,让机器人(报价300024,购买)直接学习,就像教孩子教机器人一样。”

人工智能系统 为盲人读取图片信息迎来新篇章

他还以“看图说话”为例。“看到这样的画面后,机器人可以看出这是一列沿着森林道路行驶的火车”;或者问“冲浪板是什么颜色”,机器人可以通过理解图片和问题说它是“黄色”。在识别出静止图像后,机器人还可以描述视频,比如“一只狗在草地上跑”。

人工智能系统 为盲人读取图片信息迎来新篇章

Facebook技术目前只支持英语发音,但它给盲人和视障人士带来了极大的便利。对他们来说,ios系统上的voiceover(语音识别功能)是最常用的功能。但是,如果上传到facebook上的这些图片没有提供一定的文字描述,那么这些图片给盲人阅读的内容就不够生动,可能只是零碎的信息,所以facebook上的内容无法完全传达。

人工智能系统 为盲人读取图片信息迎来新篇章

为了解决这个问题,twitter3在3月份引入了一个功能,允许用户手动将文本描述添加到他们上传的图片中。

然而,事实上,很少有人对每幅画都有描述,所以这种尝试并不十分成功。此外,添加描述的功能在默认情况下是关闭的。在向twitter图片添加文字描述之前,用户需要在辅助功能设置中启动该功能,然后在上传图片后可以看到“添加描述”选项,然后输入文字。这个功能更多的是针对需要帮助的人,而不是提供帮助的人。

人工智能系统 为盲人读取图片信息迎来新篇章

与twitter相比,facebook的人工智能技术可以克服这些障碍,但它也面临其他一些问题。其中,图片内容的准确性是最大的一个:目前,机器中还存在一些错误,有时甚至整件事情都是错误的。例如,flickr去年推出了一个类似的系统,将奥斯威辛市的照片识别为“体育”,将一名黑人的照片识别为“猩猩”。

人工智能系统 为盲人读取图片信息迎来新篇章

VIA电子(上海)有限公司语音交互部R&D总监张国凤在接受《中国商报》采访时表示:“目前,近年来发展迅速的深层神经网络技术(dnn)和在此基础上进一步发展起来的卷积神经网络(cnn)在图像识别中的应用最为广泛。最有代表性的是麻省理工学院的开源项目placecnn。通过大量志愿者,他们收集了250万张照片,205个场景分类进行场景识别训练,取得了很好的效果。”VIA Electronics在语音识别、人脸识别和声纹识别中广泛使用dnn、cnn和rnn(循环神经网络),为未来人机交互在智能家居和机器人中的应用做准备。

人工智能系统 为盲人读取图片信息迎来新篇章

目前,学术界对神经网络的训练算法基本上都是开源的,这也是研究进展迅速的一个重要原因。许多公司依靠这些开源代码对特定领域进行图像识别培训,并取得了良好的效果。

来源:成都新闻网

标题:人工智能系统 为盲人读取图片信息迎来新篇章

地址:http://www.cdsdcc.com/cdzx/6437.html