人工智能系统为盲人读取图片信息迎来新篇章-成都新闻网

本篇文章1976字，读完约5分钟

[人工智能系统自动捕捉带有文字描述的图片信息，并能通过语音识别大声朗读，为盲人阅读图片信息开创了新的篇章]

在网络时代，大多数人可以分享社交媒体带来的便利，但视力障碍者很难进入社交媒体圈与他人分享他们的喜怒哀乐。

基于互联网世界的开放和平等精神，大公司肯定会尽最大努力弥补这一缺陷。

最近，facebook使用机器学习技术，通过“自动文本转换”功能来识别图片中的信息。

Facebook正试图将其图片功能的影响力扩大到全世界3900万视力受损的人。Facebook开发了一个人工智能系统，可以自动捕捉带有文字描述的图片信息，并可以通过语音识别大声朗读，这为盲人阅读图片信息开创了新的篇章。这离扎克伯格将互联网连接到“每个人”的目标又近了一步。

人工智能系统为盲人读取图片信息迎来新篇章

该功能被称为“自动文本转换器”，它是基于具有数亿个参数的神经网络，通过图像识别技术和数百万次训练而开发的。

虽然这是一个新的突破，但到目前为止，这项技术还不够成熟，文字的描述更像是罗列信息，而不是用图片描述故事。尽管如此，facebook表示，对于盲人来说，从0%到50%获取图片信息的变化已经是一个巨大的飞跃，这种人工智能有着巨大的前景。目前，有5万名盲人使用了这项服务。

人工智能系统为盲人读取图片信息迎来新篇章

在国内，百度(bidu)开发了一套人工智能操作系统dulight来帮助盲人识别周围物体，并配备了一个由百度大脑驱动的智能可穿戴设备“小明”，类似于蓝牙耳机。“小明”除了接收用户的指令外，还利用内置摄像头从第一视角捕捉用户的视觉信息，并对摄像头捕捉到的信息进行图像识别。最后，通过图像语义理解对核心信息进行分析和解释。经过一段时间的使用，该设备可以自动推断用户在下一步可能的行为。

人工智能系统为盲人读取图片信息迎来新篇章

利用百度新开发的“机器阅读图片”技术，达利的图像识别，尤其是通用识别功能，非常强大。机器本身可以根据捕捉到的图片内容自动生成一个“描述性文本”，在高级语义层面上搭建图像与自然语言之间的桥梁，使计算机能够真正自主学习，构建语言系统，感知物理世界中的联系。这也是人工智能领域的一大飞跃。目前，小明的人脸识别错误率仅为0.23%。

人工智能系统为盲人读取图片信息迎来新篇章

事实上，语言一直是机器学习的最大障碍。百度研究院的科学家许巍曾经告诉《中国商报》记者:“人类语言是一种抽象的东西。在百度，我们强调传统人工智能不同分支的紧密结合，如图像识别、语言理解和语言生成。有了统一的神经网络，让机器人(报价300024，购买)直接学习，就像教孩子教机器人一样。”

人工智能系统为盲人读取图片信息迎来新篇章

他还以“看图说话”为例。“看到这样的画面后，机器人可以看出这是一列沿着森林道路行驶的火车”；或者问“冲浪板是什么颜色”，机器人可以通过理解图片和问题说它是“黄色”。在识别出静止图像后，机器人还可以描述视频，比如“一只狗在草地上跑”。

人工智能系统为盲人读取图片信息迎来新篇章

Facebook技术目前只支持英语发音，但它给盲人和视障人士带来了极大的便利。对他们来说，ios系统上的voiceover(语音识别功能)是最常用的功能。但是，如果上传到facebook上的这些图片没有提供一定的文字描述，那么这些图片给盲人阅读的内容就不够生动，可能只是零碎的信息，所以facebook上的内容无法完全传达。

人工智能系统为盲人读取图片信息迎来新篇章

为了解决这个问题，twitter3在3月份引入了一个功能，允许用户手动将文本描述添加到他们上传的图片中。

然而，事实上，很少有人对每幅画都有描述，所以这种尝试并不十分成功。此外，添加描述的功能在默认情况下是关闭的。在向twitter图片添加文字描述之前，用户需要在辅助功能设置中启动该功能，然后在上传图片后可以看到“添加描述”选项，然后输入文字。这个功能更多的是针对需要帮助的人，而不是提供帮助的人。

人工智能系统为盲人读取图片信息迎来新篇章

与twitter相比，facebook的人工智能技术可以克服这些障碍，但它也面临其他一些问题。其中，图片内容的准确性是最大的一个:目前，机器中还存在一些错误，有时甚至整件事情都是错误的。例如，flickr去年推出了一个类似的系统，将奥斯威辛市的照片识别为“体育”，将一名黑人的照片识别为“猩猩”。

人工智能系统为盲人读取图片信息迎来新篇章

VIA电子(上海)有限公司语音交互部R&D总监张国凤在接受《中国商报》采访时表示:“目前，近年来发展迅速的深层神经网络技术(dnn)和在此基础上进一步发展起来的卷积神经网络(cnn)在图像识别中的应用最为广泛。最有代表性的是麻省理工学院的开源项目placecnn。通过大量志愿者，他们收集了250万张照片，205个场景分类进行场景识别训练，取得了很好的效果。”VIA Electronics在语音识别、人脸识别和声纹识别中广泛使用dnn、cnn和rnn(循环神经网络)，为未来人机交互在智能家居和机器人中的应用做准备。

人工智能系统为盲人读取图片信息迎来新篇章

目前，学术界对神经网络的训练算法基本上都是开源的，这也是研究进展迅速的一个重要原因。许多公司依靠这些开源代码对特定领域进行图像识别培训，并取得了良好的效果。

来源：成都新闻网

标题：人工智能系统为盲人读取图片信息迎来新篇章

地址：http://www.cdsdcc.com/cdzx/6437.html

人工智能系统为盲人读取图片信息迎来新篇章

成都新闻信息网推荐内容

一级建造师考试建筑工程考题：国家标准规定，普通硅酸盐水泥的终凝时间最大

全面预算管理系统分为哪几类？

新型职业农民增收潜力大

风雨十年我们一直在路上

债权转让公告

什么网站有职业教育免费题库？-题王网tiw.cn

首经贸法学研修班体验

wifi管家app_wifi管家app官方下载

郑爽回应直播风波状态饱满亮相微拍堂七夕直播

本月热文

win10安装包解压删除多

阿里云国际服务器购

阿里云国际站，云计

腾讯云国际，腾讯云

行业领军人物龚榜建

wifi贴码推广怎么做

win10专业版怎么优化

洗货车大功力洗车机

wifi管家查看已连接

钢、铜和铝哪个传热

最新发布

阿里云账号注册，阿里云服务器购买，24h自助充值

阿里云账号注册免费开通，阿里云国际站

健康产业加盟融资好项目唯有中医特效药方可彻底消灭新冠病毒

棕榈滩旅游团攻略：品味阳光海岸的奢华与宁静

加盟儿童绘画培训机构的门槛相对很低

网站简介

人工智能系统 为盲人读取图片信息迎来新篇章

成都新闻信息网推荐内容

一级建造师考试建筑工程考题：国家标准规定，普通硅酸盐水泥的终凝时间最大

全面预算管理系统分为哪几类？

新型职业农民增收潜力大

风雨十年 我们一直在路上

债权转让公告

什么网站有职业教育免费题库？-题王网tiw.cn

首经贸法学研修班体验

wifi管家app_wifi管家app官方下载

郑爽回应直播风波 状态饱满亮相微拍堂七夕直播

本月热文

最新发布

网站简介

人工智能系统为盲人读取图片信息迎来新篇章

风雨十年我们一直在路上

郑爽回应直播风波状态饱满亮相微拍堂七夕直播