向善而生的AI助盲,让AI多一点,障碍少一点******
有人说,盲人与世界之间,相差的只是一个黎明。在浪潮信息研发人员的心中,失去视力的盲人不会陷入永夜,科技的进步正在力图给每一个人以光明未来。
AI助盲在人工智能赛道上一直是最热门的话题之一。以前,让失明者重见光明依靠的是医学的进步或“奇迹”。而随着以“机器视觉+自然语言理解”为代表的多模态智能技术的爆发式突破,更多的失明者正在借助AI提供的感知、理解与交互能力,以另一种方式重新“看见世界”。
新契机:多模态算法或将造福数以亿计失明者
科学实验表明,在人类获取的外界信息中,来自视觉的占比高达70%~80%,因此基于AI构建机器视觉系统,帮助视障患者拥有对外界环境的视觉感知与视觉理解能力,无疑是最直接有效的解决方案。
一个优秀的AI助盲技术,需要通过智能传感、智能用户意图推理和智能信息呈现的系统化发展,才能构建信息无障碍的交互界面。仅仅依靠“一枝独秀”超越人类水平的单模态人工智能比如计算机视觉技术还远远不够,以“机器视觉+自然语言理解”为代表的多模态算法的突破才是正确的新方向和新契机。
多个模态的交互可以提升AI的感知、理解与交互能力,也为AI理解并帮助残障人士带来了更多可能。浪潮信息研发人员介绍说,多模态算法在AI助盲领域的应用一旦成熟,将能够造福数以亿计的失明者。据世卫组织统计,全球至少22亿人视力受损或失明,而我国是世界上盲人最多的国家,占世界盲人总数的18%-20%,每年新增的盲人数量甚至高达45万。
大挑战:如何看到盲人“眼中”的千人千面
AI助盲看似简单,但多模态算法依然面临重大挑战。
多模态智能算法,营造的是沉浸式人机交互体验。在该领域,盲人视觉问答任务成为学术界研究AI助盲的起点和核心研究方向之一,这项研究已经吸引了全球数以万计的视障患者参与,这些患者们上传自己拍摄的图像数据和相匹配的文本问题,形成了最真实的模型训练数据集。
但是在现有技术条件下,盲人视觉问答任务的精度提升面临巨大挑战:一方面是盲人上传的问题类型很复杂,比如说分辨冰箱里的肉类、咨询药品的服用说明、挑选独特颜色的衬衣、介绍书籍内容等等。
另一方面,由于盲人的特殊性,很难提取面前物体的有效特征。比如盲人在拍照时,经常会产生虚焦的情况,可能上传的照片是模糊的或者没有拍全,或者没拍到关键信息,这就给AI推理增加了难度。
为推动相关研究,来自卡内基梅隆大学等机构的学者们共同构建了一个盲人视觉数据库“VizWiz”,并发起全球多模态视觉问答挑战赛。挑战赛是给定一张盲人拍摄的图片和问题,然后要求给出相应的答案,解决盲人的求助。
另外,盲人的视觉问答还会遭遇到噪声干扰的衍生问题。比如说,盲人逛超市,由于商品外观触感相似,很容易犯错,他可能会拿起一瓶醋却询问酱油的成分表,拿起酸奶却询问牛奶的保质期等等。这种噪声干扰往往会导致现有AI模型失效,没法给出有效信息。
最后,针对不同盲人患者的个性化交互服务以及算法自有的反馈闭环机制,同样也是现阶段的研发难点。
多解法:浪潮信息AI助盲靶向消灭痛点
AI助盲哪怕形式百变,无一例外都是消灭痛点,逐光而行。浪潮信息多模态算法研发团队正在推动多个领域的AI助盲研究,只为帮助盲人“看”到愈发精彩的世界。
在VizWiz官网上公布的2万份求助中,盲人最多的提问就是想知道他们面前的是什么东西,很多情况下这些物品没法靠触觉或嗅觉来做出判断,例如 “这本书书名是什么?”为此研发团队在双流多模态锚点对齐模型的基础上,提出了自监督旋转多模态模型,通过自动修正图像角度及字符语义增强,结合光学字符检测识别技术解决“是什么”的问题。
盲人所拍摄图片模糊、有效信息少?研发团队提出了答案驱动视觉定位与大模型图文匹配结合的算法,并提出多阶段交叉训练策略,具备更充分的常识能力,低质量图像、残缺的信息,依然能够精准的解答用户的求助。
目前浪潮信息研发团队在盲人视觉问答任务VizWiz-VQA上算法精度已领先人类表现9.5个百分点,在AI助盲领域斩获世界冠军两项、亚军两项。
真实场景中的盲人在口述时往往会有口误、歧义、修辞等噪声。为此,研发团队首次提出视觉定位文本去噪推理任务FREC,FREC提供3万图片和超过25万的文本标注,囊括了口误、歧义、主观偏差等多种噪声,还提供噪声纠错、含噪证据等可解释标签。同时,该团队还构建了首个可解释去噪视觉定位模型FCTR,噪声文本描述条件下精度较传统模型提升11个百分点。上述研究成果已发表于ACM Multimedia 2022会议,该会议为国际多媒体领域最顶级会议、也是该领域唯一CCF推荐A类国际会议。
在智能交互研究方面上,浪潮信息研发团队构建了可解释智能体视觉交互问答任务AI-VQA,同时给出首个智能体交互行为理解算法模型ARE。该研究成果已发表于ACM Multimedia 2022会议。该研究项目的底层技术未来可广泛应用于AI医疗诊断、故事续写、剧情推理、危情告警、智能政务等多模态交互推理场景。
眼球虽然对温度并不敏感,但浪潮信息的研发团队,却在努力让盲人能“看”到科技的温度,也希望吸引更多人一起推动人工智能技术在AI助盲、AI反诈、AI诊疗、AI灾情预警等更多场景中的落地。有AI无碍,跨越山海。科技的伟大之处不仅仅在于改变世界,更重要的是如何造福人类,让更多的不可能变成可能。当科技成为人的延伸,当AI充满人性光辉,我们终将在瞬息万变的科技浪潮中感受到更加细腻温柔的善意,见证着更加光明宏大的远方。
胡鑫宇失联已超90天,最新进展******
1月13日,江西上饶铅山县致远中学高中生胡鑫宇失踪已超90天。
新京报记者12日从胡鑫宇家属处获悉,1月9日至1月11日,江西省、市、县公安机关联合工作专班(下称“专班”)组织上千人在铅山县境内开展对胡鑫宇失联线索的“拉网式”搜寻,目前未发现任何线索。铅山县公安局工业园区派出所一工作人员告诉记者,“搜寻还在进行,目前没有任何结果。”
据胡鑫宇的舅舅李先生透露,此次搜寻是围绕先前通报中的“胡鑫宇系自行离校”一说开展。“专班发动官员、民兵组织及各个学校的男老师在铅山县全域搜寻。1月9日搜寻第一天,有约2000人参与;第二天约1000人;第三天约900人。”
据李先生透露,他和律师正在向专班提出申请,“查看得出‘胡鑫宇系自行离校’这一说法的相关案卷,目前还在等待专班回复。
另据澎湃新闻消息,铅山县永平镇周姓副镇长回应表示,此次搜寻从1月9日开始,到现在已经第三天,目前暂无进展。由于在野外,天气不好,搜寻难度比较大。至于此次搜寻什么时候结束,永平镇副镇长表示,“一直搜”。
据当地警方1月7日通报,未发现胡鑫宇在校内被害、自杀、发生意外的痕迹证据,未发现胡鑫宇与他人发生矛盾冲突等可疑情况。综合现有信息指向胡鑫宇系自行离校,目前正在全力查找中。
事件回顾
胡鑫宇,男,2007年7月生,汉族,铅山县永平镇排上村胡家塘人,身高173厘米。
2022年10月14日17时50分左右,江西上饶铅山县致远中学高一(5)班15岁学生胡鑫宇离奇从校园失联。
据10月14日视频监控显示及调查证实,胡鑫宇下午下课后到食堂用餐,晚餐后17时40分独自回到306寝室短暂停留,后上到五楼阳台停留2分57秒,往睢园和校外树林山岗方向张望;
17时45分走出宿舍楼,打篮球的同学与其简单对话,监控显示其往睢园方向走去;
17时49分胡鑫宇再次返回宿舍楼,未回寝室,17时50分到达五楼阳台停留13秒;
17时51分30秒胡鑫宇从宿舍楼走出后,打篮球的同学再次与其打招呼,并看到其走上睢园台阶;
17时51分58秒在睢园方向离开视频监控范围之后再未发现胡鑫宇轨迹。
图片来源:中新视频截图2022年10月15日,公安机关接到报警后即组织开展调查搜寻工作,未发现胡鑫宇在校内被害、自杀、发生意外的痕迹证据。
2022年11月23日,江西铅山县委宣传部官方微信“江西铅山微讯”发布通报称:胡鑫宇失联后,县委、县政府高度重视,立即组织公安、教育等部门开展搜寻和调查工作。省、市、县公安机关已成立联合工作专班,正在全力调查,调查结果将及时向社会公布。
后据大皖新闻报道,胡鑫宇失联事件已被提级管理,由上饶市公安局从下辖多个派出所抽调警力,统一调配,组成事件专项调查组。
为了寻找胡鑫宇,当地警方和多支救援队,动用了警犬、无人机、3D搜索和热成像技术,搜查了几乎所有地方。
2023年1月2日,新京报记者从胡鑫宇家属处获悉,1月1日,他们及律师一同与当地警方会面,就胡鑫宇失联一事的调查情况进行沟通。
在见面会及新京报记者采访参与胡鑫宇失联一事调查的上饶市公安局民警中可知,该事件目前有以下进展:
排除校内人员犯罪的可能;
胡鑫宇或有厌学情绪;
胡鑫宇或自行离开学校,但没有依据(证实);
根据设备生产商海康威视的技术人员鉴定后出具的情况说明,学校监控视频未被删减;
寻找胡鑫宇的工作不会停止,警方“会一直盯着。”
对于相关进展,胡鑫宇家人及律师提出质疑。
据江西省上饶市公安机关2023年1月7日通报,对网民关注的班主任严某强、副校长王某、校长刘某来等人,通过视频印证、证人证言证明、其他信息综合认定,均未发现异常情况,排除犯罪嫌疑。
视频:江西警方公布胡鑫宇失踪案发校园航拍画面来源:中国新闻网
公安机关将继续全力查找胡鑫宇下落,请广大群众积极提供线索。
联系方式:
0793-5332585
曾警官 18879318780
程警官 18270390811
中国新闻社(CNS1952)综合自中国新闻网、中新视频(记者华山 李韵涵)新京报、澎湃新闻、上饶市公安局
编辑:梁静
责编:彭大伟
(中新社微信公众号)
(文图:赵筱尘 巫邓炎) [责编:天天中] 阅读剩余全文() |