2018 全国“视觉与学习青年学者研讨会”(VALSE 2018)4月20日于大连拉开帷幕。该研讨会的主要目的是为计算机视觉、图像处理、模式识别与机器学习研究领域内的中国青年学者提供一个深层次学术交流的舞台,促进国内青年学者的思想交流和学术合作,提升中国学者在AI领域做出重量级的学术贡献,及其在国际学术舞台上的影响力。
会议期间,来自国内各大高校计算机视觉领域权威学者、国内人工智能领域的科技公司专家代表和互联网知名企业阿里巴巴、百度、滴滴等齐聚现场,展示AI业内前沿技术、深度学习应用成果,并围绕此展开深入探讨。
魔视智能沈春华教授受邀作为大会报告人,在视觉与语言专题讨论会上(VALSE Workshop on Vision and Language)作了一场关于视觉问答(Visual Question Answering,以下简称为VQA)的报告。视觉问答/对话是一个融合计算机视觉和自然语言处理的终极任务,相比较图片文本描述任务(ImageCaptioning),VQA更能反映出对于图像的深层理解能力。报告主要包含以下内容。
魔视智能沈春华教授发表主题演讲
融合知识库的VQA模型框架以及基于常识的VQA数据集(FVQA)
VQA任务通常的做法是使用卷积神经网络(CNN)得到的特征或预测出的属性联合针对图片的问题一起作为递归网络(RNN,LSTM,GRU等)的输入,然后生成答案。但是当前存在的VQA任务的模型框架由于只考虑了图片的视觉信息,并不能很好地回答更深层的问题,要回答这些深层问题就需要一些额外的知识作为支持。
沈教授团队提出一个融合了知识库的模型框架,能够结合图片所包含的信息和额外的知识库[1,2,3]。另外,当前的VQA的任务没有给出问题答案的原因,使得答案不能追溯图片的相关特征以及相关知识。沈教授团队提出了一个VQA-Machine的框架[4],融合了多种计算机视觉任务的结果并且能额外输出给出答案的理由。考虑到当前的VQA数据集的图片样本所提供问题和答案都过于浅显,沈教授团队提出的一个基于常识事实的新的VQA数据集(FVQA)[5],对于每张图还会额外提供与图片问题相关的事实基础。
类人对话生成
考虑到目前的VQA任务的输出比较机器化,简短,报告里还介绍了其团队提出的一种使用对抗学习(GAN)以及强化学习辅助生成更加自然的类人的语言的方法[6]。该方法使用了一种融合图片、问题和历史问答数据的联合注意力的编码器(Co-attention encoder)作为一个生成器(generator)和一个使用历史生成器记忆的判别器(discriminator)来区分机器生成的对话和类人的对话。
参考文献:
[1] Image Captioning and Visual QuestionAnswering Based on Attributes and External Knowledge. Wu & Wang et al.TPAMI 2017
[2] Ask Me Anything: Free-Form VisualQuestion Answering Based on Knowledge from External Sources. Wu & Wang etal. CVPR2016
[3] What Value Do Explicit High-LevelConcepts Have in Vision to Language Problems. Wu et al. CVPR 2016
[4] The VQA-machine Learning How to UseExisting Vision Algorithms to Answer New Questions. Wang & Wu et al. CVPR2017
[5] FVQA: Fact-Based Visual QuestionAnswering. Wang & Wu et al. TPAMI 2018
[6] Are You Talking to Me? Reasoned VisualDialog Generation Through Adversarial Learning. Wu & Wang et al. CVPR 2018
魔视智能始终密切关注着业内前沿动态,同时十分重视对青年学者这一新生力量的培养,作为本次大会的铂金赞助商之一,由CEO虞正华博士带队,向参会的各位青年学者及业内公司代表介绍了魔视智能的团队情况、核心优势及最新研究成果。在展示区,我们着重展示了魔视智能的核心技术优势与最新产品基于嵌入式深度学习的前视ADAS一体机产品,为期三天的展示中,驻足浏览的参会人员络绎不绝。
我们非常欢迎优秀学子的加入, 在浓厚的学术氛围团队中加快实践技能的提升,一起实现汽车产业人工智能化,开启汽车的人工智能大脑。