您现在的位置是:首页 > 正文

论文阅读-面向图像自动语句标注的注意力反馈模型

2024-02-01 03:26:42阅读 2

文献:吕凡,胡伏原,张艳宁,夏振平,盛胜利.面向图像自动语句标注的注意力反馈模型[J].计算机辅助设计与图形学学报,2019,31(07):1122-1129.

主要工作

在传统注意力基础上引入反馈机制:利用关注信息的图像特征指导文本生成,借助文本中的关注信息进一步修正图像中的关注区域。解决了传统注意力机制的注意分散问题。此处的反馈是指文本-图像之间的反馈。

技术

两种图像语义提取常用技术与ATTENTION结合

1.基于全图:将图像整体作为输入(如人脸识别实验就是把全图作为输入 ),寻找图像中的关注区域。
2.基于显著特征:利用一系列的属性检测来获得视觉的属性特征标签(比如,上一篇论文基于多模态词向量的语句距离计算方法 采取的就是基于均匀网格提取显著特征的方法,即通过CNN的卷积核将目标划分成多个子区域),然后将这些标签融入rnn的隐藏层中。利用目标检测方法提取文本中的图像,重点关注该对象生成的文本。但是这种方法目标提取的过程提高了运算成本。

本文的改进

在传统attention基础上引入注意力反馈机制,利用关注信息的图像特征指导文本生成。
同时,借助生成文本中的关注信息进一步修正图像中的关注区域。
这一过程,强化了图像和文本中关键信息的匹配
简单来说:

  1. 加入来自生成文本的注意力的反馈;
  2. 引入循环结构迭代的更新图像的关注区域。

本文模型

训练过程

训练数据:给定的一系列图像
在这里插入图片描述
以及图像对应语句Si。

训练过程是图像X到文本S的映射:X👉S
生成语句过程可以看作是一个序列的产生过程:
在这里插入图片描述
以I am hungry为例,对应一张图片(i am hungry只是举例,实际上这种抽象词的图像特征应该很难捕捉)
该公式如下:
在这里插入图片描述
思考:
1.这个公式似乎不完整,比如第一个单词‘I’应该直接来自于输入,而不是来自S0,S0不存在。
2.由图像生成的文本和图像是孤立的,模型仅能在训练过程中通过损失函数判断生成文本和真实文本的差距。训练时同义文本之间存在差异性,这就造成了图像和文本中的关键词不能很好匹配。

本文结构:反馈式RNN-CNN结构

利用反馈机制将生成文本中的关键信息反传给图像,有利于在提取图像特征时更加关注文本信息所对应的显著目标。
在这里插入图片描述
迭代过程:
step1:正向文本生成:加持了注意力的图像特征
step2:生成文本反馈;
step3:关注区域更新。
以上只是框架,具体内容还在阅读。

个人见解

目前论文阅读最大的问题是论文不好找,多模态论文比较少,大多数multi-modal都是深度学习中lstm,attention,cnn等花式组合。
论文中采用的是CNN-RNN双向反馈,但其实,卷积神经网络已经更新到了inceprtion V4结构,自然语言处理的深度学习工具也发展到了transform,如果实践的话,可以用更新的工具。

网站文章

  • (一)u-boot简介

    u-boot简介简介u-boot官方资料简介 U-Boot 是一个主要用于嵌入式系统的引导加载程序,可以支持多种不同的计算机系统结构,包括PPC、ARM、AVR32、MIPS、x86、68k、Nios...

    2024-02-01 03:26:25
  • [mysql] Access denied for user ‘root’@’localhost’ (using password: YES) 的问题解决:恢复root权限

    故障现象:ROOT账户可以连接数据库,但在操作时候或再次登陆出现如下提示:Access denied for user ‘root’@‘localhost’ (using password: YES)...

    2024-02-01 03:25:55
  • 27 类深度学习主要神经网络

    27 类深度学习主要神经网络

    1. 感知器(Perceptron(P))  感知器模型也称为单层神经网络。这个神经网络只包含两层: 输入层输出层 这种类型的神经网络没有隐藏层。它接受输入并计算每个节点的加权。然后,它使用激活函数...

    2024-02-01 03:25:50
  • windows11中vmware安装centos虚拟机后蓝屏,搜不到wifi

    windows11中vmware安装centos虚拟机后蓝屏,搜不到wifi

    Windows11搜不到wifi

    2024-02-01 03:25:44
  • shell 希尔排序【排序算法篇】

    shell 希尔排序【排序算法篇】

    希尔排序此算法建立在插入排序上。首先,将要排序的数组,按照一定的增量分出子序列,我们对子序列利用插入排序算法排序。然后,增量=增量/2,在按照增量分出子序列,对它们进行排序。如此往复,直到增量=1时,意味着分不出子序列了,数组已经有序。增量可以看作子序列中各个节点的距离,以及子序列的个数。...

    2024-02-01 03:25:16
  • SRS流媒体服务进行视频推送拉取

    SRS流媒体服务进行视频推送拉取

    SRS是一个简单高效的实时视频服务器,支持RTMP/WebRTC/HLS/HTTP-FLV/SRT/GB28181。Note: 简单的单节点架构,适用于大多数场景你可以推拉多路流到SRS,不需要特殊的设置,按照前面的步骤运行SRS后,改变推拉流的URL就可以。streamid=#!

    2024-02-01 03:25:11
  • 7. docker——镜像

    7. docker——镜像

    1. 概述 镜像是一种轻量级、可自行的独立软件包,用来打包软件运行环境和基于运行环境快发的软件,它包含运行某个软件所需的所有内容,包括代码、运行时、库、环境变量和配置文件。1.1UnionFS(...

    2024-02-01 03:25:05
  • Kotlin的数据类,枚举类,单例类

    Kotlin的数据类,枚举类,单例类

    数据类 Kotlin 新增 数据类的概念,使用data关键字声明class,不用手动写一堆 getter和setter方法, 自动生成通用方法的默认实现 data class UserInfoBean( val authStatus: String, // 认证状态 val authTime: String, //认证时间 va...

    2024-02-01 03:24:35
  • 前端 mock 接口响应数据

    前端 mock 接口响应数据

    前端mock数据

    2024-02-01 03:24:29
  • Ant Design of Vue 时间选择框踩坑 && Ant Design of Vue 时间选择器数据回显解决方法

    Ant Design of Vue 时间选择框踩坑 && Ant Design of Vue 时间选择器数据回显解决方法

    表格中使用时间选择器 并使其数据回显 本人在项目开发中使用的框架为 Ant Design of Vue 因为这个组件在实际开发中用的是比较少的(一般都是用日期选择框) 肯定有人遇到和我一样的问题框架的...

    2024-02-01 03:24:23