例如,在文献[73]和文献[77]中,使用Grad-CAM作为图像蒙版生成自我注意力的蒙版,去除图像中不重要的区域,将处理后的图像应用于后段的模型训练和推论。 但是,有一个区别。 如果卷积核是固定的,则加载训练的模型时,需要知道最终是否反转的权重,因此需要知道是使用互相关还是使用卷积训练。
对近年来表征卷积神经网络可视化领域的相关文献进行了综合回顾,并按照以下方面对其内容进行了梳理:提出表达可视化研究,重点是相关概念与内容、可视化方法、可视化的效果评价与可视化应用、表达可视化方法的分类与算法的具体过程。
理论上,完整可靠的解释可以使用户从中推理得到解释的预测结果,但目前的可视化方法还不具备这种能力,只能从预测结果中得到解释结果,而不能通过解释推测模型的预测。 也就是说,两者之间的相互印证关系尚未确立。
此外,特征可视化方法也适用于其他类型的数据。 例如,像CAM这样的方法,具有很好的类别识别性,可以用来识别与特定输出类别相关的图像区域,有助于识别与视觉交互模型中问题最相关的图像区域。 那是因为卷积和互相关的计算方式实际上是相同的,唯一的区别是滤波器(核)被反转。 文献[72]利用Grad-CAM类激活图观察了网络中间层的特征,分析比较了不同结构设计对模型训练效果的影响。
可视化方法多应用于图像分类、目标定位及场景识别等任务的解释,可以实现多目标图像中语义级目标的区分。 本文第3节所述的特征可视化方法常用于基于CNN的图像分类器的解释。 例如,AM法用于可视化网络对输入图像的喜好,从其他角度明确网络对什么样的输入模式有很强的依赖性。 两个信号的DFT乘法器对应于其循环卷积,由运算符表示而不是其线性卷积。
通过可视化说明难以说明的细节,辅助添加自然语言的说明形式的说明(猫的颜色、猫的耳朵形状的说明等),可以实现更好的说明效果。 近年来,深度学习在图像分类、目标检测、场景识别等任务方面取得了突破性进展。 这些任务大多以卷积神经网络为基础建立识别模型,训练后的模型具有较好的自动特征提取和预测性能,能够为用户提供输入-输出形式的端到端解决方案。
傅里叶变换也适用于实数或复离散信号x[k],实变量n的复离散信号X[n]:LeNet5由Yann LeCun于1998年提出,用于解决手写数字识别的视觉任务。 池化层称为子采样层或下采样层( Subsampling Layer ),起到减少计算量,提高泛化能力的作用。