选自medium
作者:RobertGeirhos
机器之心编译
参与:GeekAI、张倩
神经网络识别物体依赖的是形状还是其他表征?一直以来,人们普遍认为答案是前者,但本文中的研究者通过实验颠覆了这种「常识」。
看看下面的这幅图片,你看到了什么?
你可能会很轻易地分辨出上图中的猫。然而,最顶尖的深度学习算法却认为上图中的动物是一只大象!
本文将会讨论为什么人工神经网络会将人类看到的猫识别为大象。此外还将讨论「如何看待深度神经网络物体识别任务中的范式转换」,以及如何利用这种视角来改进神经网络。本文是基于最近提交给ICLR的论文——《ImageNet-trainedCNNsarebiasedtowardstexture;increasingshapebiasimprovesaccuracyandrobustness》撰写的。
神经网络会如何识别一只猫呢?一个人们普遍接受的答案是:通过检测它的形状。这种假设的证据来源于像DeconvNet(《VisualizingandUnderstandingConvolutionalNetworks》)这样的可视化技术。这种技术表明,在不同的处理阶段(被称之为层),网络试图识别一张图像中越来越大的图案,从第一层中简单的边缘和轮廓到更复杂的形状(如汽车轮子),直到轻松识别出该对象(车)。
神经网络识别出的不同形状:从早期处理阶段的小图案(第一层和第二层)到更复杂的形状(第三层中的汽车车轮),再到最后的物体(第五层的汽车)。图源:Kriegeskorte()。
这种直观的解释已经成为了一种常识。现代的深度学习教科书(如IanGoodfellow的经典著作《深度学习》),在解释深度学习如何工作时,明确提到了基于形状的可视化技术,其他的研究人员也是如此(例如,NikolausKriegeskorte在《Deepneuralnetworks:anewframeworkformodellingbiologicalvisionandbraininformationprocessing》第九页中所述)。
网络习得了与每个类别相关联的各种形状的复杂知识。
高级单元似乎可以学习到自然图像中出现的形状的表征,如人脸、人体、动物、自然场景、建筑和汽车。
但是这种说法存在一个问题:一些包括DeconvNet在内的最重要的和广泛使用的可视化技术,最近被证明具有误导性(《ATheoreticalExplanationforPerplexingBehaviorsofBackpropagation-basedVisualizations》):它们仅仅是重建图像的组成部分,而没有揭示神经网络在一张图像中寻找到的是什么—也就是说,那些漂亮的可以被人类解释的可视化结果与网络如何做出一个决策的关系并不大。
并没有很多证据能够支持这种形状假设。那么,我们是否需要修正一下对于「神经网络如何识别物体」这一问题的看法?
如果形状假设不是唯一的解释呢?除了形状,物体通常还有或多或少与众不同的颜色、大小和纹理等特征。所有这些因素都可以被神经网络用来识别目标。虽然颜色和大小通常不是特定对象类别所特有的,但如果我们观察小区域,几乎所有对象都有类似于纹理的元素(甚至是汽车,其侧面有轮胎,外壳是金属)。
事实上,我们知道神经网络刚好有一个令人惊奇的纹理表征功能(即使该网络从来没有被训练过)。例如,在风格迁移问题中,我们就可以很明显地看到这一点。在这种如此令人着迷的图像建模技术中,深度神经网络被用来从一幅图像中提取纹理信息(如绘画风格)。这种风格随后会被应用在第二幅图像上,让人们能够「画」一张与著名画家风格相同的画。你可以通过下面的链接自己尝试一下: