图像超分辨率技术是指由低分辨率图像生成高分辨率图像的过程,希望从现有的图像信息中重建缺失的图像细节。超分辨率视频技术更加复杂,不仅需要生成一帧帧细节丰富的图像,还需要保持图像之间的连续性。

  在一篇题为“用于视频超分辨率的临时相干gan(teco gan)”的论文中,慕尼黑工业大学的研究人员提出了一种用于视频超分辨率的新型GAN——TecoGAN。

  此前,开发者已经使用视频超分辨率模型ESRGAN重新制作了许多单机游戏,包括经典的《重返沃尔芬斯坦城堡》、《麦克斯佩恩》和《上古卷轴三:晨风》等。游戏重度高清版画质效果不错,也保留了原作质感的美感和风格。

  下面三张动图的右半部分是TecoGAN生成的,也许重现单机游戏会有更惊艳的效果。这种方法可以生成精细的细节,生成的视频序列较长也不会影响其时间一致性。

  图中动物皮肤的网状结构,蜥蜴的花纹,蜘蛛背上的斑点都表现了这种方法的效果。该方法中的时空鉴别器在引导生成器网络输出相干细节方面起着重要作用。

  这个视频里的超分辨率干牛在哪里?自然图像超分辨率是图像和视频处理中的经典问题。对于单幅图像超分辨率(SISR),基于深度学习的方法可以达到目前最好的峰值信噪比(PSNR),而基于GAN的架构在感知质量上取得了显著的提升。

  在视频超分辨率(VSR)任务中,现有方法主要使用标准损失函数,如均方误差损失,而不是抗损失函数。同样,成果评价仍然侧重于基于向量规范的指标,如PSNR和结构相似性(SSIM)指标。与SISR相比,VSR的主要困难在于如何获得清晰的结果而没有不自然的伪影。基于均方误差损失,最近的VSR任务使用来自低分辨率输入的多个帧[13],或者重用先前生成的结果[28]来提高时间相干性。

  对抗训练虽然可以提高单幅图像的视觉质量,但在视频中并不常用。在视频序列的情况下,我们不仅要研究任意的自然细节,还要研究基于长图像序列能够以稳定形式生成的细节。

  本研究首次提出对抗循环训练的方法,对空间高频细节和时间关系进行监督。在缺乏真值动态的情况下,时空对抗损失和循环结构可以使模型生成照片般逼真的细节,同时保持生成的结构在帧间连贯。研究人员还发现了一种新的模型崩溃,这种崩溃可能发生在使用圆形架构对抗损失时,并提出了一种双向损失函数来消除相应的伪影。

  这项研究的核心贡献包括:

  提出了第一个时空鉴别器以获得逼真和相干的视频超分辨率。提出了一种新的乒乓损失来解决循环伪影。从空间细节和时间连贯性方面做详细的评价;提出了一种基于动态估计和感知距离的时间一致性评价指标。论文:用于视频超分辨率的临时相干gans(teco gan)

  论文链接:https://arxiv.org/pdf/1811.09393.pdf

  摘要:对抗训练在单幅图像超分辨率任务中非常成功,因为它可以获得逼真的、高度细节化的输出结果。因此,当前的最优视频超分辨率方法仍然支持简单范数(例如L2)作为抗损失函数。以直接向量范数为损失函数进行平均的本质容易带来时间流畅性和连贯性,但生成的图像缺乏空间细节。本研究提出了一种视频超分辨率的对抗训练方法,可以使分辨率具有时间连贯性,又不损失空间细节。

  本研究着重于新损耗的形成,并基于已建立的发电机框架展示其性能。研究人员已经证明,时间对时间的学习是获得照片级真实性和时间一致性细节的关键。除了时空鉴别器,研究人员还提出了一种新的损失函数Ping-Pong,可以在不降低视觉质量的情况下,有效去除环形网络中的时间伪影。先前的研究没有解决视频超分辨率量化任务中的时间一致性问题。本研究提出了一套指标来评估准确性和视觉质量与时间的关系。用户调查的结果与这些指标判断的结果是一致的。总之,这种方法优于以往的研究,它可以得到更详细的图像,时间变化更自然。

  模型法

  本研究提出的VSR架构包含三个元件:回路产生器、流量估测网路以及空时鉴别器。g .生成器基于低分辨率输入循环生成高分辨率视频帧。估计网络f学习帧之间的动态补偿,以帮助发生器和时空鉴别器D_s,t.

  在训练过程中,生成器用流估计器进行训练,欺骗时空鉴别器D _ S,t,鉴别器是核心部件,因为它同时考虑了空间和时间因素,惩罚不切实际的时间不一致的结果。这样就需要G来生成与前一帧连续的高频细节。在训练之后,D_s,t的额外复杂度不会有任何影响,除非需要G和F的训练模型来推断新的超分辨率视频输出。

  图1

  图2

  图2:带运动补偿的环路发生器。

  本研究中提出的鉴别器结构如图3所示。它接收两组输入:真值和生成的结果。

  图3

  图3:时空鉴别器的输入。

  损失函数

  为了消除不想要的细节的长期漂移,研究人员提出了一种新的损失函数“乒乓”(PP)损失。

  图4

  图4: A)没有使用PP

  损失训练出的结果。b)使用 PP 损失训练出的结果。后者成功移除了漂移伪影(drifting artifact)。

  如图 4b 所示,PP 损失成功移除了漂移伪影,同时保留了适当的高频细节。此外,这种损失结构可以有效增加训练数据集的规模,是一种有用的数据增强方式。

  该研究使用具备 ping-pong ordering 的扩展序列来训练网络,如图 5 所示。即最终附加了逆转版本,该版本将两个「leg」的生成输出保持一致。PP 损失的公式如下所示:

  图 5

  图 5:使用该研究提出的 Ping-Pong 损失,g_t 和

  之间的 L_2 距离得到最小化,以移除漂移伪影、改进时间连贯度。

  实验结果

  研究者通过控制变量研究说明了 L_(G,F) 中单个损失项的效果。

  图 6

  图 6:树叶场景对比。对抗模型(ENet、DsOnly、DsDt、DsDtPP、

  和 TecoGAN)比使用 L_2 损失训练的方法(FRVSR 和 DUF)具备更好的视觉效果。右图「temporal profiles」中,DsDt、DsDtPP 和 TecoGAN 在时间连续性上显著优于 ENet 和 DsOnly。本文提出的判别器网络的时间信息成功抑制了这些伪影。