有马变无马,影片去马赛克技术原理github项目:TecoGAN

  • A+

最近讨论比较火视频播放器JavPlayer一直是几个月业界讨论话题,网络上发酵?#36739;?#22312;,终于可以给大家总结下最近的马赛克破坏版影片JavPlayer到?#36164;?#24590;么回事?JavPlayer马赛克破坏版,简单讲就是利用AI技术,在打有马赛克影片的马赛克基础上进行修复操作,来实现去除马赛克,还原图像本质,依靠的全是大数据模型,详细的原理后面会讲!

 

 

对于 JavPlayer这样的技术,概念和之前的Deepfake换脸和DeepNude换身体的AI技术很类似。马赛克破坏版技术的发起人可能是推特上的一个叫“Javski”的用户,他发布的JavPlayer分为体验版和正式版,是一种可以降低乃至去除马赛克的软件工具!破坏马赛克的技术并不是创新,而是早有的研究技术,是基于慕尼黑工业大学的研究人员,

 

“Javski”提出了一种用于实现视频超?#30452;?#29575;的新型GAN —— TecoGAN

 

浏览了一下,感觉结构正大光明四平八稳,个人觉得有意思的亮点是其中体现出多个网络耦合构建复杂功能的思想。这里面用了好几个网络,估计运动,生?#19978;?#33410;,计算特征差异等等,所以以后构建网络的基本单元就不是一层一层的,而是一个一个的了。

 

TecoGAN项目地址:https://github.com/thunil/TecoGAN

 

 

 

以及“亚像素运动补偿 + 视频超?#30452;媯╒ideo Super Resolution)”技术

 

 

 

Video Super Resolution:

图中,动物皮的网格结构、蜥蜴的图案和蜘蛛背部的斑点无不彰显该方法的效果。该方法中的时空判别器在引导生成器网络输出连贯细节方面居功至伟。

 

 

这个视频超?#30452;?#29575; GAN 牛在哪里?

 

自然图像超?#30452;?#29575;是图像和视频处理领域的一大经典难题。对于单一图像超?#30452;?#29575;(SISR),基于深度学习的方法可以达到当前最佳的峰值信噪比(PSNR),而基于 GAN 的架构在感知质量方面实现了重大改进。

 

在视频超?#30452;?#29575;(VSR)任务中,现有的方法主要使用标准损失函数,如均?#35762;?#25439;失,而不是对抗损失函数。类?#39057;兀?#23545;结果的评估仍然聚焦于基于向量范数的指标,如 PSNR 和结构相似性(Structural Similarity,SSIM)指标。与 SISR 相比,VSR 的主要难点在于如何获取清晰的结果,且不会出现不自然的伪影。基于均?#35762;?#25439;失,近期的 VSR 任务使用来自低?#30452;?#29575;输入的多个帧 [13],或重用之前生成的结果 [28] 来改进时间连贯度。

 

尽管对抗训练可以改?#39057;?#20010;图像的视觉质量,但它并不常用于视频。在视频序列案例中,我们不仅要研究?#25105;?#30340;自然细节,还要研究可以稳定形式基于较长图像序列生成的细节。

 

 

该研究首次提出了一种对抗和循环训练方法,以监督空间高频细节和时间关系。在没有真值动态的情况下,时空对抗损失和循环结构可使该模型生成照片级真实度的细节,同时使帧与帧之间的生成结构保?#33267;?#36143;。研究者还发现了一?#36136;?#29992;对抗损失的循环架构可能会出现的新型模型?#35272;#?#24182;提出了一种双向损失函数用于移除对应的伪影。

 

该研究的核心贡献包括:

 

提出首个时空判别器,以获得逼真和连贯的视频超?#30452;?#29575;;

 

提出新型 Ping-Pong 损失,以解决循环伪影;

 

从空间细节和时间连贯度方面进行详细的评估;

 

提出新型评估指标,基于动态估计和感知距离来量化时间连贯度。

 

论?#27169;篢emporally Coherent GANs for Video Super-Resolution (TecoGAN)

 

 

有马变无马,影片去马赛克技术原理github项目:TecoGAN

论文链接:https://arxiv.org/pdf/1811.09393.pdf

 

摘要:对抗训练在单图像超?#30452;?#29575;任务中非常成功,因为它可以获得逼真、高度细致的输出结果。因此,当前最优的视频超?#30452;?#29575;方法仍然支持较简单的范数(如 L2)作为对抗损失函数。直接向量范数作损失函数求平均的本质可以轻松带来时间流畅度和连贯度,但生成图像缺乏空间细节。该研究提出了一种用于视频超?#30452;?#29575;的对抗训练方法,可以使?#30452;?#29575;具备时间连贯度,同时不会损失空间细节。

 

该研究聚焦于新型损失的形成,并基于已构建的生成器框架展示?#20284;?#24615;能。研究者证明时间对抗学习是获得照片级真实度和时间连贯细节的关键。除了时空判别器以外,研究者还提出新型损失函数 Ping-Pong,该函数可以有效移除循环网络中的时间伪影,且不会降低视觉质量。之前的研究并未解决量化视频超?#30452;?#29575;任务中时间连贯度的问题。该研究提出了一组指标来评估准确率和随时间变化的视觉质量。用户调研结果与这些指标判断的结果一致。总之,该方法优于之前的研究,它能?#22351;?#21040;更加细节化的图像,同时时间变化更加自然。

 

模型方法

 

该研究提出的 VSR 架构包含三个组件:循环生成器、流估计网络和时空判别器。生成器 G 基于低?#30452;?#29575;输入循环地生成高?#30452;?#29575;视频帧。流估计网络 F 学习帧与帧之间的动态补偿,以帮助生成器和时空判别器 D_s,t。

 

训练过?#35752;校?#29983;成器和流估计器一起训练,以欺骗时空判别器 D_s,t。该判别器是核心组件,因为它既考虑空间因素又考虑时间因素,并?#28304;?#22312;不现实的时间不连贯性的结果进行惩罚。这样,就需要 G 来生成与之前帧连续的高频细节。训练完成后,D_s,t 的额外复杂度不会有什么影响,除非需要 G 和 F 的训练模型来推断新的超?#30452;?#29575;视频输出。

 

有马变无马,影片去马赛克技术原理github项目:TecoGAN

 

有马变无马,影片去马赛克技术原理github项目:TecoGAN

 

图 2:具备动态补偿(motion compensation)的循环生成器。

 

该研究提出的判别器结构如图 3 所?#23613;?#23427;接收了两组输入:真值和生成结果。

 

有马变无马,影片去马赛克技术原理github项目:TecoGAN

 

图 3:时空判别器的输入。

 

损失函数

 

为了移除不想要的细节长期漂移,研究者提出一?#20013;?#22411;损失函数「Ping-Pong」(PP) 损失。

 

有马变无马,影片去马赛克技术原理github项目:TecoGAN

 

图 4:a)不使用 PP 损失训练出的结果。b)使用 PP 损失训练出的结果。后者成功移除?#20284;?#31227;伪影(drifting artifact)。

 

如图 4b 所示,PP 损失成功移除?#20284;?#31227;伪影,同时保留了?#23454;?#30340;高频细节。此外,这种损失结构可以有效增加训练数据集的规模,是一种有用的数据增强方式。

 

该研究使用具备 ping-pong ordering 的扩展序列来训练网络,如图 5 所?#23613;?#21363;最终附加了逆转版本,该版本将两个「leg」的生成输出保持一致。PP 损失的公式如下所示:

有马变无马,影片去马赛克技术原理github项目:TecoGAN

 

有马变无马,影片去马赛克技术原理github项目:TecoGAN

 

 

图 5:使用该研究提出的 Ping-Pong 损失,g_t 和之间的 L_2 距离得到最小化,以移除漂移伪影、改进时间连贯度。

 

实验结果

 

研究者通过控制变量研?#20811;?#26126;了 L_(G,F) 中单个损失项的效果。

 

 

 

图 6:树叶场景对比。对抗模型(ENet、DsOnly、DsDt、DsDtPP、和 TecoGAN)比使用 L_2 损失训练的方法(FRVSR 和 DUF)具备更好的视觉效果。右图「temporal profiles」中,DsDt、DsDtPP 和 TecoGAN 在时间连续性上显著优于 ENet 和 DsOnly。本文提出的判别器网络的时间信息成功?#31181;?#20102;这些伪影。

本人一开始其实是要做video SR?#30446;?#39064;的~但是后来几经波折还是没有做,最近看到一个有趣的报?#28291;?#20026;此写下这篇学习笔记

图像超?#30452;?#29575;技术指的是根据低?#30452;?#29575;图像生成高?#30452;?#29575;图像的过程,该技术希望根据已有的图像信息重构出缺失的图像细节。视频超?#30452;?#29575;技术则更加复杂,不仅需要生?#19978;?#33410;丰富的一帧帧图像,还要保持图像之间的连贯性。

对于单一图像超?#30452;?#29575;(SISR),基于深度学习的方法可以达到当前最佳的峰值信噪比(PSNR),而基于?GAN?的架构在感知质量方面实现了重大改进。

该论文首次提出了一种对抗和循环训练方法,以监督空间高频细节和时间关系。在没有真值动态的情况下,时空对抗损失和循环结构可使该模型生成照片级真实度的细节,同时使帧与帧之间的生成结构保?#33267;?#36143;。研究者还发现了一?#36136;?#29992;对抗损失的循环架构可能会出现的新型模型?#35272;#?#24182;提出了一种双向损失函数用于移除对应的伪影。

以下三幅动图的右半部分是用?TecoGAN?生成的,该方法能够生成精细的细节,较长的生成视频序列也不会影响其时间连贯度。

有马变无马,影片去马赛克技术原理github项目:TecoGAN

理论部分
摘要
对抗训练在单图像超?#30452;?#29575;任务中非常成功,因为它可以获得逼真、高度细致的输出结果。?#27426;?#24403;前最优的视频超?#30452;?#29575;方法仍然只用较简单的范数(如?L2)作为对抗损失函数(MSE loss)。直接向量范数作损失函数求平均的本质可以轻松带来时间流畅度和连贯度,但生成图像缺乏空间细节(?#36824;籹harp,过?#20132;?#31561;现象)。该研究提出了一种用于视频超?#30452;?#29575;的对抗训练方法,可以使?#30452;?#29575;具备时间连贯度,同时不会损失空间细节。

本文聚集于video SR新型的loss,并基于已构建的生成器框架展示?#20284;?#24615;能。实验证明时间对抗学习(temporal adversarial learning)是获得照片级真实度和时间连贯细节的关键。除了时空判别器以外,作者还提出新型损失函数?Ping-Pong loss,该函数可以有效移除循环网络中的时间伪影,且不会降低视觉质量。之前的研究并未解决量化视频超?#30452;?#29575;任务中时间连贯度的问题。作者提出了一组指标来评估准确率和随时间变化的视觉质量。用户调研结果与这些指标判断的结果一致。总之,该方法优于之前的研究,它能?#22351;?#21040;更加细节化的图像,同时时间变化更加自然。

introduction
For single image super-resolution (SISR), deep learning basedmethods achieve state-of-the-art peak signal-to-noise ratios (PSNR), while architectures based on Generative Adversarial Networks (GANs) achieve major improvements in terms of perceptual quality.

Although adversarial training can improve perceptual quality of single images, it is not commonly used for videos(GAN其实并不常用于video任务)在视频序列案例中,不仅要研究?#25105;?#30340;自然细节,还要研究可以稳定形式基于较长图像序列生成的细节。

本文首次提出(adversarial and recurrent training approach)对抗性和重复性训练方法,进而同时监督高频细节于时空关系。并且没有GT,spatio-temporal adversarial loss and the recurrent structure使得我们的模型产生真实图片的细节且保证从一帧到另一帧产生连贯的结构。We also identify a new form of mode collapse that recurrent architectures with adversarial losses are prone to, and propose a bi-directional loss to remove the corresponding artifacts(我们还确定了一?#20013;?#30340;模式?#35272;?#24418;式,这种模式?#35272;?#26159;具有对抗?#36816;?#22833;的经常性体?#21040;?#26500;容易发生的,并提出了一种双向损失来消除相应的伪影。)

论文的主要贡献包括:

提出首个时空判别器(spatio-temporal discriminator),以获得逼真和连贯的视频超?#30452;?#29575;;

提出新型?Ping-Pong?loss,以解决循环伪影;

从空间细节和时间连贯度方面进行详细的评估;

提出新型评估指标,基于动态估计和感知距离来量化时间连贯度。

————————————————
版权声明:本文为CSDN博主「gwpscut」的原创文章,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/gwplovekimi/article/details/89949859

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: