ResShift

Motivation

主要想法：缩短马氏链，加速反向传播过程

传统的方法是：从高斯分布中采样 Pure Noise 然后逐步 reverse 得到一个图像。

主要问题都是沿用了原本 DDPM 中的马氏链（太长，从 pure noise 开始还原）导致要经过很多次迭代才能生成出一张图片。而且 reverse 过程过长还会导致生成的图像过于平滑。
（？可能是因为纹理细节被当做噪声给过滤掉？如何 balance 高频和噪声？）
（？多次经过 diffusion 的reverse 相当于过了很多次低通滤波？）

One common approach involves inserting the LR image into the input of current diffusion model. and retraining the model from scratch on the training data for SR. 一种方法是把 LR 插入到输入中（在Google的Image Super-Resolution via Iterative Refinement ）论文中将 Pure Noise 和 LR concat 然后在 Unet 中做 reverse

Another popular way is to use an unconditional pre-trained diffusion model as a prior and modify its reverse path to generate the expected HR image. 通过 LR 引导反向过程，类似于 LDM 中的 Attn 的作用，但是也是从 Pure Noise 开始的

在超分任务中目标是生成 HR ，有先验数据 LR 。通过利用 LR 来得到生成的HR图像，来缩短马氏链：类似于直接截断 Pure Noise -> LR（这个LR 不直接是 LR 而是马氏链中接近的一个节点），从 LR 开始进行 reverse 得到 HR。

前向过程

记：
HR 为， LR 为，两者之间距离 Error 为

论文的核心想法是：transit from to by gradually shifting their residual through a Markov chain with length T.

参数序列随 t 单调增，t=1 时，t=T 时

逐步加噪：

其中 , 用来控制方差。通过逐步加噪的公式(正态分布可加性)可得到：（论文中证明任意步长t的边际分布解析可积）

一步加噪：

反向过程

在这个式子中 , 是 diffusion模型其中就是可学习参数。

反向过程的目的就是为了估计给出为条件的的后验分布。

其中的在这个里就是加噪T步的图像，整个过程就是从还原到

参数的优化

根据扩散模型文献中的假设为：
$$
p_({x}_{t-1}|{x}t,{y}0)={N}({x}{t-1};{\mu}({x}_t,{y}0,t),{\Sigma}({x}_t,{y}_0,t))
$$

优化目标就是，最小化证据下界：
$$
\min_\sum_tD_\left[q({x}_{t-1}|{x}_t,{x}0,{y}0)|p({x}{t-1}|{x}_t,{y}_0)\right]
$$

其实就是让模型 预测的 前一时刻图像靠近 真实的前一时刻图像的分布。

反向过程和参数的优化和传统的 Diffusion 几乎没什么区别

噪声策略 Noise Schedule

根据前项过程的式子可以看出，噪声的方差由控制。在LDM中提到第一步加噪的方差应该足够小（e.g., 0.04 in LDM），从而确保，应该尽可能接近1 （前向过程中的均值）。所以文中的 Schedule 如下：
当T=1 时：
当 , , ，p 是超参数

代码中的细节

ResShift Repo 原文仓库在此处

用了 VQ-VAE 作为 autoencoder

LPIPS 通常是一个训练好的感知相似度模型一个计算相似度的方法

UNetModelSwin 用这个作为 diffusion model

数据

训练数据

训练时候用的 256x256的 HR 图像根据 LDM 从 ImageNet 的训练集中随机裁剪出，然后使用 RealESRGAN 的退化流程合成的 LR 图像。

测试数据

基于常用退化模型合成了一个测试数据集，用了 ImageNet中取3000张，还有RealSR，和自己收集的

模型

使用 Unet 作为 Diffusion 的网络结构，用 Swin Transformer 块儿替换 UNet中的自关注层