New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
询问网络细节 #20
Comments
还有2个问题 |
|
1、2、那么以后设计网络可以直接按这个来了,不错的贡献。 |
PS: 之后提issue最好用英文。这样,在这里的讨论,其他更多的人也能够看懂~ |
There is a function with 4 padding mode in the test code. Thus a short sequence can filled to the nFrames. |
@xinntao Have you tried introducing the unligned loss in TDAN? |
We will include TDAN codes later in this repo. |
Hi, a network structure problem: EDVR/codes/models/modules/EDVR_arch.py
|
@geyanteng |
很棒的工作!看完模型代码和论文,有几个问题。
1、Relu层的选择,是否有什么经验?比如,大多数SR网络用Relu,DBPN/RBPN用PRelu,ESRGAN和EDVR用LRelu,是基于什么考究?或者说是否以后的实验我什么都别管,直接用LRelu就是最优的?
2、Resblock_noBN中,对Conv1Conv2使用kaiming初始化带来的提升我记得在ESRGAN的补充材料里也出现过,是否也是以后直接用就行,无计算成本的性能提升?
3、如果要拓展参数量,一个是channel的变化,这个很简单,因为所有块都对齐了nf的;
如果是拓展block数量呢?EDVR的输入参数,前后RB是可变的,但是PCD和AttentionFusion module,block是固定写死的,是否意味着,如果靠拓展深度加大网络参数量和计算量从而提升指标,A、这2个模块的深度不用管,加大深度不划算?B、如果这2个模块也要加大深度,应该加大哪些层的深度?C、第三个选择,只加大backRB的深度,frontRB和2个module的深度不用管?
Table4对照实验中的配置,和比赛最终结果的配置,是否只有channel和fusion后RB的深度变化了?
4、相比SISR中常用的self-ensemble,8倍的计算量,EDVR的测试脚本中只有4倍,少了90度旋转的过程,这个是基于什么考究?是否因为提升几乎很小,所以就不用再通过2x计算量来提升指标了?
5、Table5中4个track均以碾压的优势取得第一,这个非常值得肯定。第二名的方法在论文《Adapting Image Super-Resolution State-of-the-arts and Learning Multi-model Ensemble for Video Super-Resolution》中(arxiv上可以搜到),idea非常simple,是典型的刷榜流做法,第一个idea,把SISR(RCAN、RDN)中的输入改为相邻帧输入,直接改第一个Conv的输入channel,就已经提升了1dB,超过DUF,第二个idea就是3模型结果ensemble,结果进一步提升0.12(作用很小了,可能还不如self-ensemble带来的提升,不划算,这个先不提)。这里想看下DUF、标配RDN、RCAN和EDVR比赛配置的GFLOPS对比
6、预先进行拉伸在SISR中一直被视为不太好的做法,EDVR中用了bilinear拉伸LR_center和HR做残差,这个有实验过去掉这步吗?收敛速度上我觉得做拉伸做残差更快,但是精度不一定。(这个的目的是不是和EDSR-Pytorch中”add_mean”和”sub_mean”差不多的?)
7、训练细节上,本文使用的是Charbonnier Loss,这个最早我记得是在LapSRN中出现,之后普遍用L1Loss。这个是有什么考究吗?训练浅层网络作为深层网络的初始化,这个求具体细节,是哪些层的权重初始化了,深浅改变的是什么层的深度?
8、有关PCD对齐模块
(1)108、117行forward中,offset_conv2里concat乘2是什么作用?(后面TSA层好像也有乘2的)
(2)为什么不排除中间帧(t=t+i)只做4个?不可以直接采用l1_fea的输入吗?
谢谢!
The text was updated successfully, but these errors were encountered: