Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

跑题-从阿里云秒传失效探讨百度云秒传失效的风险 #487

Closed
void285 opened this issue Dec 23, 2021 · 6 comments
Closed

跑题-从阿里云秒传失效探讨百度云秒传失效的风险 #487

void285 opened this issue Dec 23, 2021 · 6 comments

Comments

@void285
Copy link

void285 commented Dec 23, 2021

各位好,提个问题探讨下。本人一度买过一些课程,但自己的百度网盘放不下,于是就用油猴脚本批量生成秒传链接后删除,再存其他的课程。
9月8日阿里云盘的秒传因为技术改型不能用了 #225 ,我有点担心百度网盘以后会不会也有类似的动作,我是不是应该多注册几个账号,抓紧把之前的秒传链接变现呢?从技术、产品、商业等角度分析,百度网盘可能也做类似的事情吗?

@hummersyk
Copy link

网盘两大要素:速度、容量
两个都放开,那是做慈善;两个都限制,那是作死。
所以要吸引用户并积累存量文件,必然放开其中一个,而限制另一个。

阿里限容量,秒传却把容量变得无足轻重,所以必须改变秒传规则,只保留本地文件秒传。
百度限速度,秒传变相增加了用户的文件总量,也就是增加了用户下载文件时对速度的潜在需求,对百度有利而无害。

@void285
Copy link
Author

void285 commented Dec 23, 2021

有道理,安心了些,希望百度别改规则

@liupan1890
Copy link
Owner

我从另外方面分析--审查

115网盘是有秒传的,很多年了,秒传也没变更过,知道文件的sha1+大小+前几K的sha1,就能妙传了
百度网盘是有秒传的,很多年了,秒传也没变更过,知道文件md5+大小+前几K的md5,就能妙传了
迅雷云盘是有秒传的,从上线起就没变过,指导文件的gid(根据文件内容计算出来的),就能秒传了

--

阿里云盘是有秒传的,最开始是知道文件sha1+大小就可以秒传了,现在改成文件sha1+大小+动态定位的8字节文件内容计算

所以阿里云盘现在如果没有完整的文件在你的电脑上,是无法秒传的(无法读取到类似随机的,文件指定位置的,8个字节)(百度/115/迅雷都是固定的,不是随机的位置)

--

阿里云盘和其他网盘的一个显著的区别是,阿里云盘上线较晚,对文件审查方面更加重视和严格。
115审查最宽泛,所以违规资源也很少被屏蔽,这是有名的
百度网盘审查早期也很宽泛,慢慢加紧的,现在虽然比较严格但还是比较简单,不是太严格
迅雷感觉也不是很严格

--

因为秒传变相的绕过了文件审查,阿里云盘又对审查太严格,所以感觉阿里云盘的秒传改版,也跟审查有关。
一个明显的例子,阿里云盘里压缩包现在仍然不支持分享,恐怕也是因为压缩包不好审查的缘故

--

百度是否会更改秒传规则?不知道,这个你无法去预测他
当前的秒传方法已经好多年了,百度网盘上线9年了?那秒传规则就是9年没有变更过了,
你说后面变不变?不知道啊。所以,根本无法预测的

@hummersyk
Copy link

因为秒传变相的绕过了文件审查,阿里云盘又对审查太严格,所以感觉阿里云盘的秒传改版,也跟审查有关。 一个明显的例子,阿里云盘里压缩包现在仍然不支持分享,恐怕也是因为压缩包不好审查的缘故

文件第一次上传时,没有被屏蔽而存在下来,不是就已经通过审查了吗?以后每次秒传还要再审查一次吗?

@void285
Copy link
Author

void285 commented Dec 24, 2021

我理解上传跟分享在风控方面是区别对待的,对分享的审查要更严一些,如果阿里云将分享妙传链接视作一种分享,就可能采取更严厉的措施。

另外,第一次上传时,阿里云在上传完毕之前是无法对文件内容进行审查的。

百度网盘有个现象,就是相同文件名、大小的文件可能有不一样的MD5,同一个文件的MD5也可能发生变化,上传过的文件再次上传可能无法触发秒传;这些现象显示,百度云无法在文件上传后的第一时间对全部文件做MD5计算,尤其是一些大体积文件,而可能是在文件被频繁下载、使用时才做完整的MD5计算。阿里云如果有类似的降低计算压力的考虑,是不是也可能有类似的策略,而这是不是也可能影响对秒传的政策呢?

@liupan1890
Copy link
Owner

文件第一次上传时,没有被屏蔽而存在下来,不是就已经通过审查了吗?

不是,文件审查(特指视频文件),

需要较多计算(计算的越多,结果越准确,比如一个1小时的视频,按10秒截图一次,截取360张图片,对360张图片去审查,得到360个结果,综合360个结果,得出最终的结果,用这个去判断是否应该屏蔽。如果按10分钟截图一次,则是6张图片,对这6张图片去检查,结果自然不如360张的准确),

尤其是部分结果比较模糊的文件需要二次人工审核(比如涉黄概率是1%-100%,审查一个文件得到结果是54%,那么涉黄吗?AI不知道。需要人工去最终准确的判断),

人工审核可能会需要几小时到几天(审核只需要几秒钟,但有很多文件在排队,所以可能几天后才排到审核这个文件)

所以你现在上传了一个文件,是正常保存的,正常下载的,正常分享的,但某一天就会突然变成违规文件

百度网盘有个现象,就是相同文件名、大小的文件可能有不一样的MD5

个人猜测,仅仅是百度技术的问题,在对文件分片存储时,可能因为上传时分片上传顺序问题导致计算结果错误

阿里云盘要求文件分片必须按照顺序上传

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants