New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
file-size-histogram #96
Comments
百合的系統裏有好多 32~64 的小文件呀,我這兒還沒這麼多……是 rust 編譯結果之類的麼 |
啊对,那个地方有一堆 rust 的编译中间产物。还有 ccache 的缓存。 |
2020年6月25日(木) 6:33 CUI Hao <notifications@github.com>:
我自己家目录是典型的4K。给两个特殊的。
USTC 镜像站可通过 rsync 访问的全部文件:
哇 USTC mirror 有 50T 的數據量了!
我们实验室计算集群,所有用户家目录的文件(除了程序和各种程序生成的文件,大部分是图片音频数据):
有好多 1~32 的呢,看來畫圖的時候合併 1~32 的數據在一組也不是很合適,破壞曲線形狀了。
…--
----------------------------------------------
大阪大学国際公共政策研究科
楊 嘉晨 (YANG Jiachen)
〒560-0043豊中市待兼山町1-7
E-mail: yang@osipp.osaka-u.ac.jp
TEL:080-3853-2770
-----------------------------------------------
|
说明系统文件又碎又多!!! (逃跑 |
应该是把 find / -type f -not -path '/tmp/*' -not -path '/sys/*' -not -path '/dev/*' -not -path '/proc/*' -not -path '/run/*' -not -path '/media/*' -not -path '*/lost+found/*' -printf "%s %p\n" > /tmp/root.txt |
很有趣的文章! 这么一说好像的确是这样。我碰巧课上读过统计文件系统 trace 的论文,和这里的不同之处是,统计的不是某一时刻已有的文件大小,而是给定时间内创建的文件的大小。 Mary Baker 等的 Measurements of a Distributed File System 里的 CDF 就有这个现象:不同的 trace,文件大小中位数在 1K - 10K 不等,众数在 500B 。99年的 File system usage in Windows NT 4.0 里,中位数也是 1K 到 10K 这个量级(根据用途,read-only/read-write/write-only,各不相同)。 中位数和众数较小也是因为统计的对象不同?不过只是我的猜测。 不过在 NT 那篇里,如果按照读写的字节数给文件大小加权的话,绝大部分读写就落在了10K-1M这个区间。(现在可能会更大?但是我不知道有没有相关的研究,如果有我很乐意去看。)就是文中也有提到的长尾吧。 |
|
你看下 myhome.txt 的內容,感覺不太對吶,“請輸入密碼”是啥。 |
明白了,因为有个目录需要 root 权限,所以 find 之前加了 sudo ,myhome.txt 第一行多出了:“请输入密码” 🤣 |
涨知识了。很有趣的研究 |
This issue is reserved for https://farseerfc.me/file-size-histogram.html
The text was updated successfully, but these errors were encountered: