Skip to content

slurm集群监测:包含温度过高、磁盘占有、节点掉线等预警;同时支持独立服务器CPU内存使用情况监测;仅python,可独立打包pip,其他依赖少,方便部署

Notifications You must be signed in to change notification settings

yuhldr/hpc_monitor

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

86 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

linux_tools

如果集群设置了gitlabgitlab-runner,这里支持.gitlab-ci.yml 自动部署

下面使用 anaconda3 环境

# 创建单独环境
sudo /usr/local/anaconda3/bin/conda create --prefix /usr/local/anaconda3/envs/gr python=3.11
# 权限问题
chown -R gitlab-runner:root /usr/local/anaconda3/envs/gr
conda install jinja2

使用方法

需要设置,在本项目搜索 ***REMOVED***,里面对应的内容要修改

crontab参考

SHELL=/bin/zsh
PATH=/usr/bin:/bin:/usr/local/anaconda3/bin

# 登录节点 温度、磁盘、在线状态 监控
*/5 * * * * source activate gr && ylt
# 登录节点磁盘详情输出
0 00 * * 6 source activate gr && ylt_ref_disk
# 刷新节点的top等数据
*/5 * * * * source activate gr && ylt_ref_2s

其他

crontab

SHELL=/bin/zsh
PATH=/usr/bin:/bin:/usr/local/anaconda3/bin

详见 ylt/bin/ylt

mkdir -p /opt/ylt//cache/
* * * * * source activate gr && ylt
* * * * * source activate gr && ylt_ref_2s

额外设置

磁盘

统计太慢,每天凌晨自动统计用户磁盘使用情况

0 02 * * * source activate gr && ylt_ref_disk

软连接

让所有人可以使用

ln -s /usr/local/anaconda3/envs/gr/bin/topn /usr/local/bin
ln -s /usr/local/anaconda3/envs/gr/bin/sinfo-s /usr/local/bin

About

slurm集群监测:包含温度过高、磁盘占有、节点掉线等预警;同时支持独立服务器CPU内存使用情况监测;仅python,可独立打包pip,其他依赖少,方便部署

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published