-
Notifications
You must be signed in to change notification settings - Fork 8
集群简介
服务器命名:使用星球大战行星的名字,每个服务器名首字母应当不同,除非已无法避免。
今后几个节点的名称:Coruscant, Naboo, Endor, Hoth, Geonosis, Jakku.
服务器aloha已丢失。
集群设计容量为50人。
服务质量约定:当slurm使用人数小于等于GPU数量,小于等于0.5*CPU数量时,若一个slurm用户没有任何任务在slurm排队或运行,则他总能在10分钟内申请到1个GPU、2个CPU。
集群仅支持使用Putty和OpenSSH命令行登录。其他方式可能可以登录,但不保证后续不会出错。
aha的机器用Dell PowerEdge。
aha的硬盘使用RAID6 [1]。背后几块硬盘不知道,反正RAID之后变成一块硬盘,大小为12.2T。
从lsblk
命令可看到,sda就是那块RAID后的硬盘,有12.2T。sda分为三个区,即sda1、sda2、sda3。其中sda3被LVM管理。LVM将sda3再分成三个区。/home和/var的文件系统为btrfs。
loop是回环设备。
$ lsblk -o NAME,FSTYPE,UUID,SIZE,MOUNTPOINT
NAME FSTYPE UUID SIZE MOUNTPOINT
loop0 squashfs 55.4M /snap/core18/1944
loop1 squashfs 69.9M /snap/lxd/19188
loop2 squashfs 31.1M /snap/snapd/11036
loop3 squashfs 69.8M /snap/lxd/19032
loop4 squashfs 32.3M /snap/snapd/11107
loop5 squashfs 55.5M /snap/core18/1988
sda 12.2T
├─sda1 vfat 5730-343D 512M /boot/efi
├─sda2 ext4 6fe0cc72-26e4-4534-815c-3be131924791 1G /boot
└─sda3 LVM2_member jMYLsf-mlxr-cRg2-fcC0-7VZL-cLEa-1X0uYq 12.2T
├─ubuntu--vg-ubuntu--lv ext4 33128f26-68db-4a0f-b0cb-a827e0668523 1.5T /
├─ubuntu--vg-home--lv btrfs e77ea8b1-c1ee-4329-bf55-86bc80b037f2 7.5T /home
└─ubuntu--vg-var--lv btrfs cd21c67a-b7a7-47b5-9513-94afb1e4f397 3.2T /var
aha的home目录比较大,可以用作备份?用tar ssh直接备份到那里?
每个集群账户home目录下均有shared文件夹,用于同一账户在集群不同节点之前存取文件。一般都要在~/shared目录里面运行slurm作业。参见《用户指南:用SLURM运行计算任务》。~/shared通过NFS在所有节点同步。为了性能,该目录没有设置强制同步,所以请避免两个节点同时读写。
在程序运行过程中,如果有些临时文件要被高速读写,则可以写到/tmp
或~
。
用户登陆aha,提交slurm作业。slurm会把作业分配到集群计算节点去运行,至于具体哪一个节点,你不太需要关心。《用户指南:用SLURM运行计算任务》列出了一些slurm命令的用法。
aha上用户进程运行超过8小时(真实世界时间,用ps -o euser,pid,comm,etime
查看)会被kill。如果要运行长时间任务,请使用slurm。
- slurm控制器,用户登陆节点
- 网页服务器?
- FTP服务器?
- git服务器?
- svn服务器?
用户无法直接登录计算节点。如果用户提交了一个slurm任务,该任务会被分配到其中一个计算节点运行。具体方法参见《用户指南:用SLURM运行计算任务》。
所有计算节点都可以访问~/shared。所有计算节点都装有conda。
计算节点列表
eureka 48个CPU、10个GPU(GeForce RTX 2080,显存12GB)。
tatooine 20个CPU,4个GPU(GeForce RTX 3070,显存8GB)。特色软件:ffmpeg。
[1] https://mpipcomphd.slack.com/archives/C01J3HM47B4/p1626230571008200