Skip to content

集群简介

QQ喵 edited this page May 18, 2022 · 17 revisions

服务器命名:使用星球大战行星的名字,每个服务器名首字母应当不同,除非已无法避免。

今后几个节点的名称:Coruscant, Naboo, Endor, Hoth, Geonosis, Jakku.

服务器aloha已丢失。

集群设计容量为50人。

服务质量约定:当slurm使用人数小于等于GPU数量,小于等于0.5*CPU数量时,若一个slurm用户没有任何任务在slurm排队或运行,则他总能在10分钟内申请到1个GPU、2个CPU。

User Requirements

集群仅支持使用Putty和OpenSSH命令行登录。其他方式可能可以登录,但不保证后续不会出错。

aha 集群登陆节点

aha的机器用Dell PowerEdge。

aha的硬盘使用RAID6 [1]。背后几块硬盘不知道,反正RAID之后变成一块硬盘,大小为12.2T。 从lsblk命令可看到,sda就是那块RAID后的硬盘,有12.2T。sda分为三个区,即sda1、sda2、sda3。其中sda3被LVM管理。LVM将sda3再分成三个区。/home和/var的文件系统为btrfs

loop是回环设备。

$ lsblk -o NAME,FSTYPE,UUID,SIZE,MOUNTPOINT
NAME                      FSTYPE      UUID                                    SIZE MOUNTPOINT
loop0                     squashfs                                           55.4M /snap/core18/1944
loop1                     squashfs                                           69.9M /snap/lxd/19188
loop2                     squashfs                                           31.1M /snap/snapd/11036
loop3                     squashfs                                           69.8M /snap/lxd/19032
loop4                     squashfs                                           32.3M /snap/snapd/11107
loop5                     squashfs                                           55.5M /snap/core18/1988
sda                                                                          12.2T
├─sda1                    vfat        5730-343D                               512M /boot/efi
├─sda2                    ext4        6fe0cc72-26e4-4534-815c-3be131924791      1G /boot
└─sda3                    LVM2_member jMYLsf-mlxr-cRg2-fcC0-7VZL-cLEa-1X0uYq 12.2T
  ├─ubuntu--vg-ubuntu--lv ext4        33128f26-68db-4a0f-b0cb-a827e0668523    1.5T /
  ├─ubuntu--vg-home--lv   btrfs       e77ea8b1-c1ee-4329-bf55-86bc80b037f2    7.5T /home
  └─ubuntu--vg-var--lv    btrfs       cd21c67a-b7a7-47b5-9513-94afb1e4f397    3.2T /var

aha的home目录比较大,可以用作备份?用tar ssh直接备份到那里?

每个集群账户home目录下均有shared文件夹,用于同一账户在集群不同节点之前存取文件。一般都要在~/shared目录里面运行slurm作业。参见《用户指南:用SLURM运行计算任务》。~/shared通过NFS在所有节点同步。为了性能,该目录没有设置强制同步,所以请避免两个节点同时读写。

在程序运行过程中,如果有些临时文件要被高速读写,则可以写到/tmp~

用户登陆aha,提交slurm作业。slurm会把作业分配到集群计算节点去运行,至于具体哪一个节点,你不太需要关心。《用户指南:用SLURM运行计算任务》列出了一些slurm命令的用法。

运行时间限制

aha上用户进程运行超过8小时(真实世界时间,用ps -o euser,pid,comm,etime查看)会被kill。如果要运行长时间任务,请使用slurm。

服务器角色

  • slurm控制器,用户登陆节点
  • 网页服务器?
  • FTP服务器?
  • git服务器?
  • svn服务器?

计算节点

用户无法直接登录计算节点。如果用户提交了一个slurm任务,该任务会被分配到其中一个计算节点运行。具体方法参见《用户指南:用SLURM运行计算任务》。

所有计算节点都可以访问~/shared。所有计算节点都装有conda。

计算节点列表

eureka 48个CPU、10个GPU(GeForce RTX 2080,显存12GB)。

tatooine 20个CPU,4个GPU(GeForce RTX 3070,显存8GB)。特色软件:ffmpeg。

[1] https://mpipcomphd.slack.com/archives/C01J3HM47B4/p1626230571008200