集群简介

服务器命名：使用星球大战行星的名字，每个服务器名首字母应当不同，除非已无法避免。

今后几个节点的名称：Coruscant, Naboo, Endor, Hoth, Geonosis, Jakku.

服务器aloha已丢失。

集群设计容量为50人。

服务质量约定：当slurm使用人数小于等于GPU数量，小于等于0.5*CPU数量时，若一个slurm用户没有任何任务在slurm排队或运行，则他总能在10分钟内申请到1个GPU、2个CPU。

User Requirements

集群仅支持使用Putty和OpenSSH命令行登录。其他方式可能可以登录，但不保证后续不会出错。

aha 集群登陆节点

aha的机器用Dell PowerEdge。

aha的硬盘使用RAID6 [1]。背后几块硬盘不知道，反正RAID之后变成一块硬盘，大小为12.2T。从lsblk命令可看到，sda就是那块RAID后的硬盘，有12.2T。sda分为三个区，即sda1、sda2、sda3。其中sda3被LVM管理。LVM将sda3再分成三个区。/home和/var的文件系统为btrfs。

loop是回环设备。

$ lsblk -o NAME,FSTYPE,UUID,SIZE,MOUNTPOINT
NAME                      FSTYPE      UUID                                    SIZE MOUNTPOINT
loop0                     squashfs                                           55.4M /snap/core18/1944
loop1                     squashfs                                           69.9M /snap/lxd/19188
loop2                     squashfs                                           31.1M /snap/snapd/11036
loop3                     squashfs                                           69.8M /snap/lxd/19032
loop4                     squashfs                                           32.3M /snap/snapd/11107
loop5                     squashfs                                           55.5M /snap/core18/1988
sda                                                                          12.2T
├─sda1                    vfat        5730-343D                               512M /boot/efi
├─sda2                    ext4        6fe0cc72-26e4-4534-815c-3be131924791      1G /boot
└─sda3                    LVM2_member jMYLsf-mlxr-cRg2-fcC0-7VZL-cLEa-1X0uYq 12.2T
  ├─ubuntu--vg-ubuntu--lv ext4        33128f26-68db-4a0f-b0cb-a827e0668523    1.5T /
  ├─ubuntu--vg-home--lv   btrfs       e77ea8b1-c1ee-4329-bf55-86bc80b037f2    7.5T /home
  └─ubuntu--vg-var--lv    btrfs       cd21c67a-b7a7-47b5-9513-94afb1e4f397    3.2T /var

aha的home目录比较大，可以用作备份？用tar ssh直接备份到那里？

每个集群账户home目录下均有shared文件夹，用于同一账户在集群不同节点之前存取文件。一般都要在~/shared目录里面运行slurm作业。参见《用户指南：用SLURM运行计算任务》。~/shared通过NFS在所有节点同步。为了性能，该目录没有设置强制同步，所以请避免两个节点同时读写。

在程序运行过程中，如果有些临时文件要被高速读写，则可以写到/tmp或~。

用户登陆aha，提交slurm作业。slurm会把作业分配到集群计算节点去运行，至于具体哪一个节点，你不太需要关心。《用户指南：用SLURM运行计算任务》列出了一些slurm命令的用法。

运行时间限制

aha上用户进程运行超过8小时（真实世界时间，用ps -o euser,pid,comm,etime查看）会被kill。如果要运行长时间任务，请使用slurm。

服务器角色

slurm控制器，用户登陆节点
网页服务器？
FTP服务器？
git服务器？
svn服务器？

计算节点

用户无法直接登录计算节点。如果用户提交了一个slurm任务，该任务会被分配到其中一个计算节点运行。具体方法参见《用户指南：用SLURM运行计算任务》。

所有计算节点都可以访问~/shared。所有计算节点都装有conda。

计算节点列表

eureka 48个CPU、10个GPU（GeForce RTX 2080，显存12GB）。

tatooine 20个CPU，4个GPU（GeForce RTX 3070，显存8GB）。特色软件：ffmpeg。

[1] https://mpipcomphd.slack.com/archives/C01J3HM47B4/p1626230571008200

Provide feedback

Saved searches