Zugang zum Cluster
- Der Zugang zu den HPC-Ressourcen am HZDR ist beschränkt. Er muß freigegeben werden.
- Das hemera Cluster ist im HZDR-LAN über die Login-Knoten hemera4 bzw. hemera5 erreichbar.
- Auf den Login-Knoten des hemera-Clusters sind die spezifischen Kommandos von SLURM zu verwenden, um Cluster-Jobs abzusetzen.
- Plattenspeicherplatz steht auf dem Cluster nur für laufende Rechnungen in ausreichendem Maße zur Verfügung. Es wird dringend empfohlen, Daten auf dem gss-Fileserver (/bigdata) zu lagern.
- Angaben zum Zustand der Warteschlangen, der abgesetzten Jobs in den Warteschlangen und der Knoten liefern der grafische Client sview auf hemera.
- Das Starten von ressourcenintensiven Jobs auf den Login-Knoten ist nicht gestattet. Grafische Auswertungen sowie interaktive Programme können per interaktivem qsub (qsub -I) durchgeführt werden.
Ausstattung der HPC-Cluster am HZDR
hemera
Übersicht der Knoten
Anzahl | Typ | Name | CPU-Kerne | CPU-Typ | RAM | GPUs pro Knoten | GPU-Typ | Grafikspeicher pro GPU |
---|---|---|---|---|---|---|---|---|
2 | Kopfknoten | hemera1/hemera2 | 32 | Intel 16-Core Xeon 3,2 GHz | 256 GB | |||
2 | Login- und Submit-Knoten | hemera4/hemera5 | 32 | Intel 16-Core Xeon 2,1 GHz | 256 GB | |||
90 | Rechenknoten | csk001 - csk068, csk077 - csk098 | 40 | Intel 20-Core Xeon 2,4 GHz | 384 GB | |||
8 | Rechenknoten | csk069 - csk076 | 40 | Intel 20-Core Xeon 2,4 GHz | 768 GB | |||
28 | Rechenknoten | cro001 - cro028 | 128 | AMD 64-Core Epyc 7702 2,0 GHz | 512 GB | |||
6 | Rechenknoten | cmi001 - cmi006 | 128 | AMD 64-Core Epyc 7713 2,0 GHz | 512 GB | |||
26 | Rechenknoten | cmi007 - cmi032 | 128 | AMD 64-Core Epyc 7713 2,0 GHz | 1024 GB | |||
26 | Rechenknoten | cge001 - cge026 | 192 | AMD 96-Core Epyc 9654 2,4 GHz | 1536 GB | |||
10 | GPU-Rechenknoten | gp001 - gp010 | 24 | Intel 12-Core Xeon 3,0 GHz | 384 GB | 4 | Nvidia Tesla P100 | 16 GB |
32 | GPU-Rechenknoten | gv001 - gv032 | 24 | Intel 12-Core Xeon 3,0 GHz | 384 GB | 4 | Nvidia Tesla V100 | 32 GB |
5 | GPU-Rechenknoten | ga001 - ga005 | 64 | AMD 32-Core Epyc 7282 2,8 GHz | 512 GB | 4 | Nvidia Tesla A100 | 40 GB |
4 | GPU-Rechenknoten | ga006 - ga009 | 32 | AMD 16-Core Epyc 7302 3,0 GHz | 1024 GB | 8 | Nvidia Tesla A100 | 40 GB |
6 | GPU-Rechenknoten | ga010 - ga015 | 128 | AMD 64-Core Epyc 7763 2,4 GHz | 4096 GB | 4 | Nvidia Tesla A100 | 80 GB |
1 | GPU-Hotel | h001 | 24 | Intel 12-Core Xeon 3,0 GHz | 96 GB | max. 4 | versch. | |
1 | FPGA-Rechenknoten | h002 | 24 | Intel 12-Core Xeon 3,0 GHz | 384 GB | 2 | Xilinx Alveo U200 | |
4 | Rechenknoten | intel015 - intel018 | 32 | Intel 16-Core Xeon 2,3 GHz | 128 GB | |||
20 | Rechenknoten | intel019 - intel038 | 32 | Intel 16-Core Xeon 2,3 GHz | 256 GB | |||
11 | Rechenknoten | fluid021 - fluid031 | 32 | Intel 16-Core Xeon 2,3 GHz | 128 GB | |||
10 | Rechenknoten | ion027 - ion036 | 32 | Intel 16-Core Xeon 2,3 GHz | 256 GB | |||
1 | Rechenknoten | ion039 | 32 | Intel 16-Core Xeon 2,3 GHz | 256 GB | |||
12 | Rechenknoten | fluid033 - fluid044 | 32 | Intel 16-Core Xeon 2,3 GHz | 128 GB | |||
2 | Rechenknoten | chem001 - chem002 | 32 | Intel 16-Core Xeon 2,3 GHz | 256 GB | |||
7 | Rechenknoten | reac007 - reac013 | 32 | Intel 16-Core Xeon 2,3 GHz | 256 GB |
Übersicht der Warteschlangen
Partition * | Walltime (max) | Knotenreservierung | Zugang | max Jobs/Nutzer | max CPU/Nutzer | Startpriorität |
---|---|---|---|---|---|---|
defq | 96:00:00 | csk001-csk068,csk077-csk098 | frei | 128 ** | 960 ** | |
mem768 | 96:00:00 | csk069-csk076 | frei | 128 ** | 960 ** | |
rome | 96:00:00 | cro001-cro028 | frei | 128 ** | 960 ** | |
reac2 | 96:00:00 | cmi001-cmi012 | FWOR | 1536 | ||
milan | 96:00:00 | cmi013-cmi032 | frei | 128 ** | 960 ** | |
genoa | 96:00:00 | cge001-cge002 | frei | 128 ** | 960 ** | |
casus_genoa | 96:00:00 | cge003-cge026 | FWU | 128 ** | 960 ** | |
gpu_p100 | 48:00:00 | gp001-gp010 | frei | 32 GPUs | ||
gpu_v100 | 48:00:00 | gv025 | frei | 4 GPUs | ||
hotel | 48:00:00 | h001 | auf Anfrage | |||
fpga | 48:00:00 | h002 | FWC | |||
intel,intel_32 | 96:00:00 | intel015-intel038, fluid021-fluid044, ion027-ion036, chem001-chem002, reac007-reac013 | frei | 128 ** | 960 ** | |
casus | 48:00:00 | gv001-gv021, gv023-gv024 | FWU | 23 | 92 GPUs | |
fwkt_v100 | 24:00:00 | gv001-gv021, gv023-gv024 | FWKT | 23 | 92 GPUs | |
fwkh_v100 | 24:00:00 | gv001-gv021, gv023-gv024 | FWKH | 23 | 92 GPUs | |
hlab | 48:00:00 | gv026-gv032 | FWKT | 7 | 28 GPUs | |
haicu_v100 | 48:00:00 | gv022 | FWCC | 4 GPUs | ||
haicu_a100 | 48:00:00 | ga001-ga003 | FWCC | 12 GPUs | ||
circ_a100 | 48:00:00 | ga006-ga009 | FWG | 32 GPUs | ||
casus_a100 | 48:00:00 | ga010-ga015 | FWU | 24 GPUs |
* Zu den Partitionen defq, intel, gpu, k20 und k80 existieren noch die Partitionen defq_low, intel_low, gpu_low, k20_low und k80_low, in denen Jobs mit längerer Walltime abgesetzt werden können, jedoch werden diese Jobs beendet, wenn in den Haupt-Partitionen Ressourcen benötigt werden. Der Nutzer ist selbst dafür verantwortlich, Checkpoint/Restart zu implementieren.
** In den Partitionen defq, rome und intel sind die angegebenen Jobs Pro Nutzer und CPUs pro Nutzer in der Summe verfügbar, nicht pro Partition.