Hochleistungsrechnen am HZDR
Das Hochleistungsrechnen (HPC, High Performance Computing) ist eine der Kernaufgaben der Abteilung IT-Infrastruktur. Um Nutzern des HZDR die Möglichkeit zu geben, große Berechnungsaufgaben in den Bereichen Simulation und Datenauswertung durchführen zu können, wird ein zentrales Linux-Cluster betrieben.
Linux-Cluster
RoSI
Am 22.09.2025 ging das HPC-Cluster RoSI (Rossendorf Supercomputing Infrastructure) im Rahmen eines Einführungsworkshops in Betrieb (Videos von Tag 1 und Tag 2).
Das Cluster basiert auf dem Linux-Derivat Ubuntu und die Verteilung der Ressourcen wird mit Hilfe des Schedulers SLURM verwaltet. Die Vernetzung erfolgt mit InfiniBand in den Generationen HDR (200 Gbit/s) und NDR (bis zu 800 Gbit/s). Auch die Anbindung des parallelen Dateisystems /bigdata erfolgt darüber. Der Zugang zum Cluster erfolgt über die Login-Server rosi4 und rosi5 sowie über den auf Open OnDemand basierenden Web-Zugang mittels rosi.hzdr.de.
Die CPU- und GPU-basierten Rechenknoten können mit Hilfe der folgenden Partitionen verwendet werden:
| Partition | Nodes | CPU | CPU Cores pro Node | RAM pro Node | GPU | GPUs pro Node | Nutzergruppe |
| cpu-skylake | csk[001-056] | Intel Xeon Gold 6148 | 40 | 384 GB | |||
| cpu-rome | cro[001-028] | AMD Epyc 7702 | 128 | 512 GB | |||
| cpu-milan-reac | cmi[001-006] | AMD Epyc 7713 | 128 | 512 GB | FWOR | ||
| cpu-milan-reac | cmi[007-012] | AMD Epyc 7713 | 128 | 1024 GB | FWOR | ||
| cpu-milan | cmi[013-032] | AMD Epyc 7713 | 128 | 1024 GB | |||
| cpu-genoa | cge[001-070] | AMD Epyc 9654 | 192 | 1536 GB | |||
| cpu-turin | ctu[001-024] | AMD Epyc 9965 | 384 | 1536 GB | |||
| cpu-turin | ctu[025-037] | AMD Epyc 9965 | 384 | 2304 GB | |||
| gpu-v100 | gv[001-032] | Nvidia V100 | 4 | ||||
| gpu-a100 | ga[006-009] | Nvidia A100 | 8 | ||||
| gpu-a100 | ga[010-015] | Nvidia A100 | 4 | ||||
| gpu-h100 | gh[001-003] | Nvidia H100 | 8 | ||||
| gpu-b200 | gb[001-007] | Nvidia B200 | 8 | HAICORE | |||
| gpu-b200 | gb008 | Nvidia B200 | 8 | FWU |
hemera
Am 14.09.2018 ging das HPC-Cluster hemera in Betrieb. Derzeit enthält es CPU-Rechenknoten mit je 40 Intel Xeon Gold Kernen und Knoten mit je 128 AMD Rome Kernen sowie insgesamt 115 weitere Knoten mit Intel-CPUs älteren Typs. Darüberhinaus enthält hemera einige Nvidia GPUs der Generationen P100 und V100.
Die Vernetzung des hemera-Clusters wird primär mittels eines EDR-InfiniBands (100 Gbit/s) mit 2 Ports pro Knoten realisert. Als Betriebssystem wird CentOS Linux eingesetzt.
Die Auslastung des Clusters kann mittels des Ganglia Web Portals betrachtet werden.
Eine Übersicht der Knoten und Queues/Partitionen des hemera Clusters gibt Aufschluss über die nutzbaren Gruppen von Knoten. Das Tutorial erklärt einige Grundlagen zur Nutzung. Einige Job-Skript Beispiele für Standard-Anwendungen können für das HPC-Cluster hemera verwendet werden. Im InfoHub befindet sich eine umfangreiche Dokumentation zu hemera und dessen Nutzung.
Interaktive Dienste
Um die Nutzung der vorhandenen HPC-Ressourcen einem breiteren Spektrum von Anwendungen anzubieten, werden interaktive Dienste etabliert, die eine Clusternutzung per Webbrowser ermöglichen.
Jupyter Notebook
Eine interaktive Datenauswertung mit python kann mittels Jupyter Notebook komfortabel erfolgen. Hierbei können einzelne Datenauswertungsvorgänge protokolliert, gespeichert und zu späterer Zeit fortgesetzt werden. Auch als Alternative zu Matlab ist dieses Tool geeignet.
Um Jupyter Notebooks ausführen zu können, benötigen Sie einen HPC-Zugang. Dieser kann per E-Mail an cluster-admin@hzdr.de beantragt werden.
Speicherplatz für Daten
Daten können auf allen Fileservern des HZDR abgelegt sein und sind an den Login-Nodes der HPC-Cluster verfügbar. Daten, die von Jobs verarbeitet oder erzeugt werden sollen, müssen im Home-Verzeichnis des Nutzers oder in einem Projektverzeichnis unter /bigdata abgelegt werden. Projektverzeichnisse werden auf Antrag erstellt.
