Descripción del clúster de cálculo científico Sirius (Ampliación del clúster de cálculo científico para computación avanzada)

El ASIC pone a disposición de la comunidad investigadora un clúster de cálculo científico dedicado tanto a trabajos de proceso distribuido como a trabajos de memoria compartida, así como un sistema de almacenamiento de alto rendimiento, que proporciona al usuario un espacio de disco unificado.

El nuevo clúster de cálculo científico consiste en un supercomputador exaescala BullSequana XH3000, desarrollado por la empresa Atos.

El sistema configurado en la UPV, y bautizado con el nombre Sirius, consiste en 33 nodos de cómputo equipados con procesadores Intel Xeon 8480, de 56 cores, y 2 nodos acelerados con 4 GPUs NVIDIA HGX H100, de 80GB. Ofrece una potencia de cálculo sin precedentes, alcanzando los 259Tflops para propósito general gracias a sus 3696 cores de 2Ghz y 535Tflops de supercomputación en GPU e Inteligencia Artificial.

Los nodos acelerados están interconectados mediante 4 conexiones NDR de 400Gb que dan un total de 1600Gb y GPU direct RDMA y P2P [ 1 ].

Ofrece además conectividad de red de baja latencia mediante switches Infiniband NDR 400Gb, también refrigerados por DLC (Refigeración directa al Chip); espacio de almacenamiento de usuario (home directory) Isilon y nodos de login conectados a la red general Ethernet de 2x25Gb y 10Gb.

En cuanto al almacenamiento, el sistema Lustre SFA200NVX de Data Direct Network, empresa líder en el mercado ofrece 168TB brutos, y un mínimo de 240TB gracias a los mecanismos de compresión. Los 22 discos de estado sólido son NVMe de generación 4 y 7.68TB por unidad.

El sistema de gestión del clúster HPC está basado en Bull Smart Management Center, sobre el Sistema Operativo Linux Red Hat 8 (edición HPC).

Este sistema permite la gestión centralizada de todo el conjunto de servidores, por parte del personal especialidado del ASIC, para la actualización del firmware, detección y aviso de averías, monitorización del hardware, instalación de software, etc.

Del lado de usuario final se dispone del software de gestión de colas de proceso Slurm y librerías OpenMPI integradas con la red de baja latencia, así como las librerías CUDA para Nvidia y el sistema de contenedores Singularity.

Además se dispone de software propietario del fabricante Intel One API, optimizado el cluster descrito, con compiladores C y Fortran, librerías matemáticas y entornos de programación, optimizadores de código, etc.

A nivel interno, el personal del ASIC realiza un seguimiento del estado de salud del clúster y de uso de recursos monitorizados por Prometheus y Grafana.

Se trata probablemente del sistema de supercomputación con mejor PUE de España, con 1.12, mediante refrigeración directa al chip (DLC) y free-cooling, y uno de los más eficientes del mundo (Green500). Es el segundo sistema con estas características, en el territorio nacional, solo por detrás del BSC Marenostrum.

La potencia de cálculo de Sirius multiplica por cinco a su predecesor Rigel, gracias principalmente, a la incorporación de GPUs en el nuevo clúster.

[1] NVIDIA GPUDirect® es una familia de tecnologías, parte de Magnum IO, que mejora el movimiento y acceso de datos para las GPUs de centros de datos de NVIDIA. Utilizando GPUDirect, los adaptadores de red y las unidades de almacenamiento pueden leer y escribir directamente desde/hacia la memoria de la GPU, eliminando copias de memoria innecesarias, disminuyendo la sobrecarga de la CPU y reduciendo la latencia, lo que resulta en mejoras significativas del rendimiento. Estas tecnologías – incluyendo GPUDirect Storage, GPUDirect Remote Direct Memory Access (RDMA), GPUDirect Peer to Peer (P2P) y GPUDirect Video – se presentan a través de un conjunto completo de APIs.

Uso del clúster Sirius

Entorno de trabajo

Todos los nodos del sistema Sirius tienen instalada la misma versión de Sistema Operativo, RedHat HPC Edition 8, y la misma configuración, tanto del sistema operativo como librerías y utilidades.
El gestor de colas es Slurm, y todo trabajo debe ser enviado a través de colas para su ejecución. Cuando un usuario se da de alta en Sirius, se le indicará el modo de enviar sus trabajos a través de manuales y documentación en línea.
Las opciones especificadas en el envio de trabajos permiten al sistema Sirius asignar a las diferentes colas los trabajos según requerimientos especificados.
El esquema de autenticación es por LDAP y la contraseña se valida con Active Directory de la UPV.
Los usuarios no pueden acceder de modo interactivo a los nodos de cálculo, sólo trabajan en los nodos de cabecera, a los que pueden acceder por ssh. El frontend de usuario es un cluster en alta disponibilidad de dos sistemas, y su dirección es sirius.upv.es
El directorio home del usuario está montado en /home/grupo/usuario en todos los nodos de todos los clusters.

Sistema de colas

Para que el uso del sistema sea lo mas efectivo posible, todos los trabajos de cálculo deben enviarse siempre por medio del gestor de colas.
El gestor de colas le asignara recursos cuando le llegue su turno.
El gestor de colas instalado en en Sirius es Slurm.
Existe una serie de manuales, guías de inicio rápido, etc, en el sitio oficial de Slurm a disposición de los usuarios cuya lectura recomendamos.

Notas de interés

Las colas definidas en este momento limitan el tiempo de ejecucion de un trabajo a un maximo de 144 horas y el tiempo total de cpu (numero de procesadores * tiempo de ejecucion ) a un maximo de 1000 horas. Estos parámetros se pueden ir modificando para optimizar el rendimiento del sistema.

Accesos directos de espacio

Árbol de páginas

Uso del clúster Sirius

Entorno de trabajo

Sistema de colas

Notas de interés