Sistema de gestión de colas

Nuestro clúster utiliza un sistema de colas llamado SLURM (Simple Linux Utility for Resource Management) utilizado por varios de los ordenadores incluidos en el TOP500, incluyendo sistemas como el Tianhe-2.

En esta página pretendemos brindarle información básica a los usuarios sobre el funcionamiento de Slurm y el trabajo con el clúster.

Introducción a los comandos Slurm

Slurm está basado en la utilización de 6 comandos básicos:

srun    - Ejecuta tareas de forma interactiva en los nodos de computo solicitados.
sbatch  - Lanza un trabajo a la cola del sistema en forma de scritps.
scancel - Elimina un trabajo de la cola utilizando su ID.
sinfo   - Muestra información sobre el estado de los nodos
scontrol- Muestra información sobre el estado de los nodos y los trabajos.
squeue  - Muestra el estado de las colas.

Enviar un trabajo a la cola

Para enviar un trabajo a la cola del sistema es necesario crear un script divido en dos secciones, en la primera se definen los recursos que el usuario necesita del clúster y en la segunda sección se define todo lo necesario para ejecutar el programa en cuestión.

Luego de creado el script, este debe ser enviado a la cola del sistema utilizando el comando sbatch de la siguiente forma:

# sbatch nombre_del_script

Ejemplo de script

#!/bin/bash
#SBATCH --job-name=ejemplo         
#SBATCH --partition=serial_short   
#SBATCH -n 1
#SBATCH --output=example_%j.out
#SBATCH --error=example_%j.err
#SBATCH --mail-user=user@gmail.com
#SBATCH --mail-type=ALL

#------------------------------------
module load nombre_del_programa

./program

Puede encontrar más información sobre los parámetros del script en Comandos de SLURM y sobre el comando module en Software Instalado.

Uso de la memoria

Slurm reserva 2400 MB de RAM por CPU, si usted necesita ejecutar trabajos que requieran una mayor cantidad puede utilizar el parámetro:

#SBATCH --mem-per-cpu=3000

Esto hará que SLURM reserve 3000 MB de RAM por CPU para sus tareas. Es importante que usted tenga en cuenta las características del hardware de nuestros nodos expuestas en la página de inicio

Comprobación del estado de las tareas

Para ver el estado de las colas y de los trabajos, puede utilizar el comando squeue de la siguiente forma:

# squeue
      JOBID PARTITION        NAME      USER     ST  TIME  NODES NODELIST(REASON)
      4532  serial_short     PRUEBA    42110000  R  1:49     10 nodo[001-010]
      4533  serial_short     PRUEBA    42110004  R  3:34      2 nodo[011-012]
      4534  serial_short     PRUEBA    42110002  R  4:67      4 nodo[013-016]

El comando anterior muestra el estado de todos los trabajos en la cola.

Para ver el estado de los trabajos de un usuario específico en la cola:

# squeue -u 42110000
      JOBID PARTITION        NAME      USER     ST  TIME  NODES NODELIST(REASON)
      4532  serial_short     PRUEBA    42110000  R  1:49     10 nodo[001-010]

Puede comprobar el estado de un trabajo utilizando el ID del mismo.

# squeue -j 4535

  JOBID PARTITION        NAME      USER     ST  TIME  NODES NODELIST(REASON)
  4535  serial_short     PRUEBA    42110000  R  3:49     10 nodo[001-010]