====== Sistema de gestión de colas ======

Nuestro clúster utiliza un sistema de colas llamado [[https://slurm.schedmd.com/|SLURM]] (Simple Linux Utility for Resource Management) utilizado por varios de los ordenadores incluidos en el [[http://www.top500.org|TOP500]], incluyendo sistemas como el **Tianhe-2**.

En esta página pretendemos brindarle información básica a los usuarios sobre el funcionamiento de Slurm y el trabajo con el clúster.

====== Introducción a los comandos Slurm ======

Slurm está basado en la utilización de 6 comandos básicos:
<code>
srun    - Ejecuta tareas de forma interactiva en los nodos de computo solicitados.
sbatch  - Lanza un trabajo a la cola del sistema en forma de scritps.
scancel - Elimina un trabajo de la cola utilizando su ID.
sinfo   - Muestra información sobre el estado de los nodos
scontrol- Muestra información sobre el estado de los nodos y los trabajos.
squeue  - Muestra el estado de las colas.
</code>

====== Enviar un trabajo a la cola ======
Para enviar un trabajo a la cola del sistema es necesario crear un script divido en dos secciones, en la primera se definen los recursos que el usuario necesita del clúster y en la segunda sección se define todo lo necesario para ejecutar el programa en cuestión.

Luego de creado el script, este debe ser enviado a la cola del sistema utilizando el comando **sbatch** de la siguiente forma:

<code>
# sbatch nombre_del_script
</code>

===== Ejemplo de script =====
<code>
#!/bin/bash
#SBATCH --job-name=ejemplo         
#SBATCH --partition=serial_short   
#SBATCH -n 1
#SBATCH --output=example_%j.out
#SBATCH --error=example_%j.err
#SBATCH --mail-user=user@gmail.com
#SBATCH --mail-type=ALL

#------------------------------------
module load nombre_del_programa

./program
</code>

Puede encontrar más información sobre los parámetros del script en [[hpc:slurm_commds|Comandos de SLURM]] y sobre el comando module en [[hpc:software_instalado|Software Instalado]].


====== Uso de la memoria ======
Slurm reserva 2400 MB de RAM por CPU, si usted necesita ejecutar trabajos que requieran una mayor cantidad puede utilizar el parámetro:

<code>
#SBATCH --mem-per-cpu=3000
</code>
Esto hará que SLURM reserve 3000 MB de RAM por CPU para sus tareas. Es importante que usted tenga en cuenta las características del hardware de nuestros nodos expuestas en [[:hpc-uo|la página de inicio]]
 
====== Comprobación del estado de las tareas ======
Para ver el estado de las colas y de los trabajos, puede utilizar el comando **squeue** de la siguiente forma:

<code>
# squeue
      JOBID PARTITION        NAME      USER     ST  TIME  NODES NODELIST(REASON)
      4532  serial_short     PRUEBA    42110000  R  1:49     10 nodo[001-010]
      4533  serial_short     PRUEBA    42110004  R  3:34      2 nodo[011-012]
      4534  serial_short     PRUEBA    42110002  R  4:67      4 nodo[013-016]

</code>
El comando anterior muestra el estado de todos los trabajos en la cola.

Para ver el estado de los trabajos de un usuario específico en la cola:
<code>
# squeue -u 42110000
      JOBID PARTITION        NAME      USER     ST  TIME  NODES NODELIST(REASON)
      4532  serial_short     PRUEBA    42110000  R  1:49     10 nodo[001-010]

</code>
 
Puede comprobar el estado de un trabajo utilizando el ID del mismo.

<code>
# squeue -j 4535

  JOBID PARTITION        NAME      USER     ST  TIME  NODES NODELIST(REASON)
  4535  serial_short     PRUEBA    42110000  R  3:49     10 nodo[001-010]
</code>