====== Sistema de gestión de colas ====== Nuestro clúster utiliza un sistema de colas llamado [[https://slurm.schedmd.com/|SLURM]] (Simple Linux Utility for Resource Management) utilizado por varios de los ordenadores incluidos en el [[http://www.top500.org|TOP500]], incluyendo sistemas como el **Tianhe-2**. En esta página pretendemos brindarle información básica a los usuarios sobre el funcionamiento de Slurm y el trabajo con el clúster. ====== Introducción a los comandos Slurm ====== Slurm está basado en la utilización de 6 comandos básicos: srun - Ejecuta tareas de forma interactiva en los nodos de computo solicitados. sbatch - Lanza un trabajo a la cola del sistema en forma de scritps. scancel - Elimina un trabajo de la cola utilizando su ID. sinfo - Muestra información sobre el estado de los nodos scontrol- Muestra información sobre el estado de los nodos y los trabajos. squeue - Muestra el estado de las colas. ====== Enviar un trabajo a la cola ====== Para enviar un trabajo a la cola del sistema es necesario crear un script divido en dos secciones, en la primera se definen los recursos que el usuario necesita del clúster y en la segunda sección se define todo lo necesario para ejecutar el programa en cuestión. Luego de creado el script, este debe ser enviado a la cola del sistema utilizando el comando **sbatch** de la siguiente forma: # sbatch nombre_del_script ===== Ejemplo de script ===== #!/bin/bash #SBATCH --job-name=ejemplo #SBATCH --partition=serial_short #SBATCH -n 1 #SBATCH --output=example_%j.out #SBATCH --error=example_%j.err #SBATCH --mail-user=user@gmail.com #SBATCH --mail-type=ALL #------------------------------------ module load nombre_del_programa ./program Puede encontrar más información sobre los parámetros del script en [[hpc:slurm_commds|Comandos de SLURM]] y sobre el comando module en [[hpc:software_instalado|Software Instalado]]. ====== Uso de la memoria ====== Slurm reserva 2400 MB de RAM por CPU, si usted necesita ejecutar trabajos que requieran una mayor cantidad puede utilizar el parámetro: #SBATCH --mem-per-cpu=3000 Esto hará que SLURM reserve 3000 MB de RAM por CPU para sus tareas. Es importante que usted tenga en cuenta las características del hardware de nuestros nodos expuestas en [[:hpc-uo|la página de inicio]] ====== Comprobación del estado de las tareas ====== Para ver el estado de las colas y de los trabajos, puede utilizar el comando **squeue** de la siguiente forma: # squeue JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON) 4532 serial_short PRUEBA 42110000 R 1:49 10 nodo[001-010] 4533 serial_short PRUEBA 42110004 R 3:34 2 nodo[011-012] 4534 serial_short PRUEBA 42110002 R 4:67 4 nodo[013-016] El comando anterior muestra el estado de todos los trabajos en la cola. Para ver el estado de los trabajos de un usuario específico en la cola: # squeue -u 42110000 JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON) 4532 serial_short PRUEBA 42110000 R 1:49 10 nodo[001-010] Puede comprobar el estado de un trabajo utilizando el ID del mismo. # squeue -j 4535 JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON) 4535 serial_short PRUEBA 42110000 R 3:49 10 nodo[001-010]