Skip to content

Particije Slurm

Privzeta particija je imenovana cpu. Števuilo računskih vozlišč je omejeno na 960.

Particija Vozlišča Časovna omejitev Seznam vozlišč Pomnilnik
dev 8 1:00 login[0001-0008] 257496MiB, 251GiB
cpu 960 2-00:00:00 cn[0001-0960] 257470MiB, 251GiB
longcpu 22 4-00:00:00 cn[0010-0025,0400-0405] 257470MiB, 251GiB
gpu 60 4-00:00:00 gn[01-60] 515517MiB, 503GiB
largemem 192 2-00:00:00 cn[0385-0576] 1031613MiB, 1007GiB

Particije in transakcije

Slurm razume vire v gruči kot vozlišča. Vendar pa so vozlišča z enako konfiguracijo strojne opreme združena v particije. Particije so torej logične enote več vozlišč, vendar se lahko razumejo tudi kot vrste za naloge, vsaka od teh pa ima določene omejitve, kot so omejitve velikosti nalog, časovne omejitve, uporabniki, ki lahko uporabljajo particijo itd. V najboljšem primeru so naloge dodeljene vozliščem v particiji, dokler viri (vozlišča, procesorji, pomnilnik itd.) v tej particiji niso porabljeni. Ko je nalogi dodeljen nabor vozlišč, lahko uporabnik inicializira vzporedno delo v obliko korakov naloge v kateri koli konfiguraciji znotraj dodelitve. Zaženete lahko na primer samo en korak določene naloge, ki uporablja vsa vozlišča, dodeljena nalogi, ali pa lahko zaženete več korakov naloge hkrati, ki lahko neodvisno uporabljajo del dodelitve vira. Po drugi strani pa lahko Slurm nudi tudi upravljanje virov za procesorje, dodeljene nalogi, kar pomeni, da se lahko več korakov naloge pošlje hkrati in razvrsti v vrsto, dokler v dodelitvi naloge ni na voljo virov.

Če želite, da se naloga izvaja na ustreznem tipu vozlišča, boste morali določiti particijo v skripti naloge z uporabo možnosti --partition in določiti ime particije.

Razpoložljive particije v gruči se lahko določijo z ukazom sinfo.

[user@login0001]# sinfo -s
PARTITION AVAIL  TIMELIMIT   NODES(A/I/O/T) NODELIST
cpu*         up 2-00:00:00     0/936/24/960 cn[0001-0960]
largemem     up 2-00:00:00      0/185/7/192 cn[0385-0576]
gpu          up 4-00:00:00        0/59/1/60 gn[01-60]
longcpu      up 4-00:00:00        0/22/0/22 cn[0010-0025,0400-0405]
dev          up       1:00          0/8/0/8 login[0001-0008]

See also options:

  • sinfo -l -N - detailed information
  • sinfo -T - display reservations

Detail information for all partitions in the cluster can be specified with the (scontrol show partition) command.

[user@login0007 ~]$ scontrol show partition
PartitionName=cpu
   AllowGroups=ALL AllowAccounts=ALL AllowQos=ALL
   AllocNodes=ALL Default=YES QoS=N/A
   DefaultTime=00:10:00 DisableRootJobs=NO ExclusiveUser=NO GraceTime=0 Hidden=N                                                                             O
   MaxNodes=UNLIMITED MaxTime=2-00:00:00 MinNodes=0 LLN=NO MaxCPUsPerNode=UNLIMI                                                                             TED
   Nodes=cn[0001-0960]
   PriorityJobFactor=1 PriorityTier=1 RootOnly=NO ReqResv=NO OverSubscribe=NO
   OverTimeLimit=NONE PreemptMode=OFF
   State=UP TotalCPUs=245760 TotalNodes=960 SelectTypeParameters=NONE
   JobDefaults=(null)
   DefMemPerCPU=1000 MaxMemPerNode=UNLIMITED
   TRESBillingWeights=CPU=1.0,Mem=1G

PartitionName=largemem
   AllowGroups=ALL AllowAccounts=ALL AllowQos=ALL
   AllocNodes=ALL Default=NO QoS=N/A
   DefaultTime=00:10:00 DisableRootJobs=NO ExclusiveUser=NO GraceTime=0 Hidden=N                                                                             O
   MaxNodes=UNLIMITED MaxTime=2-00:00:00 MinNodes=0 LLN=NO MaxCPUsPerNode=UNLIMI                                                                             TED
   Nodes=cn[0385-0576]
   PriorityJobFactor=1 PriorityTier=1 RootOnly=NO ReqResv=NO OverSubscribe=YES:4
   OverTimeLimit=NONE PreemptMode=OFF
   State=UP TotalCPUs=49152 TotalNodes=192 SelectTypeParameters=NONE
   JobDefaults=(null)
   DefMemPerCPU=1000 MaxMemPerNode=UNLIMITED
   TRESBillingWeights=CPU=0.25,Mem=1G

PartitionName=gpu
   AllowGroups=ALL AllowAccounts=ALL AllowQos=ALL
   AllocNodes=ALL Default=NO QoS=N/A
   DefaultTime=00:10:00 DisableRootJobs=NO ExclusiveUser=NO GraceTime=0 Hidden=N                                                                             O
   MaxNodes=UNLIMITED MaxTime=4-00:00:00 MinNodes=0 LLN=NO MaxCPUsPerNode=UNLIMI                                                                             TED
   Nodes=gn[01-60]
   PriorityJobFactor=1 PriorityTier=1 RootOnly=NO ReqResv=NO OverSubscribe=NO
   OverTimeLimit=NONE PreemptMode=OFF
   State=UP TotalCPUs=15360 TotalNodes=60 SelectTypeParameters=NONE
   JobDefaults=(null)
   DefMemPerCPU=1000 MaxMemPerNode=UNLIMITED
   TRESBillingWeights=CPU=1.0,Mem=1G,GRES/gpu=2.0

PartitionName=longcpu
   AllowGroups=ALL AllowAccounts=ALL AllowQos=ALL
   AllocNodes=ALL Default=NO QoS=N/A
   DefaultTime=00:10:00 DisableRootJobs=NO ExclusiveUser=NO GraceTime=0 Hidden=N                                                                             O
   MaxNodes=UNLIMITED MaxTime=4-00:00:00 MinNodes=0 LLN=NO MaxCPUsPerNode=UNLIMI                                                                             TED
   Nodes=cn[0010-0025,0400-0405]
   PriorityJobFactor=1 PriorityTier=1 RootOnly=NO ReqResv=NO OverSubscribe=YES:4
   OverTimeLimit=NONE PreemptMode=OFF
   State=UP TotalCPUs=5632 TotalNodes=22 SelectTypeParameters=NONE
   JobDefaults=(null)
   DefMemPerCPU=1000 MaxMemPerNode=UNLIMITED
   TRESBillingWeights=CPU=1.0,Mem=1G

PartitionName=dev
   AllowGroups=ALL AllowAccounts=ALL AllowQos=ALL
   AllocNodes=ALL Default=NO QoS=N/A
   DefaultTime=NONE DisableRootJobs=NO ExclusiveUser=NO GraceTime=0 Hidden=NO
   MaxNodes=UNLIMITED MaxTime=00:01:00 MinNodes=0 LLN=NO MaxCPUsPerNode=UNLIMITE                                                                             D
   Nodes=login[0001-0008]
   PriorityJobFactor=1 PriorityTier=1 RootOnly=NO ReqResv=NO OverSubscribe=NO
   OverTimeLimit=NONE PreemptMode=OFF
   State=UP TotalCPUs=768 TotalNodes=8 SelectTypeParameters=NONE
   JobDefaults=(null)
   DefMemPerNode=UNLIMITED MaxMemPerNode=UNLIMITED

Ukaz (squeue) lahko uporabite, da preverite ime particije (PARTITION), določena vozlišča v particijah (NODELIST) in status (ST / R - Running, PD - Pending) nalog, ki se izvajajo na teh particijah. Za več informacij glejte stran z navodili (ukaz man squeue).

[user@login0004]:squeue
JOBID PARTITION  NAME  USER  ST  TIME NODES  NODE LIST (REASON)
65646     cpu     chem  mike  R 24:19     2  cn00[27-28]
65647     cpu     bio   joan  R  0:09     1  cn00014
65648     cpu     math  phil PD  0:00     6  (Resources)

Ukaz squeue ima veliko možnosti, s katerimi lahko uporabnik enostavno preveri informacije o transakcijah, ki ga zanimajo.

  • $ squeue -l – podrobnosti o nalogah v vrsti (-l = long).
  • $ squeue -u $ USER – pridobi naloge od $USER,.
  • $ squeue -p gridlong – opravila v vrsti gridlong.
  • $ squeue -t PD – naloge, ki čakajo v vrsti.
  • $ squeue -j --start – ocenjen čas začetka naloge. Ukaz scontrol se lahko uporabi za pridobivanje podrobnejših informacij o vozliščih, particijah, opravilih, korakih opravil in konfiguraciji.
  • scontrol show partition – pridobivanje podatkov o particiji
  • scontrol show nodes – pridobivanje informacij o vozlišču