Skip to content

Ukazi za upravljanje poslov

  • sacct: inventarni podatki za izvedene ali čakajoče posle (sacct -j )
  • sstat: statistika poslov, ki se izvajajo (sstat -j --format = AveCPU, AveRSS, AveVMSize, MaxRSS, MaxVMSize)
  • scontrol show: npr. scontrol prikaz posla | particije
  • scontrol update: spremeni transakcijo
  • scontrol hold: začasno ustavi posel
  • scontrol release: sprosti posel
  • sprio: prikaže prioriteto posla
  • scancel: preklic posla

Nadziranje poslov

Seznam vseh trenutnih poslov za uporabnika:

squeue -u <username>

Izhod ukaza squeue je sestavljen iz več stolpcev, vključno z ID posla, particijo, imenom posla, uporabniškim imenom, stanem posla, preteklim časom, števili vozlišč, seznamom vozlišč itd.

  JOBID  PARTITION    NAME     USER  ST       TIME  NODES NODE LIST (REASON)
  499980   longcpu  vega208t   user  PD       0:00      1         (Resources)
  499981   longcpu  vega192t   user  PD       0:00      1         (Priority)
  449911   longcpu  bxe_t280   user  R   1-01:23:39     1 cn0402
  499889   longcpu  vega256t   user  R      3:29:24     1 cn0011
  449133   longcpu  bxe_t240   user  R   1-03:38:21     1 cn0401

Stanje posla je navedeno v stolpcu ST izhoda ukaza squeue. Najpogostejša stanja posla so:

  • R: Running (se izvaja)
  • PD: Pending (čaka)
  • CG: Completing (se zaključuje)
  • CA: Cancelled (preklican) Seznam vseh poslov v izvajanju za uporabnika:
squeue -u <username> -t RUNNING

Seznam vseh čakajočih poslov za uporabnika:

squeue -u <username> -t PENDING

Seznam vseh trenutnih poslov za uporabnika na particiji v skupni rabi:

squeue -u <username> -p shared

Seznam podrobnih informacij za posel (uporabno za odpravljanje napak):

scontrol show jobid -dd <jobid>

Seznan informacij o statusu za posel, ki se trenutno izvaja:

sstat --format=AveCPU,AvePages,AveRSS,AveVMSize,JobID -j <jobid> --allsteps

Ko je posel končan, lahko prejmete dodatne informacije, ki niso bile na voljo med izvajanjem. Sem spadajo čas izvajanja, uporabljen pomnilnik itd.

Za pridobivanje statistik o zaključenih poslih po ID posla:

sacct -j <jobid> --format=jobID,JobName%20,NNodes,NTasks,NCPUS,MaxRSS,AveRSS,Elapsed,ExitCode

Za ogled enakih informacij za vse posle uporabnika:

sacct -u <username> --format=jobID,JobName%20,NNodes,NTasks,NCPUS,MaxRSS,AveRSS,Elapsed,ExitCode

Preklic poslov

Morda boste iz kakršnih koli razlogov želeli prekiniti posle v izvajanju ali odstraniti čakajoče posle iz vrste. Ukaz je scancel. Za več informacij preberite dokumentacijo "man scancel". Izvedite neposredni ukaz za prekinitev dveh poslov hkrati, tako da navedete njuno številko posla.

$ scancel <Job ID> <Job ID>

Naslednji ukaz

$ scancel -i -u your_account_name

prekine vse posle, vendar za vsak posel vpraša, ali ga želite resnično zaključiti.

$ scancel -u your_account_name --state=pending

zaključi vse vaše posle na čakanju.

Če želite preprečiti, da se določen posel vključi na razpored:

scontrol hold <jobid>

Če želite omogočiti, da se določen posel vključi na razpored:

scontrol release <jobid>

Če želite določen posel ponovno postaviti v vrsto (preklic in ponovni zagon):

scontrol requeue <jobid>