Ukazi za upravljanje poslov
- sacct: inventarni podatki za izvedene ali čakajoče posle (sacct -j
) - sstat: statistika poslov, ki se izvajajo (sstat -j
--format = AveCPU, AveRSS, AveVMSize, MaxRSS, MaxVMSize) - scontrol show: npr. scontrol prikaz posla | particije
- scontrol update: spremeni transakcijo
- scontrol hold: začasno ustavi posel
- scontrol release: sprosti posel
- sprio: prikaže prioriteto posla
- scancel: preklic posla
Nadziranje poslov
Seznam vseh trenutnih poslov za uporabnika:
squeue -u <username>
Izhod ukaza squeue je sestavljen iz več stolpcev, vključno z ID posla, particijo, imenom posla, uporabniškim imenom, stanem posla, preteklim časom, števili vozlišč, seznamom vozlišč itd.
JOBID PARTITION NAME USER ST TIME NODES NODE LIST (REASON)
499980 longcpu vega208t user PD 0:00 1 (Resources)
499981 longcpu vega192t user PD 0:00 1 (Priority)
449911 longcpu bxe_t280 user R 1-01:23:39 1 cn0402
499889 longcpu vega256t user R 3:29:24 1 cn0011
449133 longcpu bxe_t240 user R 1-03:38:21 1 cn0401
Stanje posla je navedeno v stolpcu ST izhoda ukaza squeue. Najpogostejša stanja posla so:
- R: Running (se izvaja)
- PD: Pending (čaka)
- CG: Completing (se zaključuje)
- CA: Cancelled (preklican) Seznam vseh poslov v izvajanju za uporabnika:
squeue -u <username> -t RUNNING
Seznam vseh čakajočih poslov za uporabnika:
squeue -u <username> -t PENDING
Seznam vseh trenutnih poslov za uporabnika na particiji v skupni rabi:
squeue -u <username> -p shared
Seznam podrobnih informacij za posel (uporabno za odpravljanje napak):
scontrol show jobid -dd <jobid>
Seznan informacij o statusu za posel, ki se trenutno izvaja:
sstat --format=AveCPU,AvePages,AveRSS,AveVMSize,JobID -j <jobid> --allsteps
Ko je posel končan, lahko prejmete dodatne informacije, ki niso bile na voljo med izvajanjem. Sem spadajo čas izvajanja, uporabljen pomnilnik itd.
Za pridobivanje statistik o zaključenih poslih po ID posla:
sacct -j <jobid> --format=jobID,JobName%20,NNodes,NTasks,NCPUS,MaxRSS,AveRSS,Elapsed,ExitCode
Za ogled enakih informacij za vse posle uporabnika:
sacct -u <username> --format=jobID,JobName%20,NNodes,NTasks,NCPUS,MaxRSS,AveRSS,Elapsed,ExitCode
Preklic poslov
Morda boste iz kakršnih koli razlogov želeli prekiniti posle v izvajanju ali odstraniti čakajoče posle iz vrste. Ukaz je scancel. Za več informacij preberite dokumentacijo "man scancel". Izvedite neposredni ukaz za prekinitev dveh poslov hkrati, tako da navedete njuno številko posla.
$ scancel <Job ID> <Job ID>
Naslednji ukaz
$ scancel -i -u your_account_name
prekine vse posle, vendar za vsak posel vpraša, ali ga želite resnično zaključiti.
$ scancel -u your_account_name --state=pending
zaključi vse vaše posle na čakanju.
Če želite preprečiti, da se določen posel vključi na razpored:
scontrol hold <jobid>
Če želite omogočiti, da se določen posel vključi na razpored:
scontrol release <jobid>
Če želite določen posel ponovno postaviti v vrsto (preklic in ponovni zagon):
scontrol requeue <jobid>