SLURM on DEXCS2018 for OpenFOAM(R)

諸般の事情により、DEXCS2018ではSLURMを搭載していないので、ここにインストールと設定方法を記しておきます。

インストール方法

普通にパッケージインストールが可能になりました。

$ sudo apt install munge slurm-wlm

というか、これまでは認証を秘密鍵方式でやっていたのを、デフォルトのMUNGEでも出来るようになり、設定がだいぶ楽チンになりました。

(実はこれまでもMUNGEで出来るはずだったのが、うまく動かせていなかっただけの事なんですが・・・)

設定(slurm.conf)

SLURMの設定ファイルは、/etc/slurm-llnl/slurm.conf として、以下の内容を記述(コピペ)しておく(要管理者権限)。

# slurm.conf file generated by configurator easy.html.
# Put this file on all nodes of your cluster.
# See the slurm.conf man page for more information.
#
ControlMachine=localhost
#ControlAddr=
#
#MailProg=/bin/mail
MpiDefault=none
#MpiParams=ports=#-
ProctrackType=proctrack/pgid
ReturnToService=1
SlurmctldPidFile=/var/run/slurm-llnl/slurmctld.pid
#SlurmctldPort=6817
SlurmdPidFile=/var/run/slurm-llnl/slurmd.pid
#SlurmdPort=6818
SlurmdSpoolDir=/var/lib/slurm-llnl/slurmd
SlurmUser=slurm
#SlurmdUser=root
StateSaveLocation=/var/lib/slurm-llnl/slurmctld
SwitchType=switch/none
TaskPlugin=task/none
#
#
# TIMERS
#KillWait=30
#MinJobAge=300
#SlurmctldTimeout=120
#SlurmdTimeout=300
#
#
# SCHEDULING
FastSchedule=1
SchedulerType=sched/backfill
#SchedulerPort=7321
SelectType=select/cons_res
SelectTypeParameters=CR_CPU
#
#
# LOGGING AND ACCOUNTING
AccountingStorageType=accounting_storage/none
ClusterName=localhost
#JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/none
#SlurmctldDebug=3
SlurmctldLogFile=/var/log/slurm-llnl/slurmctld.log
#SlurmdDebug=3
SlurmdLogFile=/var/log/slurm-llnl/slurmd.log
#
#
# COMPUTE NODES
NodeName=localhost CPUs=4 Sockets=1 CoresPerSocket=4 ThreadsPerCore=1 State=UNKNOWN
PartitionName=debug Nodes=localhost Default=YES MaxTime=INFINITE State=UP

太字部分は、自分のマシンのスペックに合わせて変更しておいて下さい。

SLURMの起動

$ sudo systemctl enable slurmctld
$ sudo systemctl start slurmctld
$ sudo systemctl enable slurmd
$ sudo systemctl start slurmd

動作確認方法

うまく動かない時

/var/log/slurm-llnl/ の下に、ログファイルが出力されているので、これを読めば何とか対処できるんでないかと思います。

自分の経験では、slurm.confの記述間違いに起因するエラーが大半でした。

また、sinfo コマンドでSTATEが drain と表示されていると、ジョブを投入してもペンディング状態のまま、いつまでたってもジョブは実行されません。

この場合、ペンディングされたジョブをキャンセル(scancel)して、

$ scancel <job-id>

$ sudo scontrol update nodename=localhost state=idle

実行スクリプトの例

#!/bin/bash
#SBATCH -n 4
#SBATCH -J OpenFOAM
#SBATCH -e submit.sh.e%J
#SBATCH -o solve.log
. /opt/OpenFOAM/OpenFOAM-v1806/etc/bashrc
rm -rf ./processor*
cartesianMesh
checkMesh
pyFoamDecompose.py . ${SLURM_NPROCS}
mpirun simpleFoam -parallel
reconstructPar -latestTime

諸般の事情

基本的には、SLURMの設定方法がよくわからないというか、すんなり動いてくれないという点です。

普通には、

file:///usr/share/doc/slurmctld/slurm-wlm-configurator.easy.html

をブラウザで開くと、

ここで、色々設定してSubmitボタンを押すだけで良いはずなのですが・・・

今回も、下記のセクションにて、デフォルト(Linear)

はうまく動いてくれたのですが、これだとひとつのノード(CPU)に一つのジョブしか投入できない。マルチコアCPUでコア数をすべて有効に使うには、Cons_res を選択するのが一般的ですが、これに変更するとうまく動いてくれない、という状況でした。

ちなみに、現時点でパッケージインストールされるslurmのヴァージョンは、17.11.2であるのに対し、上記設定ツールで対象としているのは、16.05とあります。これが原因なのかどうかわかりませんが、最終的には上記ログファイル中にCRパラメタがなんたらというメッセージがあったので、

SelectTypeParameters=CR_CPU

の1行を追加して、今のところ動いているという状況です。

ちなみにこの一文は、上記ツール上では、以下のように

メニューとして選択可能になってはいるのですが、submitしても何故か出力してくれませんでした。やむなく手入力で追加したという顛末です。

マシンのスペック確認方法

論理プロセッサ数
$ cat /proc/cpuinfo | grep “processor”
⇒ CPUs
物理CPUの数
$ cat /proc/cpuinfo | grep “physical id” | uniq
⇒ Sockets
物理コアの数
$ cat /proc/cpuinfo | grep “cpu cores” | uniq
⇒ CoresPerSocket

Share

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください