diff --git a/source/_posts/2021/installing-arch-linux.md b/source/_posts/2021/installing-arch-linux.md index 5184587..693bc02 100644 --- a/source/_posts/2021/installing-arch-linux.md +++ b/source/_posts/2021/installing-arch-linux.md @@ -235,11 +235,19 @@ reboot ## sysctl ```bash +# increase inotify limit +cat < /etc/sysctl.d/97-inotify.conf +fs.inotify.max_user_watches=1048576 +fs.inotify.max_user_instances=1000000 +EOD + # reboot after 60s of kernel panic -echo "kernel.panic = 60" > /etc/sysctl.d/98-kernel-panic.conf +echo "kernel.panic=60" > /etc/sysctl.d/98-kernel-panic.conf # set swappiness -echo "vm.swappiness = 10" > /etc/sysctl.d/99-swappiness.conf +echo "vm.swappiness=10" > /etc/sysctl.d/99-swappiness.conf + +sysctl --system ``` ## NTP diff --git a/source/_posts/2021/server-2020.md b/source/_posts/2021/server-2020.md index 25cbd0a..0406e6d 100644 --- a/source/_posts/2021/server-2020.md +++ b/source/_posts/2021/server-2020.md @@ -21,6 +21,8 @@ date: 2021-02-13T00:00:00 > 追記: メモリ異常を起因とするシステム誤動作により、`/sbin` 以下がゼロ上書きされカーネルが起動しなくなる災害が起きた。後日 ECC 付きのメモリに交換してからは、現在に至るまでメモリ関連の異常は発生していない。常時稼働するサーバーには最初から ECC メモリを選ぼう。 +> 追記: 結局 128GB でも OOM になる場面が出てきたが、もうこれ以上増設できない。最初から DIMM を 8 枚挿せるマザーボードを選ぶべきだった。 + GPU は古いサーバーに突っ込んでいた NVIDIA GeForce GTX TITAN X (Maxwell)を流用した。グラフィックメモリが 12GB ちょっとしかないが、最大ワークロード時でも 5GB は残るので今のところ十分。 > 結果から言うと GPT-J や Megatron-LM を始めとした億パラメータ級のモデルを学習・推論させるには、DeepSpeed の助けがあったとしても最低 16GB の VRAM が必要だった。