chore: smol update
Some checks failed
continuous-integration/drone/push Build is failing

This commit is contained in:
uetchy 2022-06-23 16:24:02 +09:00
parent 9c176438b2
commit 51e6f5c9d7
2 changed files with 12 additions and 2 deletions

View File

@ -235,11 +235,19 @@ reboot
## sysctl
```bash
# increase inotify limit
cat <<EOD> /etc/sysctl.d/97-inotify.conf
fs.inotify.max_user_watches=1048576
fs.inotify.max_user_instances=1000000
EOD
# reboot after 60s of kernel panic
echo "kernel.panic = 60" > /etc/sysctl.d/98-kernel-panic.conf
echo "kernel.panic=60" > /etc/sysctl.d/98-kernel-panic.conf
# set swappiness
echo "vm.swappiness = 10" > /etc/sysctl.d/99-swappiness.conf
echo "vm.swappiness=10" > /etc/sysctl.d/99-swappiness.conf
sysctl --system
```
## NTP

View File

@ -21,6 +21,8 @@ date: 2021-02-13T00:00:00
> 追記: メモリ異常を起因とするシステム誤動作により、`/sbin` 以下がゼロ上書きされカーネルが起動しなくなる災害が起きた。後日 ECC 付きのメモリに交換してからは、現在に至るまでメモリ関連の異常は発生していない。常時稼働するサーバーには最初から ECC メモリを選ぼう。
> 追記: 結局 128GB でも OOM になる場面が出てきたが、もうこれ以上増設できない。最初から DIMM を 8 枚挿せるマザーボードを選ぶべきだった。
GPU は古いサーバーに突っ込んでいた NVIDIA GeForce GTX TITAN X (Maxwell)を流用した。グラフィックメモリが 12GB ちょっとしかないが、最大ワークロード時でも 5GB は残るので今のところ十分。
> 結果から言うと GPT-J や Megatron-LM を始めとした億パラメータ級のモデルを学習・推論させるには、DeepSpeed の助けがあったとしても最低 16GB の VRAM が必要だった。