This commit is contained in:
parent
9c176438b2
commit
51e6f5c9d7
@ -235,11 +235,19 @@ reboot
|
|||||||
## sysctl
|
## sysctl
|
||||||
|
|
||||||
```bash
|
```bash
|
||||||
|
# increase inotify limit
|
||||||
|
cat <<EOD> /etc/sysctl.d/97-inotify.conf
|
||||||
|
fs.inotify.max_user_watches=1048576
|
||||||
|
fs.inotify.max_user_instances=1000000
|
||||||
|
EOD
|
||||||
|
|
||||||
# reboot after 60s of kernel panic
|
# reboot after 60s of kernel panic
|
||||||
echo "kernel.panic=60" > /etc/sysctl.d/98-kernel-panic.conf
|
echo "kernel.panic=60" > /etc/sysctl.d/98-kernel-panic.conf
|
||||||
|
|
||||||
# set swappiness
|
# set swappiness
|
||||||
echo "vm.swappiness=10" > /etc/sysctl.d/99-swappiness.conf
|
echo "vm.swappiness=10" > /etc/sysctl.d/99-swappiness.conf
|
||||||
|
|
||||||
|
sysctl --system
|
||||||
```
|
```
|
||||||
|
|
||||||
## NTP
|
## NTP
|
||||||
|
@ -21,6 +21,8 @@ date: 2021-02-13T00:00:00
|
|||||||
|
|
||||||
> 追記: メモリ異常を起因とするシステム誤動作により、`/sbin` 以下がゼロ上書きされカーネルが起動しなくなる災害が起きた。後日 ECC 付きのメモリに交換してからは、現在に至るまでメモリ関連の異常は発生していない。常時稼働するサーバーには最初から ECC メモリを選ぼう。
|
> 追記: メモリ異常を起因とするシステム誤動作により、`/sbin` 以下がゼロ上書きされカーネルが起動しなくなる災害が起きた。後日 ECC 付きのメモリに交換してからは、現在に至るまでメモリ関連の異常は発生していない。常時稼働するサーバーには最初から ECC メモリを選ぼう。
|
||||||
|
|
||||||
|
> 追記: 結局 128GB でも OOM になる場面が出てきたが、もうこれ以上増設できない。最初から DIMM を 8 枚挿せるマザーボードを選ぶべきだった。
|
||||||
|
|
||||||
GPU は古いサーバーに突っ込んでいた NVIDIA GeForce GTX TITAN X (Maxwell)を流用した。グラフィックメモリが 12GB ちょっとしかないが、最大ワークロード時でも 5GB は残るので今のところ十分。
|
GPU は古いサーバーに突っ込んでいた NVIDIA GeForce GTX TITAN X (Maxwell)を流用した。グラフィックメモリが 12GB ちょっとしかないが、最大ワークロード時でも 5GB は残るので今のところ十分。
|
||||||
|
|
||||||
> 結果から言うと GPT-J や Megatron-LM を始めとした億パラメータ級のモデルを学習・推論させるには、DeepSpeed の助けがあったとしても最低 16GB の VRAM が必要だった。
|
> 結果から言うと GPT-J や Megatron-LM を始めとした億パラメータ級のモデルを学習・推論させるには、DeepSpeed の助けがあったとしても最低 16GB の VRAM が必要だった。
|
||||||
|
Loading…
x
Reference in New Issue
Block a user