戯言

つらつらと気づいたことを書いていきます。人狼とか。

INFO: task <プロセス名>:<PID> blocked for more than 120 seconds.とコンソール表示され、OSごと無応答になる


INFO: task <プロセス名>:<PID> blocked for more than 120 seconds.とコンソール表示され、OSごと無応答になる。

まだトラブル2を解決できていない時に、だましだましでサーバを動かしていたら、
10時間くらい経過したあたりで、カーネルがハングして、
こんなメッセージが数行コンソールに出てサーバが固まっていました。

INFO: task ****:<PID> blocked for more than 120 seconds.
Not tainted *****************
"echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.

再起動しても、時間が経つとまた発生して、3回くらいこれで鯖落ちしました。

一応 /proc/sys/kernel/hung_task_timeout_secs は 0 にしておきましたが、
これってハングしたタスクを確認するタイミングの指定であって、
ハングする問題自体を解決するわけではないですよね?
(誤りのご指摘歓迎します)

ハードウェア性能的な問題かと頭をよぎり、やばいなーと思ってて、
対策の見当がついていなかったんですが、
トラブル2を解決したあたりから、
このトラブルも自然に起きなくなりました。

デッドロックなどで急激にIO負荷がかかっていたのが原因? 

よくわからんです。

まーいいや、発生しなくなったっぽいです。

==2015/2/17追記======
頻度は低くなったものの、たまに発生してました。

ちょっとカーネルパラメータ弄って様子見中。





スポンサーサイト