Sunday, September 21, 2014, 07:51 - Misc
Posted by ELIN
pfSenseが起動しなくなったのと、それに付随して起こった問題の検証の簡易的な記録

1. pfSenseが起動しない

・HDDが壊れている
/がmountできないようなので、応急処置としてUSB-Flashへ換装することで解決
その後検証してみたが、実際ファイルシステムが破損しており、まやbad sectorも多数存在しているようでddでも読み切れない

2. クラッシュする

換装後から再現
現象としてはオーバーヒートしたときのように電源から落ちる

・/usr/local/sbin/check_reload_statusがおかしい
プロセスがCPU100%でスタックしており、そのタイミングでクラッシュしているようなので若干怪しいと睨む
プロセスを殺し、バイナリを移動することで起動しないようにするなどの対策をとるが、改善しない
そもそもこのバイナリは必要なものなので、起動しないようにする手段をとった場合、pfSenseそのものに問題が生じる

・2.1.5がおかしい
換装時に2.1から2.1.5へバージョンアップしており、前述した/usr/local/sbin/check_reload_statusも含めて発生している問題かと推測したが、結論からいえば違う
2.1.xやi386など試してみるものの、改善はしないが、2.1のほうが頻度が低いように感じられた

・メモリが壊れている
換装やスロットの変更などしてみたが改善しない
これが原因ではない

・オーバーヒートしている
CPUの温度、そのヒートシンクやケース内の温度は問題は見られないが、ブリッジチップに関してはヒートシンクが相当熱くなっていたため、ファンを直風があたるよう設置
しかし現象の頻度が下がらないどころか、後述する別の問題も発生するようになる

3. 電源が入らない

語弊があるかもしれないが、現象としては一時的にファンこそ回転するものの即座に停止する
少なくともBIOSに到達できない状況

・電圧不足
電源はCS-01B-B/300V2に付属していたDPS-300AB-9Cを2007年から継続して使用しており、経年劣化により電圧降下が発生していると推測
5Vには若干その気配こそあるものの4.86Vで少なくとも即座にクラッシュするような電圧ではないし、3.3Vと12Vに関しては何の問題もない
しかし前述しているファンの追加以降再現するようになった問題であるため、疑いを晴らせず、最低限度のパーツを残して全て取り外す
一応電源が入らない、という問題こそ回避できたが以前クラッシュするという問題に関しては変化せず

4. em*が落ちる

ネットワークカードを一時的に抜いたような現象

・ネットワークカードが壊れた
今回の問題によって電源のon/offの頻度が相当高くなっているので、それが原因で壊れたという可能性を推測
しかしこの現象は2枚ささっているIntel GT DP 82546GBの両方にて発生していたので、推測が正しいとは思えない
ただ問題が発生しているのは事実なのでBroadcom NetXtreme BCM5703へ換装

5. bge*が落ちる

換装した以降に再現するようになった
em*と同様にネットワークカードを一時的に抜いたような現象

・M/Bが壊れた
換装したカードで発生したわけではないため、同様にネットワークカードが壊れたという可能性も否定できないが、4枚全てが電源のon/offで壊れるという確率と、またこのM/Bはpfsenseの再構築で発生した問題まとめでネットワークカード絡みの問題を抱えているため、M/Bであると推測するのが妥当
しかしながらM/Bを検証するためのリソースが存在していないため、この時点では打つ手無し

6. 本当に電源が入らない

前述した一時的にファンが回転する、というような通電を観測できるような現象ではなく、何の反応もなくなる

・本当にM/Bが壊れた
推測ではなく確定
しかしCPUが原因という可能性も完全には否定できないが、CPUを交換しての再検証などは行っていない


短期間で様々な問題が発生したこと、使用期間が7年前後であること、そもそも起動しないことなどからリプレースすることに決定
G3220のコストパフォーマンスが非常に良いことは以前から判明しているので……

旧構成
CPU: AMD Athlon X2 BE-2350
M/B: ASUS M2A-VM
PCIex16: Broadcom NetXtreme BCM5751
PCI: Intel GT DP 82546GB -> Broadcom NetXtreme BCM5703
PCI: Intel GT DP 82546GB -> Broadcom NetXtreme BCM5703
PCIex1: Broadcom NetXtreme BCM5751
PS: DPS-300AB-9C
Case: CS-01B-B/300V2

新構成
CPU: Intel Pentium Processor G3220
M/B: ASUS H81M-PLUS
PCIex16: Intel CT 82574L
PCIex1: Intel CT 82574L
PCIex1: Intel CT 82574L
PCIex1: Intel CT 82574L
PS: DPS-300AB-9C
Case: CS-01B-B/300V2

と、このように変更
電源は検証の結果、特に問題がないようなので流用することにした

また実はIntel CT 82574Lの前にBroadcom NetXtreme BCM5751を4枚挿して動かそうと試みているのだが、実は失敗している
これについての検証は検証といえるほど行っていないのだが、複数枚挿すとファンが回った直後にストールするため、全てIntel製で統一する必要があった背景がある

1枚だと何の問題もなく、但しIntel CT 82574Lを3枚にBroadcom NetXtreme BCM5751というような構成の場合、OSがBroadcomのカードのみ認識できない
またBIOSのいくつかの設定を変更することで2枚までは問題が再現しなくなるが、3枚目を無事に動かすことはできていない
但しSATAを無効にしたりと通常仕様に耐えない項目まで変更しているので、詳細については割愛する

旧構成から新構成に至るまで発生した問題は何1つとして原因が判明していないので、正直価値のない内容になるが、個人的に現象の記録として必要なので書き起こした
add comment ( 1633 views )

<Back | 1 | 2 | 3 | 4 | Next> Last>>