close

〈本文同步刊載於Blogger〉
狸貓先生愛廢話講堂: HPE Server 硬知識 - 善用 iLO 找出機器的潛在問題

Integrated Lights-Out (iLO)是內建在 HPE ProLiant Server / Blade Server 主機板上的一顆伺服器管理晶片 (僅極少數型號低階伺服器無此晶片),提供可由遠端控制及監看伺服器的功能。透過 iLO 管理者可由遠端進行伺服器的設定、更新、監看、安裝、執行各項工作,因為 iLO 晶片是在硬體層級運作,即使空機未安裝作業系統、作業系統當機、伺服器處於電源關閉狀態,只要電源線有插著通電,使用者還是可以存取操作伺服器。

iLO 有幾種設定方式,較簡便方式是在伺服器開機過程中進行,其他設定方式在往後有機會再作介紹。只有第一次需要設定 iLO IP (預設模式為 DHCP),視需要可新增帳號、密碼、權限,設定完成後,管理者即可使用瀏覽器存取伺服器的 iLO 頁面,以有效率的方式來管理伺服器。

一般在查看 log 時 (包括其他種類的設備),每筆事件應該都會有發生時間記錄,如果要與其他設備交叉比對,同一時間點的發生事件,或是要釐清該事件的發生時間點,此時每個事件的發生時間正確與否,會大大的影響到我們的判斷。

所以 iLO 也是相同的道理,要將時間、時區調整正確,才會讓 log 的時間記錄是正確的,另外時區也很重要,不然每筆紀錄的時間就需要自行 +8 小時換算 (因為預設通常是 GMT+0 的時區)。
關於 iLO 的時間、時區、網路對時的調整方式說明如下:
(1) 時間:iLO 的介面內並沒有調整時間的功能,iLO 內的時間是在開機過程中會與 System ROM 同步,所以大家記得一拿到機器,開機時要進入 System ROM 設定正確的日期和時間。
(2) 時區/網路對時:雖然一開始時間調整正確,但日子一久後時間有可能會慢慢跑掉,所以開啟網路校時 (NTP/SNTP)也是很重要的,iLO 調整時間及網路對時是在同一視窗內設定。

下圖為 iLO 的時區及網路校時設定 ↓ ↓
iLO Web >>> Network >>> iLO Dedicated Network Port >>> SNTP
(依據機型及設定,選擇 iLO Dedicated Network Port 或 Shared Network Port)
✔ Propagate NTP Time to Host
Primary Time Server: <輸入你環境使用的 NTP Srever>
Time Zone: Asia/Taipei (GMT+08:00:00)

在 iLO 裡針對不同方向提供數種功能及事件紀錄,讓管理者能查看系統狀態及訊息,下段有各功能的圖片及說明:
(1) System Information
查看機器現在的各大類硬體元件是否正常運作,如果有問題的地方有可能顯示 Degraded (黃色)、Failed (紅色),可以依據發生問題的硬體類別,點選相對應類別查看較詳細的訊息。
(2) iLO Event Log
與 iLO 有關的事件,像是 login, logout, remote console start, remote console stop ...等,另外關於機器的開機、關機、重開、電源中斷、電源回復、內建 Flash 初始化…等事件,也都可以在這裡看到。
(3) Integrated Management Log
主機的硬體元件相關動作及訊息,像是 Power Supply, Drive Array, Disk Drive ...等,也會有關於硬體元件的錯誤訊息及原因描述,可查看之前發生過的歷史事件,例如:外部電力中斷、外部電力回復、硬碟無回應、硬碟故障、邏輯磁碟失敗... 等各種系統錯誤訊息,以釐清目前發生的故障是否為之前的事件所引發。
(4) Active Health System Log
提供指定時間區段的所有資訊收集,收集完成會打包成 .ahs 檔案,無法直接閱讀,但可登入 HPE Active Health System Viewer Online,上傳收集的 .ahs 檔案,平台分析後會產生詳細的報告,關於 Active Health System Log 之後會再開一篇文章,詳細介紹使用方式及報告的內容呈現。

下圖為 (1) System Information ↓ ↓
iLO Web >>> Information >>> System Information >> Summary 頁籤

順道一提,在 System Information 功能的 Firmware 頁籤,可以看到各個硬體元件的 firmware 版本資訊,當管理者在尋找某個硬體元件的版本可能會引發 bug 時,是個挺有效率的方法。
<注意>依據不同的 iLO 晶片版本,提供的資訊可能會有所差異,較舊型的 iLO 晶片提供資訊會較少。
下圖為各硬體元件的 Firmware 版本資訊 ↓ ↓

下圖為 (2) iLO Event Log ↓ ↓
iLO Web >>> Information >>> iLO Event Log

下圖為 (3) Integrated Management Log ↓ ↓
iLO Web >>> Information >>> Integrated Management Log

[A] 群組解說:
385 發生 Array 內有 Disk Drive 無反應。
386, 387 因陣列內的磁碟發生問題,造成 Logical Drive 失敗,但可能 Array 型態是 RAID 1 或 RAID 5,硬碟雖然故障但尚未造成資料損壞,因此事件燈號為黃色 Caution,需要管理者注意此事件。
388 確認 Disk Drive Failure,位置為 Bay 8, Box 0, Port 2I, Slot 0,硬碟故障對實體硬碟來說是緊急事件,因此事件燈號是紅色 Critical,需要管理者立即介入處理。

[B] 群組解說:
393 Power Supply 1 失去輸入電力來源,可能是市電中斷,或是人為誤觸電源線或開關。若是無 UPS 發生市電中斷,Power Supply 1 & 2 應該都會同時發生事件,依此事件來看並無此現象,因此推斷應該是人為失誤或是 Power Supply 1 發生故障。
394 Bay 1 電力供應來源失效,因為此台為 2 Power Supply 機種,因此事件燈號為黃色 Caution,需要管理者注意此事件。
395 與 393 的事件描述相同,但要注意 Severity 事件燈號為綠色 Repaired,表示此事件 395 為 393 的恢復事件,表示 Power Supply 1 電力來源回復正常。

Integrated Management Log 也提供事件紀錄的 CSV 格式,複製後可另行製作報表或其他用途。

下圖為 (4) Active Health System Log ↓ ↓
iLO Web >>> Information >>> Active Health System Log >>> Download
在 Active Health System Log 頁面,可以產生 AHS 檔案,在選擇時間區段後,按下 Download 會開始收集 AHS Log,壓縮後並透過瀏覽器下載,需要一些等待時間。

 

<<參考資料>>
HP ProLiant 伺服器 - 如何設定 iLO

HP ProLiant Servers - Steps to Collect iLO Event Logs and IML Logs (from iLO) for iLO2/iLO3

HPE Integrated Lights Out - Where Does iLO Get the Date and Time from

Active Health System Viewer Online (Needs HPE Passport Account)

arrow
arrow
    創作者介紹
    創作者 狸貓先生 的頭像
    狸貓先生

    狸貓先生愛廢話講堂

    狸貓先生 發表在 痞客邦 留言(0) 人氣()