標簽:服務器,
服務器的宕機是一種較為嚴重的服務器故障問題,對于很多支付行業(yè)來講是一種致命性的設備故障問題,比如:
2009年秋天,微軟數(shù)據(jù)中心的一次服務器故障導致T-Mobile Sidekick手機存放在微軟服務器上的用戶數(shù)據(jù)全部丟失。這些數(shù)據(jù)包括通訊錄、日程表、照片、待辦事項等等;
2013年10月雅虎郵箱進行全面改版升級,一些用戶在升級后表示賬戶存在郵件丟失的情況。12月,雅虎正式確認這次升級導致1%的郵箱賬戶出現(xiàn)郵件丟失問題,一些郵件耗時數(shù)周甚至數(shù)月都無法送達,這次事件最終影響到用戶數(shù)量約100萬人左右;
2015年9月,剛剛推出DynamoDB服務器導致亞馬遜云服務宕機,包括Redait、Tinder、Netflix、IMDB在內的大量熱門網(wǎng)站受此影響并停運超過七個小時。
當然,服務器按照工作負載不同可以分為很多類別,一篇文章并不能把所有的問題都說清楚,今天主要說一下Web服務器出現(xiàn)宕機時,運維人員第一時間要做的有哪些?
其實宕機可以分為兩類:假宕機(非藍屏宕機)和宕機。
假宕機是由于硬件資源暫時性地被消耗殆盡,因而無法對外部指令進行響應的現(xiàn)象,通常是網(wǎng)站處于訪問高峰期,帶寬等資源跑滿,這時只需要等待一定的時間,待服務器騰出更多的硬件資源即可恢復正常。而宕機,如果通過ping測試服務器,鍵盤切換數(shù)字鎖定鍵(NumLock)或大寫鎖定鍵(Caps Lock)功能,顯示器無畫面輸出,或者鼠標光標沒有任何反應則表明服務器硬件故障。
首先,檢查所有電纜和外圍設備,試著使用ping命令探測設備狀況,ping命令是所有平臺通用的,也是最簡單的。如果可以在局域網(wǎng)內ping通服務器,接著可以試試從局域網(wǎng)外ping服務器進行檢測。這樣做可以迅速判斷問題是否產生在交換和路由層面,而不是服務器級別。
電源沒有問題,Ping不通,就要叢底層到高層來逐層檢查問題了,檢查網(wǎng)絡接口和網(wǎng)絡配置是否正常?DHCP是否啟動?Web服務器是否指向正確的DNS服務器?在Windows環(huán)境,需要檢查服務器是否具有Web服務的角色。在Linux環(huán)境下,檢查會更復雜,可以試試查找http相關的文件或服務來確保服務器是否正在運行。
此外,如果Web服務器已經虛擬化,試著ping物理服務器自己的真實IP。這樣可以幫助你進一步隔離問題。如果完全無法ping同服務器,而且也已經確定完全檢查了網(wǎng)絡連接,那么就需要進行更深入的分析了。
這種時候,就要去檢查日志并查明在Web服務器宕機時日志紀錄的信息,如果是專業(yè)人士,日志信息可以告訴你一切,半專業(yè)人士可以google搜索日志報警的錯誤信息,逐步找到解決方法,非專業(yè)專人的管理員就要求救外援了,總之,找問題要縱覽全局,多從架構、資源層面去查找問題。
當然,經常進行資料備份,在去選擇一個備用服務器以方便遇到緊急狀況隨時切換,這是最笨也是最簡單的辦法。
|