根據(jù)經(jīng)驗(yàn)發(fā)現(xiàn)大多數(shù)網(wǎng)絡(luò)故障是與硬件有關(guān)的:比如電纜、中繼器、Hub、Switch和網(wǎng)卡等。本文描述了以太網(wǎng)典型故障的查找過(guò)程。
一、故障查找的一般規(guī)則
以太網(wǎng)的故障查找可分為5個(gè)步驟:
1.收集所有可以收集到的有價(jià)值的信息,分析故障的現(xiàn)象。
2.將故障定位到某一特定的網(wǎng)段,或者是單一獨(dú)立功能組(模塊),也可以是某一用戶。
3.確認(rèn)是特定的硬件故障還是軟件故障。
4.定位與修復(fù)故障。
5.驗(yàn)證故障的排除。
一般來(lái)說(shuō),最好的辦法是先把故障細(xì)分或隔離在一個(gè)小的功能段上,即首先排除最大的簡(jiǎn)單段,從任何一個(gè)方便的、靠近問(wèn)題的站點(diǎn)入手,利用二分法隔離故障,再繼續(xù)使用二分法直至把故障劃分到最小的單位。網(wǎng)管人員不要過(guò)多指望用戶會(huì)給出完整準(zhǔn)確的情況描述,最好由自己來(lái)確認(rèn)一下。當(dāng)然也可以讓用戶演示所發(fā)現(xiàn)的問(wèn)題。由于網(wǎng)絡(luò)故障帶來(lái)的壓力和混亂,人們經(jīng)常忽略一些細(xì)節(jié)問(wèn)題。如果某個(gè)部件出了問(wèn)題,最好不要立即去替換它,除非能肯定故障的來(lái)源。
二、故障查找應(yīng)注意的事項(xiàng)
由于以太網(wǎng)數(shù)據(jù)采集模塊采集采用通用總線拓?fù)浣Y(jié)構(gòu)以及物理層可擴(kuò)展的潛在問(wèn)題,所以某個(gè)特定物理層的問(wèn)題會(huì)以不同的方式顯示出來(lái),而且由于采用的測(cè)試手段、位置和環(huán)境不同,顯示出的現(xiàn)象還常常有矛盾。
為了避免被假象誤導(dǎo),推薦兩個(gè)故障查找的步驟:
1.沿網(wǎng)段多做幾次測(cè)試
如果故障現(xiàn)象隨測(cè)試點(diǎn)的不同還保持一樣的話,就可以依照所測(cè)試出的故障現(xiàn)象去排除。如果故障現(xiàn)象在一些或所有的測(cè)試點(diǎn)都不相同的話,就要把查找故障的方向定在物理層(除非有特別提示),例如去查找壞的電纜、噪聲環(huán)境、接地循環(huán)等故障。
2.要提高測(cè)試質(zhì)量,在測(cè)試的同時(shí)要把測(cè)試儀器設(shè)置成至少可同時(shí)發(fā)送較低的流量。由于增加了網(wǎng)絡(luò)流量,微小的和間歇性的物理層問(wèn)題會(huì)被暴露出來(lái)。
三、典型的網(wǎng)絡(luò)故障
故障1、不能訪問(wèn)服務(wù)器或某項(xiàng)服務(wù)
在這里設(shè)定服務(wù)器或某項(xiàng)服務(wù)以前是正常的,并且已經(jīng)做過(guò)如下的工作:
重新冷啟動(dòng)PC機(jī)(熱啟動(dòng)不能復(fù)位全部的適配卡)。
確認(rèn)PC機(jī)沒有本身的硬件故障。
確認(rèn)所有的網(wǎng)絡(luò)電纜都連接正確。
確認(rèn)所有的網(wǎng)卡驅(qū)動(dòng)軟件都正常地裝入,沒有報(bào)告錯(cuò)誤。
確認(rèn)服務(wù)器或服務(wù)沒有改變,比如重新配置增加硬? 軟件。
要測(cè)試一下這一故障是否只影響該工作站(本地故障)還是會(huì)影響其它站點(diǎn)(大范圍故障),可以通過(guò)其它工作站裝入服務(wù)器或服務(wù)來(lái)證明這一點(diǎn)。這些工作站要在同一網(wǎng)段或Hub上。如果故障在同一網(wǎng)段或Hub上的其它的站點(diǎn)也存在,就試著從其它的Hub或網(wǎng)段上的站點(diǎn)進(jìn)行測(cè)試。
(一)本地故障
在進(jìn)行硬件故障查找以前,要確認(rèn)其它用戶也不能登錄從這臺(tái)機(jī)器上,這就排除了用戶帳號(hào)的錯(cuò)誤。對(duì)一個(gè)單一的站點(diǎn)來(lái)說(shuō),典型的故障多發(fā)生在壞的電纜、壞的網(wǎng)卡、驅(qū)動(dòng)軟件或是工作站設(shè)置的不正確等問(wèn)題上。
(二)全局問(wèn)題
通常來(lái)說(shuō),在同軸網(wǎng)中的物理層故障會(huì)導(dǎo)致災(zāi)難性的網(wǎng)絡(luò)故障。使用“二分法”來(lái)查找這類故障是可以很快定位解決的。間歇性的故障是比較難以隔離的。
一半的問(wèn)題來(lái)自于電纜
(1)目測(cè)連接性
檢查連接性常用的方法就是檢查Hub、收發(fā)器以及近期出產(chǎn)的網(wǎng)卡上的狀態(tài)燈。如果是10BASE5的電纜,要仔細(xì)檢查所有的AUI電纜是否牢固地連接,劃鎖要同時(shí)鎖牢,很多問(wèn)題只要簡(jiǎn)單地把未接牢的部分重新緊一下就解決了。
(2)受損的電纜或連接部件
在你檢查物理層的問(wèn)題時(shí),要注意受損的電纜,不正確的電纜類型(比如在以太網(wǎng)上用RG62或RG59),未打好的RJ45頭,未按牢的BNC頭。對(duì)懷疑有問(wèn)題的電纜可以用一般的電纜測(cè)試儀進(jìn)行測(cè)試。
(3)連接脈沖極性問(wèn)題
無(wú)論是NIC還是Hub的連接脈沖極性都可以用測(cè)試測(cè)出,連接極性故障通常是由電纜的接線錯(cuò)誤引起的。
檢查鏈路層的問(wèn)題
(1)碰撞問(wèn)題
如果平均碰撞率大于10%或是觀察到非常高的碰撞,就需要進(jìn)一步的測(cè)試了。如果可能,試著通過(guò)減少網(wǎng)段規(guī)模(將網(wǎng)絡(luò)分成小段)并隨時(shí)監(jiān)測(cè)碰撞的變化以隔離出發(fā)生問(wèn)題的區(qū)域。為了跟蹤碰撞情況,就必須知道網(wǎng)絡(luò)的流量??梢允褂帽尘傲髁堪l(fā)生器來(lái)加入適量的流量(100幀/秒、100字節(jié)長(zhǎng)的流量),并同時(shí)觀察網(wǎng)絡(luò)的統(tǒng)計(jì)顯示。某些和介質(zhì)有關(guān)的故障是與流量的大小成正比的??梢杂每刂奇I改變流量同時(shí)觀察碰撞與錯(cuò)誤的改變。這種做法要特別小心,因?yàn)槟愫苋菀捉o網(wǎng)絡(luò)加入很重的流量。解決與碰撞有關(guān)的問(wèn)題常常是很費(fèi)勁的,因?yàn)闇y(cè)試的情況在很大程度上取決于觀察的位置。也許在同一網(wǎng)段相距幾尺遠(yuǎn)的不同觀察點(diǎn)所看到的情況就不同,要多找?guī)讉€(gè)點(diǎn)來(lái)測(cè)試并留意所發(fā)生的變化。
如果碰撞與流量成正比,或碰撞幾乎是100%,或幾乎沒有正常的流量,則可能是布線系統(tǒng)出了問(wèn)題。對(duì)于UTP的布線,可以在Hub上斷開電纜然后進(jìn)行電纜測(cè)試。對(duì)于同軸纜就要進(jìn)行阻抗測(cè)量,可以使用數(shù)字表或其他儀表的直流通斷功能進(jìn)行測(cè)試。如果電纜兩端都有端接器,從T型接頭應(yīng)測(cè)得大約25 ,如果從電纜的一端將會(huì)測(cè)得50 。
(2)幀級(jí)錯(cuò)誤
如果出現(xiàn)幀級(jí)錯(cuò)誤,你就要運(yùn)行錯(cuò)誤統(tǒng)計(jì)測(cè)試,并通過(guò)詳查功能把有問(wèn)題的工作站的MAC地址找出,然后經(jīng)過(guò)測(cè)試把故障確定下來(lái)??梢栽囍鴮Ⅱ?qū)動(dòng)程序用“干凈”的原盤重新裝入工作站,要確認(rèn)各項(xiàng)配置完全。如果這一切仍不奏效,可以試著把有疑問(wèn)的網(wǎng)卡換掉。
(3)利用率過(guò)高
如果利用率過(guò)高(平均值大于40%,瞬時(shí)峰值高于60%),那么網(wǎng)段負(fù)荷就過(guò)重了。應(yīng)當(dāng)考慮安裝網(wǎng)橋或路由器以減少在網(wǎng)段中的流量或把網(wǎng)段分成若干小的網(wǎng)段。
客戶服務(wù)器連接的完整性
如果在鏈路層上是完好的,那么我們就要來(lái)看一下協(xié)議方面是否有什么問(wèn)題會(huì)影響服務(wù)器與客戶之間的通信。
(1)連通性
使用專業(yè)儀表,你可以運(yùn)行Server List或Novell Ping測(cè)試功能,用來(lái)驗(yàn)證從測(cè)試點(diǎn)是否可以訪問(wèn)服務(wù)器或服務(wù)功能。如果服務(wù)器沒有回應(yīng),重新冷啟動(dòng)服務(wù)器并注意觀察所有所需的驅(qū)動(dòng)軟件是否正確加載,有無(wú)錯(cuò)誤提示。Novell的3.11版本及以前版本,在缺省配置使用802.3RAW的打包,而3.12及以后的版本在缺省配置時(shí)都使用了802.2的打包類型。
另外也可試著對(duì)服務(wù)器進(jìn)行幾次Ping測(cè)試,要確認(rèn)請(qǐng)求信號(hào)與返回的響應(yīng)信號(hào)數(shù)目相等,結(jié)果不一致則表明有時(shí)好時(shí)壞的網(wǎng)卡或Hub的故障導(dǎo)致幀的丟失。臨界狀態(tài)的和已壞的橋或路由器也可以用此方法很快地定位。
(2)服務(wù)器或服務(wù)的可達(dá)性
如果使用協(xié)議分析儀,就要捕獲3至4分鐘的數(shù)據(jù)包來(lái)分析??匆幌率欠裼袕姆?wù)器發(fā)出延時(shí)請(qǐng)求,并找出是哪個(gè)服務(wù)器,如果有延時(shí)請(qǐng)求,則表明服務(wù)器不能完全處理所加載的任務(wù),每一個(gè)延時(shí)請(qǐng)求作廢一個(gè)任務(wù)請(qǐng)求。
(3)網(wǎng)絡(luò)響應(yīng)慢或性能差
首先,要確定一下是否是與網(wǎng)絡(luò)介質(zhì)有關(guān)的故障,是一個(gè)工作站的問(wèn)題還是一個(gè)服務(wù)器或是服務(wù)的問(wèn)題。從其它工作站去訪問(wèn)同樣的服務(wù)器或服務(wù),并詢問(wèn)本段網(wǎng)絡(luò)或其它網(wǎng)段上的用戶,如果問(wèn)題不是與介質(zhì)有關(guān)的,要確定問(wèn)題是否是軟件有關(guān),檢查網(wǎng)絡(luò)利用率和軟件錯(cuò)誤來(lái)查找性能差的網(wǎng)絡(luò)問(wèn)題。
運(yùn)行諸如網(wǎng)絡(luò)統(tǒng)計(jì)這樣的測(cè)試,看一下是否有高流量和不正常的高碰撞存在,在增加背景流量后再運(yùn)行一下這些測(cè)試。如果發(fā)現(xiàn)碰撞和PCF錯(cuò)隨著流量的增加而增多話,你就應(yīng)運(yùn)行電纜測(cè)試來(lái)檢查工作站的連接性。
碰撞問(wèn)題
如果碰撞較多,要算一下有多帶寬被碰撞損失了。把本地和遠(yuǎn)端碰撞的損失都加起來(lái),如果平均碰撞的值大于5—10%,就要進(jìn)行進(jìn)一步的故障查找。同樣要檢查一下碰撞是否是突發(fā)的,也就是說(shuō)碰撞明顯地增多不是因?yàn)榱髁棵黠@增大引起的,如果是這樣就意味著某處的物理層出現(xiàn)了比較嚴(yán)重的問(wèn)題。在碰撞與流量之間應(yīng)是有一定的關(guān)系的。這種關(guān)系應(yīng)當(dāng)在做網(wǎng)絡(luò)參照基準(zhǔn)測(cè)試時(shí)收集到。如果碰撞始終是比較多的(但仍是可以接受),可能是太多站點(diǎn)同時(shí)在參與發(fā)送,或者網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)做一些優(yōu)化使近距離的站點(diǎn)分在一起。過(guò)多的碰撞最常見是與介質(zhì)有關(guān)的故障導(dǎo)致的。比如:不正確的端接,特性阻抗不連續(xù)(壞接點(diǎn)、殘留支纜、殘破線纜)等和壞網(wǎng)卡。
硬件故障
如果出現(xiàn)幀錯(cuò)誤,利用專業(yè)儀表可以找出錯(cuò)誤幀的來(lái)源。此后的工作就是在Hub口、網(wǎng)卡和電纜中隔離出特定的故障,如果故障是間歇性的,就替換掉有懷疑的網(wǎng)卡。檢查一下服務(wù)器/服務(wù)是否接在廣域網(wǎng)路由器的遠(yuǎn)端。如果是這樣,就用Ping測(cè)試來(lái)測(cè)一下響應(yīng)時(shí)間并與基準(zhǔn)測(cè)試比較一下。為了保證沒丟失幀的情況就要連續(xù)運(yùn)行多次的Ping測(cè)試,檢查測(cè)試請(qǐng)求包與響應(yīng)包是否相等。如果不相等,遠(yuǎn)端的介質(zhì)或互連設(shè)備(網(wǎng)橋、路由器等)就有可能是容量問(wèn)題或有故障。丟幀也是電纜故障之一。比如:UTP布線中的線對(duì)串繞和同軸纜由線的環(huán)地故障。如果懷疑有丟幀就進(jìn)行電纜測(cè)試。測(cè)試接在反應(yīng)慢的工作站的電纜,也要測(cè)一下服務(wù)器方向的電纜。
過(guò)載的網(wǎng)段
如果利用率很高(持續(xù)峰值超過(guò)60%)而碰撞又可以接受(平均碰撞小于10%),那么網(wǎng)絡(luò)就飽和了。這時(shí)就應(yīng)該增加網(wǎng)段或用路由器把網(wǎng)段分成較小的可以支持正常流量的網(wǎng)段。
軟件故障
運(yùn)行網(wǎng)絡(luò)統(tǒng)計(jì)測(cè)試,如果是高流量,低碰撞,而且有一點(diǎn)錯(cuò)誤幀,就先確定發(fā)出錯(cuò)誤幀的站點(diǎn)。也可以由繁忙站點(diǎn)測(cè)試來(lái)找出有問(wèn)題的站點(diǎn)。到該站點(diǎn)現(xiàn)場(chǎng)來(lái)查看該用戶在做什么。要問(wèn)明在非高峰時(shí)間用戶在干什么或把這個(gè)用戶移到其它網(wǎng)段上,以改善本網(wǎng)段上的其它用戶工作情況。如果利用率、碰撞、錯(cuò)誤幀都低,要詢問(wèn)抱怨網(wǎng)絡(luò)性能不好的用戶是使用哪個(gè)服務(wù)器和哪個(gè)應(yīng)用軟件。檢查該服務(wù)器是否處在高負(fù)載狀況下,它和網(wǎng)絡(luò)的利用率是不同的概念。要找到使用這個(gè)服務(wù)器資源最多的用戶,這可以用服務(wù)器上的用戶監(jiān)測(cè)功能或協(xié)議分析儀來(lái)完成。
無(wú)論是網(wǎng)絡(luò)流量高或低時(shí)發(fā)生的問(wèn)題,如果是碰撞很少而且是沒有幀錯(cuò)誤,這類問(wèn)題多出自應(yīng)用軟件或與文件服務(wù)器有關(guān)。服務(wù)器可能是Cache設(shè)置的太小,保留的緩沖不足,服務(wù)器內(nèi)存不夠,服務(wù)器硬盤所余空間有限,8-bit網(wǎng)卡等等,這也可能是另一類軟件問(wèn)題,他們可能造成不正常的“網(wǎng)絡(luò)磁盤請(qǐng)求”,這時(shí)有必要將某一應(yīng)用移到另一個(gè)服務(wù)器上,要么升級(jí)現(xiàn)有的服務(wù)器,要么再加入一個(gè)新的服務(wù)器。