亲历网络风暴
许多网管员都清楚,共享式以太网有很大的缺点:网络中任何一点产生问题,都可能造成整个网络的不正常以至瘫痪。本文为一名网管员在实际工作中的经历,也许对网管员们有所帮助。
■发生网络风暴 沈阳信用卡服务中心负责全市各家银行间信用卡信息的交换,使用户可以进行跨行取款和消费,实现各银行间资源的共享。
除两家银行以专线方式用SNA直接与中心主机进行连接外,其它9家银行都通过DDN或X.25经路由器用TCP/IP协议与主机连接。中心的以太网分为两个网段:192.0.1.x 和 192.0.2.x ,以下简称 1网段和 2网段。其中有用于处理各行交易的生产机及开发和调试新程序的开发机各一台,另有两台与各行进行远程通信的路由器。另外还有一些用于开发和监控的微机。2网段中有多台微机,进行客户端的开发调试。开发机和一台微机同时连在两个网段上。
一天,突然发现各行的交易跑得不正常,而且仅是采用TCP/IP协议与中心连接的那些银行的交易不正常。隔一段时间就发现这些行的交易全都不能进行。从出错提示信息可看出,是通信问题造成出错。这时无论是在1网段还是在2网段上,微机与生产机的连接也都出现了时断时续的现象。而与生产机直接相连(不通过以太网)的主控台与主机的连接则没问题。从主控台上看,无论是内存占用还是CPU利用率等各方面都没有发现异常。而且生产机上的所有进程也都没有发现异常。看来问题出现在以太网上。
■好难找的故障点 既然两个网段与主机的连接都有问题,是不是两个网段都有问题呢?用TCP/IP协议中最基本的测试方法 ping 命令测试,结果发现2网段中的各台计算机之间的连接都没有问题,而1网段中,不只是各台机器与生产机之间ping 时断时通,而且其它各台机器之间互ping 也是时断时通。问题肯定出在1网段上。2网段到生产机的通信有问题,是因为从2网段到生产机必须经过1网段。究竟是什么地方出了问题呢?1网段中各台计算机既然都是通过一台Hub连在一起的,那么Hub出问题的概率很大,所以首先要查一下Hub。经检查,Hub的工作状态正常,但是插在一个口中的双绞线的指示灯状态却不正常。与正常运行的计算机连接时,各口的指示灯应为绿色,而此口的红灯亮。拔下此口中的线,1网段中各台计算机间的通信恢复正常。这时,一位同志突然想起出现问题时他恰好刚刚打开他的微机,而这台微机正是接在了1网段上的。经查证,出问题的这条线连的正是这台微机。这台机器什么地方出了问题呢?这台机器上的设置很久没有更改了。问题不应出在软件上。是网卡出了问题吗?用另一块好的网卡替换下机器里原来的网卡,问题仍然存在,说明问题不是出在网卡上。拿来另一台微机接在这根网线上,还是不能正常连上网络,这么说来问题就在网线上。根据以往的经验,网线上的问题多出现在头上,头如果压得不好,拔插的次数一多就容易出问题。干脆把线两边原来的头切下来重新压。出乎意料的是问题仍然存在。如此看来,问题只能是出在线中间了。从一头顺着线查下去,终于找到了问题的根源,原来是线被一条桌子腿压住了。由于桌子太重,压的时间太长,以至于把双绞线的塑料包皮压破,造成双绞线混线。把混线的地方用胶带缠好,问题解决。
■原因在于共享机制 由于以Hub连接的局域网采用CSMA/CD(即带有冲突检测的载波侦听多路存取)技术进行信息传输,所以当网线发生混线后,信号不能正常传输并产生错误信号,以至网段内充满错误信号,使得正常信号不能顺利传输,导致网络通信的时断时续。问题的原因找到了,从中我们应该吸取一些教训:在以太网中,尤其是以Hub连接的共享以太网中,网络中任何一点产生的问题,都可能造成整个网络的不正常以至瘫痪。网线虽然是连在Hub和单个微机之间,但若是出了问题却可能影响整个网络。
|