|
![]() | 作者: BrideX [bridex]
![]() |
登录 |
robots.txt 请问这个漏洞有什么危险么? 以及怎么防范该漏洞啊? [此贴被 BrideX(bridex) 在 06月02日21时50分 编辑过] |
地主 发表时间: 04-06-02 21:49 |
![]() | 回复: BrideX [bridex] ![]() |
登录 |
# # robots.txt for http://www.w3.org/ # # $Id: robots.txt,v 1.25 2004/04/21 07:42:41 dom Exp $ # # For use by search.w3.org User-agent: W3Crobot/1 Disallow: /Out-Of-Date # AltaVista Search User-agent: AltaVista Intranet V2.0 W3C Webreq Disallow: /Out-Of-Date # exclude some access-controlled areas User-agent: * Disallow: /Team Disallow: /Project Disallow: /Systems Disallow: /Web Disallow: /History Disallow: /Out-Of-Date Disallow: /2002/02/mid Disallow: /mid/ Disallow: /People/all/ Disallow: /People/all/ Disallow: /2003/03/Translations/byLanguage Disallow: /2003/03/Translations/byTechnology User-Agent: W3C-checklink Disallow: |
B1层 发表时间: 04-06-03 12:42 |
![]() | 回复: BrideX [bridex] ![]() |
登录 |
Robots.txt指南 当搜索引擎访问一个网站时,它首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。Robots.txt文件用于限定搜索引擎对其网站的访问范围,即告诉搜索引擎网站中哪些文件是允许它进行检索(下载)的。这就是大家在网络上常看到的“拒绝Robots访问标准”(Robots Exclusion Standard)。下面我们简称RES。 Robots.txt文件的格式:Robots.txt文件的格式比较特殊,它由记录组成。这些记录通过空行分开。其中每条记录均由两个域组成: 1) 一个User-Agent(用户代理)字符串行; 2) 若干Disallow字符串行。 记录格式为:<Field> ":" <value> 下面我们分别对这两个域做进一步说明。 User-agent(用户代理): User-agent行(用户代理行) 用于指定搜索引擎robot的名字,以Google的检索程序Googlebot为例,有:User-agent: Googlebot 一个robots.txt中至少要有一条User-agent记录。如果有多条User-agent记录,则说明有多个robot会受到RES标准的限制。当然了,如果要指定所有的robot,只需用一个通配符"*"就搞定了,即:User-agent: * Disallow(拒绝访问声明): 在Robots.txt文件中,每条记录的第二个域是Disallow:指令行。这些Disallow行声明了该网站中不希望被访问的文件和(或)目录。例如"Disallow: email.htm"对文件的访问进行了声明,禁止Spiders下载网站上的email.htm文件。而"Disallow: /cgi-bin/"则对cgi-bin目录的访问进行了声明,拒绝Spiders进入该目录及其子目录。Disallow声明行还具有通配符功能。例如上例中"Disallow: /cgi-bin/"声明了拒绝搜索引擎对cgi-bin目录及其子目录的访问,而"Disallow:/bob"则拒绝搜索引擎对/bob.html和/bob/indes.html的访问(即无论是名为bob的文件还是名为bob的目录下的文件都不允许搜索引擎访问)。Disallow记录如果留空,则说明该网站的所有部分都向搜索引擎开放。 空格 & 注释 在robots.txt文件中,凡以"#"开头的行,均被视为注解内容,这和UNIX中的惯例是一样的。但大家需要注意两个问题: 1) RES标准允许将注解内容放在指示行的末尾,但这种格式并不是所有的Spiders都能够支持。譬如,并不是所有的Spiders都能够正确理解"Disallow: bob #comment"这样一条指令。有的Spiders就会误解为Disallow的是"bob#comment"。最好的办法是使注解自成一行。 2) RES标准允许在一个指令行的开头存在空格,象"Disallow: bob #comment",但我们也并不建议大家这么做。 Robots.txt文件的创建: 需要注意的是,应当在UNIX命令行终端模式下创建Robots.txt纯文本文件。好的文本编辑器一般都能够提供UNIX模式功能,或者你的FTP客户端软件也“应该”能够替你转换过来。如果你试图用一个没有提供文本编辑模式的HTML编辑器来生成你的robots.txt纯文本文件,那你可就是瞎子打蚊子――白费力气了。 对RES标准的扩展: 尽管已经提出了一些扩展标准,如Allow行或Robot版本控制(例如应该忽略大小写和版本号),但尚未得到RES工作组的正式批准认可。 附录I. Robots.txt用法举例: 使用通配符"*",可设置对所有robot的访问权限。 User-agent: * Disallow: 表明:允许所有搜索引擎访问网站下的所有内容。 User-agent: * Disallow: / 表明:禁止所有搜索引擎对网站下所有网页的访问。 User-agent: * Disallow: /cgi-bin/Disallow: /images/ 表明:禁止所有搜索引擎进入网站的cgi-bin和images目录及其下所有子目录。需要注意的是对每一个目录必须分开声明。 User-agent: Roverdog Disallow: / 表明:禁止Roverdog访问网站上的任何文件。 User-agent: Googlebot Disallow: cheese.htm 表明:禁止Google的Googlebot访问其网站下的cheese.htm文件。 上面介绍了一些简单的设置,对于比较复杂的设置,可参看一些大型站点如CNN或Looksmart的robots.txt文件(www.cnn.com/robots.txt, www.looksmart.com/robots.txt) |
B2层 发表时间: 04-06-03 12:43 |
![]() | 回复: BrideX [bridex] ![]() |
登录 |
November 09, 2003 robots.txt和Robots META标签 作者:平文胜 我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。 一、 robots.txt 1、 什么是robots.txt? robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。 当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。 robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。 网站 URL 相应的 robots.txt的 URL http://www.w3.org/ http://www.w3.org/ robots.txt http://www.w3.org:80/ http://www.w3.org:80/ robots.txt http://www.w3.org:1234/ http://www.w3.org:1234/ robots.txt http://w3.org/ http://w3.org/ robots.txt 2、 robots.txt的语法 "robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示: "<field>:<optionalspace><value><optionalspace>"。 在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下: User-agent: 该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中, "User-agent:*"这样的记录只能有一条。 Disallow : 该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如"Disallow: /help"对/help.html 和/help/index.html都不允许搜索引擎访问,而"Disallow: /help/"则允许robot访问/help.html,而不能访问/help/index.html。 任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。如果 "/robots.txt"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。 下面是一些robots.txt基本的用法: l 禁止所有搜索引擎访问网站的任何部分: User-agent: * Disallow: / l 允许所有的robot访问 User-agent: * Disallow: 或者也可以建一个空文件 "/robots.txt" file l 禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录) User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /private/ l 禁止某个搜索引擎的访问(下例中的BadBot) User-agent: BadBot Disallow: / l 只允许某个搜索引擎的访问(下例中的WebCrawler) User-agent: WebCrawler Disallow: User-agent: * Disallow: / 3、 常见搜索引擎机器人Robots名字 名称 搜索引擎 Baiduspider http://www.baidu.com Scooter http://www.altavista.com ia_archiver http://www.alexa.com Googlebot http://www.google.com FAST-WebCrawler http://www.alltheweb.com Slurp http://www.inktomi.com MSNBOT http://search.msn.com 4、 robots.txt举例 下面是一些著名站点的robots.txt: http://www.cnn.com/robots.txt http://www.google.com/robots.txt http://www.ibm.com/robots.txt http://www.sun.com/robots.txt http://www.eachnet.com/robots.txt 5、 常见robots.txt错误 l 颠倒了顺序: 错误写成 User-agent: * Disallow: GoogleBot 正确的应该是: User-agent: GoogleBot Disallow: * l 把多个禁止命令放在一行中: 例如,错误地写成 Disallow: /css/ /cgi-bin/ /images/ 正确的应该是 Disallow: /css/ Disallow: /cgi-bin/ Disallow: /images/ l 行前有大量空格 例如写成 Disallow: /cgi-bin/ 尽管在标准没有谈到这个,但是这种方式很容易出问题。 l 404重定向到另外一个页面: 当Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。 l 采用大写。例如 USER-AGENT: EXCITE DISALLOW: 虽然标准是没有大小写的,但是目录和文件名应该小写: user-agent:GoogleBot disallow: l 语法中只有Disallow,没有Allow! 错误的写法是: User-agent: Baiduspider Disallow: /john/ allow: /jane/ l 忘记了斜杠/ 错误的写做: User-agent: Baiduspider Disallow: css 正确的应该是 User-agent: Baiduspider Disallow: /css/ 下面一个小工具专门检查robots.txt文件的有效性: http://www.searchengineworld.com/cgi-bin/robotcheck.cgi 二、 Robots META标签 1、什么是Robots META标签 Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。具体的形式类似(见黑体部分): <html> <head> <title>时代营销--网络营销专业门户</title> <meta name="Robots" content="index,follow"> <meta http-equiv="Content-Type" CONTENT="text/html; charset=gb2312"> <meta name="keywords" content="营销… "> <meta name="description" content="时代营销网是…"> <link rel="stylesheet" href="/public/css.css" type="text/css"> </head> <body> … </body> </html> 2、Robots META标签的写法: Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。 INDEX 指令告诉搜索机器人抓取该页面; FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去; Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。 这样,一共有四种组合: <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"> <META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"> <META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW"> <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"> 其中 <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成 <META NAME="ROBOTS" CONTENT="ALL">; <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成 <META NAME="ROBOTS" CONTENT="NONE"> 要注意的是:上述的robots.txt和Robots META标签限制搜索引擎机器人(ROBOTS)抓取站点内容的办法只是一种规则,需要搜索引擎机器人的配合才行,并不是每个ROBOTS都遵守的。 目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如: <META NAME="googlebot" CONTENT="index,follow,noarchive"> 表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照 |
B3层 发表时间: 04-06-03 12:46 |
![]() | 回复: BrideX [bridex] ![]() |
登录 |
http://www.yesky.com/SoftChannel/72356686970486784/20040224/1771222_1.shtml Web服务器记录中查找黑客踪迹 摘要:本文主要讲述如何分析Web服务器记录,在众多记录里查找黑客攻击的蛛丝马迹,并针对当今流行的两类Web服务器给出具体的一些实例。 关键词:Web服务器,IIS,Apache,logging记录 现今的网络,安全越来越受到大家的重视,在构建网络安全环境时,在技术手段,管理制度等方面都逐步加强,设置防火墙,安装入侵检测系统等等。但网络安全是个全方位的问题,忽略哪一点都会造成木桶效应,使得整个安全系统虚设。本文从分析Web服务器的logging记录来找出漏洞,防范攻击,从而加强Web服务器安全。 Web服务是Internet所提供最多,最丰富的服务,各种Web服务器自然也是受到攻击最多的,我们采用了很多措施来防止遭受攻击和入侵,其中查看Web服务器的记录是最直接,最常用,又比较有效的一种方法,但logging记录很庞大,查看logging记录是很繁琐的事情,如果抓不住重点,攻击线索就容易被忽略。下面就对最流行的两类Web服务器:Apache和IIS做攻击的实验,然后在众多的记录中查到攻击的蛛丝马迹,从而采取适当的措施加强防范。 1.默认的web记录 对于IIS,其默认记录存放在c:\winnt\system32\logfiles\w3svc1,文件名就是当天的日期,记录格式是标准的W3C扩展记录格式,可以被各种记录分析工具解析,默认的格式包括时间、访问者IP地址、访问的方法(GET or POST…)、请求的资源、HTTP状态(用数字表示)等。对于其中的HTTP状态,我们知道200-299表明访问成功;300-399表明需要客户端反应来满足请求;400-499和500-599表明客户端和服务器出错;其中常用的如404表示资源没找到,403表示访问被禁止。 Apache的默认记录存放在/usr/local/apache/logs,其中最有用的记录文件是access_log,其格式包括客户端IP、个人标示(一般为空)、用户名(如果需要认证)、访问方式(GET or POST…)、HTTP状态、传输的字节数等。 2.收集信息 我们模拟黑客攻击服务器的通常模式,先是收集信息,然后通过远程命令一步步实施入侵。我们使用的工具是netcat1.1 for windows,Web服务器ip为10.22.1.100,客户端IP为:10.22.1.80。 C:>nc -n 10.22.1.100 80 HEAD / HTTP/1.0 HTTP/1.1 200 OK Server: Microsoft-IIS/4.0 Date: Sun, 08 Oct 2002 14:31:00 GMT Content-Type: text/html Set-Cookie: ASPSESSIONIDGQQQQQPA=IHOJAGJDECOLLGIBNKMCEEED; path=/ Cache-control: private 在IIS和Apache的log里显示如下: IIS: 15:08:44 10.22.1.80 HEAD /Default.asp 200 Linux: 10.22.1.80- - [08/Oct/2002:15:56:39 -0700] "HEAD / HTTP/1.0" 200 0 以上的活动看上去很正常,也不会对服务器产生任何影响,但这是通常攻击的前奏。 3. Web站点镜像 黑客经常镜像一个站点来帮助攻击服务器,常用来镜像的工具有Windows下的Teleport pro和Unix下的Wget。 下面我们看使用这两个工具后在服务器记录里的信息: 16:28:52 10.22.1.80 GET /Default.asp 200 16:28:52 10.22.1.80 GET /robots.txt 404 16:28:52 10.22.1.80 GET /header_protecting_your_privacy.gif 200 16:28:52 10.22.1.80 GET /header_fec_reqs.gif 200 16:28:55 10.22.1.80 GET /photo_contribs_sidebar.jpg 200 16:28:55 10.22.1.80 GET /g2klogo_white_bgd.gif 200 16:28:55 10.22.1.80 GET /header_contribute_on_line.gif 200 16:49:01 10.22.1.81 GET /Default.asp 200 16:49:01 10.22.1.81 GET /robots.txt 404 16:49:01 10.22.1.81 GET /header_contribute_on_line.gif 200 16:49:01 10.22.1.81 GET /g2klogo_white_bgd.gif 200 16:49:01 10.22.1.81 GET /photo_contribs_sidebar.jpg 200 16:49:01 10.22.1.81 GET /header_fec_reqs.gif 200 16:49:01 10.22.1.81 GET /header_protecting_your_privacy.gif 200 10.22.1.80是使用Wget的Unix客户端,10.22.1.81是使用Teleport pro的Windows客户端,都请求robots.txt文件,Robots.txt是请求没有被镜像的文件时所要用到的。所以看到有对robots.txt文件的请求,表明有镜像的企图。当然,在Wget和Teleport pro客户端,可以手工禁止对robots.txt文件的访问,这时,辨别方法可以看是否有从同一IP地址来的重复资源请求。 4.漏洞扫描 随着攻击的发展,我们可以用一些Web漏洞检查的软件,如Whisker,它可以检查已知晓的各种漏洞,如cgi程序导致的安全隐患等。下面是运行Whisker1.4的IIS和Apache的相关记录: IIS 12:07:56 10.22.1.81 GET /SiteServer/Publishing/viewcode.asp 404 12:07:56 10.22.1.81 GET /msadc/samples/adctest.asp 200 12:07:56 10.22.1.81 GET /advworks/equipment/catalog_type.asp 404 12:07:56 10.22.1.81 GET /iisadmpwd/aexp4b.htr 200 12:07:56 10.22.1.81 HEAD /scripts/samples/details.idc 200 12:07:56 10.22.1.81 GET /scripts/samples/details.idc 200 12:07:56 10.22.1.81 HEAD /scripts/samples/ctguestb.idc 200 12:07:56 10.22.1.81 GET /scripts/samples/ctguestb.idc 200 12:07:56 10.22.1.81 HEAD /scripts/tools/newdsn.exe 404 12:07:56 10.22.1.81 HEAD /msadc/msadcs.dll 200 12:07:56 10.22.1.81 GET /scripts/iisadmin/bdir.htr 200 12:07:56 10.22.1.81 HEAD /carbo.dll 404 12:07:56 10.22.1.81 HEAD /scripts/proxy/ 403 12:07:56 10.22.1.81 HEAD /scripts/proxy/w3proxy.dll 500 12:07:56 10.22.1.81 GET /scripts/proxy/w3proxy.dll 500 Apache 10.22.1.80-[08/Oct/2002:12:57:28 -0700] "GET /cfcache.map HTTP/1.0" 404 266 10.22.1.80-[08/Oct/2002:12:57:28 -0700] "GET /cfide/Administrator/startstop.html HTTP/1.0" 404 289 10.22.1.80-[08/Oct/2002:12:57:28 -0700] "GET /cfappman/index.cfm HTTP/1.0" 404 273 10.22.1.80-[08/Oct/2002:12:57:28 -0700] "GET /cgi-bin/ HTTP/1.0" 403 267 10.22.1.80-[08/Oct/2002:12:57:29 -0700] "GET /cgi-bin/dbmlparser.exe HTTP/1.0" 404 277 10.22.1.80-[08/Oct/2002:12:57:29 -0700] "HEAD /_vti_inf.html HTTP/1.0" 404 0 10.22.1.80-[08/Oct/2002:12:57:29 -0700] "HEAD /_vti_pvt/ HTTP/1.0" 404 0 10.22.1.80-[08/Oct/2002:12:57:29 -0700] "HEAD /cgi-bin/webdist.cgi HTTP/1.0" 404 0 10.22.1.80-[08/Oct/2002:12:57:29 -0700] "HEAD /cgi-bin/handler HTTP/1.0" 404 0 10.22.1.80-[08/Oct/2002:12:57:29 -0700] "HEAD /cgi-bin/wrap HTTP/1.0" 404 0 10.22.1.80-[08/Oct/2002:12:57:29 -0700] "HEAD /cgi-bin/pfdisplay.cgi HTTP/1.0" 404 检查这种攻击的关键是看同一IP地址对cgi目录(IIS是scripts,Apache是cgi-bin)文件请求出现多个404状态。这时就要检查相应cgi目录里的程序安全性。 5.远程攻击 下面我们以针对IIS的MDAC攻击为例,来了解远程攻击在log里的记录情况。MDAC漏洞使得攻击者可以在Web服务器端执行任何命令。 17:48:49 10.22.1.80 GET /msadc/msadcs.dll 200 17:48:51 10.22.1.80 POST /msadc/msadcs.dll 200 当攻击发生后,在log会留下对msadcs.dll请求的记录。 另一个有名的攻击是asp源代码泄漏的漏洞,当这种攻击发生时,log文件会有如下记录: 17:50:13 10.22.1.81 GET /default.asp+.htr 200 对于未授权访问的攻击记录,Apache log会显示: [08/Oct/2002:18:58:29 -0700] "GET /private/ HTTP/1.0" 401 462 6.总结 管理一个安全站点要求系统管理人员具备安全的常识和警惕性,从不同的渠道了解安全的知识不仅能对付已发生的攻击,还能对将会发生的攻击做到较好的防范。而通过Log文件来了解、防范攻击是很重要但又经常容易忽略的手段。 IDS(入侵检测系统)能帮助你很多,但不能完全代替安全管理。仔细检查Log,IDS所遗漏的东西,就可能在这里发现。 [此贴被 BrideX(bridex) 在 06月03日12时51分 编辑过] |
B4层 发表时间: 04-06-03 12:49 |
![]() | 回复: BrideX [bridex] ![]() |
登录 |
入侵者有他们自己的搜索引擎,可以绕过“禁用引擎”的设置,仍然可以找到那些带有密码的敏感文档和存在漏洞的CGI程序,而且如果网站使用了robots.txt,就等于告诉大家其中是敏感数 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 据,所以才要求不要加入到索引中。 ~~ |
B5层 发表时间: 04-06-03 12:53 |
|
20CN网络安全小组版权所有
Copyright © 2000-2010 20CN Security Group. All Rights Reserved.
论坛程序编写:NetDemon
粤ICP备05087286号