正 文

如何用C#语言构造蜘蛛程序


www.7dspace.com  更新日期:2006-1-10 4:03:41  七度空间


"蜘蛛"(Spider)是Internet上一种很有用的程序,搜索引擎利用蜘蛛程序将Web页面收集到数据库,企业利用蜘蛛程序监视竞争对手的网站并跟踪变动,个人用户用蜘蛛程序下载Web页面以便脱机使用,开发者利用蜘蛛程序扫描自己的Web检查无效的链接……对于不同的用户,蜘蛛程序有不同的用途。那么,蜘蛛程序到底是怎样工作的呢?

  蜘蛛是一种半自动的程序,就象现实当中的蜘蛛在它的Web(蜘蛛网)上旅行一样,蜘蛛程序也按照类似的方式在Web链接织成的网上旅行。蜘蛛程序之所以是半自动的,是因为它总是需要一个初始链接(出发点),但此后的运行情况就要由它自己决定了,蜘蛛程序会扫描起始页面包含的链接,然后访问这些链接指向的页面,再分析和追踪那些页面包含的链接。从理论上看,最终蜘蛛程序会访问到Internet上的每一个页面,因为Internet上几乎每一个页面总是被其他或多或少的页面引用。

  本文介绍如何用C#语言构造一个蜘蛛程序,它能够把整个网站的内容下载到某个指定的目录,程序的运行界面如图一。你可以方便地利用本文提供的几个核心类构造出自己的蜘蛛程序。

图1

  C#特别适合于构造蜘蛛程序,这是因为它已经内置了HTTP访问和多线程的能力,而这两种能力对于蜘蛛程序来说都是非常关键的。下面是构造一个蜘蛛程序要解决的关键问题:

  ⑴ HTML分析:需要某种HTML解析器来分析蜘蛛程序遇到的每一个页面。

  ⑵ 页面处理:需要处理每一个下载得到的页面。下载得到的内容可能要保存到磁盘,或者进一步分析处理。

  ⑶ 多线程:只有拥有多线程能力,蜘蛛程序才能真正做到高效。

  ⑷ 确定何时完成:不要小看这个问题,确定任务是否已经完成并不简单,尤其是在多线程环境下。

3页,页码:[1] [2] [3] 

上一篇:国际域名知识信息注册全解
下一篇:免费的Microsoft组件将能帮助编写WMI脚本
作者:武汉自由极  来源:blog ( 责任编辑:7dspace )
收藏此页】【打印】【关闭
站 内 搜 索
 

热 点 导 读
特 别 推 荐