全文搜索引擎中的"机器人"或"蜘蛛"程序使用了哪种计算机技术( )
第一章 搜索引擎简史
1.1 前互联网搜索时代
在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。
所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。当时World Wide Web还未出现。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。
Archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于Archie深受用户欢迎,受其启发,美国内华达System Computing Services大学于1993年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,已能检索网页。
当时,“机器人”一词在编程者中十分流行。电脑“机器人”(Computer Robot)是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider(SpiderFAQ)程序。世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。
世界上第一个用于监测互联网发展规模的“机器人”程序是Matthew Gray开发的World wide Web Wanderer。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。
与Wanderer相对应,1993年10月Martijn Koster创建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。
1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:Scotland的JumpStation、Colorado大学Oliver McBryan的The World Wide Web Worm(First Mention of McBryan's World Wide Web Worm)、NASA的Repository-Based Software Engineering(RBSE)spider。随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Matthew Gray的Wanderer基础上,一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。然而Jump Station和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。
1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。这就是Excite。后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile
1994年1月,第一个既可搜索又可浏览的分类目录EINetGalaxy(Tradewave Galaxy)上线。除了网站搜索,它还支持Gopher和Telnet搜索。
1994年4月,Stanford两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。搜索效率明显提高。(Yahoo以后陆续使用Altavista、Inktomi、Google提供搜索引擎服务)
1994年初,Washington大学CS学生Brian Pinkerton开始了他的小项目Web Crawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,Web Crawler正式亮相时仅包含来自6000个服务器的内容。Web Crawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。(后来web crawler陆续被AOL和Excite收购,现在和excite一样改用元搜索引擎Dogpile)
- 计算机 硬件简单问题DNS解析主机名吗??
- 网站中企业邮箱是什么
- 企业邮箱使用
- xx点co点cc这种二级域名能申请腾讯企业邮箱吗?
- 打开网页时出现403Forbidden是什么意思
- 除了301定向还有啥能把不带www的域名解析到带www的域名上
- 403 Forbidden问题解决
- DNS域名解析疑问
- 网站带WWW和不带WWW的区别是什么?
- 域名和主机怎么绑定?
- 谁能提供二级域名给我
- 电脑总是出现域名解析错误怎么办
- 我办了一个网站 关于解析域名的相关知识请教一下....
- 服务器怎样绑定域名?
- 狗爹上买的域名,怎么解析到阿里云购买的服务器上?
- 我有两个域名,想解析到同一个主机空间上,怎么做?
- linux 域名解析暂时失败,怎么回事?如图
- 花生壳的域名要怎么解析
- 一个顶级域名下有几多个二级域名,可以不限制吗
- 域名解析 续费
-
把网址复制粘贴到浏览器打开并下载 网址在微信上 怎么操作
-
网站一级域名和二级域名区别
-
怎样查询二级域名的ip地址?
-
子域名ip地址查询?
-
电脑网页找不到,出现404,这个404代表什么意思?
-
有哪个网站可以免费看NBA直播?
-
电脑网页打开时出现HTTP404未找到,如何解决?
-
网页版qq登录入口
-
如何建立个人网站?我想建一个自己的网站,永久免费的?
-
http://www.windows.com/stopcode
-
shadowrocket怎么架设服务器
-
网站推广关键词排名优化要用那些方法?
-
如何给VPS搭建的网站做国内CDN加速?
-
可以同时在两个网站发同一本小说吗?
-
windows server怎么搭建网站