第35章 来啊,干活啊 (第4/4页)
甜昕提示您:看后求收藏(畅读书坊www.chfree.com),接着再看更方便。
于是陆道升写了套网络爬虫系统(包括爬取网页的爬虫和后续内容处理的模块)。
1998年,谷歌也才刚在今年成立,爬虫技术尚未非常普及,在中国国内连专业程序员都没几个人会写,李兴平是初中毕业,打工及创建hao123的早期都不具备很强的计算机编程能力,自然没有使用网络爬虫这个选项可选。
但对陆道升来说,写套爬虫系统不在话下。即便在1998年很多常用的基础库尚未出现,凭借他扎实的基本功,陆道升也能实现个七七八八出来,足够支持他把爬虫系统写出来。
有了爬虫系统,就能高效地利用网页中嵌套的超链接来进一步获得更多的网址。比如在sohu。com的页面里,会有很多文章和其他网站的链接,这些链接对应的网页下载后,又能在下载的网页上看到新的超链接,不断搜集下去,就几乎可以把大部分的网址给一网打尽。
也幸亏1998年,中国互联网才刚刚开始发展,整个网络上没有多少内容,陆道升才能借助韩教授实验室的机器完成爬取工作,这要是到了未来信息爆炸的年代,一千台服务器都能因为内容太多下不完而爆掉。
但只有爬虫系统把网址搜集下来是不够的,还需要开发一些过滤器和筛选算法,最后人工审核,才能最终得到一份可用的网址,这就需要拉上左文杏这个宝贵的战力了。
……