刘学 麻朴方 尤佳莉 脱立恒.基于窗口比较的网站信息增量爬取方法[J].网络新媒体技术,2017,6(4):24-27
基于窗口比较的网站信息增量爬取方法
  
DOI:
中文关键词:  增量爬取; 爬取效率; Hash; 布隆过滤器;
英文关键词:
基金项目:
作者单位
刘学 麻朴方 尤佳莉 脱立恒 中国科学研究院声学研究所 国家网络新媒体工程技术研究中心 北京100190 中国科学院大学 北京 100190 
摘要点击次数: 120
全文下载次数: 121
中文摘要:
      目前在网站信息增量爬取中,采用布隆过滤器去重是比较有效的方法,但随着存入的元素数量增加,误算率随之增加。为此本文设计并实现了一种基于窗口比较的网站信息增量爬取方法,按照网站数据呈现顺序一次性爬取有限长度的数据,并按照网站数据的呈现顺序放入数据队列,在数据队列末端设定比较窗口,通过检查比较窗口内的数据与已爬取数据的重复度决定是否停止数据爬取。实验表明,针对增量爬取未严格按照时间排序网站信息时,本方法降低了爬取损耗。 更多还原
英文摘要:
      
查看全文  查看/发表评论  下载PDF阅读器
关闭