党寿江 刘学 王星凯 刘春梅.基于Spark Streaming的实时数据采集分析系统设计[J].网络新媒体技术,2017,6(5):48-53
基于Spark Streaming的实时数据采集分析系统设计
  
DOI:
中文关键词:  基数计算; 实时数据分析; Spark流式处理; 不重复计数; HyperLogLog++;
英文关键词:
基金项目:
作者单位
党寿江 刘学 王星凯 刘春梅 中国科学院声学研究所 国家网络新媒体工程技术研究中心 北京 100190 中国科学院大学 北京 100049 
摘要点击次数: 106
全文下载次数: 106
中文摘要:
      大数据量的实时数据分析系统,需要快速的处理和响应。为了实现实时数据分析,本文设计了基于Spark Streaming的实时数据采集分析系统,并对有状态计算操作的基数计算的精确计算方法和估算方法进行了比较分析。实验表明,基于HyperLogLog++的基数估算方法在处理时间和存储占用空间上有明显优势,而计算偏差基本可以忽略不计,更适于大数据的基数估算。
英文摘要:
      
查看全文  查看/发表评论  下载PDF阅读器
关闭