互联网大数据的评估与采样

时间:2021-04-19 17:00
浏览:478
对网络空间中多源数据进行质量评估,一方面需要建立数据模型或提出适当的采样方法;另一方面,需要提出对采样数据的评价与检验方法。网络数据采样是将数据从Web数据库提取出来的过程。传统的数据库采样是随机从数据库中选取数据记录以获得数据库的统计信息的过程,典型方法可参考文献。但是要获取Web数据库中的数据只能通过向查询接口提交查询﹐不能自由地从Web数据库获取记录﹐故而传统方法不能实现对Web数据库的采样。

互联网大数据的评估与采样

对网络空间中多源数据进行质量评估,一方面需要建立数据模型或提出适当的采样方法;另一方面,需要提出对采样数据的评价与检验方法。网络数据采样是将数据从Web数据库提取出来的过程。传统的数据库采样是随机从数据库中选取数据记录以获得数据库的统计信息的过程,典型方法可参考文献。但是要获取Web数据库中的数据只能通过向查询接口提交查询﹐不能自由地从Web数据库获取记录﹐故而传统方法不能实现对Web数据库的采样。

针对Web数据库采样。HIDDEN-DB-SAM-PLER是第一项工作,它给出了对范围属性和分类属性的处理方法﹐而对查询接口中设计的必填的可任意取值的关键词属性未作处理。提出基于图模型的增量式Web数据库采样方法WDB-Sampler,通过查询接口从Web数据库中以增量的方式获取近似随机的样本。但是该方法是针对样本中每条数据作为顶点来建立图模型,每一轮查询后都要将查询结果扩充到图模型中用于产生下一轮查询词,这样做的代价比较高。

登 录

登录即代表您同意《用户协议》《隐私协议》

注 册

我已阅读并同意《用户协议》《隐私协议》

忘记密码