行业领域:信息传输、软件和信息技术服务业 —— 互联网和相关服务
专利类型: 发明专利
专利信息: 专利技术
专利号: CN201310576331.5
成熟度: 已有样品
技术合作方式: 完全转让 许可转让
技术推广方式: 正在技术推广
技术交易价格: 面议
联系人:方志仙
联系方式:13957007799
技术成果发布数:1946
邮箱:794379728@qq.com
成果内容简介
现有方法生成的大规模数据存在真实性问题。
本发明使用真实小规模数据来生成大规模的相对真实可靠的数据来提供给数据中心的应用,从而使得到的研究结果有更加真实。通过提取小规模的真实数据的特征,进而基于获得的特征来生成大规模的数据。
本发明公开了一种基于 Web 页面的大规模数据生成方法,通过将原始小规模种子网页按长度分类的方式,依据原始网页的长度和词频信息生成大规模的文本数据,入出度生成和 URL 赋值,则根据原始种子页面中每类页面的入出度的条件概率计算生成网页的入出度值,利用已有入出度值向网页中插入 URL,使得在生成的数据中, 入度的总和是等于出度的总和。通过提取小规模的真实数据的特征来生成大规模的相对真实可靠的数据来提供给数据中心的应用,从而使得到的研究结果有更加真实。