发明专利
专利类型未知
专利状态2019102254429
专利号专利号 | 2019102254429 | 专利名称 | 改进的Simhash算法在文本去重中的方法及系统 |
---|---|---|---|
专利类型 | 发明专利 | 国际分类 | G06F17/27;G06F17/22 |
申请人 | 成都信息工程大学 | 申请地址 | 四川省成都市西南航空港经济开发区学府路一段24号 |
发明人 | 张仕斌;张航;盛志伟;万国根 | 申请日期 | 2019-03-25 |
下证状态 | 未知 | 更新时间 | 2023-05-18 08:08:53 |
专利摘要 | 本发明属于信息处理技术领域,公开了一种改进的Simhash算法在文本去重中的方法及系统,利用基于TF‑IDF算法与信息熵进行加权得到权重,并按照在文档中的分布进行排序,对每个特征词汇生成的hash再与特征词汇所在位置进行异或;经过改进的权重计算后,引入权重阈值Wt,增加文本分布信息,使最终生成的指纹体现关键信息的比重,并对指纹信息与权重的关联性进行分析。仿真实验表明,本发明优化权重计算能有效的提升Simhash算法的性能,E‑Simhash算法在去重率、召回率、F值等方面均优于传统Simhash算法,并且在文本去重方面取得了良好的效果。 |
买卖双方需提供 | 平台提供 | 转让后买方可获得 | ||
---|---|---|---|---|
企业 | 个人 | 专利代理委托书 专利权转让协议 办理文件副本请求书 发明人变更声明 | 专利证书 手续合格通知书 专利登记簿副本 | |
买方 | 企业营业执照 企业组织机构代码证 | 身份证 | ||
卖方 | 企业营业执照 专利证书原件 | 身份证 专利证书原件 |
专利状态:
专利类型:发明专利
询价专利状态:
专利类型:发明专利
询价专利状态:
专利类型:发明专利
询价专利状态:未知
专利类型:实用新型
询价您的咨询我们已收到,稍后会有专业顾问与您联系。