大数据库的相似记录检测方法研究_论文

发布时间:2021-09-25 19:04:43

第3 4 卷 第3 期   文章编号 : 1 0 0 6 — 9 3 4 8 ( 2 0 1 7 ) 0 3 — 0 4 1 0 — 0 4   计 算 机 仿 真  2 0 1 7 年3 月   大 数 据 库 的 相 似 记 录 检 测 方 法 研 究  涂 静 叉  ( 江 西 农 业 大 学 南 昌商 学 院 , 江西 南 昌 3 3 0 0 4 4)   摘要 : 对 大 数 据 库 的 相 似 记 录 进行 准 确检 测 , 可 以检 测 提高 数 据 库 重 复 记 录 检 测 效 果 。 对 数 据 库 中非 重 要数 据 进 行 删 除 , 对  剩余数据属性进行分类是相似记录检测的重要前提 , 但是传统方法量 子粒子群算法 只能对整体数 据相似度 特征样本进行训  练, 不能消除数据库中的非重要数据 , 增加 了 ’ 榆 测时间, 降低 了相似记录检测的效率 . .提出改进二 次模糊评 判的大数据库 的  相似记 录检测方法。上述方法先依据等级法对大数据库中全 部数据属性进行 第一次 评判 . 消除数 据库 中非重要 数据属性 ,   对 剩 余 数 据 属 性 进 行 二 次 模糊 评 判 , 并均 衡 其数 据 属 性 的评 判 结 果 , 对 数 据 库 的 全 部 数 据 属性 进 行 分 组 . 在 此基 础 上 计 算 f t I   各组数据集的 记录字段间的相似度函数 , 提取记 录字段相似度 的特征 向量 , 组建大数据库的相似记录检 测模 型 , 完成对大数  据库的相似记录检测。仿真结果表明 , 所 提算法 可以有效地提升大数据库的相似 记录检测的查准率 。   关键词 : 大数据库 : 相 似 记录 : 检 测  中图 分 类 号 :   F P 3 9 3   文献 标 识 码 : B   La r g e   Da t a ba s e   Re c o r ds   o f   Si mi l a r   Te s t   M e t ho d   Re s e a r c h   T U   J i n g — — we n   ( N a n c h a n g   B u s i n e s s   C (  ̄ l l e g e , J i a n g x i   A g l ’ i c u h u r a l   U n i v e r s i t y ,N a n e h a n g   J i a n g x i   3 3 0 0 4 4, C h i n a )   ABS TRACT: T r a d i t i o n a l   a l g o r i t h m   o f   q u a n t u m  p a r t i c l e   s w a r m  o n l y   t r a i n s   s i mi l a r i t y   f e a t u r e   s a mp l e   o f   w h o l e   d a t a .I t   c a n n o t   e l i mi na t e   no n—i mpo r t a n t   d a t a   i n   da t a ba s e,wh i c h  i n c r e a s e s   d e t e c t i o n   t i me   a n d   r e d uc e s   e ic f i e nc y . The r e f o r e,   t hi s   p a pe r   pr o v i d e s   a   t e s t   me t h o d   o f   s i mi l a r   r e c o r d   o f   l a r g e   da t a b a s e   ba s e d   o n   mo di ie f d   s e c o n d   f u z z y   e v a l u a t i o n .I n   t h e   p r o p o s e d   me t h o d , w e   j u d g e   a l l   d a t a   a t t r i b u t e s   i n   t h e   l a r g e   d a t a b a s e   f o r   t h e   i f r s t   t i m e   a c c o r d i n g   t o   r a n k   me t h o d   a n d   e —   l i mi n a t e d   t h e   n o n—i mpo r t a n t   d a t a . The   s e c o n d   f u z z y   e v a l ua t i o n   i s   c a r r i e d   o ut   t o   r e s i du a l   da t a   a t t r i b ut e. W e   a l s o   b a l —   a n c e   i t s   e v a l u a t i o n   r e s u ] t s ;t h e n   g r o u p   a l l   d a t a   a t t r i b u t e s   i n   d a t a b a s e   a n d   wo r k   o u t   s i mi l a r i t y   f u n c t i o n   b e t we e n   r e c o r d   i f e l d s   o t 。 e a c h   d a t a s e t   O i l   t h a t   b a s i

相关文档

  • 检测大型数据库中汉语相似重复记录的方法
  • 数据仓库中的相似重复记录检测方法
  • 关键属性组的相似重复记录检测方法研究
  • 数据仓库ETL中相似重复记录的检测方法及应用
  • 猜你喜欢

  • 加拿大高科技动力有限公司企业信用报告-天眼查
  • 二次函数经典应用题八道1
  • 一年级元旦节目主持词
  • 泰州市开发区麦香人家食品连锁有限公司(企业信用报告)- 天眼查
  • 2018-应聘个人简历写什么【原创模版幻灯片PPT】
  • 辣子鸡的正宗做法介绍 学会辣子鸡的做法
  • 爬虫 UserAgent 伪装 fake_useragent
  • 几种常见性状相似易混中药饮片的鉴别
  • 初二语文期中复习计划
  • 台湾简发送系统*台简介
  • 物流经济地理-日用品工业布局及发展
  • 高一英语必修三Unit1-Unit3单元测试题
  • 译林牛津版 9A Unit 8 Detective stories reading I---murder in west down 公开课教学课件 (共26张PPT)
  • 美国专家的防癌忠告
  • 框架剪力墙结构工程主体施工
  • 图解各种颜色的丝带寓意
  • C语言--内存分配(详细解说)
  • 冷热电三联供系统能耗分析方法研究
  • 2019-2025年中国检针机行业市场分析及投资可行性研究报告
  • 块衰落,慢衰落和快衰落
  • 眉县华彩广告印务有限公司企业信用报告-天眼查
  • 家庭大卖场作文
  • 屏南逸家商务酒店有限公司(企业信用报告)- 天眼查
  • 湖北省重点高中2019-2020学年高二上学期期中联考地理(B)试卷 PDF版缺答案
  • 2015江苏公务员考试行测片段阅读*题及精解
  • 最新数学湘教版初中九年级下册2.3垂径定理公开课教学设计
  • 对橡胶制品行业发展现状的调查与分析
  • 感受欣赏作文(高中生优秀篇)
  • 全省教育系统学*宣传贯彻党的十八大精神工作方案
  • 解除劳动合同关系协议书(律师推荐版)
  • 辽宁省庄河高级中学2017_2018学年高二化学下学期期末考试试题(扫描版)
  • 2020年全国通用版2019版高考历史大一轮复*第二单元古代希腊罗马和*代西方的政治制度高考必考题突篇沧?
  • vivo x6plusa没有声音
  • 广东省肇庆市高要市两校2016_2017学年高一地理下学期期末考试试题
  • 七年级英语下u8
  • 海南金戈马拆迁工程有限公司企业信用报告-天眼查
  • 开课吧python小课值得么-领导想提拔你,从来看的不止努力!
  • 医务室药品购进清单
  • 四年级作文:爸爸的职务作文400字
  • 3月 《节约的都是利润》 读后感
  • 质量保证体系123
  • 哪些情况下不能提加薪
  • 电脑版