基于兴趣度的Top-k关联规则挖掘--现代信息网|自然-社会科学基金项目申请申报网

毕业设计开题报告

基于兴趣度的Top-k关联规则挖掘

毕业论文（设计）任务书

院（系）：计算机与控制工程学院

具体要求(主要内容、基本要求、主要参考资料等)：

随着数据时代来临，人们已不满足于海量数据存储、查询和显示，更关心海量数据背后的信息价值，目前人们对于数据信息掌握远远跟不上数据增长速度。如何在海量数据中挖掘有用的信息成为了当前关注的焦点，知识发现、数据挖掘等技术成为了学术界研究的热点。数据挖掘技术就是从海量的、包含噪声的、不完整的随机数据中挖掘出事先未知的，但却存在潜在价值信息的过程。目前国内处于大数据大力发展时期，为数据挖掘提供了良好外部环境，但目前对于数据挖掘，特别关联规则算法研究论文及成果相对薄弱和单一，所以此次毕业设计重点对关联规则Apriori经典算法进行分析研究并做出优化，与此同时，发现了“支持度-置信度”兴趣度度量方法的不足，并且提出一种新型的兴趣度度量方法，所以本文对于数据挖掘关联规则探讨研究具有重要的意义。

具体完成以下研发工作：

（1）查询相关资料，自学课题所需的背景知识，掌握兴趣度概念、关联规则挖掘算法、top-k排序算法等，为论文研发工作做准备。

（2）学习Apriori关联规则挖掘算法，发现其中不足之处，并对其进行优化。

（3）研究兴趣度度量，寻找合适的兴趣度度量的标准。

（4）学习兴趣度度量的方法，合理的将挖掘出的关联规则进行排序，找出有价值的前k项数据。

（5）将选择的相关方法合成一整套关联规则挖掘排序的程序。

参考资料：

1.《啤酒与尿布》，高勇著，清华大学出版社

2.《深入浅出数据分析》，[美] Michael Milton著，电子工业出版社

3.《并行数据挖掘及性能优化》，荀亚玲著，电子工业出版社

进度安排：

2021年2月24日至3月10日，完成开题，提交开题报告

2021年3月11日至5月15日，进行毕业设计（期间进行中期检查）

2021年5月16日至5月19日，验收作品，整理设计报告，完善设计作品

2021年5月20日至5月30日，完成毕业论文的撰写

2021年5月30日至6月3日，答辩。

指导教师（签字）：

年月日

院（系）意见：

教学院长（主任）（签字）：

年月日

备注：

1．本课题的研究意义，国内外研究现状、水平和发展趋势

1.1研究意义

信息技术的迅速崛起和快速发展使得每个行业甚至每个单位都积累了大量的数据。这些数据总是以一定形式存储在各种类型的商业数据库或者文件系统中，并且蕴含了丰富且至关重要的信息。但是，只依赖数据库的相关技术和统计学的相关方法来查找这些蕴含的信息是很困难的。因此，数据挖掘（Data Mining）应运而生，最初是为了发现在大量数据集中蕴含的不容易被专业人员发现的有价值的信息[1]。数据挖掘是值得众多学者和公司投入更多的金钱和时间去继续深入研究和应用的一门技术。

Agrawal提出的关联规则挖掘是数据挖掘众多领域中具有巨大价值的研究方向以及研究热点之一，最初目的是为了发现事务数据库（Transaction Database）中不同商品之间的潜在规则。随后大量的研究人员对关联规则挖掘问题进行了大量更深入的研究。关联规则挖掘算法一般分为两个部分，第一个部分是从事务数据库中挖掘频繁项集，所用的方法就称为频繁项集挖掘算法；第二个部分是从频繁项集中挖掘关联规则，广泛采用“支持度-置信度”模型。目前第一部分的研究主要是解决如何使算法运行在海量数据中依然具有良好的效率和性能问题，并让该算法可以在不同领域中都得以应用。而第二个部分的研究主要是解决如何从频繁项集中挖掘出更有效果的、更加可信的、更容易理解的、用户更感兴趣的关联规则的问题。

比较经典的频繁项集挖掘算法包括以下三种：Apriori 算法、FP-Growth（Frequent Pattern-Growth）算法和Eclat（Equivalence class traversal）算法，这三种算法各有优劣，Apriori算法需要通过多次扫描数据库，从而统计出每个项目对应的支持度，然后从候选项集中查找出频繁项集，这个过程会产生大量的候选项集[2]。FP-Growth算法则规避了Apriori的缺点，仅读取两次数据库，不产生候选项集。但是，该算法需要构造新的数据结构，即 FP-tree（Frequent Pattern- tree），然后由 FP-tree递归挖掘频繁项集，并且该算法在处理稀疏型数据集的时候，其性能也会大大降低。Eclat算法则是基于垂直型数据的典型算法，仅读取一次数据库，并且可以快速求出每个项集的支持度，通常情况下，Eclat算法的运行效率都会高于Apriori算法[3]。

对于从频繁项集中挖掘关联规则这部分而言，最早采用“支持度-置信度”模型来发现关联规则。该模型的确能够提取频繁项集中的前项集和后项集之间隐秘存在的重要关系，但是，根据此模型不管用户设定的最小支持度是高是低，挖掘出来的关联规则都会存在着一些不足[4]。因此很多研究者通过引入不同定义的兴趣度，排除一些无用的规则，进而防止产生对用户有误导作用的规则。

关联分析方法是数据挖掘中常用的方法之一，它的主要作用是从大型事务数据库中挖掘隐藏的、有用的知识和信息。例如，大型商场每天有成百上千名顾客购买商品，商家记录着每位顾客购买的商品种类、购买方式和消费金额等信息。然而，商场庞大的销售记录数据中潜藏着令人无法预料的商机，使用关联规则挖掘技术，就可以从这些购买记录中发现交叉销售的商机，利用挖掘出的知识，商场就可以采取促销或捆绑销售手段来进一步提高商场销售利润。当然，关联规则挖掘不仅可以应用在商场中，还可以应用于其他领域，如生物医疗、科学分析以及社会研究。可见，关联分析技术在未来非常具有吸引力，且应用前景一片光明。

1.2 国内外研究现状、水平和发展趋势

数据挖掘技术最早起源于国外，其研究方向非常多。解决分类问题的最常见的方法是决策树归纳，相应的算法包括C4.5算法、ID3算法、ID4算法、IDS算法和Quest算法[5]等。解决聚类问题的数据挖掘技术和方法也有多种，常见的聚类的方法有k-means 算法、基本凝聚层次聚类算法等。在国内，1993年，国家自然科学基金首次同意并大力支持数据挖掘技术的研究，全国各个高校和研究所都投身进入数据挖掘领域。以清华大学为首的包括中国科学院计算技术研究所、空军第三研究所等相继开展了知识发现基础理论及其应用研究。北京大学也开展了对数据立方体代数的研究，复旦大学、中国科学技术大学、浙江大学和中国科学院数学研究所等开展了关联规则优化算法的研究[6]。南京大学、上海交通大学等单位对非结构化数据的知识发现和Web数据挖掘等领域展开了研究[7]。关联规则数据挖掘首先由Agrawal，Imiehski和Swami等提出，著名的Apriori算法由Agrawal和Srikant提出。在国内，高校和研究所的大量学者和专家们对关联规则挖掘进行了深入的研究。屈鑫乙等利用任何一个频繁k+1项集均可以表示一个频繁k项集与一个频繁1项集的交集这一性质产生频繁项集[8]。边根庆等通过富裕项和事务权重，计算项的权重支持度，从而得到频繁项集[9]。陈志飞等人通过判断连接必要性，排除无用交连接来减少事务数据库匹配的时间开销[10]。

参考文献：

[1] 肖文, 胡娟, 周晓峰. 基于MapReduce计算模型的并行关联规则挖掘算法研究综述[J]. 计算机应用研究, 2018.

[2] 杨秋翔,孙涵.基于权值向量矩阵约简的Apriori算法[J]. 计算机工程与设计,2018.

[3] 高强, 张凤荔, 陈学勤. 基于改进 Eclat 算法的资源池节点异常模式挖掘[J].计算机应用研究, 2018.

[4] 杨小廷. 基于关联规则的微博话题动态检测与演化分析[D]. 哈尔滨工业大学,2017.

[5] 王晓,王芳,邱玉辉. 经典数据挖掘方法在客户建模中的应用分析. 西南师范大学学报(自然科学版), 2003.

[6] 钱冬云. 数据挖掘中关联规则算法的研究[D]. 天津大学, 2006.

[7] 孔芳. 数据挖掘技术中关联规则算法的研究[D]. 江南大学, 2008.

[8] 屈鑫乙, 王迪, 刘滏. 关联规则挖掘Apriori算法的一种改进[J]. 中国市场, 2016.

[9] 边根庆, 王月. 一种基于矩阵和权重改进的Apriori算法[J]. 微电子学与计算机, 2017.

[10] 陈志飞, 冯钧. 一种基于Apriori算法的优化挖掘算法[J]. 计算机与现代化,2016.

2. 本课题的基本内容和要求，关键问题及其解决的方法和措施

2.1 课题的基本内容

1.详述论文中所用到的关联规则挖掘算法。

2.概述兴趣度度量的标准。

3.详述本文中所用的兴趣度度量方法。

4.编程实现，得出结论。

2.2 课题的基本要求

1．针对Apriori关联规则挖掘算法的不足，对其进行优化并通过实验做出对比，最后得出结论。

2．针对传统的置信度-支持度模型的缺点，提出一种新型兴趣度度量模型，说明其优势，通过实验得出结论。

3．通过关联规则挖掘算法以及兴趣度模型，最后通过Top-K排序筛选出最有价值的数据。

2.3 关键问题及其解决的方法和措施

1．Apriori算法在挖掘频繁模式的过程中，需要多次扫描数据庞大的数据集，花费了较大的I/O开销。针对庞大数据集，需要对Apriori算法做出优化，采用基于Hash树的并行计数改进算法。

2．置信度-支持度模型是关联规则算法常用的评价准则，这是一种强关联形式，其主要关注的是信任度和支持度两项指标的最大化。基于支持度－置信度度量的模型存在的缺陷也是显而易见的，如果用户将支持度阈值设置的过低就会产生大量冗余的规则；若将支持度阈值设置的过高就可能会使用户真正感兴趣的关联规则直接被过滤掉。为此，提出了一种新的兴趣度度量模型。

3．本课题拟采用的研究/开发手段（途径）、可行性分析和进度安排

3.1 拟采用的研究/开发手段（途径）

Inter Core i7-8550U 1.80GHz 的 CPU，16GB内存，Windows 10家庭中文版操作系统，使用Java编程语言，编程工具为Eclipse。

3.2 可行性分析

1．技术可行性，Aprior算法是一种用于挖掘频繁项目集的经典算法，核心是基于两步频率集概念的递归算法，许多基于Aprior算法的算法包括FP-Tree、GSP、CBA等已创建。因此，<, FONT face="Times New Roman">Aprior算法具有良好的拓展性和可行性。

2．经济可行性，关联规则挖掘不仅可以应用在商场中，还可以应用于其他领域，如生物医疗、科学分析以及社会研究。可见，关联分析技术在未来非常具有吸引力，且应用前景一片光明。

3.3 进度安排

2021.2.25——2021.3.20：系统的分析阶段，开题

2021.3.21——2021.5.15：系统的设计、实现阶段

2021.5.16——2021.5.31：系统的测试阶段，进一步补充完善

2021.6.1——2021.6.15：论文的撰写和答辩

4. 学生诚信承诺

本人已经完成课题的前期准备，以上材料均为本人原创，引用的参考文献，已经在文中正确标注。

开题报告评价表

序号	评价项目		评价指标及标准	满分	学生自评	教师评价
1	沟通 10-2		有效利用各种途径与老师或其他专家沟通，获得与课题相关的国内外发展趋势和技术热点，以确定选题。优≥27>良≥24>中≥21>及格≥18>不及格	30	22
2	研究 4-1		通过阅读文献，获得了解决问题的多种可选方案，并通过文献综述进行了分析。并通过分析课题所涉及的相关因素，识别系统设计与实现中的关键问题，确定合理的解决方案。优≥27>良≥24>中≥21>及格≥18>不及格	30	24
3	环境和可持续发展 7-2		能够在确定课题方案中考虑毕业设计研究及其成果可能对人类和环境造成的损害和隐患。优≥18>良≥16>中≥14>及格≥12>不及格	20	15
4	沟通 10-1		按照开题报告的规范写作，要素齐全，恰当运用图、表等。汇报时用有效的方式、准确的语言，讲清课题内容、方案和研究/开发计划。优≥18>良≥16>中≥14>及格≥12>不及格	20	15
其他评价项目	题目质量：☑具有理论或实用价值适宜采用　□不宜采用　工作量：□偏大　　　☑适当　　　□偏少　　难度：□偏难　　　☑适当　　　□偏易进度安排：□偏难　　　☑适当　　　□偏易			总分	76
指导教师意见		同意开题指导教师：　　谭征　　 2021年 3 月 14 日
系部审查意见		专业负责人：　　　　　　　年月日

说明：学生在完成课题前期研究及撰写开题报告的过程中，可参照本表中的标准，提高开题报告的质量。