本课题的目的是运用数据挖掘技术探索针灸处方配伍规律的获取途径。数据挖掘技术能够获取针灸处方研究的挖掘模式,为针灸处方配伍规律研究提供有效、可行的数据分析途径。
并且在不同的疾病中,可得到相关疾病之间不同用穴的影响程度以及分析出该类疾病的用穴规律。
用现代科学技术来分析针灸处方,揭示其内在的配伍和应用规律是当前针灸领域研究的热点问题。目前在针灸领域运用数据挖掘技术的应用较少,尚处于起步阶段,其前景广阔,同时充满挑战。因此在这一领域的研究中,我们既要看到已取得的成果,也要看到当前存在的问题和不足。例如,在数据的来源上,研究者多是从针灸处方教材中选取某证的配伍用穴进行挖掘分析,其样本量较小,研究的结果缺乏足够的说服力和可信性,所以准确、可靠的信息抽取工作十分必要,以建立相对完备的针灸处方数据仓库。此外存在的问题,即对于挖掘出的理论结果缺乏权威的中医理论和临床分析验证,也需要进一步的实验研究筛选。
关联分析的优势在于,可以从大量、多维数据中分析存在于其中任何关联规则,关联规则的发现具有普遍性。
1.2 数据挖掘的发展历史及国内外研究现状
数据挖掘技术的出现和应用,为针灸处方配伍规律的分析带来了新的研究方法和思路,无论是针灸处方数据的特点还是数据挖掘的方法、功能上讲,彼此是相契合的,运用数据挖掘去分析针灸处方数据是科学可行的。
数据挖掘从1989年被提出来以后,便迅速成为研究热点,广泛用于商务管理、生产控制、市场分析、工程设计和金融风险预测、分子生物学、基因工程等领域。
1.3 数据挖掘技术在医学领域中的研究现状及意义
随着数据挖掘技术的发展,被广泛应用在各个领域,在卫生系统,使用关联规则、聚类分析算法对患者的住院信息进行了分析,大大提升了医院的服务质量和管理水平。
数据分析技术是一种应用型的新技术,它的应用范围非常的广泛,而且取得了令人骄傲的研究成绩,目前已经应用到金融、卫生、运输、安全等行业领域。本文分析提出了将数据挖掘技术应用于针灸领域研究中的一种新思路,并提出了依照这一新思路的解决方案。
本文通过对数据挖掘中各种算法的比较,选择了适合针灸处方分析模型的关联规则和聚类分析算法,利用数据挖掘中的挖掘工具WEKA实现了关联规则在针灸处方分析中的应用,并用聚类算法对结果进行进一步的分析。
1.4 本文的研究内容及论文结构
第一章介绍了本文的研究目的、内容、方法、意义等内容。第二章介绍了数据挖掘与数据仓库的基本信息和它们之间的联系。第三章是针灸处方数据仓库的建立,通过对针灸处方数据仓库结构设计、模型设计以及数据的抽取、加载、转换来建立针灸处方数据仓库。第四章针灸处方数据挖掘,利用改进的关联规则和聚类分析对针灸处方数据仓库进行数据挖掘。第五章是本文的总结与展望。
数据仓库和数据挖掘技术
2.1 数据仓库
2.1.1 数据仓库概念
运用传统的联机处理事物方法在决策分析方面已经远远不能满足用户的分析要求,而数据仓库(Dw,Datawarehouse)的出现正为解决此问题而产生的一种数据环境。
数据仓库的概念没有明确的统一规范,Bill Inmon提出的概念被广泛接受,数据仓库即数据集合,主要应用在支持管理决策方面。数据仓库可以对数据库内的数据进行刷新、加载和决策分析是与传统数据库的本质区别。
数据仓库不同于传统的操作型数据库,数据仓库的作用是进行决策支持与数据分析的。数据仓库不但信息量大,而且具有可靠的稳定性,数据信息一般是不进行变动的,它的来源有很多的数据结构构成,按照用户的需要进行决策分析。
实现有效的决策支持是数据仓库的最终目标。使用数据挖掘软件系统对信息进行加载、组合,提取出有用的信息并构成新的数据库,根据用户的需要对新数据库的信息和针对性问题产生关联信息,从而达到决策支持的目的。
2.1.2 数据仓库的特点
(1)主题与面向主题
主题作为一个抽象的概念,运用数据仓库进行决策分析时要解决的关键内容,主题与数据量的多少、操作系统的来源有关。
在数据项属性多的情况下,可采用化大为小的方法实现主题。
(2)数据仓库数据的集成性
数据仓库数据的集成性即数据的整合性。将先有的数据通过整理、汇总后形成新的数据仓库,通过对数据预处理,将噪音数据剔除,完善数据库内的数据,实现数据库内信息的完整、准确性。
(3)数据仓库数据的不可更新性
查询是数据仓库的主要功能,为用户提供决策分析是数据仓库的主要目的,通常情况下是不需要进行修改操作只需提供查询功能。数据仓库内的数据来源的时间不一样,收集的次序也不同,把这些内容统计、重组在一起是一个非常大的工作量,而非联机处理的数据。与数据仓库管理系统相比,数据仓库要简单的多,只要提供相对较高的索引技术,能够满足数据的查询功能即可。
(4)数据仓库数据的时态性
时态性指的是记录的数据从发生到某一阶段时期内的信息内容,它与操作型数据库只存储历史数据有着本质的不同,所以通过这些信息,可对未来发展趋势和发展历程做出准确的分析和预测。
数据仓库的数据的作用是为用户提供决策分析和进行查询的,一般情况不必进行修改和剔除,数据仓库的数据是长期保留的,只要定期进行刷新、导入即可。与时时需要发生变化的操作型数据库有着本质的不同。
2.2 数据挖掘
2.2.1 数据挖掘的概念
数据挖掘在20世纪末正式形成,自90年代以来,在每次的人工智能学术会议上数据挖掘的研究都是热点问题。到目前为止数据挖掘还没有统一的规范的概念。
2.2.2 数据挖掘的过程
数据挖掘的过程一般包括采集阶段、预处理阶段、挖掘阶段和评价阶段四个阶段组成[26-29],如下图:
图2-1 数据挖掘过程
(1)数据准备
准备工作是数据挖掘的前期工作,选择数据并把数据集合再进行分析是数据准备的重要内容。为把数据规范化产生要对数据进行降噪处理,在数据挖掘系统中提取并组合成新的数据。为提高挖掘结果的质量,将数据进行缩减并进行处理,也就是指的选择数据和预分析数据。使用数据挖掘软件对数据进行细致、深入地观察和表述,数据准备阶段发挥着重大的作用。
(2)挖掘
对数据库中的数据进行分析需使用多种方法。明确挖掘任务、使用恰当的数据挖掘算法,是数据挖掘的关键步骤。算法的选择需要注意的因素有很多,主要介绍两个方面:第一,针对数据特点的不同,要选择与数据信息属性相关的算法进行挖掘;第二,根据用户需求和实际运行环境的需要,选择适合的算法。如有希望获取容易理解、可视化的知识;也有希望获取准确度较的预测型知识,这些都要选择合适的算法进行挖掘。
(3)表述
通过数据挖掘技术挖掘到的结果,一般是使用直观的可视化工具便于用户的理解和使用。至于挖掘到的不同结果,用户可以存储到新建数据库中,为日后的使用做好基础,方便用户使用和调取。
2.2.3 数据挖掘技术
关联分析(Assoeiation)序列模式分析(Sequentialpattems)分类分析(elassifiers)聚类分析(elustering)是从功能上分的数据挖掘分析方法。
(l)关联分析
关联分析即对有联系的有用信息进行数据挖掘,那些信息之间是有联系又不易被发现的。
(2)序列模式分析
序列模式分析也是挖掘数据间隐藏的、不易发现知识之间的相互关系,但其侧重点在于分析数据间的因果关系,如用户在选购某种商品之前最常购买的其它与之相关的商品是什么。
2.2.4 基于数据仓库的数据挖掘
基于数据仓库的数据挖掘首先要解决的就是挖掘对象的问题,能够为挖掘提供理想的挖掘平台的就是数据仓库。但数据挖掘只对数据仓库内的数据进行有用信息的发现与提取。
2.3 关联规则
2.3.1 关联规则概述
基本概念:
(1)项集:项的集合就是项集(Itemset)项集包含的每个项都是一个属性值,所以项是包含一组属性值的集合。例如,项集{A,B}是一个2-项集,A、B是其属性。数据集中,出现频率非常高的那些项集称为频繁项集[32]
(2)支持度
同时包含A和B占总事务数的比例称为项集,反应了二者关联的可行性,它是一个度量项集出现频率的概念。
进行关联规则挖掘,会用到频集出现频率的阈值,即支持度的最小值,企业根据自己实际情况进行设定。
(3)置信度(可信度)Confident,CON)
即是“值得信赖性”也称概率,置信度(A=>B)的概率用项集{A,B}的支持度除以{A}的支持度,表示二者关联的可靠性[33]它的公式如下:
(4)重要性
又被称为增益或兴趣度,它的作用是度量项集和规则。重要性的公式:
2.3.2 关联规则挖掘的经典算法:Apriori算法
经典Apriori算法有其优点,也有其局限性,它的优点在于稳定的计算性能、清晰的算法思路和实现简单等特点。
作为最经典的算法,Apriori算法采用迭代方法逐层搜索找出数据库中的频繁项集,形成的规则如下[34]
(1)设置最小支持度、最小置信度:S、C。
(2)计算候选1-项集。
(3)若候选1-项集与最小支持相匹配,则生成频繁1-项集。
(4)利用频繁1-项集计算候选2-项集,从而得出频繁2-项集,并利用频繁2-项集产生候选3-项集。
(5)重复上一步,产生后续频繁项集k-直到不再产生新的候选项集为止。
从算法的执行过程可以看出Apriori 算法的局限性:
(1)在每一次计算侯选项集时,所有元素都参与组合,耗用大量系统资源。
(2)全记录数据库扫描比较。
图2-2 Apriori运算说明
2.3.3 Apriori 算法的局限性分析
(1)频繁扫描数据库,I/O 负载很大。Apriori 算法每次都要对数据库频繁扫描,耗能服务器大量系统资源。
(2)有大量的侯选项集。产生的候选项集越多,就增加Apriori算法的复杂性,大量频繁项集的产生,使得硬件资源消耗巨大,增加数据挖掘空间,降低效率。
(3)在实际的挖掘应用中,事务发生的频率不同,其重要性也不一样,不同的内容有不同的项来代表,所以在设定最小支持度时须与信息内容相结合,不可将最小支持度设置的太小。
(4)算法未得到广泛应用。该算法设计初衷只针对单个维度(属性)的布尔型关联规则的挖掘,但现实生活中,可能出现不同维度、不同数据量、多个层次的关联规则。面对类似情况,就必须对该算法进行改进和优化,以使其重新适应新的应用。
2.4 聚类分析
2.4.1 聚类分析的定义
聚类即“物以类聚”,指的是将类似的事物的多个属性或个别事物的集合的分类过程。聚类分析的目的是将类似的数据进行分类。聚类的产生时间很早,被广泛应用于各个领域。聚类分析与分类分析是有着本质的区别的,后者指的是有监督的学习。
2.4.2 聚类分析的分类与常用算法
在数据挖掘研究应用广泛的算法中,聚类分析提出了很多新的算法。
(1)划分方法为提高划分质量,使用一种循环定位技术将对象进行转移来提高划分质量。典型的划分方法包括:
k-means,k-medoids,CLARA(Clustering LARge Application)
FCM
结论与展望
5.1 工作总结
数据分析技术是一种应用型的新技术,它的应用范围非常的广泛,而且取得了令人骄傲的研究成绩,目前已经应用到金融、卫生、运输、安全等行业领域。本文分析提出了将数据挖掘技术应用于针灸领域研究中的一种新思路,并提出了依照这一新思路的解决方案。
本文通过对数据挖掘中各种算法的比较,选择了适合针灸处方分析模型的关联规则和聚类分析算法,利用数据挖掘中的挖掘工具WEKA实现了关联规则在针灸处方分析中的应用,并用聚类算法对结果进行进一步的分析。
在最后的实现过程中,我们得到了很多有价值的结论,这对我们的针灸临床起到了一定的指导作用。
5.2 工作展望
(2)在对关联规则挖掘结果的研究中,发现产生的规则还是有一定的误差,究其原因,我认为在数据集中的属性字段选择上,还有许多影响针灸处方的因素没有考虑到,针灸处方的信息内容还不够全面,所使用的数据集可能还不是最佳数据集,这一点有待将来进一步研究。
(3)数据挖掘算法改进。本研究采用的数据挖掘算法为Apriori算法。Apriori算法是关联规则的经典算法,但是存在着可能产生大量候选集和需要重复扫描数据库的缺点,对算法进行优化和改进,以提高研究效率,是下一步需要重点研究的内容。
原创文章,作者:Editor,如若转载,请注明出处:http://www.diyilunwen.com/uncategorized/817.html