本课题的目的是运用数据挖掘技术探索针灸处方配伍规律的获取途径。数据挖掘技术能够获取针灸处方研究的挖掘模式,为针灸处方配伍规律研究提供有效、可行的数据分析途径。
并且在不同的疾病中,可得到相关疾病之间不同用穴的影响程度以及分析出该类疾病的用穴规律。
用现代科学技术来分析针灸处方,揭示其内在的配伍和应用规律是当前针灸领域研究的热点问题。目前在针灸领域运用数据挖掘技术的应用较少,尚处于起步阶段,其前景广阔,同时充满挑战。因此在这一领域的研究中,我们既要看到已取得的成果,也要看到当前存在的问题和不足。例如,在数据的来源上,研究者多是从针灸处方教材中选取某证的配伍用穴进行挖掘分析,其样本量较小,研究的结果缺乏足够的说服力和可信性,所以准确、可靠的信息抽取工作十分必要,以建立相对完备的针灸处方数据仓库。此外存在的问题,即对于挖掘出的理论结果缺乏权威的中医理论和临床分析验证,也需要进一步的实验研究筛选。
关联分析的优势在于,可以从大量、多维数据中分析存在于其中任何关联规则,关联规则的发现具有普遍性。
1.2 数据挖掘的发展历史及国内外研究现状
而数据挖掘技术的诞生,为针灸处方数据的分析带来新的研究思路,从针灸处方数据的特点以及数据挖掘的功能来看,二者是相符合的,采用数据挖掘技术来分析针灸处方数据是可行的。
数据挖掘从1989年被提出来以后,便迅速成为研究热点,广泛用于商务管理、生产控制、市场分析、工程设计和金融风险预测、分子生物学、基因工程等领域。
1.3 数据挖掘技术在医学领域中的研究现状及意义
部分学者利用关联聚类算法对医院病人的流量信息进行了分析,从而为提升医院服务质量和管理水平服务;
1.4 本文的研究内容及论文结构
第二章介绍了在本文中运用的国内外相关技术,其中包括数据仓库和数据挖掘技术的概述、数据挖掘工具WEKA以及数据挖掘常用算法的介绍等。
第三章针灸处方数据仓库的建立,通过对针灸处方数据仓库结构设计、模型设计以及数据的抽取、加载、转换来建立针灸处方数据仓库。
第四章针灸处方数据挖掘,利用改进的关联规则和聚类分析对针灸处方数据仓库进行数据挖掘。
第五章总结。阐述了本人在论文研究阶段的工作、论文的创新点、并对数据挖掘技术在医学领域中的进一步研究进行分析和展望。
数据仓库和数据挖掘技术
2.1 数据仓库
2.1.1 数据仓库概念
为满足决策分析的要求,传统的联机处理事物方法已经无法满足它的需要。而数据仓库(Dw,Datawarehouse)的出现正为解决此问题而产生的一种数据环境。
数据仓库的概念没有明确的统一规范,Bill Inmon提出的概念被广泛接受,数据仓库即数据集合,主要应用在支持管理决策方面。与传统数据库不同的是,它可以进行加工、重组和分析的一种过程。
对此可以从以下方面来理解,一是不同于现有操作型数据库,它是用于决策支持和分析数据处理的;二是稳定性是数据仓库的特点,数据库内的数据一般不进行修改,是由多种异构数据源集成,集成的数据包含历史数据,按照主题进行重新组合。
实现有效的决策支持是数据仓库的最终目标。从应用系统中转换获取的信息并将其形成新的数据库,通过分析新数据库的初始信息和面向主题的信息,为决策提供支持。
2.1.2 数据仓库的特点
(1)主题与面向主题
主题指的是用户在使用数据仓库进行决策分析时所关注的核心问题,它是一个抽象的概念,主题通常与操作系统的多少有关。
在数据项属性多的情况下,可采用化大为小的方法实现主题。
(2)数据仓库数据的集成性
数据仓库数据的集成性是指将原始散落的数据库信息进行抽取、清理,并通过整理、加工与汇总之后得到的,通过消除不一致的数据,将独立的数据库进行整合,实现数据仓库内信息的一致性。
(3)数据仓库数据的不可更新性
查询是数据仓库的主要功能,为用户提供决策分析是数据仓库的主要目的,通常情况下是不需要进行修改操作只需提供查询功能。数据仓库的数据是不同时期数据的集合,是长期积累的内容,把这些数据进行统计、综合和重组而导出的数据,并非联机处理的数据。与数据仓库管理系统相比,数据仓库要简单的多,只要提供相对较高的索引技术,能够满足数据的查询功能即可。
(4)数据仓库数据的时态性
时态性指的是记录的数据从发生到某一阶段时期内的信息内容,它与操作型数据库只存储历史数据有着本质的不同,所以通过这些信息,可对未来发展趋势和发展历程做出准确的分析和预测。
数据仓库的数据的作用是为用户提供决策分析和进行查询的,一般情况不必进行修改和剔除,数据仓库的数据是长期保留的,只要定期进行刷新、导入即可。与时时需要发生变化的操作型数据库有着本质的不同。
建立数据仓库的目的就是为用户将数据仓库中的信息能为其提供决策支持,发挥信息的作用,这才是建立数据仓库的意义所在。因此,而数据仓库的根本任务是把信息进行整理、归纳,为使用者提供决策。
2.2 数据挖掘
2.2.1 数据挖掘的概念
数据挖掘在20世纪末正式形成,自90年代以来,在每次的人工智能学术会议上数据挖掘的研究都是热点问题。到目前为止数据挖掘还没有统一的规范的概念。
2.2.2 数据挖掘的过程
采集数据、数据预处理、数据挖掘和解释评价构成了数据挖掘的过程[26-29]如下图:
图2-1 数据挖掘过程
(1)数据准备
数据准备是由数据集成、数据选择和预分析三部分组成。其中数据集成是为了消除脏数据,从操作系统中将其提取并集成新的数据,统一语义,消除噪音等。将数据缩小选择范围,并进行初步的预处理,可以提高挖掘结果的质量,即数据的选择和预分析。使用数据挖掘软件对数据进行细致、深入地观察和表述,数据准备阶段发挥着重大的作用。
(2)挖掘
对数据库中的数据进行分析需使用多种方法。对挖掘任务明确后,就要选择适合的算法进行挖掘。在选择算法方面需注意以下两个因素:第一,对不同特点的数据,要选择与之相关的算法进行挖掘;第二,根据用户需求和实际运行环境的需要,选择适合的算法。如有希望获取容易理解、可视化的知识;也有希望获取准确度较的预测型知识,这些都要选择合适的算法进行挖掘。
(3)表述
对挖掘获取的信息,使用可视化工具反映给用户,以便于其观看和理解。对于不同数据挖掘到的结果,可以使用可视化工具提供给用户外,还可以存储在知识库中,方便以后进行进一步的分析和比较。
2.2.3 数据挖掘技术
数据挖掘技术的分析方法从功能上可以分为:关联分析(Assoeiation)序列模式分析(Sequentialpattems)分类分析(elassifiers)聚类分析(elustering)
(l)关联分析
关联分析的目的是挖掘出数据间有关联且不易被发现知识之间的数据。
(2)序列模式分析
序列模式分析也是挖掘数据间隐藏的、不易发现知识之间的相互关系,但其侧重点在于分析数据间的因果关系,如用户在选购某种商品之前最常购买的其它与之相关的商品是什么。
2.2.4 基于数据仓库的数据挖掘
进行数据挖掘的首要任务是确定挖掘对象。数据仓库作为数据挖掘的对象,为数据挖掘提供了理想的挖掘平台,由于数据挖掘处理的数据是经过数据仓库预处理的,像是数据的搜集、集成、保存、降噪等处理,使数据挖掘更专注于对知识的发现。
5.1 工作总结
作为新兴的数据分析技术—数据挖掘技术,是一种应用型的数据分析技术,它取得了令人瞩目的研究成就,且已成功应用到银行、保险、医院、交通等领域。本文分析提出了将数据挖掘技术应用于针灸领域研究中的一种新思路,并提出了依照这一新思路的解决方案。
本文通过对数据挖掘中各种算法的比较,选择了适合针灸处方分析模型的关联规则和聚类分析算法,利用数据挖掘中的挖掘工具WEKA实现了关联规则在针灸处方分析中的应用,并用聚类算法对结果进行进一步的分析。
在最后的实现过程中,我们得到了很多有价值的结论,这对我们的针灸临床起到了一定的指导作用。
5.2 工作展望
通过本文的研究,初步实现了数据挖掘技术在针灸处方配伍研究中的应用。
(2)在对关联规则挖掘结果的研究中,发现产生的规则还是有一定的误差,究其原因,我认为在数据集中的属性字段选择上,还有许多影响针灸处方的因素没有考虑到,针灸处方的信息内容还不够全面,所使用的数据集可能还不是最佳数据集,这一点有待将来进一步研究。
(3)数据挖掘算法改进。本研究采用的数据挖掘算法为Apriori算法。Apriori算法是关联规则的经典算法,但是存在着可能产生大量候选集和需要重复扫描数据库的缺点,对算法进行优化和改进,以提高研究效率,是下一步需要重点研究的内容。
原创文章,作者:Editor,如若转载,请注明出处:http://www.diyilunwen.com/lwfw/sheji/1935.html