问题补充说明:在你的回答中,强调以下问题: (a) 它是又一个骗局吗? (b) 它是一种从数据库、统计和机器学习发展的技术的简单转换吗? (c) 解释数据库技术发展如何导致数据挖掘。 (d) 当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。
1)首先,数据挖掘-Data曾笔丝概怕来叫办诉或策Mining不是一个骗局,而是一种还处于发展中,已经投入部分投轻故查语培省传祖收老入实际生产实践的技术框架。DM之所以经常和知识发现概念相关联是因为知识发现(K介块情率利值等nowledgeDiscovery)是DM的目标和产出(output)。随着信息化应用的普及,传统的交易性数据(Transacti随棉气on),比如:你在超市购物,产生了一笔交易,这笔交易会冲品序湖创目滑尔而在现有的数据库系统中存储来自下来,随着时间的累计,这种数据变得海量。面对这些海量数据,这其中是否存在一些可以更好帮助决策的东西。比如:什么产品的搭配拜访阿征望可能会提高销量,360问答我超市的用户可能都是出于什么消费水平?。注意:我这里用到“可能”字眼,意味着决策需要用到历史数据的支持来降低未来决策的风险(提高可能性)。而实际兴判于困本上,比如:沃尔玛和一些大型金融机构使用数据挖掘的产品和工具都超过了二十年,而且产生了期望的效应,而国内电信、金融行业从2005年以后逐渐加大了相关的投入。因此,如果DM是一个骗局,那被忽悠的都是全球最顶尖的公略额司和最顶尖的IT管理人员。
2)数据(Data)-信息(information)-知识(Knowl山罗兵稳正edge)是一个递进的关系。数据的电子化产生了信息,比如:我们可以通过SQL语句检索到我们要的信息,但是我们无法用简单的SQL语句找到我们需要的知识,比如:我想知道某种型号面包的销售是否存在季节性因素和扰动,这就需要专门的统计分析工具和算法,而在某些命题常规统计学方法不能史奏效的时候,就可能需要用到一些更复杂的工具和算法,比如:随机过程,神经网络等。
3)数据挖掘的步骤一般可以分为:数据提取(ETL)-数据仓库-数据挖掘工具-知识发现。当然这些挖掘的结果很多时候是令人无法接受,或者不能理解的,但是DM提供的是基于某种算法下的或然性(可能性),还需要与具体的业务逻辑相结合,因此数据挖掘应用效果的核心间统于任块绝茶弦不是工具和平台的先进,而是对现有企业的业务知识和市场战略把握、决策方法等相关联的事情。此类项目失败的风险远远高于普通IT项目的最大原因在于历史数据的不完整(早期系统设计上的缺陷等),实施队伍的不专业,业务知识梳理能力低下。其中最核心的可能在于实施此类项目对于人员的要求较高,而很多企业的IT部门,以及承当项目的公司显然不具备这样的团队。
希望可以帮你理油少运照棉解DM。