般来说,获得的数据,无论是来自公司的数据库还是实验结果,都存在不完善的条目,例如缺失数据、无效数据或只是拼写错误。除此之外,还有一些与我们的数据挖掘假设无关的数据属性。最好丢弃不相关的数据,因为它的存在会降低以后数据挖掘结果的质量或准确性。垃圾进垃圾出(如果也放入垃圾,只会产生垃圾)是一个经常用来描述这个阶段的术语。数据清洗也会影响数据挖掘系统的性能,因为处理的数据量和复杂性都会降低。
数据集成是针对标识唯实体的属性
例如名称属性、产品类型、客户编号等)进行的。数据集成需要谨慎进行,因为数据集成中的错误可能会产生扭曲的结果,甚至误导未来的行动。例如,如果基于产品类型的数据集成最终合并了不同类别的产品,您将获得实际不存在的产品之间的相关性。在这种数据集成中,还需要对数据进行转换和清洗,因为常常两个不同数据库的数据写得不一样,甚至一个数据库中的数据在另一个数据库中不存在。
一些数据挖掘技术需要特殊的数据格式才能应用。例如,一些标准技术(例如关联分析和聚类)只能接受分类数据输入。因此,需要将连续数值形式的 科威特电话号码数据 数据划分为若干个区间。此过程通常称为分箱。这里还进行所使用的数据挖掘技术所需的数据选择。这种数据转换和选择也决定了以后数据挖掘结果的质量,因为某些数据挖掘技术的几个特征依赖于这个阶段。
数据挖掘技术的应用
数据挖掘技术的应用本身只是数据挖掘过程的一部分。有几种常用的数据挖掘技术。我们将在下一节中进一步讨论这些技术。需要注意的是,有时市 新加坡负责人 场上现有的通用数据挖掘技术不足以进行某些领域或某些数据的数据挖掘。例如,最近已经开发出各种新的数据挖掘技术用于生物信息学领域的应用,例如分析微阵列结果以识别DNA及其功能。
- 评估发现的模式
在此阶段,对典型模式和预测模型形式的数据挖掘技术的结果进行评估,以评估现有假设是否确实实现。如果事实证明获得的结果与假设不匹配,则可以采取几种替代方案,例如:将其用作反馈来改进数据挖掘过程,尝试其他更合适的数据挖掘技术,或者接受这一点结果是一个可能有用的意外结果。