2020-03-14 18:20:47
数据探索是对样本数据进行解释性的分析工作,它是数据挖掘和机器学习较为前期的部分,更偏重于研究数据的本质、描述数据的形态特征并解释数据的相关性。
换句话说,透过数据探索,我们应该可以回答如下问题:
样本数据的分布怎样?有什么特点?数据之间有何种关系?数据是否满足建模要求?
问题驱动发展,对以上问题进行解答,涉及到数据探索的两个方面工作:
需要提及的是,数据探索与数据预处理紧密相连的,二者在数据挖掘的中没有绝对的先后次序。比如,在数据质量分析中,就牵涉到数据预处理中的数据清洗。
本文将主要介绍数据质量分析的相关工作。
数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,脏数据包括以下方面:
对于第四种数据,理解起来比较简单,处理也很容易,因此主要针对前三种数据进行分析,至于处理手段,所用到的方法是数据预处理中的数据清洗内容。
数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准确。
(1)缺失值产生原因
1)有些信息暂时无法获取,或者获取代价太大。
2)有些信息被遗漏。可能是忘记填写或对数据理解错误等因素,也可能是由于数据采集设备的故障造成。
3)属性值不存在。在某些情况下,对一些对象来说某些属性值不存在的,如一个未婚者的配偶姓名、一个儿童的固定收入等。
(2)缺失值处理方式
1)删除元组
将存在遗漏信息属性值的对象(记录)删除,从而得到一个完备的信息表。这种方法在对象有多个属性缺失值、被删除的含缺失值的对象与信息表中的数据量相比非常小的情况下是非常有效的。然而这种方法丢弃了大量隐藏在这些对象中的信息。在信息表中对象很少的情况下会影响到结果的正确性,可能导致数据发生偏离,从而引出错误的结论。
2)数据填补
数据挖掘中常用的有以下几种补齐方法:
特殊值填充、平均值填充、就近补齐
使用算法对缺失值进行估计,包括K最近邻法、回归、期望值最大化方法
3)不处理
这种方式对模型有特定要求,需要模型能够处理缺失值。
异常值是指样本中的个别值,其数据明显偏离其余的观测值。异常值也称为离群点,异常值的分析也称为离群点分析。
(1)异常值发现
1)简单计量分析
可以先对变量做一个描述性统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值,用来判断这个变量的取值是否超出了合理的范围。如客户年龄的最大值为199岁,则该变量的取值存在异常。
2)3σ原则
如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。在正态分布的假设下,距离平均值3σ之外的值出现的概率为P(|x-μ|>3σ)≤0.003,属于极个别小概率事件。
如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。
3)箱型图分析
箱型图提供了识别异常值的一个标准:异常值通常被定义为小于QL-1.5IQR或大于Qu+1.5IQR的值。QL成为下四分位数,表示全部观察值中有四分之的数据取值比它小;Qu称为上四分位数,表示全部观察值中有四分之一的数据取值比它大;IQR称为四分位数间距,是上四分位数与下四分位数之差,其间包含了全部观察值的一半。
(2)异常值处理方式
异常值的处理与缺失值类似,简要如下:
1)删除含有异常值的记录
2)将异常值视为缺失值,使用缺失值处理方法来处理
3)不处理
数据不一致性是指数据的矛盾性、不相容性等。
在数据挖掘过程中,不一致数据的产生主要发生在数据集成过程中,这可能是由于从不同的数据源、对于重新存放的数据未能进行一致性造成的。例如,两张表中都存储了用户的电话号码,但在用户的电话号码发生改变时只更新了一张表中的数据,那么这两张表中就有了不一致的数据。
设计模式——适配器模式
05-30
Android JsBridge源码学习
06-07
B450系列机器QQ语音听不到对方声音解决方案
06-30
G470机器win7系统暴风影音播放本地视频卡顿 ---之补充
03-31
HashMap实现原理学习
06-03
IdeaPad Y330系列改装XP后摄像头图像颠倒180度的案例分析
02-18
IdeaPadY470在win7系统下外接HDMI无法输出声音的案例分析
03-16
MySQL笔记之数据备份与还原的使用详解
07-07
MySQL线程处于Waiting for table flush状态的分析
07-05
Mysql 学习之EXPLAIN作用
06-08
PostgreSQL数据库修改表增加主键
07-12
Postgresql数据库主从流复制
06-14
Redis出现Could not get a resource from the pool错误关于连接数的分析
02-15
ThinkPad E470 E570的机器安装Win 7 32位操作系统后出现内存受限问题
04-16
ThinkPad SL410,SL510,T400s等新键盘的机器麦克风静音键失灵
04-24
ThinkPad 配置Realtek 蓝牙/Wifi combo卡的机器出现wifi连接问题的操作指导
06-05
ThinkPad海外机器如何查询保修信息
07-11
Ubuntu下迁移通过apt安装的MySQL数据库文件目录
07-18
Wireshark如何捕获网络流量数据包
06-02
Wireshark实战分析之TCP协议 三次握手
07-18
SqlCel(数据处理分析软件) v2.2 官方版
16.7M
下载BurningVocabulary单词学习标记插件绿色版 v4.0
1.87M
下载Disk Analyzer Pro(磁盘分析工具) v1.0.1100.1159 官方版
4.2M
下载EasyRecovery 13 (mac数据恢复工具)专业破解版
12.99MB
下载Xinorbis 硬盘内容分析器 V8.1.3 绿色免费版
25.9M
下载activesync(电脑数据同步工具)v6.1 中文版
22.72MB
下载dnaman(分析软件) v8.0.8.789 破解版
15.6M
下载easyrecovery pro(硬盘数据恢复工具) v14.0.0.4 免费版
78.6M
下载pl sql developer(Oracle数据库存储程序单元的开发软件)2021 免费版
25.2M
下载visio2003(分析辅助软件)2003 官方版
51.7M
下载互盾安卓恢复大师(手机数据恢复工具) v2.8.7.1 破解版
529KB
下载印Plus分析诊断系统(图文店管理系统) 1.0.1 官方版
55.3M
下载后羿采集器(网页数据采集软件) v3.5.3 免费版
45.0M
下载小学英语同步课堂(英语学习软件) v5.6.1.20 免费版
203M
下载小牛文件恢复软件(数据恢复工具) v4.8.0 最新版
6.1M
下载成语接龙查询器(成语学习工具) v1.0 绿色最新版
2.3M
下载标准拼音学习软件 v1.0.0.0
4.46 MB
下载糍粑英语单词学习工具官方版下载 v2.0.1.4214官方版
55.5M
下载锡育看电影学英语软件(英语学习工具)201902 破解版
174.9M
下载顶尖数据恢复软件下载
7.5M
下载