博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
第四篇:数据预处理(一) - 缺失值处理
阅读量:5234 次
发布时间:2019-06-14

本文共 562 字,大约阅读时间需要 1 分钟。

前言

       在对数据有了大致的了解以后,就需要对获取到的数据进行一个预处理了。预处理的过程并不简单,大致来说分成缺失值处理,异常值处理,数据归约等等 (可根据实际情况对这些阶段进行科学的取舍)。

       下面将对这几个阶段一个个讲解。(本文中测试数据集nhanes2来自包lattice)

缺失值处理

       1. 首先要了解到数据集的缺失情况。

       下面两行命令分别获取到缺失的字段数和完整样本数:

       

       显然缺失字段个数为27,完整样本数为13。

       2. 使用mice包的md.pattern函数来获取具体的缺失情况:

       

       第一行第一列表示完整样本数(缺失/非缺失字段描述参考2-4列,1表示没缺失,0表示缺失);最后一列表示该种描述中缺失的字段数。

       第二行至第五行情况类似。
       最后一行中,2-4列表示对应的字段缺失数,最后一列表示总的字段缺失数。

       3. 缺失值的处理:

       a) 删除法

       

       b) 插补法(均值插补为例)

       

       上述代码首先将数据分为有缺失字段样本集和无缺失字段样本集,然后将有缺失字段的样本集的第四个字段进行均值补全。其他字段的补全同理。

小结

       R语言中提供的缺失值处理方案远不止于此。

       在何种条件下选择何种插补策略是个很有挑战的问题,本文不展开探讨。

转载于:https://www.cnblogs.com/muchen/p/6883074.html

你可能感兴趣的文章
内存优化文章链接
查看>>
ext4.0 代理 的使用
查看>>
数据检查约束类型和语法
查看>>
AngularJS实战之路由ui-view
查看>>
使用jQuery+huandlebars防止编码注入攻击
查看>>
C#的托管与非托管大难点
查看>>
[转]HTTPS简谈
查看>>
(图片)jsp上传图片,进行缩放处理
查看>>
集合类List,set,Map 的遍历方法,用法和区别
查看>>
HDU-2577-How to Type
查看>>
java日志框架之logback——布局详细说明书地址
查看>>
Java Selenium (十二) 操作弹出窗口 & 智能等待页面加载完成 & 处理 Iframe 中的元素...
查看>>
Scala入门系列(十):函数式编程之集合操作
查看>>
pulseaudio的交叉编译
查看>>
(Problem 7)10001st prime
查看>>
Cracking The Coding Interview 1.1
查看>>
mysql安装linux_二进制包安装
查看>>
POJ 3280 Cheapest Palindrome
查看>>
vb.net 浏览文件夹读取指定文件夹下的csv文件 并验证,显示错误信息
查看>>
thinkpad T420屏幕对比度设置
查看>>