数据清洗工作主要包含文件类型清洗、内容格式清洗、缺失值清洗、数据去重和其他五个方面:
一、文件类型清洗
将不同类型数据清洗成统一类型的文件,例如将TXT、CSV、excel、HTML以及PDF清洗成统一的excel的文件,便于分析。
二、内容格式清洗
将文件中的内容清洗成统一格式,例如将显示不一致的时间、日期、数值,或者内容中有空格、单引号、双引号等情况进行格式的统一调整。
三、缺失值清洗
根据具体业务,确认缺失值重要范围,哪些是必须要补充的,哪些是可以不用补充的,根据具体业务场景通过文件名、文件关联性等多种途径补充相关缺失值。
四、数据去重
在具体场景中难免遇到重复数据,例如不同批次拿过来的数据,时段有重复,不同平台提供的数据互相之间有重复,同一平台数据重复提取等等,数据交易双方之间数据有重复,如果不去重,分析结果会严重偏离事实。
五、其他
当然还有其他的数据清洗内容,包含去掉不需要的字段、不合理的值等情况
数据清洗的主要内容包括
1. 缺失值处理:检测缺失值、确定处理方式(如删除、填充等)
2. 异常值处理:检测异常值、确定处理方式(如删除、修正等)
3. 数据格式转换:将数据从一个格式转换成另一个格式(如将日期格式转换成数字格式)
4. 重复值处理:检测重复值、确定处理方式(如删除、合并等)
5. 数据统一化:将不同格式、单位、大小写等统一化处理成一致的格式
6. 数据归一化:将数据按照特定方法进行归一化,以便比较或分析
7. 数据采样:从大量数据中抽取部分数据进行分析或建模,以节省时间和资源
8. 数据集成:将来自不同数据源的数据集成在一起,形成完整的数据集
9. 数据转换:将数据转换成适合特定分析或建模需求的形式
10. 数据审核:检查数据是否符合研究目的和数据质量要求,以保证分析结果准确可靠。