数据清洗需要使用清洗工具

过去，数据清洗可以通过EXCEL和SPSS实现。

现在的数据清理工作可以通过python、hive和spark来实现。

Hive

用于数据查询和处理的Hive。

HIVE的意思是蜜蜂。蜜蜂生活在蜂巢中(hadoop平台)。花粉在树(当地目录)和花(HDFS)中。蜜蜂从几棵树/花中收集花粉(本地目录和HDFS文件系统)。

花粉是从植物中生长出来的，植物生长花粉的过程也是生产环境中数据生成的过程。

不同的植物生长不同的花粉，即源数据以不同的方式生成，可以通过爬虫程序从网页的生成环境中抓取，也可以通过sqoop、flume和kafka从生成环境中收集。

采集的花粉(来源数据)储存在蜜蜂的肚子里(蜂箱表，所有需要处理的数据都要加载到蜂箱表中)。采集花粉后，蜜蜂返回蜂巢(hadoop平台，蜂巢是hadoop大象)，用自己的方法(HQL语句)查询处理采集的花粉(源数据)，处理后的蜂蜜(数据)存储在蜂巢中。

经过清理和处理的数据可以放入本地目录、HDFS和HBase。

Spark做复杂数据的分析和迭代计算。

HIVE的计算引擎可以是MR或者Spark。