数据(excel做数据分析)

内容广告上

数据清理工具

如果数据是数据量很小的结构化数据,不需要数据清洗,可以把所有的时间都花在建立数学模型上。

数据清洗需要使用清洗工具

过去,数据清洗可以通过EXCEL和SPSS实现。

现在的数据清理工作可以通过python、hive和spark来实现。

Hive

用于数据查询和处理的Hive。

HIVE的意思是蜜蜂。蜜蜂生活在蜂巢中(hadoop平台)。花粉在树(当地目录)和花(HDFS)中。蜜蜂从几棵树/花中收集花粉(本地目录和HDFS文件系统)。

花粉是从植物中生长出来的,植物生长花粉的过程也是生产环境中数据生成的过程。

不同的植物生长不同的花粉,即源数据以不同的方式生成,可以通过爬虫程序从网页的生成环境中抓取,也可以通过sqoop、flume和kafka从生成环境中收集。

采集的花粉(来源数据)储存在蜜蜂的肚子里(蜂箱表,所有需要处理的数据都要加载到蜂箱表中)。采集花粉后,蜜蜂返回蜂巢(hadoop平台,蜂巢是hadoop大象),用自己的方法(HQL语句)查询处理采集的花粉(源数据),处理后的蜂蜜(数据)存储在蜂巢中。

经过清理和处理的数据可以放入本地目录、HDFS和HBase。

Spark

Spark做复杂数据的分析和迭代计算。

HIVE的计算引擎

HIVE的计算引擎可以是MR或者Spark。

清洗结果

,可以通过清洗得到模型的特征向量数据,清洗后的特征向量数据是下一步数学模型构建的准备。

内容广告下