入行大数据需要掌握的技能:
数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。数据存取:关系数据库、NOSQL、SQL等。基础架构:云存储、分布式文件存储等。数据处理:处理自然语言的关键是要让计算机"理解"自然语言。统计分析:假设检验、显著性检验、差异分析、相关分析、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析、bootstrap技术等。数据挖掘:分类 、估计、预测、相关性分组或关联规则、聚类、描述和可视化、复杂数据类型挖掘。模型预测:预测模型、机器学习、建模仿真。结果呈现:云计算、标签云、关系图等。