当前位置：首页 > 科学课件 > 正文内容

大数据主要学习什么内容？有什么要求和条件？

zhao_admin1年前 (2022-05-21)科学课件41

首先你要清楚自己为什么想要学习大数据，其次现在的工作机会是不是你心仪的工作，然后想要学习大数据是感兴趣还是盲目跟风，最后如果是想往大数据方面发展的话那么一定要了解大数据的职业划分和薪资情况，到底想从事大数据工作的哪个方向。

我的建议：IT技术更新迭代速度很快,所以一定要做到未雨绸缪，选好方向做好规划，避免还没等学就被淘汰了。

下面我从2个方面介绍

1.大数据职业划分和薪资介绍及我的认为的发展发现

2.大数据的学习路线

大数据职业划分和薪资介绍

从51job、智联、猎聘查看职位，我认为大数据大概分为这5个方向

数据管理类：首席数据官、数据管理员、数据安全工程师；

这类主要负责公司数据的管理，数据安全策略的制定和实现。

数据分析类：战略分析师、数据分析师、商业智能分析员；

这类主要负责数据分析相关的工作。

数据挖掘类：数据挖掘工程师、算法工程师；

这类负责数据挖掘算法的设计与策略。

技术研发类：数据仓库架构师、数据采集工程师、数据仓库开发工程师、数据可视化工程师、大数据架构师、大数据开发工程师；

这类主要负责数据仓库的搭建和ETL任务的开发。

IT基础架构类：hadoop运维工程师、数据库运维工程师、系统运维工程师

这类主要负责大数据集群软硬件的管理和维护。

薪资在猎聘上截了几张图，具体你可以上智联、51job或猎聘上搜职位名称查看薪酬。

我对大数据发展方向的建议：我朋友就是做猎头的，据他说目前最火的还是算法工程师，以前不起眼，现在随着5G的兴起，AI方向有更为广阔的发展空间，BAT玩命的招人。其次就是做技术开发类，做大数据平台的，这也是目前招聘人数最多的，如果做到大数据架构师，年薪百万不是问题。数据分析类和数据管理类的一般是甲方企业，偏企业内部。最后是运维，相对发展前景最差。

大数据的学习路线

必须掌握的技能11条

Java高级(虚拟机、并发)

Linux 基本操作

Hadoop（HDFS+MapReduce+Yarn ）

HBase（JavaAPI操作+Phoenix ）

Hive(Hql基本操作和原理理解）

Kafka

Storm/JStorm

Scala

Python

Spark (Core+sparksql+Spark streaming ）

辅助小工具(Sqoop/Flume/Oozie/Hue等)

高阶技能6条

机器学习算法以及mahout库加MLlib

R语言

Lambda 架构

Kappa架构

Kylin

Alluxio

面列出来的顺序只是个人建议，可以根据个人实际情况来调整顺序

第一阶段（基础阶段）

Linux学习（跟鸟哥学就ok了）—–20小时

Linux操作系统介绍与安装。Linux常用命令。Linux常用软件安装。Linux网络。防火墙。Shell编程等。官网：

Java 高级学习（《深入理解Java虚拟机》、《Java高并发实战》）—30小时

掌握多线程。掌握并发包下的队列。了解JMS。掌握JVM技术。掌握反射和动态代理。官网：中文社区：

Zookeeper学习

Zookeeper分布式协调服务介绍。Zookeeper集群的安装部署。Zookeeper数据结构、命令。Zookeeper的原理以及选举机制。官网：中文社区：

第二阶段（入门，攻坚阶段）

Hadoop （《Hadoop 权威指南》）—80小时

HDFS

HDFS的概念和特性。HDFS的shell操作。HDFS的工作机制。HDFS的Java应用开发。MapReduce

运行WordCount示例程序。了解MapReduce内部的运行机制。MapReduce程序运行流程解析。MapTask并发数的决定机制。MapReduce中的combiner组件应用。MapReduce中的序列化框架及应用。MapReduce中的排序。MapReduce中的自定义分区实现。MapReduce的shuffle机制。MapReduce利用数据压缩进行优化。MapReduce程序与YARN之间的关系。MapReduce参数优化。MapReduce的Java应用开发

官网：中文文档：docs/r1.0.4/cn/

Hive（《Hive开发指南》）–20小时

Hive 基本概念

Hive 应用场景。Hive 与hadoop的关系。Hive 与传统数据库对比。Hive 的数据存储机制。Hive 基本操作

Hive 中的DDL操作。在Hive 中如何实现高效的JOIN查询。Hive 的内置函数应用。Hive shell的高级使用方式。Hive 常用参数配置。Hive 自定义函数和Transform的使用技巧。Hive UDF/UDAF开发实例。Hive 执行过程分析及优化策略

官网：中文入门文档：

HBase（《HBase权威指南》）—20小时

hbase简介。habse安装。hbase数据模型。hbase命令。hbase开发。hbase原理。官网：中文文档：

Scala（《快学Scala》）–20小时

Scala概述。Scala编译器安装。Scala基础。数组、映射、元组、集合。类、对象、继承、特质。模式匹配和样例类。了解Scala Actor并发编程。理解Akka。理解Scala高阶函数。理解Scala隐式转换。官网：初级中文教程：

Spark （《Spark 权威指南》）—60小时

Spark core

Spark概述。Spark集群安装。执行第一个Spark案例程序（求PI）。RDD

RDD概述。创建RDD。RDD编程API（Transformation 和 Action Operations）。RDD的依赖关系RDD的缓存DAG（有向无环图）Spark SQL and DataFrame/DataSet

Spark SQL概述。DataFrames。DataFrame常用操作。编写Spark SQL查询程序。Spark Streaming

park Streaming概述。理解DStream。DStream相关操作（Transformations 和 Output Operations）。Structured Streaming

其他（MLlib and GraphX ）

这个部分一般工作中如果不是数据挖掘，机器学习一般用不到，可以等到需要用到的时候再深入学习。

官网：中文社区：

Python (推荐廖雪峰的博客—30小时）

目前暂且列出来这么多吧，大数据目前还有很多比较好的技术框架，这个就需要等大家以后工作之后再去扩展了，大家在学习的时候，要专门挑一两个着重研究一下，最好针对，底层原理，优化，源码等部分有所涉猎，这么的话可以在面试过程中脱颖而出。不要想着把每一个框架都搞精通，目前是不现实的，其实就算是在工作中也不会每一个框架都会用的很深，如果能过对上面的框架都大致会使用，并且对某一两个框架研究的比较深的话，其实想去找一份满意的大数据工作也就水到渠成了。

--如果觉得答案解决了你的问题,请采纳,有问题可继续追问--

作为一名IT从业者，同时也是一名计算机专业的教育工作者，我来回答一下这个问题。

首先，当前大数据的知识体系还是比较庞大的，随着大数据技术生态的逐渐成熟和完善，大数据领域也逐渐形成了更多的岗位细分，从事不同的岗位细分方向则需要学习不同的知识。

从当前大的岗位划分来看，通常包括以下几个岗位：

第一：大数据开发岗位。从近两年大数据方向研究生的就业情况来看，开发岗位的人才需求量还是比较大的，相关岗位的薪资待遇也比较高，其中从事大数据平台开发的研发级岗位会有更高的薪资待遇。从事大数据开发岗位，通常需要学习三大块内容，其一是程序开发技术，初学者可以从Java或者Python开始学起；其二是学习大数据平台知识，初学者可以从Hadoop和Spark开始学起；其三是大数据开发实践，这个过程需要掌握一定的行业知识。

第二：大数据分析岗位。大数据分析岗位的人才需求潜力是非常大的，不仅IT（互联网）行业需要大量的大数据分析人才，传统行业领域也需要大数据分析人才。选择大数据分析方向需要具有一定的数学和统计学基础，而且也有一定的学习难度。目前大数据分析的常见方式有两种，分别是统计学方式和机器学习方式。

第三：大数据运维岗位。如果对于编程和算法设计不感兴趣，那么也可以考虑学习大数据运维知识，未来可以从事大数据运维岗位。大数据运维岗位的任务相对比较杂，需要从业者具有较强的动手实践能力。从知识结构上来看，大数据运维需要掌握网络知识、大数据平台知识和服务器知识。

我从事互联网行业多年，目前也在带计算机专业的研究生，主要的研究方向集中在大数据和人工智能领域，我会陆续写一些关于互联网技术方面的文章，感兴趣的朋友可以关注我，相信一定会有所收获。

如果有互联网、大数据、人工智能等方面的问题，或者是考研方面的问题，都可以在评论区留言，或者私信我！