1.大数据工具—Spark实时分析
Spark是伯克利大学2009年开始研发的一个项目,它是大数据时代下的一个快速处理数据分析工作的框架。spark发展十分迅速,2014年,Hadoop的四大商业机构均宣称全力支持Spark,今后将全面接收基于Spark编写的数据挖掘与分析算法,多家世界顶级的数据企业例如Google,Facebook等现已纷纷转向Spark框架。2.大数据处理—Spark基于内存
Spark运行速度如此之快,主要得益于以下两方面:一方面,Spark中的运算大多是基于内存的。Spark提出了一种分布式的内存抽象,称为弹性分布式数据集(RDD,Resilient DistributedDatasets)。RDD支持基于工作集的应用,同时具有数据流模型的特点:自动容错、位置感知调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。另一方面,Spark从稳定的物理存储(如分布式文件系统)中加载记录,记录被传入由一组确定性操作构成的DAG,然后写回稳定存储。DAG数据流图能够在运行时自动实现任务调度和故障恢复。尽管非循环数据流是一种很强大的抽象方法,但仍然有些应用无法使用这种方式描述。Spark能够在多个并行操作之间重用工作数据集,适用于非循环数据流模型难以处理的应用。3.大数据学习—Spark编程容易
Spark编程非常高效、简洁,支持多种语言的API,如Java, Scala, Python等,而且代码非常简洁。例如在基于MapReduce开发的WordCount示例程序中,用户需要重写Map类和Reduce类,虽然MapReduce类似八股文的程序编写模式极大地简化了并行程序开发过程,但是程序代码至少几十行。若基于Spark开发同样的WordCount程序,仅需下面短短的几行代码,例如下面程序是对存储在HDFS上的wc.input中的单词个数进行统计。4.大数据分析—Spark核心组件
相对与第一代的大数据生态系统Hadoop中的MapReduce,Spark 无论是在性能还是在方案的统一性方面,都有着极大的优越性,虽然MapReduce在此方面也在做积极的努力,但Spark的优势还是明显的。Spark框架通常涉及到五个最核心的组件。如图4所示,位于下面的Apache Spark又称为Spark Core。在Spark Core的基础上,针对一些特殊的需求,Spark开发了一系列组件:Spark SQL(在Spark上建立是SQL,类似于Hive);Spark Streaming(实时流处理系统);MLlib(用户友好的机器学习库);GraphX(图处理组件),此外还有一个BlinkDB(基于海量数据的交互式查询引擎,能够在设定的误差范围内或响应时间内进行SQL查询)。将这些组件放在一起,就构成了一个Spark的软件栈。基于这个软件栈Spark提出并实现了一种理念。5.大数据应用—Spark运行高效
在运行方面,Spark的运行无处不在。Spark既可以运行本地local模式,也可以以Standalone、cluster等多种模式运行在Yarn、Mesos上,还可以运行在云端例如EC2。此外,Spark的数据来源非常广泛,可以处理来自HDFS、HBase、 Hive、Cassandra、Tachyon上的各种类型的数据。Hadoop大数据分析@第九期安排 | |||
SPARK课程 | 课程 | 大纲简介 | 学习效果 |
第一阶段 | 大数据思想及平台搭建 | 1.大数据知识以及使用情况 2.linux基本操作 3.hadoop单机、伪分布、集群三种模式的搭建 4.hadoop分布式文件系统HDFS深入剖析 5.hadoop分布式计算系统MapReduce概念及思想 6.应用实战:以NASA web服务器所接收到的请求汇总的数据进行实际的MapReduce分析。 |
大数据前沿知识,行业情况以及大数据分析的学习方向;掌握Hadoop的架构原理和使用场景,掌握Hadoop的三种架构方式及搭建过程,掌握HDFS文件系统与Mapreduce程序开发思想,通过学习对大数据整个框架有一定了解,以及对大数据分析有一定认识,能够有一个完整的学习思路以及从业方向判断。 |
第二阶段 | 大数据分析--统计基础 | 1.集中趋势、离散测度、均值、中位数、众数、方差、点估计、区间估计等 2.假设检验 T检验、方差、相关性、列联分析 3.回归分析,基于观测数据建立变量间适当的依赖关系 4.主成分分析,信息的大小通常用离差平方和或方差来衡量 5.时间序列,预测指标的时间序列中模式 6.大数据不同于传统数据分析,离不开统计分析 |
通过学习对基本统计知识有一定了解,具有数据分析的基本理论知识,让没有统计基础的学员能够了解基本的统计知识体系,为后续数据挖掘的学习打下基础 | 第三阶段 | 大数据分析--数据库 | 1.MY SQL编程、查看、数据整理 2.Hive大数据仓库搭建及使用 3.HBase大数据库搭建及使用 4.sqoop简介、安装及案例应用 5.大数据体系架构、使用及操作案例 6.利用hadoop平台进行大数据分析;能深入实际的项目案例进行大数据的实战开发 |
学会海量数据的存储模式与常规数据存储模式的区别,大数据库的使用方法,熟练使用SQL语句执行对数据的增删改查,能够在Hive、sql等进行数据抽取,完成基本的数据清洗、分析工作 |
第四阶段 | 大数据分析--数据挖掘 | 1.结合R语言基础 2.常用算法理论讲解及使用 3.数据挖掘案例分析 4.线性回归、逻辑回归、kmeans、Knn 5.决策树、朴素贝叶斯、关联规则 6.用户体检测评、用户信用评分,淘宝电商数据分析 |
通过学习能够使用R进行数据清洗、数据预处理等数据分析前期工作,对算法有一定了解,能够根据业务对数据分析进行方法判断并基于R进行分析,最终目的在于培养大数据分析的基本思维,使学员能够在大数据分析工作中对分析工作有一个清晰的思维 |
第五阶段 | 大数据分析—Spark案例 | 1.scala语言基础 2.scala语言进阶 3.Spark简介及安装 4.Spark RDD及内核深入剖析 5.Spark 高级进阶 以某网站搜索记录使用Spark进行数据统计分析 |
Spark开发语言---scala的语法规则及使用,了解Spark作为大数据分析的优势、运作模式及使用场景,能够用scala编写基本spark程序,能够结合前面的学习内容实现完整的利用Spark的大数据分析工作,实现大数据分析的价值 |
spark电信用户离网预警案例分析
spark金融贷款违约预测案例分析
Spark用户行为分析
Spark数据分析应用
Spark数据挖掘聚类和分类算法
Spark程序设计及主题推荐
提前一月报名缴费立减500元,名额有限!
1.适合数学,经济,计算机,统计等专业教师和学生
2.职位晋升、薪酬提高人士,大数据项目负责人
3.CDA大数据和甲骨文证书认证,入门大数据领域
4.论坛真实案例—日志分析、文本挖掘、主题推荐等项目
5.大数据实验室应用,动手操作,侧重大数据分析实战
项目名称 | CDA_Hadoop Spark大数据分析 3月就业培训班 |
时间 | 北京:2017年03月05日—2017年06月05日 |
地点 | 北京市海淀区高粱桥斜街59号中坤大厦1305 |
价格(元) | 全程:19800(现场)/14800(远程)提供免费贷款 |
优惠 | 1、提前一个月报名并全额缴费优惠1000元 |
关于证书 | 1.申请报考《CDA等级认证证书》,一年两次,全国统考 2.申请《数据分析师证书》,以上双证皆自愿申请 |
现场班福利 | 全套视频资料,CDA系列教材,在线答疑 |