大数据处理技术-基于HadoopYarnSpark的处理及应用培训
大数据处理技术-基于HadoopYarnSpark的处理及应...详细内容
大数据处理技术-基于HadoopYarnSpark的处理及应用培训
【培训日期】2022年11月17-18日
【培训地点】北京、线上
【培训对象】
1,系统架构师、系统分析师、高级程序员、资深开发人员。
2,牵涉到大数据处理的数据中心运行、规划、设计负责人。
3,政府机关,金融保险、移动和互联网等大数据来源单位的负责人。
4,高校、科研院所牵涉到大数据与分布式数据处理的项目负责人。
【课程背景】
随着互联网、移动互联网和物联网的发展,我们已经切实地迎来了一个大数据的时代。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的需求。目前对大数据的分析工具,首选的是HadoopYarn平台,以及目前对大数据的实时分析工具,业界公认最佳的Spark平台。为解决广大系统设计人员深入研究与开发大数据处理的需要,特举办“大数据处理技术-基于HadoopYarnSpark的处理及应用”培训班
【学员基础】
1,对IT系统设计有一定的理论与实践经验。
2,数据仓库与数据挖掘处理有一定的基础知识。
3,对HadoopYarnSpark大数据技术有一定的了解。
【培训要点】
互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及网络的各类评论,成为了海量信息的多种形式。当数据以成百上千TB不断增长的时候,我们在内部交易系统的历史信息之外,需要一种基于大数据实时分析的决策模型和技术支持。
大数据通常具有:数据体量(Volume)巨大,数据类型(Variety)繁多,价值(Value)密度低,处理速度(Velocity)快等四大特征。Google发布的GFS和MapReduce等高可扩展、高性能的分布式大数据处理框架,证明了在处理海量网页数据时该框架的优越性。
在此基础上,Apache Hadoop开源项目开发团队,克隆并推出了HadoopYarn系统。该系统已受到学术界和工业界的广泛认可和采纳,并孵化出众多子项目(如Hive,Zookeeper和Mahout等),日益形成一个易部署、易开发、功能齐全、性能优良的系统。 近年来以Berkley牵头设计的SparkBDAS技术,实现了内存级别的分布式处理模式,使用户无需关注复杂的内部工作机制,无需具备丰富的分布式系统知识及开发经验,即可实现大规模分布式系统的部署与大数据的并行处理。
本课程从大数据处理技术以及Spark实战的角度,结合理论和实践,全方位地介绍HadoopYarnSpark大数据实时处理工具的原理和内核,包括大数据计算框架、运行架构、设计模型和数据管理策略,及在业界的应用,包含多个子项目的实操,例如HDFS、MapReduce、Spark SQL、Spark Streaming、GraphX、MLlib等。本课程教学过程中还提供了案例分析来帮助学员了解如何用大数据处理工具来解决业界的问题,并介绍了大数据生产环境搭建的相关知识。
本课程不是一个泛泛的理论性、概念性的介绍课程,而是针对问题讨论Spark解决方案的深入课程。教师对于上述领域有深入的理论研究与实践经验,在课程中将会针对这些问题与学员一起进行研究,在关键点上还会搭建实验环境进行实践研究,以加深对于这些解决方案的理解。通过本课程学习,希望推动大数据处理开发上升到一个新水平。
【培训目标】
1,全面掌握大数据处理技术的相关知识。
2,学习Spark的核心技术方法以及应用特征。
3,深入使用Spark在大数据实时处理中的使用。
4,掌握BDAS相关工具及其主要功能。
【课程大纲】
第一天 上午 第一讲 云计算及大数据技术
1)云计算的概念
2)云计算发展现状
3)大数据的概念
4)大数据的应用
5)大数据关键技术
第二讲 Hadoop和Yarn介绍
1)Google中的关键技术
2)Hadoop运行架构
3)Yarn分析及介绍
4)Hadoop API分析
5)Hadoop使用和实操
第三讲 HDFS文件系统结构
1) 分布式文件系统DFS
2) HDFS体系结构介绍
3) HDFS关键运行机制
4) SequenceFile介绍
第一天 下午 第四讲 MapReduce编程模型
1) MapReduce产生背景
2) MapReduce编程模型
3) MapReduce实现机制
4) MapReduce案例分析
第五讲Spark大数据处理技术
1)大数据处理技术
2)Spark实时处理技术
3)Spark生态系统BDAS
4)Spark架构分析
第六讲 Scala编程语言使用概述
1) Scala编程语言
2) 基本数据类型
3) 操作基本数据类型
4) 类和对象
第二天 上午 第七讲 Spark分布式计算框架
1)Spark计算模型
2)弹性分布式数据集RDD
3)Spark的数据存储
4)Transformation算子分类及功能
5)Actions算子分类及功能
第八讲SQL On Spark
1) BDAS数据分析软件栈
2) SQL On Spark
3) Spark SQL工具使用
4) Shark工具使用
5) Hive on Spark工具
第九讲 Spark流数据处理工具Streaming
1)流数据处理工具Streaming
2) Spark Streaming架构
3) Spark Streaming原理
4) Spark Streaming实例
第二天 下午 第十讲Spark中的大数据挖掘工具MLlib
1)大数据挖掘工具MLlib
2)MLlib的数据存储
3)MLlib中的聚类和分类
4)MLlib算法应用实例
5)利用MLlib进行推荐
第十一讲 Spark大规模图处理工具GraphX
1)大规模图处理工具GraphX
2)GraphX的运行架构
3)GraphX操作使用
4)GraphX使用实例
【讲师介绍】
杨老师
主要研究网络信息分析以及云计算相关技术,长期从事数据仓库、数据挖掘以及大数据分析技术研究,主持和参与了多个国家和省部级基金项目,具有丰富的工程实践及软件研发经验。
推荐课程
DeepSeek赋能办公,效率倍增 2025-04-03
《DeepSeek赋能办公,效率倍增》【课程时间】3月11日【培训地点】广州【培训费用】RMB2800 元/人,(含培训费、教材费、税费、茶点)【课程对象】对AI智能办公感兴趣,渴望提升办公效率、优化工作流程、增强职场竞争力的人群课程背景在人工智能深度融入办公场景的时代,本课程聚焦国产高性能职场AI工具DeepSeek,为学员带来一站式的办公软件智能化应用体...
讲师:赵保恒详情
《危机管理与公关技巧》 2025-04-05
《危机管理与公关技巧》(1天)(2025年4月5日,2280元/人)课程目标: 掌握危机的内涵与外延; 掌握危机意识的建立; 掌握危机的可能来源; 掌握管理中潜藏的危机; 掌握营销中坑呢的危机; 掌握生产中存在的危机; 掌握品质方面的危机; 掌握与媒体应对的策略;预应—— 反应一、危机意识1.比危机先行一步2.企业的十三种“死法”——天津大海食品有限公司3....
讲师:鲍爱中详情
《孙子兵法与现代管理》 2025-04-06
《孙子兵法与现代管理》(1天)(2025年4月6日,3380元/人)课程目标: 深度解读孙子思想; 将孙子思想运用到现代管理; 将孙子思想用到人生与生活; 将孙子思想用到个人发展;课程内容:一、孙子的重要影响² 孙子学的文化思考² 孙子学的经学模式² 孙子的用间思想² 孙子的军事哲学思想二、孙子与诸子的地位与融合² 孙子与儒家² 孙子与道家² 孙子与法家² ...
讲师:鲍爱中详情
金牌店长执行力落地班 2025-04-08
金牌店长执行力落地班——中国式人性+美国式PDCA圈,消灭30个执行力死角,快速突破门店业绩【课程对象】店长经理、储备店长、培训经理、总经理、运营总监、 区域经理等追求卓越门店管理技能人士。老板带队建立同频团队,落地效果最好。特别建议黄金团队组合:老板带队+5名核心店长!一、店长,给你一个门店,你会怎么管?店长强,门店就强!业绩是管理出来的!门店管理的核心就...
讲师:程姣详情
非财务经理的财务管理 2025-04-08
非财务经理的财务管理培训时间/地点:2025年4月89日(星期二 星期三)/上 海2025年11月1112日(星期二 星期三)/苏 州收费标准:¥4800/人含授课费、证书费、资料费、午餐费、茶点费、会务费、税费不包含学员往返培训场地的交通费用、住宿费用、早餐及晚餐课程收益:通过学习,快速提炼财务报表的关键数据信息,并能通过老师案例讲解,透视数据背后传递的公...
讲师:安老师详情
中层经理管理能力提升 2025-04-09
《中层经理管理能力提升》讲师/Lecturer:姜老师费用/Price:¥4800元/人课程概述/Overview课程背景:中层经理是连接高层和基层的桥梁,起着承上启下的纽带作用,高层的理念、战略要靠中层执行落实到基层,方能落地生根实现企业目标。然而,中层经理半路出家的现象较多,他们缺少对管理角色、管理方法的认知,没有及时实现角色转换,也没有系统掌握系统管理...
讲师:姜老师详情
VDA6.5 产品审核培训 2025-04-09
课程解读课程背景面对您的顾客,是否经常接受他们的产品审核,且由此存在诸多顾客的不满意项?对您的供应商,如何提高新产品量产前的质量保证信心?或者降低质量风险?对新产品新项目或者工程变更的管理,怎样测试产品的设计开发满足要求?由此可见,产品审核的学习运用,无疑为质量管理体系和产品质量在评价符合性上起了决定性作用。课程目标对于学员,掌握产品审核的目的、意义、程序及...
讲师:踪老师详情
现场质量管理与突破性快速改善(质量问题分析与解决) 2025-04-09
现场质量管理与突破性快速改善(质量问题分析与解决)培训时间/地点:2025年3月1920日(星期三 星期四)/苏 州2025年4月2829日(星期一 星期二)/成 都2025年6月1112日(星期三 星期四)/嘉 兴2025年9月1718日(星期三 星期四)/苏 州2025年11月1920日(星期三 星期四)/嘉 兴2025年4月911日(星期三 星期五)/...
讲师:刘老师详情
供应链数字化转型及先进实践 2025-04-09
供应链数字化转型及先进实践课程安排2025年4月910日(星期三 星期四)/上 海2025年9月1718日(星期三 星期四)/上 海课程费用¥5,200/人(含授课费、证书费、资料费、午餐费、茶点费、会务费、税费)课程背景 随着信息技术的快速发展,数据的获取成本变得越来越低,采购与供应链管理也迎来了“大数据”时代。如何从海量的数据中洞悉供应市场的变化,找到最...
讲师:夏烨详情
以过程和风险为基础的ISO 9001 & ISO 14001 & 2025-04-09
以过程和风险为基础的ISO 9001 amp; ISO 14001 amp; ISO 45001 三标管理体系内审员培训培训时间/地点:2025年4月911日(星期三星期五)/嘉 兴2025年7月911日(星期三星期五)/嘉 兴2025年10月1517日(星期三星期五)/嘉 兴2025年5月2023日(星期二星期五)/苏 州2025年11月1114日(星期二...
讲师:羊老师详情
- [潘文富]薪资考核的初步改善措施
- [潘文富]新开门店的白板期要做些什
- [潘文富]经销商终端建设的基本推进
- [潘文富]中小企业招聘广告的内容完
- [潘文富]优化考核方式,减少员工抵
- [王晓楠]辅警转正方式,定向招录成为
- [王晓楠]西安老师招聘要求,西安各区
- [王晓楠]西安中小学教师薪资福利待遇
- [王晓楠]什么是备案制教师?备案制教
- [王晓楠]2024年陕西省及西安市最