大数据分析实战-Spark编程

  培训讲师:刘晖

讲师背景:
刘晖老师通信行业特约培训导师【专业资质】✦北大计算机、北邮通信双学位✦(原)中兴通讯学院高级讲师✦大庆油田技术研究院高级内训讲师✦15年嵌入式硬件、软件开发和系统架构设计总监✦有8年多的“云大智物”开发及实施经验。曾供职于巨龙通信、大唐电信 详细>>

刘晖
    课程咨询电话:

大数据分析实战-Spark编程详细内容

大数据分析实战-Spark编程

【课程特色】

1.   课上采用案例式教学,通俗易懂,课下一对一辅导强化训练,学与练交叉进行强化记忆,你所要做的就是认真听,勤于问,乐于练。

2.   清晰的知识结构,根据应用经验采用最优化授课模式。

3.   内容充沛、详略得当,前后呼应。

4.   讲师资历丰富,具有丰富的实践经验。

5.   知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪

【课程时间】2天

【课程大纲】

第一天:实战准备基础

第1 章 大数据技术概述

1.1 大数据的概念与关键技术

1.2 代表性大数据技术

1.2.1 Hadoop 

1.2.2 Spark

1.2.3 Flink

1.2.4 Beam

1.3 编程语言的选择

实验1 Linux 系统的安装和常用命令

第2 章 Scala 语言基础

2.1 Scala 语言概述

2.2 Scala 基础知识

2.3 面向对象编程基础

2.4 函数式编程基础

实验2 Scala 编程初级实践

第3 章 Spark 的设计与运行原理

3.1 概述

3.2 Spark 生态系统

3.3 Spark 运行架构

3.4 Spark 的部署方式

第4 章 Spark 环境搭建和使用方法

4.1 安装Spark

4.2 在spark-shell 中运行代码

4.3 开发Spark 独立应用程序

4.3.1 安装编译打包工具

4.3.2 编写Spark 应用程序代码

4.3.3 编译打包

4.3.4 通过spark-submit 运行程序

4.4 Spark 集群环境搭建

4.5 在集群上运行Spark 应用程序

实验3 Spark 和Hadoop 的安装

第5 章 RDD 编程

5.1 RDD 编程基础

5.2 键值对RDD 

5.3 数据读写

5.4 综合实例

实验4 RDD 编程初级实践

第6 章 Spark SQL

6.1 Spark SQL 简介

6.2 DataFrame 概述

6.3 DataFrame 的创建

6.4 DataFrame 的保存

6.5 DataFrame 的常用操作

6.6 从RDD 转换得到DataFrame

6.7 使用Spark SQL 读写数据库

实验5 Spark SQL 编程初级实践

第7 章 Spark Streaming

7.1 流计算概述

7.2 Spark Streaming

7.3 DStream 操作概述

7.4 基本输入源

7.5 高级数据源

7.6 转换操作

7.7 输出操作

实验6 Spark Streaming 编程初级实践

第8 章 Spark Mllib

8.1 基于大数据的机器学习

8.2 机器学习库MLlib 概述

8.3 基本数据类型

8.4 机器学习流水线

8.5 特征提取、转换和选择

8.6 分类算法

8.7 聚类算法

8.8 协同过滤算法

8.9 模型选择和超参数调整

实验7 Spark 机器学习库MLlib 编程

第二天:实战案例分析及运用

讲解案例1:淘宝双11数据分析与预测

延伸案例:生产状态实时监测

案例简介

本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、Hive、Sqoop、Eclipse、ECharts、Spark等系统和软件的安装和使用方法。通过本案例,将有助于综合运用大数据课程知识以及各种工具软件,实现数据全流程操作。

案例目的

  1. 熟悉Linux系统、MySQL、Hadoop、Hive、Sqoop、Spark等系统和软件的安装和使用;
  2. 了解大数据处理的基本流程;
  3. 熟悉数据预处理方法;
  4. 熟悉在不同类型数据库之间进行数据相互导入导出;
  5. 熟悉使用JSP语言搭建动态Web工程;
  6. 熟悉使用Spark MLlib进行简单的分类操作。

硬件要求

本案例可以在单机上完成,也可以在集群环境下完成。

单机上完成本案例实验时,建议计算机硬件配置为:500GB以上硬盘,8GB以上内存。

软件工具

本案例所涉及的系统及软件:

  1. Linux系统
  2. MySQL
  3. Hadoop
  4. Hive
  5. Sqoop
  6. ECharts
  7. Eclipse
  8. Spark

数据集

淘宝购物行为数据集 (5000万条记录,数据有偏移,不是真实的淘宝购物交易数据,但是不影响学习)

案例任务

  1. 安装Linux操作系统
  2. 安装关系型数据库MySQL
  3. 安装大数据处理框架Hadoop
  4. 安装数据仓库Hive
  5. 安装Sqoop
  6. 安装Eclipse
  7. 安装 Spark
  8. 对文本文件形式的原始数据集进行预处理
  9. 把文本文件的数据集导入到数据仓库Hive中
  10. 对数据仓库Hive中的数据进行查询分析
  11. 使用Sqoop将数据从Hive导入MySQL
  12. 利用Eclipse搭建动态Web应用
  13. 利用ECharts进行前端可视化分析
  14. 利用Spark MLlib进行回头客行为预测

 

讲解案例2:Spark大数据分析案例之平均心率检测

延伸案例:智慧安防的大数据运用

案例简介

本案例涉及数据预处理、消息队列发送和接收消息、数据实时处理、数据实时推送和实时展示等数据处理全流程所涉及的各种典型操作,涵盖Linux、Spark、Kafka、Flask、Flask-SocketIO、Highcharts.js、sockert.io.js、PyCharm等系统和软件的安装和使用方法。

案例目的

  1. 熟悉Linux系统、Spark、Kafka、Flask、Flask-SocketIO、Highcharts.js、socket.io.js等系统和软件的安装和使用;
  2. 了解Spark+Kafka实时处理数据的基本流程;
  3. 熟悉Python操作Kafka的方法;
  4. 熟悉Spark Streaming程序编写;
  5. 熟悉Spark操作Kafka的方法;
  6. 熟悉Python构建Web程序;
  7. 熟悉SocketIO实时推送消息;
  8. 熟悉Highcharts.js展示数据。

硬件要求

本案例可以在单机上完成,也可以在集群环境下完成。

单机上完成本案例实验时,建议计算机硬件配置为:500GB以上硬盘,8GB以上内存。

软件工具

本案例所涉及的系统及软件:

  1. Linux系统
  2. Spark
  3. Kafka
  4. Flask
  5. Flask-SocketIO
  6. Highcharts.js
  7. Socket.io.js
  8. PyCharm

数据相关

本案例采用的数据集是由应用程序producer随机产生的。该数据集表示的正常人的心跳速率。下面列出产生的数据格式定义:

1. name | 姓名

2. rate | 心跳率

3. dt | 产生数据的时间

案例任务

  1. 安装Linux操作系统
  2. 安装Spark
  3. 安装Kafka
  4. 安装Python依赖库
  5. 安装PyCharm
  6. 对文本文件形式的原始数据集进行预处理
  7. 将预处理后的数据发送至Kafka
  8. Spark从Kafka获取数据,实时处理,结果发送至Kafka
  9. Flask构建的Web程序从Kafka获取处理后的数据
  10. Flask-SockerIO实时推送数据至客户端
  11. 客户端Socket.io.js实时获取数据
  12. 客户端Highcharts.js实时展示数据


 

刘晖老师的其它课程

【课程特色】1.  课上采用案例式教学,通俗易懂,课下一对一辅导强化训练,学与练交叉进行强化记忆,你所要做的就是认真听,勤于问,乐于练。2.  清晰的知识结构,根据应用经验采用最优化授课模式。3.  内容充沛、详略得当,前后呼应。4.  讲师资历丰富,具有丰富的实践经验。5.  知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪【课程时间】1天【课程

 讲师:刘晖详情


【课程背景】住房和城乡建设部印发的《国家智慧城市试点暂行管理办法》和《国家智慧城市(区、镇)试点指标体系(试行)》两个文件指出:建设智慧城市是创新驱动发展、推动新型城镇化、全面建成小康社会的重要举措。这对于服务于千千万万城市、社区、园区、小区、楼宇,以及工作和生活在其中的业主和客户的物业管理服务业来说,已然迎来最大的发展机遇。物业管理行业不仅是智慧社区的受益

 讲师:刘晖详情


5G+智慧煤矿   12.31

【课程特色】1.  课上采用案例式教学,通俗易懂,课下一对一辅导强化训练,学与练交叉进行强化记忆,你所要做的就是认真听,勤于问,乐于练。2.  清晰的知识结构,根据应用经验采用最优化授课模式。3.  内容充沛、详略得当,前后呼应。4.  讲师资历丰富,具有丰富的实践经验。5.  知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪【课程对象】无线网、核

 讲师:刘晖详情


【课程特色】1.  课上采用案例式教学,通俗易懂,课下一对一辅导强化训练,学与练交叉进行强化记忆,你所要做的就是认真听,勤于问,乐于练。2.  清晰的知识结构,根据应用经验采用最优化授课模式。3.  内容充沛、详略得当,前后呼应。4.  讲师资历丰富,具有丰富的实践经验。5.  知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪【课程对象】相关人员【

 讲师:刘晖详情


5G产业发展与应用创新【课程背景】随着5G 技术的快速发展,5G 应用已成为各界热议的话题,很多行业陆续开展了相关的实践探索。本课程站在科技发展的前沿,探讨了5G在物联网、人工智能、无人机、医疗、农业、教育、工业互联网、新媒体等行业的应用案例。值得指出的是,案例以运营商、一流企业等机构在5G领域的实践为主线,对5G行业应用创新案例做了详细的讲解。【课程收益】

 讲师:刘晖详情


【课程背景】随着5G 技术的快速发展,5G 应用已成为各界热议的话题,很多行业陆续开展了相关的实践探索。【课程收益】1了解5G从信息通信技术支持到业务模式推广和场景的应用,掌握5G在新时代、新技术下的行业发展趋势;2以鲜活的应用案例和解决方案详细掌握5G给环保行业方面带来全新变革的蓝图和愿景;【课程特色】1.  课上采用案例式教学,通俗易懂,课下一对一辅导强

 讲师:刘晖详情


5G赋能工业互联网【课程背景】5G通过技术创新实现了增强型移动宽带、超大规模物联网和高可靠、低时延等三大应用场景全覆盖,把人与人之间的通信拓展到了人与物、物与物之间的通信,从消费互联网拓展到了产业互联网,为行业数字化转型提供了关键的数字基础设施。5G和人工智能/大数据/云计算/边缘计算/区块链等新一代信息技术相结合,多技术交织并进、深度渗透、协同应用,孕育技

 讲师:刘晖详情


【课程背景】随着5G 技术的快速发展,5G 应用已成为各界热议的话题,很多行业陆续开展了相关的实践探索。本课程站在科技发展的前沿,探讨了5G在物联网、人工智能、无人机、医疗、农业、教育、工业互联网、新媒体等行业的应用案例。值得指出的是,案例以运营商、一流企业等机构在5G领域的实践为主线,对5G行业应用创新案例做了详细的讲解。【课程收益】1了解5G从信息通信技

 讲师:刘晖详情


【课程背景】随着5G 技术的快速发展,5G 应用已成为各界热议的话题,很多行业陆续开展了相关的实践探索。本课程站在科技发展的前沿,探讨了5G与数字货币、区块链在金融行业的应用案例。值得指出的是,案例以运营商、一流企业等机构在5G领域的实践为主线,对5G金融行业应用创新案例做了详细的讲解。【课程收益】1了解5G从信息通信技术支持到业务模式推广和场景的应用,掌握

 讲师:刘晖详情


【课程背景】国家电网“三型两网、世界一流”战略、南方电网定位“五者”,转型“三商”战略,需赋能智能终端,加速电网全面感知,打通数据和业务壁垒,驱动创新能力。传统通信方式难以满足数字电网发展需求,电力生产、传输、消费全过程需要低时延、大宽带、大连接,对5G的诉求十分迫切5G作为最新一代的无线通信技术,其超高速率、超低时延、超大连接特性对智慧城市建设产生巨大的影

 讲师:刘晖详情


COPYRIGT @ 2018-2028 HTTPS://WWW.QG68.CN INC. ALL RIGHTS RESERVED. 管理资源网 版权所有