大数据分析实战-Spark编程
大数据分析实战-Spark编程详细内容
大数据分析实战-Spark编程
【课程特色】
1. 课上采用案例式教学,通俗易懂,课下一对一辅导强化训练,学与练交叉进行强化记忆,你所要做的就是认真听,勤于问,乐于练。
2. 清晰的知识结构,根据应用经验采用最优化授课模式。
3. 内容充沛、详略得当,前后呼应。
4. 讲师资历丰富,具有丰富的实践经验。
5. 知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪
【课程时间】2天
【课程大纲】
第一天:实战准备基础
第1 章 大数据技术概述
1.1 大数据的概念与关键技术
1.2 代表性大数据技术
1.2.1 Hadoop
1.2.2 Spark
1.2.3 Flink
1.2.4 Beam
1.3 编程语言的选择
实验1 Linux 系统的安装和常用命令
第2 章 Scala 语言基础
2.1 Scala 语言概述
2.2 Scala 基础知识
2.3 面向对象编程基础
2.4 函数式编程基础
实验2 Scala 编程初级实践
第3 章 Spark 的设计与运行原理
3.1 概述
3.2 Spark 生态系统
3.3 Spark 运行架构
3.4 Spark 的部署方式
第4 章 Spark 环境搭建和使用方法
4.1 安装Spark
4.2 在spark-shell 中运行代码
4.3 开发Spark 独立应用程序
4.3.1 安装编译打包工具
4.3.2 编写Spark 应用程序代码
4.3.3 编译打包
4.3.4 通过spark-submit 运行程序
4.4 Spark 集群环境搭建
4.5 在集群上运行Spark 应用程序
实验3 Spark 和Hadoop 的安装
第5 章 RDD 编程
5.1 RDD 编程基础
5.2 键值对RDD
5.3 数据读写
5.4 综合实例
实验4 RDD 编程初级实践
第6 章 Spark SQL
6.1 Spark SQL 简介
6.2 DataFrame 概述
6.3 DataFrame 的创建
6.4 DataFrame 的保存
6.5 DataFrame 的常用操作
6.6 从RDD 转换得到DataFrame
6.7 使用Spark SQL 读写数据库
实验5 Spark SQL 编程初级实践
第7 章 Spark Streaming
7.1 流计算概述
7.2 Spark Streaming
7.3 DStream 操作概述
7.4 基本输入源
7.5 高级数据源
7.6 转换操作
7.7 输出操作
实验6 Spark Streaming 编程初级实践
第8 章 Spark Mllib
8.1 基于大数据的机器学习
8.2 机器学习库MLlib 概述
8.3 基本数据类型
8.4 机器学习流水线
8.5 特征提取、转换和选择
8.6 分类算法
8.7 聚类算法
8.8 协同过滤算法
8.9 模型选择和超参数调整
实验7 Spark 机器学习库MLlib 编程
第二天:实战案例分析及运用
讲解案例1:淘宝双11数据分析与预测
延伸案例:生产状态实时监测
案例简介
本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、Hive、Sqoop、Eclipse、ECharts、Spark等系统和软件的安装和使用方法。通过本案例,将有助于综合运用大数据课程知识以及各种工具软件,实现数据全流程操作。
案例目的
- 熟悉Linux系统、MySQL、Hadoop、Hive、Sqoop、Spark等系统和软件的安装和使用;
- 了解大数据处理的基本流程;
- 熟悉数据预处理方法;
- 熟悉在不同类型数据库之间进行数据相互导入导出;
- 熟悉使用JSP语言搭建动态Web工程;
- 熟悉使用Spark MLlib进行简单的分类操作。
硬件要求
本案例可以在单机上完成,也可以在集群环境下完成。
单机上完成本案例实验时,建议计算机硬件配置为:500GB以上硬盘,8GB以上内存。
软件工具
本案例所涉及的系统及软件:
- Linux系统
- MySQL
- Hadoop
- Hive
- Sqoop
- ECharts
- Eclipse
- Spark
数据集
淘宝购物行为数据集 (5000万条记录,数据有偏移,不是真实的淘宝购物交易数据,但是不影响学习)
案例任务
- 安装Linux操作系统
- 安装关系型数据库MySQL
- 安装大数据处理框架Hadoop
- 安装数据仓库Hive
- 安装Sqoop
- 安装Eclipse
- 安装 Spark
- 对文本文件形式的原始数据集进行预处理
- 把文本文件的数据集导入到数据仓库Hive中
- 对数据仓库Hive中的数据进行查询分析
- 使用Sqoop将数据从Hive导入MySQL
- 利用Eclipse搭建动态Web应用
- 利用ECharts进行前端可视化分析
- 利用Spark MLlib进行回头客行为预测
讲解案例2:Spark大数据分析案例之平均心率检测
延伸案例:智慧安防的大数据运用
案例简介
本案例涉及数据预处理、消息队列发送和接收消息、数据实时处理、数据实时推送和实时展示等数据处理全流程所涉及的各种典型操作,涵盖Linux、Spark、Kafka、Flask、Flask-SocketIO、Highcharts.js、sockert.io.js、PyCharm等系统和软件的安装和使用方法。
案例目的
- 熟悉Linux系统、Spark、Kafka、Flask、Flask-SocketIO、Highcharts.js、socket.io.js等系统和软件的安装和使用;
- 了解Spark+Kafka实时处理数据的基本流程;
- 熟悉Python操作Kafka的方法;
- 熟悉Spark Streaming程序编写;
- 熟悉Spark操作Kafka的方法;
- 熟悉Python构建Web程序;
- 熟悉SocketIO实时推送消息;
- 熟悉Highcharts.js展示数据。
硬件要求
本案例可以在单机上完成,也可以在集群环境下完成。
单机上完成本案例实验时,建议计算机硬件配置为:500GB以上硬盘,8GB以上内存。
软件工具
本案例所涉及的系统及软件:
- Linux系统
- Spark
- Kafka
- Flask
- Flask-SocketIO
- Highcharts.js
- Socket.io.js
- PyCharm
数据相关
本案例采用的数据集是由应用程序producer随机产生的。该数据集表示的正常人的心跳速率。下面列出产生的数据格式定义:
1. name | 姓名
2. rate | 心跳率
3. dt | 产生数据的时间
案例任务
- 安装Linux操作系统
- 安装Spark
- 安装Kafka
- 安装Python依赖库
- 安装PyCharm
- 对文本文件形式的原始数据集进行预处理
- 将预处理后的数据发送至Kafka
- Spark从Kafka获取数据,实时处理,结果发送至Kafka
- Flask构建的Web程序从Kafka获取处理后的数据
- Flask-SockerIO实时推送数据至客户端
- 客户端Socket.io.js实时获取数据
- 客户端Highcharts.js实时展示数据
刘晖老师的其它课程
5G、大数据对于医疗行业发展趋势的影响和指导意义 12.31
【课程特色】1. 课上采用案例式教学,通俗易懂,课下一对一辅导强化训练,学与练交叉进行强化记忆,你所要做的就是认真听,勤于问,乐于练。2. 清晰的知识结构,根据应用经验采用最优化授课模式。3. 内容充沛、详略得当,前后呼应。4. 讲师资历丰富,具有丰富的实践经验。5. 知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪【课程时间】1天【课程
讲师:刘晖详情
5G 时代下的绿色智慧物业 12.31
【课程背景】住房和城乡建设部印发的《国家智慧城市试点暂行管理办法》和《国家智慧城市(区、镇)试点指标体系(试行)》两个文件指出:建设智慧城市是创新驱动发展、推动新型城镇化、全面建成小康社会的重要举措。这对于服务于千千万万城市、社区、园区、小区、楼宇,以及工作和生活在其中的业主和客户的物业管理服务业来说,已然迎来最大的发展机遇。物业管理行业不仅是智慧社区的受益
讲师:刘晖详情
5G+智慧煤矿 12.31
【课程特色】1. 课上采用案例式教学,通俗易懂,课下一对一辅导强化训练,学与练交叉进行强化记忆,你所要做的就是认真听,勤于问,乐于练。2. 清晰的知识结构,根据应用经验采用最优化授课模式。3. 内容充沛、详略得当,前后呼应。4. 讲师资历丰富,具有丰富的实践经验。5. 知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪【课程对象】无线网、核
讲师:刘晖详情
5G+行业应用前景及知识赋能 12.31
【课程特色】1. 课上采用案例式教学,通俗易懂,课下一对一辅导强化训练,学与练交叉进行强化记忆,你所要做的就是认真听,勤于问,乐于练。2. 清晰的知识结构,根据应用经验采用最优化授课模式。3. 内容充沛、详略得当,前后呼应。4. 讲师资历丰富,具有丰富的实践经验。5. 知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪【课程对象】相关人员【
讲师:刘晖详情
5G产业发展与应用创新 12.31
5G产业发展与应用创新【课程背景】随着5G 技术的快速发展,5G 应用已成为各界热议的话题,很多行业陆续开展了相关的实践探索。本课程站在科技发展的前沿,探讨了5G在物联网、人工智能、无人机、医疗、农业、教育、工业互联网、新媒体等行业的应用案例。值得指出的是,案例以运营商、一流企业等机构在5G领域的实践为主线,对5G行业应用创新案例做了详细的讲解。【课程收益】
讲师:刘晖详情
5G赋能环保行业应用与创新案例解析 12.31
【课程背景】随着5G 技术的快速发展,5G 应用已成为各界热议的话题,很多行业陆续开展了相关的实践探索。【课程收益】1了解5G从信息通信技术支持到业务模式推广和场景的应用,掌握5G在新时代、新技术下的行业发展趋势;2以鲜活的应用案例和解决方案详细掌握5G给环保行业方面带来全新变革的蓝图和愿景;【课程特色】1. 课上采用案例式教学,通俗易懂,课下一对一辅导强
讲师:刘晖详情
5G赋能工业互联网 12.31
5G赋能工业互联网【课程背景】5G通过技术创新实现了增强型移动宽带、超大规模物联网和高可靠、低时延等三大应用场景全覆盖,把人与人之间的通信拓展到了人与物、物与物之间的通信,从消费互联网拓展到了产业互联网,为行业数字化转型提供了关键的数字基础设施。5G和人工智能/大数据/云计算/边缘计算/区块链等新一代信息技术相结合,多技术交织并进、深度渗透、协同应用,孕育技
讲师:刘晖详情
5G赋能行业应用与创新案例解析 12.31
【课程背景】随着5G 技术的快速发展,5G 应用已成为各界热议的话题,很多行业陆续开展了相关的实践探索。本课程站在科技发展的前沿,探讨了5G在物联网、人工智能、无人机、医疗、农业、教育、工业互联网、新媒体等行业的应用案例。值得指出的是,案例以运营商、一流企业等机构在5G领域的实践为主线,对5G行业应用创新案例做了详细的讲解。【课程收益】1了解5G从信息通信技
讲师:刘晖详情
5G赋能金融行业应用与创新案例解析 12.31
【课程背景】随着5G 技术的快速发展,5G 应用已成为各界热议的话题,很多行业陆续开展了相关的实践探索。本课程站在科技发展的前沿,探讨了5G与数字货币、区块链在金融行业的应用案例。值得指出的是,案例以运营商、一流企业等机构在5G领域的实践为主线,对5G金融行业应用创新案例做了详细的讲解。【课程收益】1了解5G从信息通信技术支持到业务模式推广和场景的应用,掌握
讲师:刘晖详情
- [杨建允]2024全国商业数字化技
- [杨建允]2023双11交易额出炉
- [杨建允]DTC营销模式是传统品牌
- [杨建允]探析传统品牌DTC营销模
- [杨建允]专家称预制菜是猪狗食,预
- [潘文富]厂家对经销商工作的当务之急
- [潘文富]经销商转型期间的内部组织结
- [潘文富]小型厂家的招商吸引力锻造
- [潘文富]经销商发展观的四个突破
- [潘文富]经销商的所有产品都要赚钱吗
- 1社会保障基础知识(ppt) 21255
- 2安全生产事故案例分析(ppt) 20330
- 3行政专员岗位职责 19114
- 4品管部岗位职责与任职要求 16373
- 5员工守则 15537
- 6软件验收报告 15460
- 7问卷调查表(范例) 15204
- 8工资发放明细表 14660
- 9文件签收单 14315





