专注资源分享
追求性能的极限

《Spark 1.X 大数据平台V2》11月开班[完整版附课件]

第一周 Spark生态系统概述与编程模型
• Spark生态系统概述
• 回顾Hadoop MapReduce
• Spark运行模式
• RDD
• Spark运行时模型简介
• 缓存策略介绍
• transformation
• action
• lineage
• 容错处理
• 宽依赖与窄依赖
• 集群配置

第二周 深入Spark内核
• Spark术语解释
• 集群概览
• 核心组件
• 数据本地性
• 常用RDD
• 任务调度
• DAGScheduler
• TaskScheduler
• Task细节
• 广播变量
• 累加器
• 性能调优

第三周 Spark on Yarn & Spark as a service
• Spark on Yarn原理
• Spark on Yarn实践
• JobServer架构
• JobServer API介绍
• JobServer配置与部署

第四周 Spark Streaming原理与实践
• DStream
• 数据源
• 无状态transformation与有状态transformation
• checkpoint
• 容错
• 性能优化

第五周 Shark与Spark SQL
• Shark数据模型
• Shark数据类型
• Shark架构
• Shark部署
• 缓存(分区)表
• SharkServer
• Shark与Spark结合
• Spark SQL架构
• Parquet支持
• DSL
• SQL on RDD
• Hive支持
• UDF
• JDBC Server

第六周 Machine Learning on Spark
• LinearRegression
• K-Means
• Collaborative Filtering

第七周 Spark多语言编程
• Python简介
• PySpark API
• 使用Python编写Spark程序
• Spark with Java

第八周 图计算GraphX
• 现存的图计算框架
• Table Operators
• Graph Operators
• GraphX设计

第九周 Tachyon原理与实践
• Tachyon原理与架构
• Tachyon实践

第十周 SparkR
• SparkR原理介绍
• 安装配置与运行

抱歉,此资源仅限VIP下载,请先
客服QQ:1070764019
百度未收录
未经允许不得转载:吾爱收藏阁 » 《Spark 1.X 大数据平台V2》11月开班[完整版附课件]
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址