大數據技術基礎
1. 大數據的產(chan)生背景與發展歷程
2. 大數據的4V特征,以及與云(yun)計(ji)算的關系(xi)
3. 大(da)數(shu)據應用需求以及潛在價值分析
4. 業界蕞(zui)新的大數據技術發展態勢(shi)與應用趨勢(shi)
5. 大(da)數據(ju)思維的轉變
6. 大(da)數據項(xiang)目的系統與技術選(xuan)型,及落地實施的挑戰
7. “互聯(lian)網(wang)+”時代下的電(dian)子商(shang)(shang)務、制造業(ye)、交通行(xing)業(ye)、電(dian)信運(yun)營(ying)商(shang)(shang)、銀行(xing)金(jin)融業(ye)、電(dian)子政(zheng)務、移動互聯(lian)網(wang)、教育信息化等行(xing)業(ye)應用實踐(jian)與應用案(an)例介紹
業界主流(liu)的大數據技術方(fang)案
1. 大數據(ju)軟硬件系(xi)統全棧與(yu)關鍵技術介(jie)紹(shao)
2. 大數據生(sheng)態系統(tong)全(quan)景(jing)圖
3. 主流的大數據(ju)解(jie)決方案(an)介紹
4. Apache大(da)數據平臺方案剖(pou)析
5. CDH大數據平臺方案剖析
6. HDP大數(shu)據(ju)平臺方案剖析
7. 基(ji)于云(yun)的大(da)數據平臺(tai)方(fang)案剖(pou)析
8. 大數據(ju)解決方案(an)(an)與傳(chuan)統數據(ju)庫方案(an)(an)比(bi)較
9. 國內(nei)外大數據平臺方案與廠商對比
大數據計算模型(一)——批處(chu)理MapReduce
1. MapReduce產生背景(jing)與(yu)適用場(chang)景(jing)
2. MapReduce計(ji)算模(mo)型的(de)基本(ben)原理
3. MapReduce作業執行流程(cheng)
4. MapReduce編程模(mo)型: Map處理和Reduce處理
5. MapReduce處理流程(cheng):數(shu)據(ju)(ju)讀(du)取collect、中(zhong)間數(shu)據(ju)(ju)sort、中(zhong)間數(shu)據(ju)(ju)spill、中(zhong)間數(shu)據(ju)(ju)shuffle、聚合分析reduce
6. MapReduce開(kai)發高級應(ying)用(yong):Combiner技術與應(ying)用(yong)場(chang)景、Partitioner技術與應(ying)用(yong)場(chang)景、多Reducers應(ying)用(yong)
7. MapReduce開發(fa)與應用實戰:Hadoop平(ping)臺搭建與運(yun)行(xing);MapReduce安裝與部署;
8. 應用案例(li):基于HDFS+MapReduce集(ji)(ji)成的服務器日志分析采(cai)集(ji)(ji)、存儲(chu)與分析MapReduce程序實例(li)開發與運行
9. MapReduce參數調優與性能優化技巧
大數據存儲系統與應用實踐
1. 分布式文(wen)件(jian)系統HDFS產生背景與適用場景
2. HDFS master-slave系統架(jia)構與讀寫工作原(yuan)理
3. HDFS核(he)心組(zu)件技術(shu)講解(jie),NameNode與fsimage、editslog,DataNode與數據(ju)塊(kuai)
4. HDFS Federation機制,viewfs機制,使用場景講解
5. HDFS高可(ke)用保證機制,SecondaryNameNode,NFS冷備(bei)份,基于zookeeper的HA方案
6. HDFS參數調優與性(xing)能優化
大數據實戰練習一
1. Hadoop平臺搭(da)建、部署與應用(yong)實(shi)踐,包含HDFS分布式文件(jian)系統,YARN資(zi)源管理(li)軟件(jian),MapReduce計算框架軟件(jian)
2. HDFS 文件、目(mu)錄創建、上傳、下載等(deng)命令(ling)操作,HDFS合并、歸檔操作,HDFS監(jian)控平臺使用
3. MapReduce程(cheng)序在YARN上(shang)運行,YARN監控平(ping)臺使用(yong)
Hadoop框架與生態發展,以及(ji)應用實踐操作
1. Hadoop的(de)發展歷(li)程
2. Hadoop 1.0的核心(xin)組件JobTracker,TaskTracker,以及(ji)適用范圍
3. Hadoop 2.0的核心組件YARN工作原理,以(yi)及(ji)與Hadoop 1.0的聯(lian)系(xi)與區別
4. Hadoop關鍵機制:任(ren)務(wu)(wu)推測(ce)執(zhi)行,任(ren)務(wu)(wu)容(rong)錯,任(ren)務(wu)(wu)選擇執(zhi)行,心跳(tiao)機制
5. Hadoop YARN的資源管理(li)與作業調(diao)度(du)機制:FIFO調(diao)度(du),Capacity調(diao)度(du)器,Fair調(diao)度(du)器
6. Hadoop 常(chang)用參數調優與性能優化(hua)技術
大數據計(ji)算模型(二(er))——實時處(chu)理/內(nei)存計(ji)算 Spark
1. MapReduce計(ji)算模型(xing)的瓶頸
2. Spark產生動機、基(ji)本概念與適用(yong)場景(jing)
3. Spark編(bian)程模型與RDD彈性分布(bu)式數據(ju)集的工作(zuo)原(yuan)理與機制
4. Spark實時處理平臺運行(xing)架構與核心組件(jian)
5. Spark RDD主要Transformation:map, flatMap, filter, union, sample, join, reduceByKey, groupByKey
6. Spark RDD主要action:count,collect,reduce,saveAsTextFile
7. Spark寬、窄(zhai)依賴關系(xi)與DAG圖分析(xi)
8. Spark容錯機制
9. Spark作業調(diao)度(du)機(ji)制
10. Spark緩存(cun)機制:Cache操(cao)(cao)作,Persist操(cao)(cao)作與存(cun)儲級別
11. Spark作業(ye)執行機制:執行DAG圖、任務集、executor執行模型、 BlockManager管(guan)理
12. Spark standardalone,Spark on YARN運行模式
13. Scala開(kai)發介(jie)紹(shao)(shao)與Spark常用Transformation函數介(jie)紹(shao)(shao)
14. Spark調(diao)(diao)優:序(xu)列(lie)化(hua)機(ji)制(zhi)、RDD復(fu)用、Broadcast機(ji)制(zhi)、高性能(neng)算(suan)子(zi)、資源參數調(diao)(diao)優
大數據倉(cang)庫查詢技(ji)術Hive、SparkSQL、Impala,以及應用實踐
1. 基于MapReduce的大型(xing)分(fen)布式數據倉(cang)庫Hive基礎(chu)知識與應用場景
2. Hive數據倉庫的(de)平臺架(jia)構與核(he)心技術剖(pou)析(xi)
3. Hive metastore的工作機制與應用
4. Hive內部表和(he)外(wai)部表
5. Hive 分區、分桶(tong)機制
6. Hive行、列存(cun)儲(chu)格式
7. 基于Spark的大型分布式數據倉(cang)庫(ku)SparkSQL基礎知識與應(ying)用場景
8. Spark SQL實時數據倉(cang)庫(ku)的實現原理與工作機制(zhi)
9. SparkSQL數據(ju)模型DataFrame
10. SparkSQL程(cheng)序開(kai)發(fa)與
11. SparkSQL數據讀取與結果保存(cun):json,Hive table,Parquet file,RDD
12. SparkSQL和Hive的區別與(yu)聯系
13. SparkSQL操作實戰
14. 基于MPP的大型分布式數據(ju)倉庫Impala基礎知識與應用場景
15. Impala實(shi)時查詢系統(tong)平臺架構、關鍵技(ji)術(shu)介(jie)紹,以(yi)及與Hive,SparkSQL的對比
Hadoop集群(qun)運維監(jian)控工具
1. Hadoop運維(wei)管理監控系統(tong)Ambari工具介紹
2. 第三(san)方運(yun)維系統與(yu)工具Ganglia, Nagios
大數據實戰練習二
1. 基(ji)于 Hadoop平臺(tai)搭建、部署與配置Spark集群(qun),Spark shell環境實踐操作,Spark案例程序分析
2. 基于(yu)sbt的Spark程序編譯、開發與(yu)提交(jiao)運行
3. 應用案例一:基于(yu)Spark的服務器運行日志(zhi)TopN分析(xi)、程序(xu)實例開發
4. 應用(yong)案(an)例二: 基于Spark的搜索(suo)引(yin)擎日志熱詞與用(yong)戶分(fen)析、程序(xu)實例開(kai)發
5. 基于(yu)MapReduce的(de)Hive數(shu)(shu)據倉庫(ku)實踐,Hive集(ji)群安裝部署,基于(yu)文件的(de)Hive數(shu)(shu)據倉庫(ku)表導入導出與分區操作(zuo),Hive SQL操作(zuo),Hive客戶(hu)端操作(zuo)
6. SparkSQL shell實踐操(cao)作:數據表讀取、查詢與結果保存
大數據計算模型(三)——流處(chu)理Storm, SparkStreaming
1. 流數據(ju)處(chu)理應用場景與流數據(ju)處(chu)理的特(te)點
2. 流數據處(chu)理工(gong)具Storm的平臺架構與集群(qun)工(gong)作原理
3. Storm關鍵(jian)技術與并發(fa)機制
4. Storm編(bian)程模型與基本開發模式
5. Storm數據流分組(zu)
6. Storm可靠性保證與Acker機制
7. Storm應用(yong)案例分析
8. 流數(shu)據處理工具Spark Streaming基本概念與數(shu)據模(mo)型
9. SparkStreaming工作機制
10. SparkStreaming程序開發介紹
11. SparkStreaming的全局統計和窗口函數
12. Storm與SparkStreaming的對比
13. SparkStreaming開發案例:基(ji)于文件流的SparkStreaming程序開發;基(ji)于socket消息的SparkStreaming程序開發
大數據與機器學習技術(shu)
1. 機(ji)器學(xue)習發展歷程(cheng)
2. 機器學(xue)習與(yu)大數據關聯(lian)與(yu)區別
3. 數據挖掘經(jing)典(dian)算法
4. 預測算法(fa):線性回歸與應(ying)用場景(jing),非線性回歸與應(ying)用場景(jing)
5. 分類算(suan)(suan)法:邏輯回歸與應(ying)用(yong)場(chang)景(jing),決策樹與應(ying)用(yong)場(chang)景(jing),樸(pu)素貝葉斯算(suan)(suan)法與應(ying)用(yong)場(chang)景(jing),支持向量機(ji)算(suan)(suan)法與應(ying)用(yong)場(chang)景(jing)
6. 聚類算法(fa); k-means與應用場景(jing)
7. 基于Hadoop的大數據機器學習技術
8. 基于(yu)MapReduce的機器學習庫Mahout
9. Mahout支持的數據挖掘算法
10. Mahout編(bian)程模(mo)型(xing)與發(fa)
11. 基(ji)于Spark的機器(qi)學(xue)習庫Spark MLlib
12. Spark MLlib支持(chi)的(de)數(shu)據挖掘算法
13. Spark MLlib編程模型與開發:基于Spark MLlib的(de)文本分類,基于Spark MLlib的(de)聚類
大數(shu)據ETL操作工具,與大數(shu)據分布式采集(ji)系統
1. Hadoop與DBMS之間數據交互工具的應用
2. Sqoop導(dao)入導(dao)出數據的(de)工(gong)作原(yuan)理
3. Flume-NG數據(ju)采(cai)集系統的數據(ju)流(liu)模型與系統架構
4. Kafka分布式(shi)消息訂閱系統(tong)的應用介紹與平臺架構,及其使(shi)用模式(shi)
面向OLTP型應(ying)用的(de)NoSQL數據庫及應(ying)用實踐
1. 關系型數據庫瓶頸,以及NoSQL數據庫的(de)(de)發(fa)展,概念,分類,及其在半結構(gou)化和非結構(gou)化數據場景下的(de)(de)適(shi)用(yong)范(fan)圍
2. 列(lie)存儲NoSQL數據(ju)庫HBase簡介與數據(ju)模型(xing)剖析(xi)
3. HBase分布式集群系統架構與(yu)讀寫機制,ZooKeeper分布式協調服(fu)務系統的(de)工作原理(li)與(yu)應用
4. HBase表設(she)計(ji)模式與primary key設(she)計(ji)規范(fan)
5. 文檔NoSQL數據庫(ku)MongoDB簡(jian)介與數據模型剖析(xi)
6. MongoDB集群模式、讀(du)寫機制與(yu)常用API操作
8.鍵值(zhi)型NoSQL數(shu)據庫Redis簡介與數(shu)據模型剖析(xi)
9.Redis多(duo)實(shi)例(li)集群(qun)架構與(yu)關鍵技術
10.NewSQL數據庫技(ji)術簡介(jie)及其適用場景
大數據實戰練習三
1.Sqoop安裝、部(bu)署與(yu)配(pei)置,基于Sqoop、MySQL與(yu)Hive操作(zuo)MySQL數(shu)據(ju)庫與(yu)Hive數(shu)據(ju)倉庫數(shu)據(ju)導入導出
2.Kafka安裝、部署(shu)與配置,基于Kafka創建(jian)和消(xiao)費topic實(shi)踐操作
3.Flume+HDFS+MapReduce/Spark大數據采集、存儲(chu)與分(fen)析實踐操作 |