第八周 10-20 大數(shù)據(jù)繼續(xù)學(xué)習(xí) 運(yùn)用在 模具展覽中
今天 10-20 ,還是 1小時(shí) 車程, 最終停車過來, 已經(jīng) 9點(diǎn) 了 。
上午 zookeepper , 下午 spark ,
10:30 開始, 之前一直在討論
HDFS 高可用 是使用 ZOOKEEPER
這個(gè)還是對(duì)應(yīng)的 KAFKA里面也能用 Zookeeper
下面的是盧老師講的
-------- 下午開始 ,復(fù)習(xí) zookeeper 的內(nèi)容, 僅僅是一種服務(wù)包, 并不是語言, spark 也是一個(gè)運(yùn)用包。
主要是為了, 等待出問題的時(shí)候, 才進(jìn)行重新選領(lǐng)導(dǎo),以及重新廣播的應(yīng)急辦法就是 zookeeper 。
大數(shù)據(jù)組件原理總結(jié)-Hadoop、Hbase、Kafka、Zookeeper、Spark
Hadoop原理
分為HDFS與Yarn兩個(gè)部分。HDFS有Namenode和Datanode兩個(gè)部分。
HBase原理
Hbase是列存儲(chǔ)數(shù)據(jù)庫。其存儲(chǔ)的組織結(jié)構(gòu)就是將相同的列族存儲(chǔ)在一起,因此得名的。
Zookeeper原理
Zookeeper是一個(gè)資源管理庫,對(duì)節(jié)點(diǎn)進(jìn)行協(xié)調(diào)、通信、失敗處理、節(jié)點(diǎn)損壞的處理等,是一個(gè)無中心設(shè)計(jì),主節(jié)點(diǎn)通過選舉產(chǎn)生。
Kafka原理
Kafka是分布式發(fā)布-訂閱消息系統(tǒng)。
Spark原理
spark 可以很容易和yarn結(jié)合,直接調(diào)用HDFS、Hbase上面的數(shù)據(jù),和hadoop結(jié)合。
應(yīng)用場景:集群管理
Hbase Master選舉則是zookeeper經(jīng)典的使用場景;
Storm集群管理
Zookeeper通過維護(hù)一個(gè)分布式目錄數(shù)據(jù)結(jié)構(gòu),實(shí)現(xiàn)分布式協(xié)調(diào)服務(wù)
利用Zookeeper有序目錄的創(chuàng)建和刪除,實(shí)現(xiàn)分布式共享鎖。
------------下午 4:20 開始學(xué)習(xí) Spark 2009年誕生于apache 一站式的批處理,實(shí)時(shí)流處理
Spark生態(tài)系統(tǒng)已經(jīng)發(fā)展成為一個(gè)包含多個(gè)子項(xiàng)目的集合,其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子項(xiàng)目,Spark是基于內(nèi)存計(jì)算的大數(shù)據(jù)并行計(jì)算框架,提高了在大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理的實(shí)時(shí)性,同時(shí)保證了高容錯(cuò)性和高可伸縮性,允許用戶將Spark部署在大量廉價(jià)硬件之上,形成集群。
使用的語言是Scala,項(xiàng)目的core部分的代碼只有63個(gè)Scala文件,非常短小精悍。
Spark 是在 Scala 語言中實(shí)現(xiàn)的,它將 Scala 用作其應(yīng)用程序框架。
與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對(duì)象一樣輕松地操作分布式數(shù)據(jù)集。
Spark 4大特性