小明免费-小明免费视频-小明免费视频一区二区-小明免费看视频-国产精品视频免费播放-国产精品视频国产永久视频

  • 企盾分響-北京IT外包運(yùn)維-機(jī)房建設(shè)-網(wǎng)絡(luò)維護(hù)-寬帶網(wǎng)絡(luò)組網(wǎng)方案-網(wǎng)絡(luò)接入服務(wù)商

  超級(jí)計(jì)算主要是電腦的費(fèi)用,不是建筑的費(fèi)用,所以很難估算。而且個(gè)人投資建設(shè)不僅是租金問題,如果有業(yè)務(wù)需求還是找深圳超算比較好,首先需要進(jìn)行需求分析,目前就2大塊需求,太抽象,無法分解,數(shù)據(jù)分析,是什么數(shù)據(jù)的分析?要怎樣分析?數(shù)據(jù)記錄要怎樣記錄?實(shí)時(shí)記錄?還是定時(shí)記錄?等等,這些需求明確了以后,在進(jìn)行需求任務(wù)分解,再來確定開發(fā)工作量,最后才能評(píng)估出價(jià)格。

  你可能正在做數(shù)據(jù)分析、數(shù)據(jù)處理或是數(shù)據(jù)開發(fā)的工作,業(yè)務(wù)你被繁重的需求壓迫的失去了對(duì)進(jìn)一步了解大數(shù)據(jù)內(nèi)在或是周邊的情況,還記得你第一次拿著辛苦賺來的工資為自己買的電腦嗎?高配置過萬,低的配置也大概三四千,平均就按5000元人民幣算。我們對(duì)比下個(gè)人電腦和公司數(shù)據(jù)服務(wù)器的對(duì)比。

  建一個(gè)數(shù)據(jù)中心要多少錢?

  配置個(gè)人臺(tái)式機(jī)數(shù)據(jù)服務(wù)器

  電源290W500W

  硬盤500GB~1TB1TB~70TB

  內(nèi)存8g~16g16g/32g/64g

  CPU8核16核以上

  網(wǎng)卡帶寬12.8MB/S~128MB/S128MB/S~1280MB/S

  服務(wù)器就是更高配置的計(jì)算機(jī),其耗電更多、存儲(chǔ)更大、內(nèi)存和cpu更強(qiáng)勁,其需要對(duì)外提供服務(wù),所以其網(wǎng)卡帶寬更大。我們自己在家用的到的網(wǎng)絡(luò)下載速度能達(dá)到3-4MB/s就很不錯(cuò)了,計(jì)算平臺(tái)中各節(jié)點(diǎn)的數(shù)據(jù)傳輸速度大概得在100MB/s-1000MB/s。以下分別講下網(wǎng)卡、硬盤、CPU、內(nèi)存這4個(gè)方面對(duì)計(jì)算平臺(tái)的影響:

  1、網(wǎng)卡帶寬對(duì)計(jì)算的影響:

  我們具體計(jì)算一個(gè)網(wǎng)速傳輸問題,一個(gè) 100GB的文件在100Mb/s的帶寬下要傳輸多長(zhǎng)時(shí)間:先換算單位

  100 GB = 100×1024×1024 KB = 104857600 KB

  100 Mb/s = 100×1024÷8=12800 KB /s

  兩者相除:104857600 / 12800 = 8192 s

  換算時(shí)間:8192 s = 136.5 min = 2小時(shí)16分30秒

  也就是說,100GB的文件在 百兆網(wǎng)卡(12.8MB/S)下,需要2小時(shí)16分30秒秒完成傳輸。那么:

  如果是千兆網(wǎng)卡(128MB/S),那么14分鐘內(nèi)就可以完成傳輸

  如果是萬兆網(wǎng)卡(1280MB/S),那么1.4分鐘內(nèi)就可以完成傳輸

  2、硬盤對(duì)計(jì)算的影響:

  目前硬盤有固態(tài)硬盤(SSD)、機(jī)械硬盤(HDD )。目前,1TB機(jī)械硬盤大概在300元人民幣左右,而固態(tài)硬盤在1000元以上。機(jī)械硬盤的讀寫速度一般在100MB/s 左右,而一般固態(tài)硬盤的讀寫速度可達(dá) 500MB/s左右。雖然固態(tài)硬盤體積更小,性能更佳,但目前大數(shù)據(jù)存儲(chǔ)還是用機(jī)械硬盤,因?yàn)閮r(jià)格便宜,也易維護(hù)。固態(tài)硬盤目前常用于個(gè)人電腦,如果個(gè)人資金充足,可以給自己的電腦更新?lián)Q代,用下固體硬盤,速度會(huì)提升明顯。

  大數(shù)據(jù)平臺(tái)是I/O密集型的,數(shù)據(jù)是存儲(chǔ)在硬盤中的,在Hadoop平臺(tái)上,我們每一次的數(shù)據(jù)查詢工作,要從硬盤中讀取,每一次的數(shù)據(jù)寫入,要存儲(chǔ)在硬盤。一份數(shù)據(jù)可以切割后存儲(chǔ)在不同的硬盤上,而獲取數(shù)據(jù)時(shí),也就需要從不同的硬盤中獲得。

  3、CPU對(duì)計(jì)算的影響:

  CPU核心數(shù)和線程數(shù)。

  CPU個(gè)數(shù)即CPU芯片個(gè)數(shù),CPU的核心數(shù)是指物理上,也就是硬件上存在著幾個(gè)核心。比如,雙核就是包括2個(gè)相對(duì)獨(dú)立的CPU核心單元組,四核就包含4個(gè)相對(duì)獨(dú)立的CPU核心單元組。

  線程數(shù)是一種邏輯的概念,簡(jiǎn)單地說,就是模擬出的CPU核心數(shù)。比如,可以通過一個(gè)CPU核心數(shù)模擬出2線程的CPU,也就是說,這個(gè)單核心的CPU被模擬成了一個(gè)類似雙核心CPU的功能。我們從任務(wù)管理器的性能標(biāo)簽頁中看到的是兩個(gè)CPU。 對(duì)于一個(gè)CPU,線程數(shù)總是大于或等于核心數(shù)的。一個(gè)核心最少對(duì)應(yīng)一個(gè)線程,但通過超線程技術(shù),一個(gè)核心可以對(duì)應(yīng)兩個(gè)線程,也就是說它可以同時(shí)運(yùn)行兩個(gè)線程。

  CPU之所以要增加線程數(shù),是源于多任務(wù)處理的需要。線程數(shù)越多,越有利于同時(shí)運(yùn)行多個(gè)程序,因?yàn)榫€程數(shù)等同于在某個(gè)瞬間CPU能同時(shí)并行處理的任務(wù)數(shù)。 因此,線程數(shù)是一種邏輯的概念,簡(jiǎn)單地說,就是模擬出的 CPU 核心數(shù)。一個(gè)核心最少對(duì)應(yīng)一個(gè)線程,但英特爾有個(gè)超線程技術(shù)可以把一個(gè)物理線程模擬出兩個(gè)線程來用,充分發(fā)揮 CPU 性能,即一個(gè)核心可以有兩個(gè)到多個(gè)線程。

  簡(jiǎn)單來說,CPU核心數(shù)越多,就可以越多同時(shí)處理計(jì)算任務(wù)。大數(shù)據(jù)中存儲(chǔ)是分布式的,而一個(gè)計(jì)算任務(wù)也可以拆分成不同的子任務(wù),能夠讓互不干擾的子任務(wù)同時(shí)執(zhí)行,顯然后大大縮短計(jì)算時(shí)間。

  因特爾4核心的CPU,目前市場(chǎng)價(jià)格大概在1000元左右。

  4、內(nèi)存對(duì)計(jì)算的影響:

  硬盤作為外儲(chǔ)設(shè)備,相對(duì)的,計(jì)算機(jī)有內(nèi)部存儲(chǔ)的地方,這就是內(nèi)存。一般的講,內(nèi)存的大小目前限制著我們操作個(gè)人電腦的流暢度,也就是你自己電腦比較卡的時(shí)候(一個(gè)行政人員的電腦內(nèi)存4g,而一個(gè)技術(shù)人員得電腦內(nèi)存最好不低于16g),大多是內(nèi)存資源的不足。目前1GB內(nèi)存的購(gòu)買價(jià)大概在50元人民幣,而1GB的硬盤價(jià)格是0.5元人名幣,兩者單價(jià)相差100倍。

  1TB內(nèi)存的價(jià)格是5萬元

  100TB硬盤的價(jià)格也是5萬元

  為什么相差真么大,因?yàn)閮?nèi)存對(duì)數(shù)據(jù)的讀寫速度比硬盤快很很很多,但如果要長(zhǎng)久保留數(shù)據(jù)得把數(shù)據(jù)寫入磁盤。因?yàn)閮?nèi)存和硬盤的價(jià)格懸殊,所以MapReduce計(jì)算框架下,采取得是計(jì)算中間的數(shù)據(jù)會(huì)先寫入硬盤,后面的計(jì)算再把數(shù)據(jù)從硬盤讀入內(nèi)存。打個(gè)比方,你有100GB的源數(shù)據(jù),本來這100GB可以全部讀取到內(nèi)存做計(jì)算,計(jì)算后把最終結(jié)果再寫入磁盤,但因?yàn)閮?nèi)存有限且在MapReduce計(jì)算框架下,硬盤空間換時(shí)間,必須得有中間結(jié)果數(shù)據(jù)寫入硬盤,作為緩沖,彌補(bǔ)內(nèi)存的不足。所以為什么現(xiàn)在spark越來越流行,內(nèi)存計(jì)算速度肯定快!

  我們綜合帶寬、硬盤、CPU、內(nèi)存,在資源一定的情況下,如果使用人很多,在資源分配上,需要排隊(duì)等待計(jì)算任務(wù)執(zhí)行。一定的資源不可能同時(shí)被所有使用者同時(shí)計(jì)算,所以必然需要排隊(duì)。有的時(shí)候,你覺得你的sql跑的慢,并不完全是你sql太復(fù)雜,還有可能是你的sql任務(wù)還沒開始執(zhí)行,正在排隊(duì)等待中。

  進(jìn)一步的思考,多臺(tái)計(jì)算機(jī)參與對(duì)同一文件的處理,如果這個(gè)文件足夠大,那么要這個(gè)文件分割儲(chǔ)存到不同的計(jì)算機(jī)上;為了防止數(shù)據(jù)丟失,文件都會(huì)復(fù)制兩個(gè)副本;為了提升計(jì)算效率,先就近計(jì)算存儲(chǔ)在每個(gè)計(jì)算機(jī)上部分文件,也就是每臺(tái)計(jì)算機(jī)分擔(dān)一份小任務(wù)。

  是的,數(shù)據(jù)平臺(tái)保存一份數(shù)據(jù),其實(shí)一般會(huì)保存3份同樣的數(shù)據(jù)。也就是你在hive建了一張500GB的表,其在數(shù)據(jù)平臺(tái)的實(shí)際大小會(huì)達(dá)到1500GB。

  正因?yàn)榇髷?shù)據(jù)平臺(tái)這種分布式存儲(chǔ)、分布式計(jì)算的基本特性,隨著數(shù)據(jù)越多,服務(wù)器就得需要一批批的被采購(gòu)。

  1、機(jī)器的成本

  10臺(tái)機(jī)器每臺(tái)64GB、30TB的服務(wù)器,每臺(tái)價(jià)格是5萬元左右,那么十臺(tái)就是50萬元。

  2、機(jī)器的耗電

  這里特別說下電費(fèi)。

  每臺(tái)服務(wù)器的電源大概是500W,1000W時(shí)為1度電,500瓦時(shí)就是0.5度電,公式為:

  多少瓦÷1000瓦時(shí)×多少小時(shí)=多少度電

  電費(fèi)按每度0.8元,那么一臺(tái)服務(wù)器的24小時(shí)會(huì)用9.6塊錢。10臺(tái)服務(wù)器每年的用電量是35040元。電費(fèi)一般是包括在下面要說的托管費(fèi)用得,這里特別說明下。服務(wù)器在耗電下,也產(chǎn)生了大量的熱量,所以也服務(wù)器也需要存放在制冷系統(tǒng)下。10臺(tái)服務(wù)器每年的用電量就達(dá)3.5萬塊,那么1000臺(tái)每年就是得用300萬元,10000臺(tái)就得用3000萬元。規(guī)模越大,運(yùn)行成本就越高。所以,巨頭互聯(lián)網(wǎng)公司一般都有自建的數(shù)據(jù)中心,建在西部。因?yàn)槲鞑侩娰M(fèi)便宜,建在山洞也安全。用電成本絕對(duì)是要考慮的。

  3、機(jī)器的托管費(fèi)用

  服務(wù)器托管收費(fèi)標(biāo)準(zhǔn)是由一下幾個(gè)因素決定的:

  1、服務(wù)器大小

  2、IDC機(jī)房

  3、運(yùn)營(yíng)商線路

  4、帶寬大小

  服務(wù)器需要提供穩(wěn)定的服務(wù),還得防火防盜,一般會(huì)找專業(yè)的機(jī)房服務(wù),托管機(jī)器。托管費(fèi)用一般包括:機(jī)位費(fèi)+網(wǎng)絡(luò)帶寬費(fèi)+電費(fèi)+日常維護(hù)費(fèi)用。每天臺(tái)機(jī)器一年的托管費(fèi)用按6000元,10臺(tái)服務(wù)器的費(fèi)用一年是6萬元。算上電費(fèi)。10臺(tái)服務(wù)器每年的托管費(fèi)用得10萬塊錢。

  4、我們看數(shù)據(jù)平臺(tái)的人力成本

  工資成本:一個(gè)大數(shù)據(jù)平臺(tái)大致在10人-30人規(guī)模,平均每人每月工資10000人民幣,按30人計(jì)算,一年的工資大概在400萬。

  軟件成本:雖然大數(shù)據(jù)軟件大多是開源的,但前端產(chǎn)品大多都得自己開發(fā),但是大多情況下自己開發(fā)出來的爛產(chǎn)品,不如老老實(shí)實(shí)花錢從外部買個(gè),最后老板被說服,狠狠心,買。 30萬的軟件產(chǎn)品買起。

  綜上:300TB、30人的數(shù)據(jù)平臺(tái),一年的總花費(fèi):50萬的機(jī)器硬件投入 + 10萬的服務(wù)費(fèi)(包括電費(fèi)、機(jī)器托管費(fèi)) + 400萬的人力工資 + 30萬的軟件服務(wù)費(fèi) =450萬-500萬間

  注意這只是300TB的存儲(chǔ)情況,TB級(jí)別的,那么如果是PB級(jí)別的呢?到了PB級(jí)別的時(shí)候,數(shù)據(jù)平臺(tái)的分工將是特別明確,有搞數(shù)據(jù)接入的小組、有搞數(shù)據(jù)計(jì)算的小組、有搞數(shù)據(jù)倉庫的小組、有搞運(yùn)維的小組、有搞產(chǎn)品前端的小組。都是要人的。水漲船高,同時(shí)也騎虎難下。花費(fèi)怎么也得上千萬吧。

  當(dāng)數(shù)據(jù)規(guī)模小時(shí),一般人力成本比機(jī)器貴,達(dá)到一定規(guī)模后,機(jī)器比人力成本貴。(如果你一定要深度搞大數(shù)據(jù),一定要找個(gè)機(jī)器成本比人力成本要多的平臺(tái)。這樣說也不是沒有根據(jù),如果人力成本比機(jī)器還貴,說明數(shù)據(jù)的規(guī)模還沒有那么大)。考慮數(shù)據(jù)規(guī)模,如果你想接觸到整個(gè)大數(shù)據(jù)采集,清洗,開發(fā),應(yīng)用的每一個(gè)環(huán)節(jié),建議去規(guī)模比較小的平臺(tái),因?yàn)槟憧夏苡泻艽髾C(jī)會(huì)接觸到每個(gè)環(huán)節(jié),能夠去做各個(gè)環(huán)節(jié)的項(xiàng)目,對(duì)整個(gè)數(shù)據(jù)處理流程會(huì)有更深的認(rèn)識(shí)。如果想專研究在某項(xiàng)技術(shù)比如Kafka、Spark、Kylin等,就盡量去大平臺(tái),專人專做會(huì)更有深度發(fā)展。

  搞大數(shù)據(jù)既然這么貴,作為大數(shù)據(jù)平臺(tái)管理人員,或者使用人員,應(yīng)該從哪些方面去節(jié)省成本?

  1、不要搞大數(shù)據(jù)

  如果要搞,要做好長(zhǎng)期成本開銷的準(zhǔn)備。不排除隨著時(shí)代發(fā)展,擁有像Hadoop這樣的數(shù)據(jù)平臺(tái),會(huì)成為每個(gè)公司的標(biāo)配,像人力、行政、會(huì)計(jì)部門一樣。但是數(shù)據(jù)平臺(tái)到底能夠給企業(yè)帶來多大的價(jià)值,是只起到運(yùn)營(yíng)支持的作用?還是能夠變現(xiàn)盈利?是需要考慮的,因?yàn)閿?shù)據(jù)平臺(tái)在企業(yè)相當(dāng)?shù)臅r(shí)間內(nèi)會(huì)一直是成本部門。或者換位思考下,如果你是老板,在下屬的慫恿下,你是否愿意拿出500萬來買設(shè)備。

  2、數(shù)據(jù)的存儲(chǔ)格式及壓縮方法

  規(guī)模越大,你將認(rèn)識(shí)到存儲(chǔ)格式及壓縮方法的重要性。舉個(gè)常見的例子,你會(huì)把你的大文件壓縮后再發(fā)送郵件,或者存儲(chǔ)U盤攜帶。同樣數(shù)據(jù)平臺(tái)也需要有這種“壓縮意識(shí)”,壓縮最高可以節(jié)省約80%的空間,特別對(duì)于稀疏數(shù)據(jù),一般常用的壓縮方法是Snappy、Gzip等。

  壓縮方法有利于節(jié)省存儲(chǔ)空間,那么數(shù)據(jù)的存儲(chǔ)格式有助于節(jié)省計(jì)算資源。一般數(shù)據(jù)平臺(tái)的數(shù)據(jù)讀取操作高于數(shù)據(jù)修改寫入操作。在行式存儲(chǔ)格式(常見的text格式)下,我們用hiveSQL或者sparkSQL查詢某幾列的數(shù)據(jù),雖然我們只是要表中的某幾列數(shù)據(jù),但是會(huì)把涉及到這幾列的每一行的數(shù)據(jù)都要讀取到內(nèi)存當(dāng)中去,這樣就會(huì)加大對(duì)磁盤I/O、網(wǎng)絡(luò)帶寬、內(nèi)存的開銷。為了降低這些不必要的開銷,列式存儲(chǔ)(常見的是parquet格式)是大數(shù)據(jù)首選的存儲(chǔ)方式,這樣你在sql查詢時(shí),只需讀取select所選擇的列就可以了。

  3、數(shù)據(jù)存儲(chǔ)策略方面

  存儲(chǔ)策略包括的方面多,比如,怎么兼顧成本,取得包括內(nèi)存、硬盤、cpu在內(nèi)的計(jì)算資源合理、平衡使用,數(shù)據(jù)的冷熱分離,數(shù)據(jù)的生命周期管理等等,。“二八定律”也適用于大數(shù)據(jù)領(lǐng)域,那就是80%左右的數(shù)據(jù)是不經(jīng)常用的,我們經(jīng)常查詢的hive表,也就占全部表的20%。狠狠心,刪下數(shù)據(jù)吧!

  4、數(shù)據(jù)的成本意識(shí)

  大數(shù)據(jù)不僅是數(shù)據(jù)量大,數(shù)據(jù)復(fù)雜,經(jīng)過上述的計(jì)算,相信讀者會(huì)意識(shí)到大數(shù)據(jù)的成本也非常高。但往往公司會(huì)存著歷史數(shù)據(jù),舍不得刪,覺得以后會(huì)賣錢;一旦被寫入數(shù)據(jù)的表,員工也會(huì)覺得先留著,日后肯定用得著。隨著數(shù)據(jù)規(guī)模的上漲,平臺(tái)的擴(kuò)大,大家對(duì)GB、TB這些存儲(chǔ)單位會(huì)有一定的麻木。到了一定規(guī)模,問題的主次順序可能發(fā)生了變化,但問題絕對(duì)還存在,只是被掩蓋。

  上述內(nèi)容是“「數(shù)據(jù)中心搭建需要多少錢」建一個(gè)數(shù)據(jù)中心要多少錢?”的介紹,小編后續(xù)會(huì)陸續(xù)為大家?guī)硐嚓P(guān)知識(shí),希望對(duì)你有所幫助,更多知識(shí),請(qǐng)關(guān)注企盾分響。

咨詢反饋
掃碼關(guān)注

添加客服微信咨詢

返回頂部
主站蜘蛛池模板: 全部免费a级毛片 | 手机毛片 | 国产99视频精品草莓免视看 | 午夜宅男在线永远免费观看网 | 久久久99精品免费观看精品 | 曰本aaaaa毛片午夜网站 | 国产精品久久国产三级国不卡顿 | 99在线精品免费视频九九视 | 男女午夜视频在线观看 | 日韩三级视频在线观看 | 97国产精品欧美一区二区三区 | 日本强不卡在线观看 | 亚洲视频三级 | 欧美一区不卡二区不卡三区 | 国产美女动态免费视频 | 久草视频手机在线观看 | 久久精品国产精品亚洲精品 | 99视频有精品 | 精品日本久久久久久久久久 | 久久99亚洲精品久久久久 | 欧美影院久久 | 成人毛片全部免费观看 | 黄色一及毛片 | 成年女人免费毛片视频永久 | 真人毛片免费全部播放完整 | 美女啪啪网站又黄又免费 | 日本在线看小视频网址 | 呦视频在线一区二区三区 | 日韩精品免费视频 | 天干天干天啪啪夜爽爽色 | 亚洲国产免费 | 色涩亚洲| 美国做受三级的视频播放 | 中文国产成人精品久久水 | 免费看黄网 | 欧美日韩一区二区三区视频在线观看 | 亚洲一区二区三区在线播放 | 国产在线精品福利一区二区三区 | 三级三级三级网站网址 | 欧美国产永久免费看片 | 亚洲综合91|