基于Storm構建分布式實時處理應用初探

基于Storm構建分布式實時處理應用初探

Hadoop 2年前 (2017-11-05) 網友投稿

最近利用閑暇時間,又重新研讀了一下Storm。認真對比了一下Hadoop,前者更擅長的是,實時流式數據處理,后者更擅長的是基于HDFS,通過MapReduce方式的離線數據分析計算。對于Hadoop,本身不擅長實時的數據分析處理。兩者的共同點都是分布式架構,而且都類似有主/從關系的概念。 本文我不會具體闡述Storm集群和Zookeeper集群如何部署的問題,這里想通過一個實際的案例切入,分析一下

Hadoop集群搭建(二) HDFS

Hadoop集群搭建(二) HDFS

Hadoop 2年前 (2017-10-18) 網友投稿

HDFS只是Hadoop最基本的一個服務,很多其他服務,都是基于HDFS展開的。所以部署一個HDFS集群,是很核心的一個動作,也是大數據平臺的開始。 安裝Hadoop集群,首先需要有Zookeeper才可以完成安裝。如果沒有Zookeeper,請先部署一套Zookeeper。另外,JDK以及物理主機的一些設置等。都請參考下文: Hadoop集群搭建(一) Zookeeper 下面開始HDFS的安裝

Hadoop集群搭建(一) Zookeeper

Hadoop集群搭建(一) Zookeeper

Hadoop 2年前 (2017-10-17) 網友投稿

作為Hadoop初學者,自然要從安裝入手。而hadoop的優勢就是分布式,所以,也一定要安裝分布式的系統。 整體安裝步驟,包括Zookeeper+HDFS+Hbase,為了文章簡潔,我會分三篇blog記錄我的安裝步驟。 本文記錄的是集群環境準備,zookeeper的安裝步驟。 ~~~~~~~~~~~環境準備部分~~~~~~~~~~~~~~~~~ IP部署規劃(準備了三個虛擬機,操作系統是Cento

Hadoop入門掃盲:hadoop發行版介紹與選擇

Hadoop入門掃盲:hadoop發行版介紹與選擇

Hadoop 2年前 (2017-08-02) 網友投稿

一、hadoop發行版介紹 目前Hadoop發行版非常多,有Intel發行版,華為發行版、Cloudera發行版(CDH)、Hortonworks版本等,所有這些發行版均是基于Apache Hadoop衍生出來的,之所以有這么多的版本,是由于Apache Hadoop的開源協議決定的:任何人可以對其進行修改,并作為開源或商業產品發布/銷售。 目前而言,不收費的Hadoop版本主要有三個,都是國外廠

同程旅游 Hadoop 安全實踐

同程旅游 Hadoop 安全實踐

Hadoop 3年前 (2017-01-17) 網友投稿

0x01 背景 當前大一點的公司都采用了共享Hadoop集群的模式。 共享Hadoop是指:數據存儲方面,公有/私有的文件目錄混合存放在hdfs上,不同的用戶根據需求訪問不同的數據; 計算資源方面,管理員按部門或業務劃分若干個隊列,每個隊列分配一定量的資源,每個用戶/組只能使用某個隊列中得資源。這種模式可以減小維護成本,避免數據過度冗余,減少硬件成本。但這種類似于云存儲/云計算的方式,面臨的一個最

Hadoop集群datanode磁盤不均衡的解決方案

Hadoop集群datanode磁盤不均衡的解決方案

Hadoop 3年前 (2016-09-20) 鐵匠

一、引言: Hadoop的HDFS集群非常容易出現機器與機器之間磁盤利用率不平衡的情況,比如集群中添加新的數據節點,節點與節點之間磁盤大小不一樣等等。當hdfs出現不平衡狀況的時候,將引發很多問題,比如MR程序無法很好地利用本地計算的優勢,機器之間無法達到更好的網絡帶寬使用率,機器磁盤無法利用等等。 二、問題: 因業務需要搭建一個新hadoop集群,并將老的hadoop集群中的數據遷移至新的had

Hadoop MapReduce如何進行WordCount自主編譯運行

Hadoop MapReduce如何進行WordCount自主編譯運行

Hadoop 3年前 (2016-09-20) 鐵匠

上次我們已經搭建了Hadoop的偽分布式環境,并且運行了一下Hadoop自帶的例子–WordCount程序,展現良好。但是大多數時候還是得自己寫程序,編譯,打包,然后運行的,所以做一次自編譯打包運行的實驗。 編輯程序 在Eclipse或者NetBeans中編輯WordCount.java程序,用IDE的好處就是我們可以更方便的選擇各種依賴的jar包,并且它會幫我們編譯好,我們只需要去workspa

用Python端對端數據分析識別機器人“僵尸粉

用Python端對端數據分析識別機器人“僵尸粉

Hadoop 3年前 (2016-08-22) 鐵匠

導讀:不僅微博,在twitter中也存在大批的“僵尸粉”。Twitter中的“僵尸粉”不僅能夠在無人干預下撰寫和和發布推文的程序,并且所產生的推文相當復雜。如何識別這批“僵尸粉”或者說“機器人粉絲”?下面我們將通過Python的Pandas庫、自然語言處理學習NLTK和scikit-learn創建分類器對Twitter機器人進行識別。 在本文中,我想要討論一個互聯網現象:機器人,特別是Twitte

使用Eclipse編譯運行MapReduce程序 Hadoop2.6.0_Ubuntu/CentOS

使用Eclipse編譯運行MapReduce程序 Hadoop2.6.0_Ubuntu/CentOS

Hadoop 3年前 (2016-08-20) 鐵匠

本教程介紹的是如何在 Ubuntu/CentOS 中使用 Eclipse 來開發 MapReduce 程序,在 Hadoop 2.6.0 下驗證通過。雖然我們可以使用命令行編譯打包運行自己的MapReduce程序,但畢竟編寫代碼不方便。使用 Eclipse,我們可以直接對 HDFS 中的文件進行操作,可以直接運行代碼,省去許多繁瑣的命令。本教程由廈門大學數據庫實驗室出品,轉載請注明。 環境 本教程

使用命令行編譯打包運行自己的MapReduce程序 Hadoop2.6.0

使用命令行編譯打包運行自己的MapReduce程序 Hadoop2.6.0

Hadoop 3年前 (2016-08-20) 鐵匠

網上的 MapReduce WordCount 教程對于如何編譯 WordCount.java 幾乎是一筆帶過… 而有寫到的,大多又是 0.20 等舊版本版本的做法,即 javac -classpath /usr/local/hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jar WordCount.java,但較新的 2.X 版本中,已經沒有 hadoop-core*

切換注冊

登錄

忘記密碼 ?

您也可以使用第三方帳號快捷登錄

切換登錄

注冊

掃一掃二維碼分享
青海11选5开奖结果走势图