Hadoop是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。在Hadoop家族中,包含多个产品,像HBase、Hive、Zookeeper和Pig等,是为了让Hadoop用起来更加高效而衍生出来的产品,叫做Hadoop生态圈。这里盗用网上的一张图(来自http://blog.fens.me/hadoop-family-roadmap/):
自己对这些产品的理解:
Hadoop:分布式开源计算框架,包含文件存储系统HDFS和文件分析处理系统MapReduce
Hive:搭建在Hadoop平台的SQL查询语言,通过简单的SQL语句,转化成Hadoop任务
Pig:数据流语言
HBase:分布式数据库
- 《Hadoop: The Definitive Guide》(Hadoop权威指南)推荐看英文原版