Skip to content
muyannian edited this page Jul 15, 2013 · 14 revisions

海狗介绍

海狗(Higo)是一个分布式的在线分析查询系统,基于hadoop,lucene,solr,蓝鲸等开源系统作为实现,类SQL的查询语法。 海狗是一个能够对大量数据进行分布式处理的软件框架。海狗是快速的高性能的,他的底层使用了索引技术和列式存储,数据扫描的速度大为增加。Higo是分布式的,它以并行的方式工作,通过并行处理加快处理速度。

海狗适合的应用:

  • 总数据规模在十亿到百亿,成百上千个维度(生产中的数据规模为10台机器,400亿数据)
  • 每次查询扫描的总数据量超过亿(生产中的扫描为1月数据30亿数据)
  • 想要快速的(几秒)得到统计结果
  • 机器故障后能够自动恢复服务
    </ul>
    <h1><strong>海狗常见的统计功能</strong></h1>
    <ul>
      <li>查询明细以及对明细TopN排序</li>
      <li>对数据进行sum,max,min,count,avg,count(distinct)等统计</li>
      <li>多列group by求sum,max,min,count以及topN排序</li>
      <li>支持like,contains,in,等于,不等于,大于等于,小于等于等过滤方式</li>
    </ul>
  </div>
</div>