Skip to content

wang-xue-qiang/bigdata-analysis

Repository files navigation

bigdata-analysis

  • 大数据收集、离线分析、实时分析经典案例。

bigdata-analysis-collect

  • 模拟生成Nginx请求日志测试数据;
  • 模拟生成电商平台用户信息注册、搜索、点击品牌、登录的测试数据;
  • 模拟生成Hadoop中WordCount、TopN、Job串行等作业的测试数据;

bigdata-analysis-elasticsearch

  • ES集群搭建文档;
  • 文档的创建新增删除;
  • 文档的查询;

bigdata-analysis-flink

  • 电商平台用户信息分析写入HBase;
  • 统计电商平台每个用户常用搜索词,(TF-IDF)算法使用;
  • 实时统计每小时电商平台中用户喜爱的品牌;
  • 实时统计网站每小时请求排行的前N名;
  • 实时统计网站每小时活跃人数两种方案:内存处理(空间换时间),Bloom过滤器(时间换空间);

bigdata-analysis-hadoop

  • WordCount案例;
  • TopN案例;
  • 多Job串行案例;
  • HiveJDBC查询案例;
  • ImpalaJDBC查询案例;

bigdata-analysis-spark

  • Spark调优案例文档梳理;
  • SparkCore的Transformation、Action操作;
  • SparkSQL常用案例:大表Join大表;小表Join大表;
  • SparkStreaming 状态编程WordCount案例;
  • SparkMLlib 机器学习案例:分类算法K近邻算法、分类算法朴素贝叶斯算法、决策树与随机森林、线性回归、逻辑回归、聚类算法;

About

大数据收集,实时分析,离线分析经典案例

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published