Skip to content

ddxygq/BigDataTechnicalPai

Repository files navigation

大数据技术派

大数据技术派,分享优质文章,技术资料,包括但不限于主流的大数据技术:Hadoop、Kafka、Hbase、Flink、Spark等。

大数据组件安装大全

获取方式:关注公众号大数据技术派,回复关键字大数据组件安装即可获得。

大数据技术

干货,主流大数据技术总结

学习建议,大数据组件那么多,可以重点学习这几个。

大数据SQL中的Join【谓词下推】讲解

一、Hadoop

  1. Hadoop 数据迁移用法详解
  2. Hbase修复工具Hbck
  3. HDFS的快照
  4. Hadoop3数据容错技术(纠删码)
  5. Hadoop 核心 - HDFS 分布式文件系统详解
  6. 大数据组件重点学习这几个
  7. YARN调度器(Scheduler)详解

二、Hbase

  1. Hbase修复工具Hbck
  2. Hbase构建二级索引的一些解决方案
  3. Hbase集群挂掉的一次惊险经历
  4. 面试必问 | HBase最新面试总结
  5. 深入理解HBase Memstore
  6. Hbase统计表的行数的3种方法
  7. Hbase修复工具Hbck与Hbck2,异常定位和修复

三、Flink

  1. 彻底搞清Flink中的Window
  2. Flink之Watermark详解
  3. Flink状态管理与状态一致性
  4. Flink实时计算topN热榜
  5. Flink计算pv和uv的通用方法
  6. Flink的处理背压原理及问题
  7. 基于Flink+ClickHouse打造轻量级点击流实时数仓
  8. Flink 是如何统一批流引擎的
  9. flink sql 知其所以然(二)| 自定义 redis 数据维表(附源码)

四、Spark

  1. Spark开发常用参数(最全)
  2. Spark性能优化指南——基础篇
  3. Spark性能优化指南——高级篇
  4. Spark调优 | 不可避免的 Join 优化
  5. SparkStreaming项目实战,实时计算pv和uv
  6. Spark调优 | Spark OOM问题常见解决方式
  7. Spark SQL知识点与实战
  8. 干货|Spark优化之高性能Range Join

五、数据仓库

  1. 数仓架构发展史
  2. 数仓建模方法论
  3. 数仓建模分层理论
  4. 数仓建模—宽表的设计
  5. 数仓建模—指标体系
  6. 一文搞懂ETL和ELT的区别
  7. 数据湖知识点
  8. 技术选型 | OLAP大数据技术哪家强?
  9. 数仓相关面试题
  10. 从 0 到 1 学习 Presto,这一篇就够了!
  11. 元数据管理在数据仓库的实践应用
  12. 做中台2年多了,中台到底是什么呢?万字长文来聊一聊中台

六、Hive

  1. Hive表的基本操作(必会)
  2. Hive中的集合数据类型
  3. Hive动态分区详解
  4. Hive 中的四种排序详解,再也不会混淆用法了。
  5. Hive窗口函数row number的用法, 你肯定都会吧!
  6. Hive必会SQL语法explode 和 lateral view
  7. Hive进阶—抽样的各种玩法
  8. Hive整合Hbase
  9. Impala一文详解及与hive简单对比
  10. 一文搞懂Hive的数据存储与压缩
  11. 彻底解决Hive小文件问题
  12. Hive计算最大连续登陆天数
  13. Hive实战UDF 外部依赖文件找不到的问题
  14. Hive实战—时间滑动窗口计算

七、Kafka

  1. 2万文字,一文搞懂Kafka
  2. 面试官问: kafka 重试机制原理

八、Docker

  1. 5分钟安装docker教程
  2. Docker 安装 wordpress,通过nginx反向代理,绑定域名,配置https

九、数据库

  1. 大数据中使用Redis计算UV的4种方法

十、程序人生

  1. 工作三年的一些感悟

十一、微信公众号

我的微信:ddxygq,公众号:大数据技术派。

十二、知识星球

About

大数据技术。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published