Skip to content

Mrkuhuo/bigdata_learning

Repository files navigation

大数据学习文档、实战代码、源码解析、测试数据

包含python、mysql、shell、 hadoop、hive、zookeeper、hbase、flume、kafka、spark、flink、dolphinscheduler、elasticsearch、sqoop、clickhouse、flinkcdc、canal、debezuim、datax、hudi、starrocks、iceberg、doris、cdh、superset、docker、kubernetes、strampark、maxwell等组件学习、实战、面试 持续更新中...

码字不易,路过的朋友们右上角请点个 ★star★ 鼓励一下~,感谢(抱拳)。

【 cassandra 代码 持续更新中...】

【 doris 代码 持续更新中...】

【 flink 代码 持续更新中...】

【 hbase 代码 持续更新中...】

【 hudi 代码 持续更新中...】

【 presto 代码 持续更新中...】

【 spark 代码 持续更新中...】

【 storm 代码 持续更新中...】

【 1. python 基础 】

【 2. python Numpy 】

【 3. python Pandas 】

【 4. Anaconda 搭建pyflink开发环境 】

【 5. Anaconda Jupyter Notebook中配置多版本Python 】

【1. shell基础 】

【2. 安装包下载 】

【 3. 一键搭建hive集群 】

【 4. 一键搭建dolphinscheduler集群 】

【 5. 一键搭建flume集群 】

【 6. 一键搭建elasticsearch集群 】

【 7. 一键搭建flink集群 】

【 8. 一键搭建flink集群 】

【 9. 一键搭建hbase集群 】

【 10. 一键搭建kafka集群 】

【 11. 一键搭建hadoop集群 】

【 1. 安装虚拟机Centos7 】

【 2. 安装MobaXterm 】

【 3. centos7免密设置 】

【 4. centos7安装JDK1.8 】

【 5. centos7安装mysql 】

【 1. CentOS7安装hadoop集群 】

【 2. hadoop基于 HDFS HA 集群高可用安装 】

【 3. hadoop基于 YARN HA 集群高可用安装 】

【 4. hadoop shell 命令 】

【 5. hadoop mapreduce实战 】

【 1. CentOS7安装hive集群 】

【 2. hive 基本概念 】

【 3. hive 查询 】

【 4. hive 窗口函数 】

【 5. hive 整合 hbase 】

【 1. CentOS7安装zookeeper集群 】

【 2. zookeeper基础 】

【 3. zookeeper实战 】

【 1. CentOS7安装Hbase集群 】

【 2. hbase原理 】

【 3. hbase shell命令 】

【 4. hbase 实时同步elasticsearch 案例 】

【 1. CentOS7安装Flume集群 】

【 1. kafka 安装(集群版)】

【 2. ★ kafka 面试之高可用 ★ 】

【 3. kafka 面试30问 】

【 4. kafka 分区数真的越多越好吗 】

【 5. kafka 事务实现原理 】

【 6. kafka 常见故障处理 】

【 7. kafka 真实项目最佳实践 】

【 8. 超惊艳的Kafka可视化工具,用了以后效率翻倍! 】

【 1. ★ flink 面试 100 问 ★ 】

【 2. flink 消费kafka的四种起始位置 】

【 3. pyflink Table API 基本操作案例 】

【 4. pyflink Table API wordcount案例 】

【 5. pyflink DataStream API wordcount案例 】

【 6. pyflink 集成 hive catalog模式建设数仓 】

【 7. pyflink 集成 hive catalog模式读写数据 】

【 8. FlinkSql 集成 hive catalog模式进行读写数据 】

【 9. ★ Flink checkpoint 执行流程及优化方案 ★ 】

【 10. ★ Flink 内存优化方案 ★ 】

【 11. Flink任务执行与资源划分 】

【 12. Flink 算子链与槽位共享 】

【 13. Flink 命令行工具 】

【 14. 拒绝背锅,FlinkCDC采集表操作日志 】

【 15. 还不会修改Flink源码?请看这篇教程→ 】

【 16. 这三种场景,建议使用Flink→ 】

【 16. FlinkSQL搭配Hive构建批流一体数仓完整过程 】

【 17. Flink实现运输公司车辆超速实时监测 】

【 18. 源码剖析 | Flink源码修改编译保姆级教程 】

【 19. 这三种场景,建议使用Flink 】

【 20. 还不会修改Flink源码?请看这篇教程 】

【 21. 万字长文 | 透过现象看本质 | 从WordCount 到Flink Streaming API 源码详细解读 】

【 22. Flink Table Api 完整源码解析 】

【 23. Flink《任务执行流程十步走》详细总结 】

【 24. 翻遍Flink源码,发现Client任务提交之后运行步骤竟然还有45步之多... 】

【 25. 5000字彻底讲清什么是Flink状态与容错 】

【 26. 一张图彻底说清楚 Flink checkpoint 过程中 Coordinator 到底做了哪些事 】

【 27. Flink源码分析 | barrier(屏障) 如何传输 】

【 28. Flink源码解析|状态的更新和存储流程详解 】

【 29. Flink源码解析 | 元信息的存储 】

【 30. Flink源码解析 | 状态恢复如何进行元数据读取 】

【 31. Flink源码解析 | 状态的重分配 】

【 32. Flink源码解析 | 状态数据的恢复 】

【 33. Flink状态的重分配策略详解 】

【 34. Flink窗口基本概念和设计思想 】

【 35. Flink调优 | 动态调整并行度 】

【 36. Flink调优 | 自适应查询执行 】

【 37. Flink 反压机制详解 】

【 38. FlinkSQL 用户自定义connector 扩展实战 】

【 39. Flink State Processor Api 读写 Flink State 实战 】

【 1. dolphinscheduler 定时任务编写详细教程 】

【 2. dolphinscheduler 定时任务编写详细教程 】

【 3. dolphinscheduler 文件/任务组/UDF管理 】

【 4. dolphinscheduler 配置DataX,Flink,Hive教程 】

【 5. dolphinscheduler 配置spark、SQL、Sqoop教程 】

【 1. ES增删改查代码实战 】

【 1. clickhouse 简介、安装及实操 】

【 2. clickhouse 基本操作 】

【 3. clickhouse 物化视图 】

【 4. clickhouse字典操作 】

【 5. clickhouse 测试数据集及SQL练习 】

【 6. clickhouse集成mysql 】

【 1. OceanBase CDC 导入 Elasticsearch 】

【 2. MongoDB CDC 导入 Elasticsearch 】

【 3. Oracle CDC 导入 Elasticsearch 】

【 4. PolarDB-X CDC 导入 Elasticsearch 】

【 5. SqlServer CDC 导入 Elasticsearch 】

【 6. TiDB CDC 导入 Elasticsearch 】

【 7. 涨知识!Flink旁侧流同步Mysql多表到Doris 】

【 1. DataX Ftp远程文件读写操作 】

【 2. DataX Oracle 读写教程 】

【 3. DataX MySQL读写教程 】

【 1. 基于Flink+Iceberg构建准实时数仓 】

【 1. Doris安装与部署 】

【 2. doris如何导入本地数据? 】

【 3. doris数据表的创建与数据导入 】

【 4. doris 导入的数据转换、列映射及过滤 】

【 5. 再见Hive,新一代数仓Doris横空出世,真香! 】

【 6. Doris真贴心,连测试数据都提供了,整整100G!建议收藏。 】

【 7. 这款Doris运维组件,同事用了都说香... 】

【 8. 基于Doris的OLAP查询和实时数据仓库实战 】

【 9. Doris 集群扩缩容实战 】

【 10. Flink Doris Connector使用详解 】

【 11. 腾讯一面:Doris有哪几种方式连接外部表 】

【 12. Doris查询太慢?看一下这些优化方法... 】

【 13. 网易一面:七种Doris数据导入方式你知道几种? 】

【 14. 超级详细Doris安装部署教程 】

【 15. 万字长文 | 详解Doris数据对象 】

【 1. cdh6 搭建大数据集群(centos版本) 】

【 1. CDH6搭建大数据平台(Ubuntu版) 】

【 1. Superset整合Doris进行报表开发实战 】

【 1. 想参与开源,不懂怎么PR(Pull Request),看这篇就够了 】

【 2. 超级详细的github操作教程(万字长文) 】

【 1. NiFI实时同步MySQL数据到Kafka保姆级教程! 】

【 1. 完美替代DataX,Seatunnel初体验. 】

【 2. 手搓一个全新 Seatunnel Connector 】

【 3. 共建开源】手把手教你贡献一个Seatunnel PR,超级详细教程! 】

【 4. seatunnel配置写入Kafka任务,附300个案例demo 】

【 5. dolphinscheduler+flink+seatunnel集成详细教程 】

【 6. Seatunnel 热门问题解答 】

【 7. SeaTunnel配置秘籍 | 400页文档详尽指南 】

【 8. SeaTunnel配置大全 | 50页详解Transform 】

【 1. Dinky0.7安装详细教程... 】

【 1. Paimon 初体验... 】

【 1. 国产大数据平台Datasophon安装详细教程! 】

【 1. 百度一面:什么是Flink状态? 】

【 2. 面试数据治理工程师,让介绍一下什么是数据治理 】

【 3. Flink面试高频题:Flink两阶段提交 】

【 1. 联邦查询神器Trino初体验 】

【 2. Trino联邦查询Mysql,Sqlserver,Kafka实战 】

【 1. 一文讲透企业级大数据开发流程 】

【 2. 智能风控系统架构 】

【 3. 7张图看懂用户画像 】

【 4. 推荐系统知多少 】

【 5. 知识图谱经典总结 】

【 6. 什么是数据中台? 】

【 7. 云原生大数据如何实现? 】

【 8. 数据治理超强总结 】

【 9. 数据仓库和数据湖 】

【 10. 数据集成方案总结 】

【 11. 数据仓库的起源,流行及未来 】

【 1. 大数据版《上春山》 | 《实时/离线数仓实战》系列视频文章抢鲜发布 】

【 2. 建议收藏 | 《实时/离线数仓实战》配套组件安装文档 】

【 3. 视频 | 实时离线数仓实战NO.1 概览篇 】

【 4. 视频 | 实时离线数仓实战No.2 业务库设计及模拟数据一键生成 】

【 5. 视频 | 实时离线数仓实战No.3 Flink消费Kafka实时写入 Paimon ods 层 】

【 6. 视频 | 实时离线数仓实战No.4 Dolphinscheduler搭配Seatunnel定时同步MySQL数据到Doris 】

【 7. 视频 | 实时离线数仓实战No.5 基于Dinky开发FlinkSQL清洗Paimon ODS层数据到DWD层 】

【 8. 视频 | 实时离线数仓实战No.6 DS调度DorisSQL清洗ODS层数据到DWD层 】

【 9. 视频 | 实时离线数仓实战No.7 基于Dinky开发Flink代码聚合Paimon DWD数据到DWS层 】

【 10. 实时离线数仓实战No.8 基于Dolphinscheduler调度DorisSQL聚合DWD数据到DWS层 】

【 11. 视频 | 实时离线数仓实战No.9 基于Dinky开发Flink代码关联DWS数据到ADS层 】

【 12. 实时离线数仓实战No.10 DolphinScheduler调度DorisSQL 关联DWS层到ADS层 】

【 13. 视频 | 实时离线数仓实战No.10 dolphinscheduler任务编排 】

【 14. 《实时离线数仓实战》第一阶段总结及第二阶段展望 】

【 1. 实时离线数仓实战V2 | 发布预告 】

【 1. AI榜单开源啦!欢迎各位圈友体验 】

【 2. AI榜单使用手册 】

【 1. 超级惊艳的一款免费在线画图工具,完美适配程序员! 】

【 2. Snowflake算法个人魔改版... 】

【 3. FTP服务搭建教程(虚拟用户访问FTP服务) 】

【 4. 大数据精彩应用 | 催债也能有超高用户体验 】

【 5. 国内AI大模型已近200个,我心中的排名前十的是哪些? 】

【 6. 自从用了这款开源大数据平台监控系统 HertzBeat ,睡觉超级香 】

【 7. 数据可视化新篇章:Superset之后,Datart如何重塑行业格局? 】

关注微信公众号《大数据技能圈》

公众号

添加作者微信

作者微信