Skip to content

wzqwtt/BigData

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

BigData

小白大数据学习笔记 ⭐

一、Hadoop

模块 Blog
Hadoop概述 关于Hadoop你应该了解这些!
搭建Hadoop运行环境 准备三台CentOS虚拟机
安装Java、Hadoop以及编写集群分发脚本
重头戏:配置Hadoop集群
群起集群并进行测试
编写Hadoop集群启停脚本以及查看集群Java进程脚本
HDFS HDFS是个什么东西?
HDFS常用Shell命令图文详解
搭建HDFS客户端API环境
HDFS API操作详解.md
HDFS读写流程图文详解
HDFS NameNode和SecondaryNameNode工作机制
HDFS DataNode工作机制
MapReduce MapReduce概述及核心编程思想
图解MapReduce编程规范
MapReduce WordCount案例实操
MapReduce 序列化
MapReduce InputFormat 数据输入 框架原理
MapReduce Shuffle机制之Partition分区
MapReduce Shuffle机制之WritableComparable排序
MapReduce Shuffle机制之Combiner合并
MapReduce OutputFormat数据输出 框架原理
MapReduce MapTask与ReduceTask工作机制
MapReduce Join应用
MapReduce ETL数据清洗 案例实操
MapReduce 数据压缩
Yarn Yarn 基础架构、工作机制及作业提交全过程

二、Zookeeper

模块 Blog
Zookeeper概述 Zookeeper是个什么东西?
安装部署 Zookeeper 分布式安装部署
如何操作? Zookeeper 客户端命令行与API操作
案例实操 Zookeeper 案例:服务器动态上下线监听

三、Hive

模块 Blog
Hive概述 Hive的基本概念
安装部署 Hive安装部署并替换derby为MySQL
Hive操作数据 Hive数据类型
HiveSQL DDL数据定义
Hive 导入与导出数据
HiveSQL DML数据查询
Hive 分区表与分桶表
Hive 常用函数汇总以及练习
Hive 如何自定义函数
Hive 压缩和存储
调优 Hive企业级调优
实战 Hive 实战!分析视频网站TopN数据

四、Flume

模块 Blog
Flume概述 Flume 是什么?都由什么组成?
安装部署以及入门案例 Flume 分布式安装部署以及入门案例
内部原理 Flume中的事务、Agent内部原理、拓扑结构及对应案例
自定义组件 Flume自定义Interceptor、Source与Sink

五、Kafka

模块 Blog
Kafka极速入门 Kafka 是个什么东西?
Kafka 分布式安装部署
Kafka 常用命令行操作
Kafka Producer Producer 生产者消息发送原理
Producer 异步与同步以及分区API操作
Producer 生产者的生产经验
Kafka Broker Broker 工作流程以及节点服役和退役
Broker 副本机制详解
Broker 文件存储、清理机制以及高效读写数据
Kafka Consumer Consumer 消费者工作原理
Consumer 消费者API操作
Consumer 消费者组分区的分配以及再平衡
Offset位移详解
大屏监控Kafka Kafka Eagle(EFAK)监控安装部署
Kafka-Kraft Kafka-Kraft 模式的安装与部署
Kafka 与外部系统集成 Kafka集成Flume
Kafka集成Spark,留坑
Kafka集成Flink,留坑
Kafka集成Spring Boot,留坑

六、HBase

模块 Blog
概述 关于HBase你应该知道这些!
上手操作HBase 搭建HBase分布式环境
HBase Shell操作快速入门!
HBase DDL API操作
HBase DML API操作
在更!

七、Spark(Scala版)

模块 Blog
Spark 前戏 Spark 之前一定要会的Scala!
Spark 极速入门 Spark 概述及WordCount案例
Spark 搭建Local、StandAlone、Yarn三种模式运行环境
Spark Core 如何做到分布式计算?
Java IO流与Spark RDD至简的关系
Spark RDD是啥?及其执行原理
Spark 创建RDD以及设置它的并行度与分区
Spark RDD转换算子速查手册以及案例解析
Spark RDD行动算子速查手册以及案例解析
Spark RDD序列化
Spark RDD依赖关系
Spark RDD持久化
Spark RDD分区器
Spark 累加器与广播变量
Spark Core 案例实操——分析电商网站行为数据
Spark SQL SparkSQL 概述、DataFrame、DataSet
SparkSQL 用户自定义函数
SparkSQL 数据的加载和保存
Spark Streaming 待更

项目实战

1、电商数仓

模块 Blog
用户行为数据采集平台 项目需求及架构设计
模拟生成用户行为日志数据
打通行为日志采集通道!
业务数据采集平台 模拟生成用户业务数据
全量同步?增量同步?都是什么?
数据全量同步工具DataX
数据增量同步工具Maxwell
打通全量数据同步通道!

参考资料