BigData

小白大数据学习笔记 ⭐

一、Hadoop

模块	Blog
Hadoop概述	关于Hadoop你应该了解这些！
搭建Hadoop运行环境	准备三台CentOS虚拟机
	安装Java、Hadoop以及编写集群分发脚本
	重头戏：配置Hadoop集群
	群起集群并进行测试
	编写Hadoop集群启停脚本以及查看集群Java进程脚本
HDFS	HDFS是个什么东西？
	HDFS常用Shell命令图文详解
	搭建HDFS客户端API环境
	HDFS API操作详解.md
	HDFS读写流程图文详解
	HDFS NameNode和SecondaryNameNode工作机制
	HDFS DataNode工作机制
MapReduce	MapReduce概述及核心编程思想
	图解MapReduce编程规范
	MapReduce WordCount案例实操
	MapReduce 序列化
	MapReduce InputFormat 数据输入框架原理
	MapReduce Shuffle机制之Partition分区
	MapReduce Shuffle机制之WritableComparable排序
	MapReduce Shuffle机制之Combiner合并
	MapReduce OutputFormat数据输出框架原理
	MapReduce MapTask与ReduceTask工作机制
	MapReduce Join应用
	MapReduce ETL数据清洗案例实操
	MapReduce 数据压缩
Yarn	Yarn 基础架构、工作机制及作业提交全过程

模块	Blog
Flume概述	Flume 是什么？都由什么组成？
安装部署以及入门案例	Flume 分布式安装部署以及入门案例
内部原理	Flume中的事务、Agent内部原理、拓扑结构及对应案例
自定义组件	Flume自定义Interceptor、Source与Sink

模块	Blog
Spark 前戏	Spark 之前一定要会的Scala！
Spark 极速入门	Spark 概述及WordCount案例
	Spark 搭建Local、StandAlone、Yarn三种模式运行环境
Spark Core	如何做到分布式计算？
	Java IO流与Spark RDD至简的关系
	Spark RDD是啥？及其执行原理
	Spark 创建RDD以及设置它的并行度与分区
	Spark RDD转换算子速查手册以及案例解析
	Spark RDD行动算子速查手册以及案例解析
	Spark RDD序列化
	Spark RDD依赖关系
	Spark RDD持久化
	Spark RDD分区器
	Spark 累加器与广播变量
	Spark Core 案例实操——分析电商网站行为数据
Spark SQL	SparkSQL 概述、DataFrame、DataSet
	SparkSQL 用户自定义函数
	SparkSQL 数据的加载和保存
Spark Streaming	待更

Name		Name	Last commit message	Last commit date
Latest commit History 126 Commits
Flink		Flink
Flume		Flume
HBase		HBase
Hadoop		Hadoop
Hive		Hive
JUC		JUC
Kafka		Kafka
Netty		Netty
Project		Project
Spark		Spark
Zookeeper		Zookeeper
.gitignore		.gitignore
README.md		README.md