GitHub - yikuangcloud/1kuang_datas: 亿矿云大数据处理框架：借助Hadoop、Spark、Storm等分布式处理架构，满足海量数据的批处理和流处理计算需求。亿矿云大数据预处理：运用数据冗余剔除、异常检测、归一化等方法对原始数据进行清洗，为后续存储、管理与分析提高质量数据来源。亿矿云大数据存储与管理：通过分布式文件系统、NoSQL数据库、关系数据库、时序数据库等不同的数据管理引擎实现海量工业数据的分区选择、存储、编目与索引等。

yikuangcloud / 1kuang_datas Public

Notifications You must be signed in to change notification settings
Fork 3
Star 16

亿矿云大数据处理框架：借助Hadoop、Spark、Storm等分布式处理架构，满足海量数据的批处理和流处理计算需求。亿矿云大数据预处理：运用数据冗余剔除、异常检测、归一化等方法对原始数据进行清洗，为后续存储、管理与分析提高质量数据来源。亿矿云大数据存储与管理：通过分布式文件系统、NoSQL数据库、关系数据库、时序数据库等不同的数据管理引擎实现海量工业数据的分区选择、存储、编目与索引等。

16 stars 3 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
Docs		Docs
Flink		Flink
Flume		Flume
HBase		HBase
Hadoop		Hadoop
Hive		Hive
Kafka		Kafka
Pics		Pics
Python		Python
Spark		Spark
Zookeeper		Zookeeper
.gitattributes		.gitattributes
README.md		README.md

Repository files navigation

概述

大数据简介

大数据相关岗位介绍

大数据框架组件

一、Hadoop

1. Hadoop——分布式文件管理系统HDFS
2. Hadoop——HDFS的Shell操作
3. Hadoop——HDFS的Java API操作
4. Hadoop——分布式计算框架MapReduce
5. Hadoop——MapReduce案例
6. Hadoop——资源调度器YARN
7. Hadoop——Hadoop数据压缩

二、Zookeeper

1.Zookeeper——Zookeeper概述
2.Zookeeper——Zookeeper单机和分布式安装
3.Zookeeper——Zookeeper客户端命令
4.Zookeeper——Zookeeper内部原理
5.Zookeeper——Zookeeper实战

三、Hive

1.Hive——Hive概述
2.Hive——Hive数据类型
3.Hive——Hive DDL数据定义
4.Hive——Hive DML数据操作
5.Hive——Hive查询
6.Hive——Hive函数
7.Hive——Hive压缩和存储
8.Hive——Hive实战：统计影音视频网站的常规指标
9.Hive——Hive分区表和分桶表
10.Hive——Hive调优

四、Flume

1.Flume——Flume概述
2.Flume——Flume实践操作
3.Flume——Flume案例

五、Kafka

1.Kafka——Kafka概述
2.Kafka——Kafka深入解析
3.Kafka——Kafka API操作实践
3.Kafka——Kafka对接Flume实践

六、HBase

1.HBase——HBase概述
2.HBase——HBase数据结构
3.HBase——HBase Shell操作
4.HBase——HBase API实践操作

七、Spark

Spark基础

1.Spark基础——Spark的诞生
2.Spark基础——Spark概述
3.Spark基础——Spark运行模式
4.Spark基础——案例实践

Spark Core

1.Spark Core——RDD概述
2.Spark Core——RDD编程（一）
3.Spark Core——RDD编程（二）
4.Spark Core——键值对RDD数据分区器
5.Spark Core——数据读取与保存

Spark SQL

1.Spark SQL——Spaek SQL概述
2.Spark SQL——Spaek SQL编程
3.Spark SQL——Spaek SQL数据的加载与保存
4.Spark SQL——Spaek SQL实战

Spark Streaming

1.Spark Streaming——Spark Streaming概述
2.Spark Streaming——Dstream基础
3.Spark Streaming——Dstream的转换&输出

八、Flink

1.Flink——Flink核心概述
2.Flink——Flink部署
3.Flink——Flink运行架构
4.Flink——Flink流处理API
5.Flink——Flink中的Window
6.Flink——时间语义与Wartermark
7.Flink——ProcessFunction API（底层API）
8.Flink——状态编程和容错机制
9.Flink——Table API 与SQL
10.Flink——Flink CEP

数据仓库

数据仓库总结

大数据项目

基本上选择三到四个即可，B站直接搜索项目名字，都有视频
详细说明公众号回复“大数据项目”即可

读书笔记

《阿里大数据之路》读书笔记

第一章总述

第二章日志采集

第三章数据同步

面试题

陆续更新中。。。。。全量面试题（700+道牛客网面经原题）见知识星球

大数据面试题 V3.0

大数据面试题 V4.0

一、Hadoop

1、Hadoop基础

介绍下Hadoop
Hadoop小文件处理问题
 Hadoop中的几个进程和作用
 Hadoop的mapper和reducer的个数如何确定？reducer的个数依据是什么？

2、HDFS

HDFS读写流程
 HDFS的block为什么是128M？增大或减小有什么影响？

3、MapReduce

介绍下MapReduce
MapReduce优缺点
 MapReduce工作原理（流程）
MapReduce压缩方式

4、YARN

二、Zookeeper

介绍下Zookeeper是什么？
Zookeeper有什么作用？优缺点？有什么应用场景？
Zookeeper架构

三、Hive

说下为什么要使用Hive？Hive的优缺点？Hive的作用是什么？
Hive的用户自定义函数实现步骤与流程
 Hive分区和分桶的区别
 Hive的cluster by 、sort by、distribute by 、order by 区别？
Hive count(distinct)有几个reduce，海量数据会有什么问题？

四、Flume

介绍下Flume
Flume结构

五、Kafka

介绍下Kafka，Kafka的作用？Kafka的组件？适用场景？
Kafka实现高吞吐的原理？
Kafka的一条message中包含了哪些信息？
Kafka的消费者和消费者组有什么区别？为什么需要消费者组？
Kafka的ISR、OSR和ACK介绍，ACK分别有几种值？
Kafka怎么保证数据不丢失，不重复？
Kafka的单播和多播
 说下Kafka的ISR机制

六、HBase

介绍下HBase架构
 HBase为什么查询快
 HBase的大合并、小合并是什么？
HBase的rowkey设计原则
 HBase的一个region由哪些东西组成？
HBase读写数据流程
 HBase的RegionServer宕机以后怎么恢复的？
HBase的读写缓存

七、Spark

说下对RDD的理解？RDD特点、算子？
Spark小文件问题
 Spark的内存模型
 Spark的Job、Stage、Task分别介绍下，如何划分？
Spark的RDD、DataFrame、DataSet、DataStream区别？
RDD的容错
 说下Spark中的Transform和Action，为什么Spark要把操作分为Transform和Action？
Spark的任务执行流程

八、Flink

大数据面试 V1.0

一、Hadoop

1.Hadoop面试题总结（一）
2.Hadoop面试题总结（二）——HDFS
3.Hadoop面试题总结（三）——MapReduce
4.Hadoop面试题总结（四）——YARN
5.Hadoop面试题总结（五）——优化问题

二、Zookeeper

1.Zookeeper面试题总结（一）

三、Hive

1.Hive面试题总结（一）
2.Hive面试题总结（二）

四、HBase

1.HBase面试题总结（一）

五、Flume

1.Flume面试题总结（一）

六、Kafka

1.Kafka面试题总结（一）
2.Kafka面试题总结（二）

七、Spark

1.Spark面试题总结（一）
2.Spark面试题总结（二）
3.Spark面试题总结（三）
4.Spark面试题总结（四）

Spark性能优化：
5.Spark面试题总结（五）——几种常见的数据倾斜情况及调优方式
6.Spark面试题总结（六）——Shuffle配置调优
7.Spark面试题总结（七）——程序开发调优
8.Spark面试题总结（八）——运行资源调优

About

亿矿云大数据处理框架：借助Hadoop、Spark、Storm等分布式处理架构，满足海量数据的批处理和流处理计算需求。亿矿云大数据预处理：运用数据冗余剔除、异常检测、归一化等方法对原始数据进行清洗，为后续存储、管理与分析提高质量数据来源。亿矿云大数据存储与管理：通过分布式文件系统、NoSQL数据库、关系数据库、时序数据库等不同的数据管理引擎实现海量工业数据的分区选择、存储、编目与索引等。

react scala kafka vue hive hadoop hbase zookeeper flume

Report repository

Releases 1

Packages

No packages published

Languages

Java 100.0%