2018 Hadoop兴趣学习小组

Language :

2018 Hadoop兴趣学习小组

存放代码资源，交流大数据开发技术。共同成长，一同进步。这里可以讨论的不光是Hadoop相关的技术，还有理想...

提交规则：

每周（在课设结束之前吧~）至少在这个github项目厂库上提交一个issue，作为每周回顾总结，截至时间是每周周日，内容可以包含：

本周学习到的东西，对于课程项目的进展与认识，新的想法等。（言简意赅，分点陈述）
学习过程中遇到的问题。（附问题描述和截图或查找的相关博客）其他人可以评论相关问题，给予解答。
学习过程中遇到的好的资源，可以放到这里。比如好的博客、算法讲解教程、视频资源等（附链接+评论，为什么推荐这个）。

提交格式：

标题：Review-{yyyy.mm.dd(必须为当周周日的日期)}-{姓名}

例如：Review-2018-10-22-罗登 使用Markdown标记语言提交issue。

Markdown教程

Markdown编辑可以使用在线的作业部落, 或原生支持Markdown的Atom，或者VS Code加插件预览等方式。

每周见面会议:

每周六进行一次线下见面讨论，交流这周的进度情况，以及将各自学习到的东西与大家分享、交流。

知识的价值在于交流，分享出来才有意义。

规则如下，每周有一到两名同学来讲解Hadoop相关的技术知识，将自己学习到的东西记录下来成为笔记（一定多些笔记）资源，并且演示给其他同学看。一方面锻炼自己，同时节约大家学习的成本和时间，团队合作，。

拟定的每周议题如下（欢迎不同意见修改）：

Linux基础命令
HDFS基础操作
MapReduce并行计算框架简介
HDFS原理及技术细节讲解
分布式数据库Hase安装和使用
分布式数据仓库Hive安装和使用
基于内存的大数据技术Spark的学习

一些大数据相关的教程和资源：

2018/10/27周六Hadoop小组第一次见面会议

演示在服务器上Hadoop的一些操作。以及HDFS的基本操作。
学习github的使用。基本操作，clone，push，pull，如何些README.md，如何提交issue，评论等。每个人都要有github的账号，方便以后存放或者下载别人的代码。
讨论关于每周工作汇报以及分工讲解的问题。拟定计划如下：前一周确定下周要学习的东西，每周至少有一个同学来讲解这周学习的东西。如HDFA的相关命令操作，M/R的过程讲解，Spark相关内容。这样可以节省大家的时间。
学习IntelliJ Idea的使用。创建Java项目，使用MAVEN管理，基本的快捷键。

下周安排：

张松鸣讲解Linux基本命令。
宋文宇讲解HDFS基本命令。

2018/11/04周日Hadoop小组第二次见面会议

复习讲解Linux中与文件相关的常用Shell命令。
讲解并演示HDFS文件系统下的常用命令，并与Linux文件系统进行对比。了解了HDFS的基本原理，以及其对小文件存储的弊端。
vim编辑器的基本使用以及配置方法。相关技术博客：一篇简单的vim入门练级教程,vim配置python教程

下周安排：

学习Hadoop并行计算框架Mapreduce。
讨论Hadoop家族相关组件，主要有那些组件，各有什么功能，完成分工学习和讨论。

2018/11/11周日Hadoop小组第三次见面会议

学习并讲解并行计算框架MapReduce基本知识。
实操演练编写了求每年中最大温度的MapReduce程序。熟悉了使用开发工具Idea开发Hadoop应用程序的基本流程，Maven包管理配置，继承和重写方法的使用。

下周安排：

深入学习HDFS Hadoop分布式文件系统，需要涉及一些细节和具体操作。

2018/11/18周日Hadoop小组第四次见面会议

宋文宇同学深入讲解HDFS解决的问题，优缺点。文件分块，读取文件以及文件写入的流程。并将PPT文件上传。
杨世雄同学拓展引入数据处理中数据倾斜和数据不均衡的问题。

下周安排：

下周考试原因停一次，下下周进入另一个主题非关系型数据库HBase的学习。

2018/12/02周日Hadoop小组第五次见面会议

周雅婷同学讲解HBase，包含基本原理，运行方式和实现原理。强调了三级索引机制，region server对region的索引， meta table的索引和root table的索引。面向行存储和面向列存储的区别。

2018/12/09周日Hadoop小组第六次见面会议

介绍Hive的由来，数据仓库是什么。Hive的特性与所解决的问题。讲解了Hive的原理与转换成MapReduce任务的过程。
上机演示了Hive的基本操作，建表操作，向Hive中批量加载数据。以及安装的流程和需要注意的问题。安装流程参考厦门大学Hive安装流程，但有一些需要注意的地方，一个是JDBC驱动的版本和hive-site.xml文件的修改。
补上了上周的HBase安装和编程实践的演示，具体代码和流程也可以参考这篇教程。

下周安排：

罗登讲解内存计算技术Spark，官网链接。
宋文宇讲解流计算框架Stom，官网链接。

2018/12/16周日Hadoop小组第七次见面会议

讲解Spark的由来和Spark与Hadoop的区别；了解了基于内存计算模型的概念；详细讲解了Spark RDD的概念，RDD的工作原理以及RDD的优势。
编程实践Spark-Shell以及pyspark，了解了RDD的转换操作与动作操作，并用Python API实现了加载文件，读取HDFS文件。
简单了解了函数式编程；介绍了通过PyCharm编写Python程序并提交Spark任务的过程。
宋文宇同学介绍了流计算的概念，并讲解了Storm的由来和基本架构。

添加大数据平台搭建手册

添加了小学期大数据课程学习的实验报告

包含内容如下：

关于编译该文档的源代码、图片、脚本在此仓库。

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
img		img
Getting Started with Storm.pdf		Getting Started with Storm.pdf
HBase_ZhouYT.pdf		HBase_ZhouYT.pdf
HDFS_SongWY.pdf		HDFS_SongWY.pdf
Hadoop兴趣小组分享汇报.pdf		Hadoop兴趣小组分享汇报.pdf
MapReduceBriefIntroduction_LuoD.pdf		MapReduceBriefIntroduction_LuoD.pdf
Oreilly.Hadoop.The.Definitive.Guide.3rd.Edition.Jan.2012.pdf		Oreilly.Hadoop.The.Definitive.Guide.3rd.Edition.Jan.2012.pdf
README.md		README.md
Storm_Song.pdf		Storm_Song.pdf
大数据平台搭建实验手册-罗登.pdf		大数据平台搭建实验手册-罗登.pdf
数据不均衡_YangSX.pdf		数据不均衡_YangSX.pdf
深入理解大数据大数据处理与编程实践.pdf		深入理解大数据大数据处理与编程实践.pdf

RonDen/2018--Hadoop-

Folders and files

Latest commit

History

Repository files navigation

2018 Hadoop兴趣学习小组

提交规则：

提交格式：

每周见面会议:

拟定的每周议题如下（欢迎不同意见修改）：

一些大数据相关的教程和资源：

2018/10/27周六Hadoop小组第一次见面会议

下周安排：

2018/11/04周日Hadoop小组第二次见面会议

下周安排：

2018/11/11周日Hadoop小组第三次见面会议

下周安排：

2018/11/18周日Hadoop小组第四次见面会议

下周安排：

2018/12/02周日Hadoop小组第五次见面会议

2018/12/09周日Hadoop小组第六次见面会议

下周安排：

2018/12/16周日Hadoop小组第七次见面会议

添加大数据平台搭建手册

About

Topics

Resources

Stars

Watchers

Forks