Skip to content

RonDen/2018--Hadoop-

Repository files navigation

Language : Chinese


2018 Hadoop兴趣学习小组

存放代码资源,交流大数据开发技术。共同成长,一同进步。 这里可以讨论的不光是Hadoop相关的技术,还有理想...

Hadoop Ecosystem



提交规则:

每周(在课设结束之前吧~)至少在这个github项目厂库上提交一个issue,作为每周回顾总结,截至时间是每周周日,内容可以包含:

  • 本周学习到的东西,对于课程项目的进展与认识,新的想法等。(言简意赅,分点陈述)
  • 学习过程中遇到的问题。(附问题描述和截图或查找的相关博客)其他人可以评论相关问题,给予解答。
  • 学习过程中遇到的好的资源,可以放到这里。比如好的博客、算法讲解教程、视频资源等(附链接+评论,为什么推荐这个)。

提交格式:

标题Review-{yyyy.mm.dd(必须为当周周日的日期)}-{姓名}

例如Review-2018-10-22-罗登 使用Markdown标记语言提交issue

Markdown教程

Markdown编辑可以使用在线的作业部落, 或原生支持Markdown的Atom,或者VS Code加插件预览等方式。

每周见面会议:

周六进行一次线下见面讨论,交流这周的进度情况,以及将各自学习到的东西与大家分享、交流。

知识的价值在于交流,分享出来才有意义。

规则如下,每周有一到两名同学来讲解Hadoop相关的技术知识,将自己学习到的东西记录下来成为笔记(一定多些笔记)资源,并且演示给其他同学看。一方面锻炼自己,同时节约大家学习的成本和时间,团队合作,

拟定的每周议题如下(欢迎不同意见修改):

  • Linux基础命令
  • HDFS基础操作
  • MapReduce并行计算框架简介
  • HDFS原理及技术细节讲解
  • 分布式数据库Hase安装和使用
  • 分布式数据仓库Hive安装和使用
  • 基于内存的大数据技术Spark的学习

一些大数据相关的教程和资源:


2018/10/27周六Hadoop小组第一次见面会议

  • 演示在服务器上Hadoop的一些操作。以及HDFS的基本操作。
  • 学习github的使用。基本操作,clonepushpull,如何些README.md,如何提交issue,评论等。每个人都要有github的账号,方便以后存放或者下载别人的代码。
  • 讨论关于每周工作汇报以及分工讲解的问题。拟定计划如下:前一周确定下周要学习的东西,每周至少有一个同学来讲解这周学习的东西。如HDFA的相关命令操作,M/R的过程讲解,Spark相关内容。这样可以节省大家的时间。
  • 学习IntelliJ Idea的使用。创建Java项目,使用MAVEN管理,基本的快捷键。

下周安排:

  • 张松鸣讲解Linux基本命令。
  • 宋文宇讲解HDFS基本命令。

2018/11/04周日Hadoop小组第二次见面会议

  • 复习讲解Linux中与文件相关的常用Shell命令。
  • 讲解并演示HDFS文件系统下的常用命令,并与Linux文件系统进行对比。了解了HDFS的基本原理,以及其对小文件存储的弊端。
  • vim编辑器的基本使用以及配置方法。相关技术博客:一篇简单的vim入门练级教程,vim配置python教程

下周安排:

  • 学习Hadoop并行计算框架Mapreduce。
  • 讨论Hadoop家族相关组件,主要有那些组件,各有什么功能,完成分工学习和讨论。

2018/11/11周日Hadoop小组第三次见面会议

  • 学习并讲解并行计算框架MapReduce基本知识。
  • 实操演练编写了求每年中最大温度的MapReduce程序。熟悉了使用开发工具Idea开发Hadoop应用程序的基本流程,Maven包管理配置,继承和重写方法的使用。

下周安排:

深入学习HDFS Hadoop分布式文件系统,需要涉及一些细节和具体操作。

2018/11/18周日Hadoop小组第四次见面会议

  • 宋文宇同学深入讲解HDFS解决的问题,优缺点。文件分块,读取文件以及文件写入的流程。并将PPT文件上传。
  • 杨世雄同学拓展引入数据处理中数据倾斜和数据不均衡的问题。

下周安排:

  • 下周考试原因停一次,下下周进入另一个主题非关系型数据库HBase的学习。

2018/12/02周日Hadoop小组第五次见面会议

  • 周雅婷同学讲解HBase,包含基本原理,运行方式和实现原理。强调了三级索引机制,region serverregion的索引, meta table的索引和root table的索引。面向行存储和面向列存储的区别。

2018/12/09周日Hadoop小组第六次见面会议

  • 介绍Hive的由来,数据仓库是什么。Hive的特性与所解决的问题。讲解了Hive的原理与转换成MapReduce任务的过程。
  • 上机演示了Hive的基本操作,建表操作,向Hive中批量加载数据。以及安装的流程和需要注意的问题。安装流程参考厦门大学Hive安装流程,但有一些需要注意的地方,一个是JDBC驱动的版本和hive-site.xml文件的修改。
  • 补上了上周的HBase安装和编程实践的演示,具体代码和流程也可以参考这篇教程

下周安排:

2018/12/16周日Hadoop小组第七次见面会议

  • 讲解Spark的由来和Spark与Hadoop的区别;了解了基于内存计算模型的概念;详细讲解了Spark RDD的概念,RDD的工作原理以及RDD的优势。
  • 编程实践Spark-Shell以及pyspark,了解了RDD的转换操作与动作操作,并用Python API实现了加载文件,读取HDFS文件。
  • 简单了解了函数式编程;介绍了通过PyCharm编写Python程序并提交Spark任务的过程。
  • 宋文宇同学介绍了流计算的概念,并讲解了Storm的由来和基本架构。

添加大数据平台搭建手册

添加了小学期大数据课程学习的实验报告

包含内容如下:

toc

关于编译该文档的源代码、图片、脚本在此仓库

About

存放代码资源,交流大数据开发技术。共同成长,一同进步。

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published