Skip to content

worst001/note_bigdata

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

28 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Contributors Forks Stargazers Issues MIT License


大数据


探索文档 »

目录
  1. 关于项目
  2. 什么是大数据
  3. 技术目录
  4. 贡献
  5. 许可证
  6. 联系方式
  7. 鸣谢

关于项目

收录了大数据相关各类资料、笔记、手册

公网资料、笔记地址请访问这里

其他相关技术可以访问我的博客,主页地址请访问这里

(返回顶部)

什么是大数据

大数据(Big Data)指的是传统数据处理应用软件难以有效处理的大规模、高增长率和多样的信息资产。这些种类繁多的数据集通常从不同的来源收集而来,例如社交媒体、交易记录、移动应用、传感器设备和各种形式的数字化记录等。大数据的核心价值在于能从这些庞大的、复杂的数据集中提取出有用的信息,并用于决策支持、产品开发、市场分析和其他众多领域。

大数据通常按照4V模型来描述,这包括

Volume(数据量)

大数据涉及的数据量极为庞大,可以是TB(太字节)、PB(拍字节)、EB(艾字节)的数量级。

Velocity(数据流转速度)

数据的生成速度非常快,需要实时或近实时的处理能力。比如社交媒体的动态更新、股票交易等。

Variety(数据种类)

大数据来源多样,包括结构化数据(如数据库中的交易记录)、半结构化数据(如XML文件)和非结构化数据(如视频、图片和文本)。

Veracity(数据的准确性或质量)

由于数据来源众多,数据的质量和准确性可能参差不齐,大数据技术需要能够处理和分析这些数据,确保产生的洞察是可靠的。

为了有效处理大数据,开发了一系列新的技术和架构,例如:

分布式存储和计算框架

如Hadoop和Apache Spark,它们能够在成百上千的服务器上存储和处理大量数据。

数据库技术

包括NoSQL数据库(如MongoDB、Cassandra和Couchbase)以及NewSQL数据库,它们能够更高效地处理大量、多样和快速变化的数据集。

数据挖掘和分析工具

它们包括复杂的算法和机器学习技术,用于从数据中提取模式、趋势和洞察。

可视化工具

它们帮助用户以图形方式理解数据模式和趋势。

大数据的应用领域非常广泛,包括但不限于

  • 商业智能和市场分析
  • 健康医疗信息系统
  • 智慧城市和物联网
  • 个性化推荐系统(如电子商务和流媒体服务)
  • 风险管理和欺诈检测
  • 科学研究和气候变化分析

(返回顶部)

技术目录

目录与大纲

Hadoop

Hadoop 课件资料

数仓建设

数仓建设课件资料

Hive

HBase

Flume

Kerbros

Spark

Spark 课件资料

Spark Core

Spark SQL

Spark Streaming

Flink

Flink 课件资料

Doris

CDH

CDH 课件资料

(返回顶部)

贡献

贡献是使开源社区成为一个如此令人惊叹的地方,以学习、激励和创造。您所做的任何贡献都将非常感谢。

如果您对使这个项目变得更好有建议,请 fork 该仓库并创建 pull request。您也可以打开一个带有“enhancement”标签的问题。不要忘记给这个项目点个星!再次感谢!

(返回顶部)

许可证

根据 MIT 许可证进行分发。更多信息请参见 LICENSE.txt

(返回顶部)

联系方式

关注我: 小昊子

博客地址: http://note.grft.top

项目链接: https://github.com/worst001/note_bigdata

(返回顶部)

鸣谢

因为仓库与文档的数量比较大,有些借鉴资料忘了在参考文档部分提及原作者与原仓库,若有疏漏请告诉,我及时补上。

所有引用的原资料都确认是开源认证,若有侵权请告知。

尚硅谷系列教程资料

https://docs.cloudera.com/documentation

https://github.com/bjmashibing/Flink-Study

https://github.com/heibaiying/BigData-Notes

https://openai.com/chatgpt

(返回顶部)