收录了大数据相关各类资料、笔记、手册
公网资料、笔记地址请访问这里
其他相关技术可以访问我的博客,主页地址请访问这里
- 访问入口:http://note.grft.top
(返回顶部)
大数据(Big Data)指的是传统数据处理应用软件难以有效处理的大规模、高增长率和多样的信息资产。这些种类繁多的数据集通常从不同的来源收集而来,例如社交媒体、交易记录、移动应用、传感器设备和各种形式的数字化记录等。大数据的核心价值在于能从这些庞大的、复杂的数据集中提取出有用的信息,并用于决策支持、产品开发、市场分析和其他众多领域。
大数据涉及的数据量极为庞大,可以是TB(太字节)、PB(拍字节)、EB(艾字节)的数量级。
数据的生成速度非常快,需要实时或近实时的处理能力。比如社交媒体的动态更新、股票交易等。
大数据来源多样,包括结构化数据(如数据库中的交易记录)、半结构化数据(如XML文件)和非结构化数据(如视频、图片和文本)。
由于数据来源众多,数据的质量和准确性可能参差不齐,大数据技术需要能够处理和分析这些数据,确保产生的洞察是可靠的。
如Hadoop和Apache Spark,它们能够在成百上千的服务器上存储和处理大量数据。
包括NoSQL数据库(如MongoDB、Cassandra和Couchbase)以及NewSQL数据库,它们能够更高效地处理大量、多样和快速变化的数据集。
它们包括复杂的算法和机器学习技术,用于从数据中提取模式、趋势和洞察。
它们帮助用户以图形方式理解数据模式和趋势。
- 商业智能和市场分析
- 健康医疗信息系统
- 智慧城市和物联网
- 个性化推荐系统(如电子商务和流媒体服务)
- 风险管理和欺诈检测
- 科学研究和气候变化分析
(返回顶部)
- Hadoop_随堂笔记
- 分布式文件存储系统 —— HDFS
- 分布式计算框架 —— MapReduce
- 集群资源管理器 —— YARN
- Hadoop 单机伪集群环境搭建
- Hadoop 集群环境搭建
- HDFS 常用 Shell 命令
- HDFS Java API 的使用
- 基于 Zookeeper 搭建 Hadoop 高可用集群
- 1用户行为采集平台
- 2业务数据采集平台
- 3数据仓库系统
- 4可视化报表Superset
- 5即席查询Presto&Kylin
- 6集群监控Zabbix
- 7用户认证Kerberos
- 8安全环境实战
- 9权限管理Ranger
- 10元数据管理Atlas
- 11数据质量管理
- Hive_学习笔记
- Hive 简介及核心概念
- Linux 环境下 Hive 的安装部署
- Hive CLI 和 Beeline 命令行的基本使用
- Hive 常用 DDL 操作
- Hive 分区表和分桶表
- Hive 视图和索引
- Hive 常用 DML 操作
- Hive 数据查询详解
- Hive 课件资料
- Hbase 简介
- HBase 系统架构及数据结构
- HBase 基本环境搭建
- HBase 集群环境搭建
- HBase 常用 Shell 命令
- HBase Java API
- HBase 过滤器详解
- HBase 协处理器详解
- HBase 容灾与备份
- HBase的 SQL 中间层 —— Phoenix
- Spring/Spring Boot 整合 Mybatis + Phoenix
- HBase 课件资料
- 大数据技术之SparkCore
- 大数据技术之SparkSql
- 大数据技术之SparkStreaming
- 大数据技术之Spark内核
- 大数据技术之Spark优化
- 课程内容讲解图示
- 大数据技术之Spark源码
- 源码讲解图示
- Spark 简介
- Spark 开发环境搭建
- 弹性式数据集 RDD
- RDD 常用算子详解
- Spark 运行模式与作业提交
- Spark 累加器与广播变量
- 基于 Zookeeper 搭建 Spark 高可用集群
- Flink 随堂摘要
- Flink 核心概念综述
- Flink 开发环境搭建
- Flink Data Source
- Flink Data Transformation
- Flink Data Sink
- Flink 窗口模型
- Flink 状态管理与检查点机制
- Flink Standalone 集群部署
- 大数据技术之CDH-6.3.2
- 大数据项目之CDH电商数仓(1用户行为采集平台)
- 大数据项目之CDH电商数仓(2业务数据采集平台)
- 大数据项目之CDH电商数仓(3电商数据仓库系统)
- 大数据项目之CDH电商数仓(4可视化报表)
(返回顶部)
贡献是使开源社区成为一个如此令人惊叹的地方,以学习、激励和创造。您所做的任何贡献都将非常感谢。
如果您对使这个项目变得更好有建议,请 fork 该仓库并创建 pull request。您也可以打开一个带有“enhancement”标签的问题。不要忘记给这个项目点个星!再次感谢!
(返回顶部)
根据 MIT 许可证进行分发。更多信息请参见 LICENSE.txt。
(返回顶部)
关注我: 小昊子
博客地址: http://note.grft.top
项目链接: https://github.com/worst001/note_bigdata
(返回顶部)
因为仓库与文档的数量比较大,有些借鉴资料忘了在参考文档
部分提及原作者与原仓库,若有疏漏请告诉,我及时补上。
所有引用的原资料都确认是开源认证,若有侵权请告知。
https://docs.cloudera.com/documentation
https://github.com/bjmashibing/Flink-Study
https://github.com/heibaiying/BigData-Notes
(返回顶部)