hadoop

Star

Here are 136 public repositories matching this topic...

geekyouth / SZT-bigdata

Star

深圳地铁大数据客流分析系统🚇🚄🌟

Updated May 16, 2024
Scala

apache / kyuubi

Star

Apache Kyuubi is a distributed and multi-tenant gateway to provide serverless SQL on data warehouses and lakehouses.

kubernetes sql spark hive hadoop jdbc thrift data-lake hacktoberfest spark-sql

Updated Jul 8, 2024
Scala

apache / carbondata

Star

High performance data store solution

java scala big-data spark hadoop apache data-format carbondata

Updated Jul 6, 2024
Scala

AbsaOSS / spline

Star

Data Lineage Tracking And Visualization Solution

visualization tracking scala spark hadoop bigdata lineage

Updated Jul 9, 2024
Scala

mjakubowski84 / parquet4s

Sponsor

Star

Read and write Parquet in Scala. Use Scala classes as schema. No need to start a cluster.

aws scala akka hadoop bigdata google-storage fs2 writer streams reader parquet akka-streams parquet-files

Updated Jun 13, 2024
Scala

aliyun / aliyun-emapreduce-datasources

Star

Extended datasource support for Spark/Hadoop on Aliyun E-MapReduce.

kafka spark hadoop datasources aliyun e-mapreduce

Updated Nov 30, 2023
Scala

51zero / eel-sdk

Star

Big Data Toolkit for the JVM

scala kafka big-data hive hadoop etl kudu parquet orc

Updated Nov 4, 2020
Scala

archivesunleashed / aut

Star

The Archives Unleashed Toolkit is an open-source toolkit for analyzing web archives.

scala big-data spark apache-spark hadoop analysis python3 text-extraction pyspark digital-humanities dataframe big-data-analytics webarchives network-graphing

Updated Feb 27, 2024
Scala

Qihoo360 / XLearning-XDML

Star

extremely distributed machine learning

machine-learning ai spark hadoop hazelcast kudu distributed parameter-server

Updated Dec 27, 2022
Scala

soniclavier / bigdata-notebook

Star

machine-learning streaming kafka spark hadoop storm bigdata flume flink

Updated Nov 26, 2019
Scala

smart-data-lake / smart-data-lake

Star

Smart Automation Tool for building modern Data Lakes and Data Pipelines

scala spark hive hadoop transform-data data-lake data-pipelines deltalake smart-data-lake

Updated Jul 8, 2024
Scala

autovia / ros_hadoop

Star

Hadoop splittable InputFormat for ROS. Process rosbag with Hadoop Spark and other HDFS compatible systems.

machine-learning spark hadoop robotics ros hdfs bag rosbag hadoop-inputformat ros-bag ros-hadoop

Updated Nov 13, 2020
Scala

Thomas-George-T / Movies-Analytics-in-Spark-and-Scala

Star

Data cleaning, pre-processing, and Analytics on a million movies using Spark and Scala.

scala movies big-data spark hadoop analytics movielens-data-analysis shell-script dataframes movielens-dataset rdd case-study spark-sql spark-programs spark-dataframes big-data-analytics spark-scala big-data-projects spark-rdd

Updated May 19, 2021
Scala

dimajix / flowman

Star

Flowman is an ETL framework powered by Apache Spark. With its declarative approach, Flowman simplifies the development of complex data pipelines.

scala sql big-data spark apache-spark hadoop etl bigdata data-engineering flowman

Updated Jul 6, 2024
Scala

CoxAutomotiveDataSolutions / waimak

Star

Waimak is an open-source framework that makes it easier to create complex data flows in Apache Spark.

scala spark hadoop data-engineering

Updated Apr 24, 2024
Scala

pkeropen / BigData-News

Star

基于Spark2.2新闻网大数据实时系统项目

kafka spark hive hadoop hbase flume cdh5 sturctured-streaming

Updated Apr 3, 2019
Scala

liumingmusic / HadoopLearning

Star

全套大数据基础学习教程，包含最基础的centos、maven。大数据主要包含hdfs、mr、yarn、hbase、kafka、scala、sparkcore、sparkstreaming、sparksql。教程包含所有的源代码演示以及在线文档说明。

scala yarn hadoop maven centos hbase hdfs sparksql mapreduce sparkstreaming spake2

Updated Oct 4, 2022
Scala

zhangslob / learning-spark

Star

零基础学习spark，大数据学习

python java scala spark hadoop hbase spark-streaming hdfs java-8

Updated Jan 3, 2019
Scala

CoxAutomotiveDataSolutions / spark-distcp

Star

A re-implementation of Hadoop DistCP in Apache Spark

spark apache-spark hadoop data-engineering distcp

Updated Dec 20, 2023
Scala

openucx / sparkucx

Star

A high-performance, scalable and efficient ShuffleManager plugin for Apache Spark, utilizing UCX communication layer

big-data spark apache-spark hadoop hpc rdma

Updated Oct 30, 2023
Scala

Improve this page

Add a description, image, and links to the hadoop topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the hadoop topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

hadoop

Here are 136 public repositories matching this topic...

geekyouth / SZT-bigdata

apache / kyuubi

apache / carbondata

AbsaOSS / spline

mjakubowski84 / parquet4s

aliyun / aliyun-emapreduce-datasources

51zero / eel-sdk

archivesunleashed / aut

Qihoo360 / XLearning-XDML

soniclavier / bigdata-notebook

smart-data-lake / smart-data-lake

autovia / ros_hadoop

Thomas-George-T / Movies-Analytics-in-Spark-and-Scala

dimajix / flowman

CoxAutomotiveDataSolutions / waimak

pkeropen / BigData-News

liumingmusic / HadoopLearning

zhangslob / learning-spark

CoxAutomotiveDataSolutions / spark-distcp

openucx / sparkucx

Improve this page

Add this topic to your repo