pyspark

Here are 25 public repositories matching this topic...

apache / linkis

Apache Linkis builds a computation middleware layer to facilitate connection, governance and orchestration between the upper applications and the underlying data engines.

Updated Jun 5, 2024
Java

mahmoudparsian / data-algorithms-book

Star

MapReduce, Spark, Java, and Scala for Data Algorithms Book

python java machine-learning scala apache-spark distributed-computing design-patterns pyspark mapreduce reducers partitioning hadoop-mapreduce distributed-algorithms mappers data-algorithms apache-hadoop

Updated Apr 21, 2023
Java

logicalclocks / hopsworks

Star

Hopsworks - Data-Intensive AI platform with a Feature Store

python aws data-science machine-learning serverless azure gcp ml pyspark feature-engineering governance model-serving mlops feature-store feature-management hopsworks kserve

Updated Jun 5, 2024
Java

jelmerk / hnswlib

Star

Java library for approximate nearest neighbors search using Hierarchical Navigable Small World graphs

java algorithm scala spark pyspark knn-search k-nearest-neighbors

Updated Jan 20, 2024
Java

airscholar / SparkingFlow

Star

This project demonstrates how to use Apache Airflow to submit jobs to Apache spark cluster in different programming laguages using Python, Scala and Java as an example.

java docker scala spark pyspark dataengineering apache-airflow

Updated Mar 14, 2024
Java

alejandronotario / LDA-Topic-Modeling

Star

python spark prediction pyspark topic-modeling gensim nlp-machine-learning lda-model dirichlet

Updated Dec 5, 2018
Java

apurvapatkeshwar / NYCTaxiBigData

Star

python java nyc csv big-data spark hadoop analytics bigdata pyspark new-york-city pig citibike pig-latin hadoop-mapreduce taxi

Updated May 5, 2017
Java

jamestiotio / dbsys

Sponsor

Star

SUTD 2021 50.043 Database and Big Data Systems Code Dump

Updated May 17, 2022
Java

JKhan01 / kafka-spark-stream

Star

The Project and workaround repository to generate a producer stream to kafka cluster, consume and then process it.

big-data apache-spark maven pyspark apache-kafka big-data-analytics

Updated Nov 4, 2021
Java

niftimus / SparkMMS

Star

Custom AEMO MMS Data Model CSV reader for Apache Spark

java spark pyspark mms electricity partitioning aemo datasourcev2

Updated Feb 26, 2022
Java

err-ctrl-alt-del / kafka-clients-util

Star

Java Utilities for PySpark Kafka Clients

kafka pyspark kerberos-client

Updated Feb 15, 2018
Java

saikumarsuvanam / BigData

Star

Hadoop,MachineLearningAlgos,Spark,Pig,Hive

scala hive hadoop pyspark mllib pig graphx apachespark

Updated Jan 26, 2018
Java

Ayoub-etoullali / Activites-Pratiques-BigData

Star

MapReduce Job Development, RDDs Programming, Medical Data Management, Sales Analysis, And Efficient Data Integration For Big Data Analysis. Spark: Big Data Processing, SQOOP Integration, And Spark Structured Streaming For Real-Time Data.