data-lakehouse

Star

Here are 29 public repositories matching this topic...

BemiHQ / BemiDB

Star

Postgres read replica optimized for analytics

replication analytics postgresql data-warehouse olap parquet iceberg duckdb data-movement data-lakehouse zero-etl

Updated Mar 13, 2025
Go

pracdata / awesome-open-source-data-engineering

Star

A curated list of open source tools used in analytics platforms and data engineering ecosystem

Updated Mar 12, 2025

Qbeast-io / qbeast-spark

Star

Qbeast-spark: DataSource enabling multi-dimensional indexing and efficient data sampling. Big Data, free from the unnecessary!

scala big-data spark sampling datasource spark-sql data-lakehouse

Updated Jan 24, 2025
Scala

DataWithBaraa / sql-data-warehouse-project

Sponsor

Star

A comprehensive guide to building a modern data warehouse with SQL Server, including ETL processes, data modeling, and analytics.

Updated Feb 17, 2025
TSQL

dominikhei / Local-Data-LakeHouse

Star

Sample Data Lakehouse deployed in Docker containers using Apache Iceberg, Minio, Trino and a Hive Metastore. Can be used for local testing.

data-lake minio trino hive-metastore apache-iceberg lakehouse data-lakehouse

Updated Sep 2, 2023
Dockerfile

PFund-Software-Ltd / pfeed

Star

Data Engine for Manual/Algo Trading: Download/Stream -> Clean -> Store. Supports Data Lakehouse Architecture. Clean Once and Forget.

streaming data-storage pandas algo-trading historical-data data-pipeline backtesting delta-lake data-lakehouse polars

Updated Mar 13, 2025
Python

ulbmuenster / dataasee

Star

DatAasee - A Metadata-Lake for Libraries

metadata data-engineering data-lake data-catalog data-discovery metadata-management research-library university-library metadata-catalog academic-library metadata-mapping data-lakehouse metalake metadata-lake

Updated Sep 23, 2024
Makefile

aabouzaid / modern-data-platform-poc

Star

My M.Sc. dissertation: Modern Data Platform using DataOps, Kubernetes, and Cloud-Native ecosystem to build a resilient Big Data platform based on Data Lakehouse architecture which is the base for Machine Learning (MLOps) and Artificial Intelligence (AIOps).

kubernetes big-data data-engineering dataops data-platform cloud-native msc msc-project edinburgh-napier cloud-agnostic data-lakehouse

Updated May 12, 2024
Jupyter Notebook

mahmoudparsian / data-warehousing

Star

This repository is a place for the Data Warehousing course at the Information Systems & Analytics department, Santa Clara University.

data-mining database etl extract data-visualization data-warehouse data-lake business-intelligence data-analytics load transform tableau elt data-modeling data-warehousing star-schema snowflake-schema dimensional-modeling data-lakehouse

Updated Mar 12, 2025
Jupyter Notebook

gupta-aayushkr / F1-Racing

Star

The project aims to process Formula 1 racing data, create an automated data pipeline, and make the data available for presentation and analysis purposes.

sql azure databricks pyspark-notebook data-factory data-lakehouse

Updated Jan 10, 2024
Python

abeltavares / versioned-data-lakehouse

Star

🌊 Git-like Version Control for Data with Nessie, Iceberg, and Spark

Updated Jan 21, 2025
Jupyter Notebook

sudohainguyen / mini-lakehouse

Star

Data lakehouse at home with docker compose

hive iceberg trino data-lakehouse

Updated May 20, 2023
Jupyter Notebook

huwngnosleep / complete_lakehouse_techstack

Star

This project implements an end-to-end techstack for a data platform, for local development.

kafka spark hadoop etl bigdata data-warehouse data-platform lambda-architecture data-lakehouse

Updated Oct 30, 2024
Python

Rudra-G-23 / SQL-Data-Warehouse-Project

Star

This repo provides a step-by-step approach to building a modern data warehouse using PostgreSQL. It covers the ETL (Extract, Transform, Load) process, data modeling, exploratory data analysis (EDA), and advanced data analysis techniques.

data-science sql etl data-warehouse data-structures data-analytics datawarehousing pgsql pgadmin4 data-cleansing etl-pipeline data-warehouse-architecture data-lakehouse medallion-architecture

Updated Mar 7, 2025
PLpgSQL

k0rsakov / infrastructure_for_data_engineer_S3

Star

Инфраструктура для data engineer S3

tutorial docker-compose tutorials data-engineering data-lake tutorial-code habr data-lakehouse data-engineering-project

Updated Aug 15, 2024
Python

prneidhardt / AWS-Data-Lakehouse

Star

STEDI project

aws apache-spark data-manipulation data-lakehouse data-definition-language

Updated Nov 11, 2024
Python

yrehim7 / Data-Warehouse-Project

Star

A complete, easy-to-follow guide on building a modern data warehouse with SQL Server. Learn how to design ETL processes, create effective data models, and leverage analytics for better insights.

sql sql-server database etl sql-query datawarehousing datawarehouse data-cleaning data-lakehouse medallion-architecture