data-quality

The Lakehouse Engine is a configuration driven Spark framework, written in Python, serving as a scalable and distributed engine for several lakehouse algorithms, data flows and utilities for Data Products.

framework big-data spark data-engineering databricks data-quality delta-lake great-expectations lakehouse configuration-driven

Updated May 20, 2024
Python

encord-team / encord-active

Star

The toolkit to test, validate, and evaluate your models and surface, curate, and prioritize the most valuable data for labeling.

python data-science data machine-learning computer-vision deep-learning data-validation annotations ml object-detection data-cleaning active-learning data-quality data-centric mlops noisy-labels model-quality label-errors label-quality

Updated May 31, 2024
Python

InfuseAI / piperider

Star

Code review for data in dbt

python data-science continuous-integration reporting exploratory-data-analysis eda data-visualization code-review pull-requests dbt data-exploration data-pipeline data-quality data-profiling data-testing data-observability data-profiler data-reliability dbt-metrics

Updated Mar 13, 2024
Python

canimus / cuallee

Star

Possibly the fastest DataFrame-agnostic quality check library in town.

unit-testing bigdata pandas python3 performance-metrics pyspark data-quality-checks data-quality dataquality snowpark pydeequ

Updated Jun 3, 2024
Python

Swiple / swiple

Star

Swiple enables you to easily observe, understand, validate and improve the quality of your data

python data-science data validation data-analytics observability data-quality-checks data-quality data-profiling fastapi data-quality-monitoring data-observability data-reliability data-quality-framework swiple

Updated Jun 9, 2024
Python

bolcom / hive_compared_bq

Star

hive_compared_bq compares/validates 2 (SQL like) tables, and graphically shows the rows/columns that are different.

python bigquery validation hive data-quality

Updated Dec 13, 2017
Python

Improve this page

Add a description, image, and links to the data-quality topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the data-quality topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data-quality

Here are 92 public repositories matching this topic...

ydataai / ydata-profiling

great-expectations / great_expectations

feast-dev / feast

cleanlab / cleanlab

voxel51 / fiftyone

datafold / data-diff

sodadata / soda-core

Hyhyhyhyhyhyh / Django-Data-quality-system

cleanlab / cleanvision

astronomer / airflow-provider-great-expectations

alibaba / feathub

kevinadhiguna / dqlab-career-track

polyaxon / traceml

re-data / dbt-re-data

adidas / lakehouse-engine

encord-team / encord-active

InfuseAI / piperider

canimus / cuallee

Swiple / swiple

bolcom / hive_compared_bq

Improve this page

Add this topic to your repo