Data Quality

40 projects

Showing 36 of 40 projects

DagsterPython

An orchestration platform for developing, deploying, and monitoring data pipelines and assets.

#data-orchestration#data-assets#devops

Stars15.9k

Forks2.2k

Last commit18 hours ago

OpenMetadataTypeScript

A unified open-source metadata platform for data discovery, observability, and governance with column-level lineage and team collaboration.

#data-collaboration#data-lineage#open-source

Stars14.5k

Forks2.2k

Last commit7 hours ago

YData ProfilingPython

Generate comprehensive data quality profiling and exploratory data analysis reports for Pandas and Spark DataFrames with a single line of code.

#python-library#pandas-profiling#data-science

Stars13.7k

Forks1.8k

Last commit3 months ago

Pandas ProfilingPython

Generate comprehensive data quality profiles and exploratory data analysis reports for Pandas and Spark DataFrames with a single line of code.

#spark#python-library#pandas-profiling

Stars13.7k

Forks1.8k

Last commit3 months ago

dbt-coreRust

A transformation tool that enables data analysts and engineers to transform data using software engineering best practices.

#version-control#pypa#business-intelligence

Stars13.5k

Forks2.5k

Last commit7 hours ago

dbtRust

A transformation workflow that enables data teams to transform data in their warehouse using SQL and software engineering best practices.

#data-documentation#pypa#business-intelligence

Stars13.5k

Forks2.5k

Last commit7 hours ago

Great ExpectationsPython

A Python library for data quality testing and validation using expressive, extensible Expectations.

#data-testing#datacleaning#open-source

Stars11.7k

Forks1.8k

Last commit20 hours ago

cleanlabPython

An open-source data-centric AI library for automatically detecting and fixing data quality issues in machine learning datasets.

#data-cleaning#data-centric-ai#out-of-distribution-detection

Stars11.6k

Forks909

Last commit6 months ago

evidentlyJupyter Notebook

An open-source Python framework to evaluate, test, and monitor ML and LLM systems with 100+ built-in metrics.

#html-report#hacktoberfest#python-library

Stars7.7k

Forks886

Last commit2 months ago

Feast - A Feature Store for ML for GCP by Gojek/GooglePython

An open-source feature store for managing and serving machine learning features for training and online inference.

#features#batch-processing#data-science

Stars7.2k

Forks1.4k

Last commit17 hours ago

lakeFSGo

An open-source tool that transforms object storage into a Git-like repository for versioned, atomic, and repeatable data lake operations.

#multi-cloud#data-versioning#azure-blob-storage

Stars5.5k

Forks467

Last commit19 hours ago

DedupePython

A Python library using machine learning for accurate and scalable fuzzy matching, record deduplication, and entity resolution on structured data.

#data-cleaning#de duplicating#python-library

Stars4.5k

Forks575

Last commit1 year ago

panderaPython

A flexible and expressive API for performing statistical data validation on dataframe-like objects.

#data-cleaning#pandas-validation#python-library

Stars4.4k

Forks421

Last commit5 days ago

missingnoPython

A Python library for visualizing missing data in pandas DataFrames using matrix, bar, heatmap, and dendrogram plots.

#data-cleaning#missing-data#python-library

Stars4.2k

Forks522

Last commit2 years ago

deequScala

A library built on Apache Spark for defining unit tests to measure data quality in large datasets.

#data-testing#apache-spark#spark

Stars3.6k

Forks584

Last commit2 days ago

data-diffPython

Fast tool for comparing datasets within or across SQL databases to identify differences.

#database#python-library#data-science

Stars3.0k

Forks310

Last commit2 years ago

AutoVizPython

Automatically visualize any dataset with a single line of code, including data quality assessment and fixes.

#automl-algorithms#python-library#data-science

Stars1.9k

Forks214

Last commit2 years ago

BruinGo

A unified data pipeline tool for ingestion, transformation with SQL/Python/R, and data quality checks across major platforms.

#data-modeling#data-quality#python

Stars1.7k

Forks85

Last commit17 hours ago

email-verifierGo

A Go library for email verification without sending emails, featuring syntax validation, SMTP checks, disposable email detection, and domain typo suggestions.

#email-reachability#disposable#email-validation

Stars1.6k

Forks227

Last commit4 months ago

Data ProfilerPython

A Python library that automatically extracts schema, statistics, and sensitive entities (PII/NPI) from datasets.

#sensitive-data-detection#data-labels#python-library

Stars1.6k

Forks187

Last commit3 days ago

name-suggestion-indexJSON

A canonical index of common brand names, operators, and features for consistent tagging in OpenStreetMap.

#data-curation#franchise#geospatial-data

Stars866

Forks1.0k

Last commit12 hours ago

python-deequJupyter Notebook

A Python API for Deequ, enabling data quality testing and validation on large datasets using Apache Spark.

#data-testing#apache-spark#python-api

Stars824

Forks156

Last commit2 days ago

Tensorflow Data Validation (TFDV)Python

A scalable library for exploring, validating, and monitoring machine learning data, integrated with TensorFlow and TFX.

#python-library#data-schema#mlops

Stars782

Forks182

Last commit1 month ago

datacompyPython

A Python library for comparing Pandas, Polars, Spark, and Snowpark DataFrames with detailed reporting and flexible matching.

#apache-spark#fugue#spark

Stars654

Forks162

Last commit2 days ago

DesbordanteC++

A high-performance data profiler for discovering and validating complex patterns in datasets, enabling data cleaning and quality analysis.

#data-cleaning#cpp-library#data-science

Stars492

Forks101

Last commit4 days ago

desbordanteC++

A high-performance data profiler for discovering and validating complex patterns like functional dependencies, inclusion dependencies, and association rules.

#data-cleaning#pattern-discovery#data-science

Stars492

Forks101

Last commit4 days ago

pointblankPython

A Python data validation toolkit that finds data quality issues and generates beautiful, shareable reports for team collaboration.

#data-testing#reporting#team-collaboration

Stars457

Forks29

Last commit1 day ago

geojsonhintJavaScript

A complete, fast, standards-based validation tool for GeoJSON data.

#geojson#validation#geospatial

Stars258

Forks35

Last commit2 years ago

Csvlint.goMakefile

A Go library and CLI tool for validating CSV files against RFC 4180 standards.

#csv-validation#go-library#command-line-tool

Stars208

Forks21

Last commit8 months ago

DQOpsJava

A DataOps-friendly data quality monitoring platform with customizable checks, dashboards, and incident management for multiple data sources.

#data-quality-report#data-observability#data-quality-checks

Stars194

Forks37

Last commit6 months ago

daffyPython

Lightweight DataFrame validation decorators for pandas, Polars, Modin, and PyArrow with no custom types required.

#pyarrow#dataframe-validation#pydantic

Stars58

Forks5

Last commit7 hours ago

scrubcsvRust

A command-line tool to clean and normalize CSV files by removing invalid records and standardizing data.

#data-cleaning#csv-processing#batch-processing

Stars57

Forks7

Last commit4 years ago

German Open Transport Meetup

Documentation and coordination hub for German open transport data and data quality meetups.

#community#german#opensource

Stars52

Forks0

Last commit2 years ago

Transport ValidatorRust

A Rust-based validation tool for GTFS (General Transit Feed Specification) files, performing checks from basic file integrity to complex data anomalies.

#geojson#cli-tool#data-quality

Stars49

Forks12

Last commit1 month ago