Data Analytics

46 projects

Showing 36 of 46 projects

Apache SupersetPython

A modern, enterprise-ready business intelligence web application for data visualization and exploration.

#bi-tool#apache#data-viz

A powerful, interactive JavaScript charting and data visualization library for the browser.

#apache#echarts#data-viz

Stars66.8k

Forks19.8k

Last commit6 days ago

PathwayPython

A Python ETL framework for stream processing, real-time analytics, and building live LLM/RAG pipelines, powered by a scalable Rust engine.

#stream-processing#batch-processing#machine-learning-algorithms

An open-source business intelligence and embedded analytics platform that enables everyone to explore and visualize data.

#database#reporting#postgres

A curated list of awesome big data frameworks, resources, and tools across various categories.

#database#data-science#distributed-systems

Stars14.5k

Forks2.6k

Last commit2 months ago

Big Data

A curated list of awesome big data frameworks, resources, and tools across various categories.

#database#data-storage#open-source

Stars14.5k

Forks2.6k

Last commit2 months ago

dbt-coreRust

A transformation tool that enables data analysts and engineers to transform data using software engineering best practices.

#version-control#pypa#business-intelligence

A transformation workflow that enables data teams to transform data in their warehouse using SQL and software engineering best practices.

#data-documentation#pypa#business-intelligence

A fast distributed SQL query engine for big data analytics, enabling interactive queries across diverse data sources.

#database#distributed-systems#query-engine

Stars13.0k

Forks3.7k

Last commit2 days ago

NebulaGraphC++

A distributed, fast open-source graph database for large-scale data with horizontal scalability and high availability.

#nebulagraph#database#graph

Stars12.3k

Forks1.3k

Last commit2 months ago

billboard.jsTypeScript

A re-usable, easy interface JavaScript chart library based on D3.js.

#chart#graph#web-dashboard

A one-stop data visualization platform that can be used as cloud service or integrated into third-party systems as a plugin.

#davinci#business-intelligence#dashboard

Stars5.0k

Forks1.8k

Last commit2 years ago

AmundsenPython

A metadata-driven data discovery and catalog platform that helps data teams find, understand, and trust their data resources.

#data-lineage#data-catalog#data-engineering

Stars4.8k

Forks965

Last commit20 days ago

AGEC

A PostgreSQL extension that adds graph database capabilities, enabling hybrid relational and graph querying with openCypher.

#database-extension#agensgraph#open-source

Stars4.7k

Forks513

Last commit4 days ago

elasticsearch-pyPython

Official Python client for Elasticsearch, providing idiomatic access to search and analytics engines.

#search#client#python-library

Stars4.4k

Forks1.2k

Last commit4 days ago

weldRust

A language and runtime that optimizes performance of data-intensive applications by lazily building and optimizing computations across libraries.

#cross-library#performance-optimization#workflow-optimization

Stars3.0k

Forks252

Last commit

DataStax Spark Cassandra ConnectorScala

A connector that enables Apache Spark to read from and write to Apache Cassandra databases for distributed data processing.

#apache-spark#spark#scala-library

A lightweight IoT data analytics and stream processing engine designed for resource-constrained edge devices.

#stream-processing#iot#rule-engine

A lightweight IoT data analytics and stream processing engine for resource-constrained edge devices.

#stream-processing#iot#rule-engine

A comprehensive benchmark suite for evaluating speed, throughput, and resource utilization of big data frameworks like Hadoop, Spark, and streaming engines.

#apache-spark#performance-testing#distributed-systems

Stars1.5k

Forks766

Last commit7 months ago

Open MiningPython

Business Intelligence (BI) in Python, OLAP

#olap-cube#business-intelligence#python

Stars1.3k

Forks236

Last commit9 years ago

blazegraphJava

An ultra high-performance graph database supporting Blueprints and RDF/SPARQL APIs, scaling to 50 billion edges on a single machine.

#tinkerpop#high-performance#rdf

Stars989

Forks188

Last commit3 years ago

aws-big-data-blogJava

Code samples and examples from AWS Big Data Blog posts for implementing data analytics solutions on AWS.

#code-samples#aws-services#data-engineering

Stars893

Forks613

Last commit4 years ago

Chaos GeniusPython

An open-source ML-powered analytics engine for automated outlier detection and root cause analysis on high-dimensional metrics.

#observability#business-intelligence#monitoring

Stars778

Forks86

Last commit1 year ago

Mongo-SparkJava

Official connector for integrating Apache Spark with MongoDB, enabling distributed data processing on MongoDB data.

#apache-spark#connector#spark

Stars730

Forks320

Last commit1 month ago

BananaJavaScript

A Kibana port for Apache Solr that provides rich dashboard and visualization capabilities for time-series and non-time-series data.

#apache-solr#web-app#logstash

Stars673

Forks232

Last commit1 month ago

Intel® oneAPI Data Analytics LibraryC++

A high-performance C++/DPC++ library for accelerated machine learning on CPUs, GPUs, and distributed systems.

#oneapi#hacktoberfest#ai-machine-learning

Stars651

Forks224

Last commit4 days ago

desbordanteC++

A high-performance data profiler for discovering and validating complex patterns like functional dependencies, inclusion dependencies, and association rules.

#data-cleaning#pattern-discovery#data-science

A high-performance data profiler for discovering and validating complex patterns in datasets, enabling data cleaning and quality analysis.

#data-cleaning#cpp-library#data-science

Stars492

Forks101

Last commit1 day ago