Etl

106 projects

Showing 34 of 106 projects

ksqlDBJava

A distributed, scalable database built for stream processing applications on Apache Kafka using SQL syntax.

#stream-processing#ksqldb#materialized-views

Stars311

Forks1.0k

Last commit21 hours ago

Spark-MongoDBScala

A Spark library for reading and writing data between Spark SQL and MongoDB collections.

#apache-spark#data-integration#dataframe

Stars306

Forks94

Last commit10 years ago

GeniClojure

An idiomatic Clojure dataframe library that runs on Apache Spark, providing a seamless interface for data processing and machine learning.

#apache-spark#high-performance-computing#spark

Stars294

Forks26

Last commit2 years ago

kazaamGo

A Go library for declarative JSON-to-JSON transformations using JSON specifications.

#jsonpath#golang-library#json-format

Stars293

Forks52

Last commit4 years ago

neo4j-shell-toolsJava

A collection of import/export commands for the Neo4j shell to load and dump graph data in various formats.

#migration#shell-tools#graphml

Stars290

Forks55

Last commit7 years ago

KafkaScala

A collection of connectors enabling Apache HBase integration with Kafka, Spark, and other data processing systems.

#database#kafka-connector#data-integration

Stars246

Forks179

Last commit11 days ago

Google HCLS Data HarmonizationJava

A mapping language and engine for converting complex, nested data between schemas, with extensibility via plugins.

#plugin-system#healthcare-data#java

R client for the Elasticsearch HTTP API, enabling data indexing, search, and analysis from R.

#data-indexing#database#r-package

Stars245

Forks59

Last commit7 months ago

CrunchGo

A Go-based toolkit for fast ETL and feature extraction on Hadoop, optimized for rapid development and execution.

#hive#pig#feature-extraction

Stars212

Forks16

Last commit11 years ago

go-etlGo

A Go-based toolset for data extraction, transformation, and loading, providing powerful data synchronization capabilities.

#ibmdb2#greenplum#batch-processing

Stars191

Forks55

Last commit1 month ago

Spark-BigQueryScala

A Spark library for reading from and writing to Google BigQuery using DataFrames and SQL.

#apache-spark#data-engineering#gcp

Stars156

Forks50

Last commit6 years ago

neo4j-jdbcJava

Official Neo4j JDBC Driver

#neo4j-driver#driver#business-intelligence

Stars153

Forks59

Last commit4 days ago

ApexJava

Operator and codec library for building real-time streaming applications on Apache Apex.

#apex#java#operator-library

Stars135

Forks141

Last commit6 years ago

SawmillJava

A Java library for enriching, transforming, and filtering JSON documents using configurable pipelines.

#grok#java-library#user-agent

Stars123

Forks23

Last commit2 days ago

spark-connect-rsRust

An experimental Rust client for Apache Spark Connect, providing a DataFrame API to interact with Spark clusters.

#spark-connect#apache-spark#spark

Stars116

Forks24

Last commit1 year ago

Doc manager for Neo4jPython

A MongoDB to Neo4j document manager for live one-way synchronization, enabling polyglot persistence by converting documents into a graph structure.

#document-database#oplog#data-synchronization

A Spark application for migrating data to ScyllaDB from CQL-compatible databases or DynamoDB via Alternator.

#apache-spark#parquet#migration

Stars73

Forks50

Last commit7 days ago

ParquetPHP

A pure PHP library for reading and writing Parquet columnar storage files without external dependencies.

#parquet#file-format#data-engineering

Stars60

Forks3

Last commit11 days ago

scrubcsvRust

A command-line tool to clean and normalize CSV files by removing invalid records and standardizing data.

#data-cleaning#csv-processing#batch-processing

Stars57

Forks7

Last commit4 years ago

avroGo

A Go library for Apache Avro with strong typing, SQL integration, and Redshift schema generation.

#database#apache#data-serialization

Stars49

Forks10

Last commit1 year ago

conduitGo

A modular framework for ingesting and processing Algorand blockchain data into external applications.

#indexer#plugin-system#real-time-data

Stars44

Forks32

Last commit29 days ago

EtlBox.ClassicC#

A lightweight ETL library and data integration toolbox for .NET, enabling programmatic data flow pipelines.

#database#data-integration#csharp

A dynamic framework for processing high-volume data streams with subsecond pipeline instantiation and modification latency.

#stream-processing#dynamic-framework#cluster-computing

Stars30

Forks6

Last commit10 years ago

GraphAware Neo4j ImporterJava

A Java-based high-performance importer skeleton for complex, business-logic-heavy data imports into Neo4j from SQL databases, CSV files, and other sources.

#high-performance#data-migration#csv-import

A PHP library for live importing Google Sheets data into data warehouses with periodic delta loads.

#data-integration#php-library#data-sync

Stars22

Forks1

Last commit4 months ago

elasticsearch_elixir_bulk_processorElixir

A configurable GenStage-based bulk processor for efficiently inserting data into Elasticsearch from Elixir applications.

#hacktoberfest#elixir#backpressure

A pure Go toolkit for data engineering and classic machine learning with zero external dependencies.

#batch-processing#deduplication#zero-dependencies

Stars10

Forks0

Last commit2 months ago

eos-etlPython

Extract, transform, and load (ETL) scripts for exporting and streaming EOS blockchain data.

#crypto#eos#cryptocurrency

Stars8

Forks7

Last commit3 years ago

sql-splitterRust

A fast, memory-efficient CLI tool for splitting large SQL dump files into individual table files and converting between SQL dialects.

#sql-dump#database#mysqldump

Stars8

Forks0

Last commit2 days ago

koala-diffPython

A blazingly fast data comparison tool for Python that instantly compares massive CSV/Parquet datasets, powered by Rust.

#parquet#high-performance#simd

Stars7

Forks0

Last commit4 months ago

embulk-output-influxdbRuby

An Embulk output plugin for writing data to InfluxDB time-series databases.

#data-integration#monitoring#influxdb

Stars2

Forks6

Last commit9 years ago

Data Exchange Framework DocsHTML

Documentation for Sitecore Data Exchange Framework, an ETL tool for Sitecore.

#sphinx#data-integration#dotnet

Stars1

Forks1

Last commit8 years ago

TD-SparkJava

A Java project that reads from and writes to TDengine using Apache Spark for data processing.

#apache-spark#connector#java

Stars0

Forks1

Last commit4 years ago

Import CSV files with sparkScala

Import CSV files from AWS S3 into Cassandra using Apache Spark with a simple configuration-based approach.

#apache-spark#csv-import#aws-s3

Stars0

Forks0

Last commit9 years ago

PreviousPage 3 of 3

Related Tags

Community-curated · Updated weekly · 100% open source

Found a gem we're missing?

Open-Awesome is built by the community, for the community. Submit a project, suggest an awesome list, or help improve the catalog on GitHub.

Submit a project Star on GitHub