Batch-Processing Data Architecture for ML Applications

Project Overview

A scalable, reliable, and maintainable batch-processing data infrastructure designed to support data-intensive machine learning applications. The system ingests massive amounts of data, processes it in batches, and prepares aggregated datasets for quarterly ML model training.

Architecture Components

Microservices

Data Ingestion: Apache Kafka
Data Storage: Hadoop HDFS + PostgreSQL
Data Processing: Apache Spark
Workflow Orchestration: Apache Airflow
Monitoring: Prometheus + Grafana
API Gateway: Flask REST API

Key Features

✅ Batch processing with configurable schedules
✅ Containerized microservices architecture
✅ Scalable and fault-tolerant design
✅ Data governance and security
✅ Infrastructure as Code (Docker Compose)
✅ Version-controlled codebase

Data Source

Dataset: NYC Taxi Trip Data (>1M records)

Source: Kaggle / NYC OpenData
Size: Multiple GB with timestamped records
Processing: Monthly ingestion, Quarterly aggregation

Project Structure

.
├── docker-compose.yml          # Container orchestration
├── infrastructure/             # Infrastructure configuration
│   ├── kafka/
│   ├── spark/
│   ├── hadoop/
│   ├── airflow/
│   └── monitoring/
├── data-ingestion/            # Kafka producers and data loaders
├── data-processing/           # Spark jobs for transformation
├── data-storage/              # Storage schemas and utilities
├── api/                       # REST API for data delivery
├── scripts/                   # Utility scripts
├── docs/                      # Architecture documentation
└── tests/                     # Integration tests

Quick Start

Prerequisites

Docker Desktop (20.x or later)
Docker Compose (v2.x or later)
Git
Minimum 16GB RAM, 50GB free disk space

Setup Instructions

Clone the repository

git clone <repository-url>
cd Project1

Start the infrastructure

docker-compose up -d

Verify services are running

docker-compose ps

Access service UIs

Airflow: http://localhost:8080 (admin/admin)
Spark Master: http://localhost:8081
Grafana: http://localhost:3000 (admin/admin)
Kafka UI: http://localhost:9000

Ingest sample data

python data-ingestion/ingest_data.py --source data/sample.csv

Trigger batch processing

# Airflow DAG will automatically trigger quarterly processing
# Or manually trigger: python scripts/trigger_batch_processing.py

System Architecture

Data Flow

Ingestion: Data files → Kafka → HDFS (Raw Zone)
Processing: Spark reads from HDFS → Transforms → Writes to HDFS (Processed Zone)
Aggregation: Spark aggregates → Writes to PostgreSQL (Analytics Zone)
Delivery: REST API serves data to ML applications

Reliability Features

Kafka message persistence and replication
HDFS data replication (factor 3)
Spark checkpoint and recovery
Airflow retry mechanisms
Database backups

Scalability Features

Horizontal scaling of Spark workers
Kafka partitioning
HDFS distributed storage
Containerized services

Security & Governance

Role-based access control (RBAC)
Data encryption at rest
Audit logging
Data lineage tracking
Schema validation

Development Workflow

Adding a new data source

Create Kafka producer in data-ingestion/
Define schema in data-storage/schemas/
Create Spark job in data-processing/
Update Airflow DAG

Running tests

pytest tests/ -v

Monitoring and Maintenance

Health Checks

All services expose health endpoints monitored by Prometheus:

Kafka: /health
Spark: /api/v1/applications
Airflow: /health

Logs

# View logs for specific service
docker-compose logs -f <service-name>

Future Enhancements

Stream processing pipeline (Kafka Streams / Flink)
Real-time dashboard
ML model versioning integration
Cloud deployment (AWS/Azure)
Advanced data quality checks

Contributing

This is an academic project. For questions or suggestions, please open an issue.

License

MIT License

Author

Bhavyashree Prakash - Data Engineering Portfolio Project

References

Apache Kafka Documentation
Apache Spark Documentation
Apache Airflow Documentation
Docker Best Practices
Microsoft Azure Reference Architecture

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
Taxi Data/taxi_zones		Taxi Data/taxi_zones
api		api
data-ingestion		data-ingestion
data-processing		data-processing
docs		docs
infrastructure/airflow		infrastructure/airflow
scripts		scripts
tests		tests
.env.example		.env.example
.gitignore		.gitignore
ALL_COMMANDS.md		ALL_COMMANDS.md
DATA_SOURCE_GUIDE.md		DATA_SOURCE_GUIDE.md
KAFKA_COMMANDS.md		KAFKA_COMMANDS.md
Makefile		Makefile
QUICKSTART.md		QUICKSTART.md
README.md		README.md
RUNNING.md		RUNNING.md
STATUS_REPORT.md		STATUS_REPORT.md
TAXI_DATA_LOADING.md		TAXI_DATA_LOADING.md
TEST_REPORT.md		TEST_REPORT.md
docker-compose-simple.yml		docker-compose-simple.yml
docker-compose-working.yml		docker-compose-working.yml
docker-compose.yml		docker-compose.yml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Batch-Processing Data Architecture for ML Applications

Project Overview

Architecture Components

Microservices

Key Features

Data Source

Project Structure

Quick Start

Prerequisites

Setup Instructions

System Architecture

Data Flow

Reliability Features

Scalability Features

Security & Governance

Development Workflow

Adding a new data source

Running tests

Monitoring and Maintenance

Health Checks

Logs

Future Enhancements

Contributing

License

Author

References

About

Uh oh!

Releases

Packages

Languages

Pbhavyashree/Data-Engineering-Project

Folders and files

Latest commit

History

Repository files navigation

Batch-Processing Data Architecture for ML Applications

Project Overview

Architecture Components

Microservices

Key Features

Data Source

Project Structure

Quick Start

Prerequisites

Setup Instructions

System Architecture

Data Flow

Reliability Features

Scalability Features

Security & Governance

Development Workflow

Adding a new data source

Running tests

Monitoring and Maintenance

Health Checks

Logs

Future Enhancements

Contributing

License

Author

References

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages