Flume->Kafka->Spark->Solr: data-pipeline

This project creates data pipeline which gets data from flume sender and processes using Kafka-> spark and stores in Solr through a single script.

Assumptions:

Requires Docker

Steps:

Download data-pipeline repository.

Starting the script:

This might take some time (~approx 15-20 minutes) as it downloads all required packages, and starts Kafka, Spark, Solr and Flume

 sh startStreaming.sh <HOST MACHINE IP> or <EC2 INSTANCE NAME> <PEM file> <INPUT FILE TO BE READ>

Dashboard URL -  http://<Your mahchine name>:8963/solr

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
streaming-data		streaming-data
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
arch.png		arch.png
create_topics.sh		create_topics.sh
index_creation.sh		index_creation.sh
output.png		output.png
run_kafka.sh		run_kafka.sh
run_producer.sh		run_producer.sh
run_solr.sh		run_solr.sh
run_streaming.sh		run_streaming.sh
solr.png		solr.png
start.png		start.png
start_automated_script.sh		start_automated_script.sh

Provide feedback