ETLBookBatchProcessing

A demo data pipeline is about Flink for Batch processing

Database generation

Because I use Macbook M1 pro, then I need to start postgresql before generating a database.

brew services start postgresql

Generate database "books"

createdb books  -U postgres

Generate tables through schema misc/schema.sql

psql -h localhost -U quangtn -W -d books -f ../etl_datapipeline/misc/schema.sql

Getting dataset.

Curl the dataset.

curl -sL https://github.com/luminati-io/Amazon-popular-books-dataset/raw/main/Amazon_popular_books_dataset.json |   jq -c '.[]' > dataset.json

Generate a gz dataset, because it load .gz files as data source.

gzip dataset.json

Building package.

mvn clean package

Running.

Start flink cluster.

./bin/flink/start-cluster.sh

Running flink.

../flink-1.18.1/bin/flink run -p 4 ./target/github-etl-datapipeline-1.0-SNAPSHOT.jar --input-dir dataset.json ./ --db-url jdbc:postgresql://localhost:5432/books

Stop flink.

./bin/stop-cluster.sh

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
misc		misc
src/main		src/main
.DS_Store		.DS_Store
.gitignore		.gitignore
README.md		README.md
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ETLBookBatchProcessing

Database generation

Getting dataset.

Building package.

Running.

Output.

About

Releases

Packages

Languages

quangtn266/ETLBookBatchProcessing

Folders and files

Latest commit

History

Repository files navigation

ETLBookBatchProcessing

Database generation

Getting dataset.

Building package.

Running.

Output.

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages