README.md

Chapter 4

The goal of the programs in this chapter is to show some of the important reductions in Spark. Some of the reductions by key are:

We want to find out average per key in PySpark. The solutions are presented in this chapter as:

combineByKey():
- average_by_key_use_combinebykey.py (PySpark program)
- average_by_key_use_combinebykey.sh (shell script to call PySpark)
groupByKey():
- average_by_key_use_groupbykey.py (PySpark program)
- average_by_key_use_groupbykey.sh (shell script to call PySpark)
reduceByKey():
- average_by_key_use_reducebykey.py (PySpark program)
- average_by_key_use_reducebykey.sh (shell script to call PySpark)
aggregateByKey():
- average_by_key_use_aggregatebykey.py (PySpark program)
- average_by_key_use_aggregatebykey.sh (shell script to call PySpark)

We want to find out average per key in PySpark. The solutions are presented in this chapter as:

combineByKey():
- exact_median_by_key_use_combinebykey.py (PySpark program)
groupByKey():
- exact_median_by_key_use_groupbykey.py (PySpark program)
reduceByKey():
- exact_median_by_key_use_reducebykey.py (PySpark program)
aggregateByKey():
- exact_median_by_key_use_aggregatebykey.py (PySpark program)

Name		Name	Last commit message	Last commit date
parent directory ..
README.md		README.md
average_by_key_use_aggregatebykey.py		average_by_key_use_aggregatebykey.py
average_by_key_use_aggregatebykey.sh		average_by_key_use_aggregatebykey.sh
average_by_key_use_combinebykey.py		average_by_key_use_combinebykey.py
average_by_key_use_combinebykey.sh		average_by_key_use_combinebykey.sh
average_by_key_use_groupbykey.py		average_by_key_use_groupbykey.py
average_by_key_use_groupbykey.sh		average_by_key_use_groupbykey.sh
average_by_key_use_reducebykey.py		average_by_key_use_reducebykey.py
average_by_key_use_reducebykey.sh		average_by_key_use_reducebykey.sh
dataframe_median_approx.py		dataframe_median_approx.py
dataframe_median_exact.py		dataframe_median_exact.py
exact_median_by_key_use_aggregatebykey.py		exact_median_by_key_use_aggregatebykey.py
exact_median_by_key_use_combinebykey.py		exact_median_by_key_use_combinebykey.py
exact_median_by_key_use_groupbykey.py		exact_median_by_key_use_groupbykey.py
exact_median_by_key_use_reducebykey.py		exact_median_by_key_use_reducebykey.py