Pyspark Example

Pyspark examples on how to load data from different format into Spark Dataframes.

Installation

Python 3.x should be available on OS. Create virtual environment in $HOME dir ($HOME/venv3x)
Ensure JAVA_HOME is setup in environment

$:~/pyspark_example$ source ~/venv3x/bin/activate;
$:~/pyspark_example$ pip install -r requirements.txt

Add src folder to PYTHONPATH

$:~/pyspark_example$ export PYTHONPATH=$PYTHONPATH:$PWD/src

Run a module

$:~/pyspark_example$python csv_2_dataframe.py