Repository for the Spark MOOC on Udacity

This is the repository for a MOOC on Udacity about Spark
Course Link | Spark Documentation | Spark Download

Setup

Download and Install Spark
Install pyspark via pip:
```
pip install pyspark
```
... or Anconda:
```
conda install pyspark
```

Spark Commands - How to start a Master Node (locally)

On your machine, navigate to:

/usr/local/Cellar/apache-spark/2.4.5/libexec

Start the Master Node:

./sbin/start-master.sh -h <ip-address where to run>

Stop the Master Node:
```
./sbin/stop-master.sh
```

Connect to an AWS EMR instance

Documentation

Connect to instance:

ssh -i <path>/<key_name>.pem hadoop@ec2-###-###-###-###.compute.amazonaws.com

Transmit Files to HDFS

Connect to instance using SSH or Browser + Proxy

Transmit files to HDFS:

scp -i <path>/<key_name>.pem ~/Desktop/sparkify_log_small.json hadoop@ec2-###-###-###-###.compute.amazonaws.com:~/

Create new HDFS Folder:
```
hdfs dfs -mkdir user/<newFolder>
```
Need Help?
```
hdfs #or hfds dfs
```

Move a file to the current cluster:

hdfs dfs -copyFromLocal <file> /user/<folder>

Submit a script on hdfs with spark:

which spark-submit = /usr/bin/spark-submit
/usr/bin/spark-submit --master yarn ./<script>.py

Glossary

Accumulators = global variables for debugging code

from pyspark import SparkContext
errors = SparkContext.accumulator(0,0)

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
data		data
.gitignore		.gitignore
README.md		README.md
aws_spark_script.py		aws_spark_script.py
data_wrangling.py		data_wrangling.py
data_wrangling_sql.py		data_wrangling_sql.py
loading_data.py		loading_data.py
ml_with_spark.py		ml_with_spark.py
quiz_modeltuning.py		quiz_modeltuning.py
spark_maps.py		spark_maps.py
standalone_try.py		standalone_try.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Repository for the Spark MOOC on Udacity

Setup

Spark Commands - How to start a Master Node (locally)

Connect to an AWS EMR instance

Transmit Files to HDFS

Glossary

About

Uh oh!

Releases

Packages

Languages

weberdavid/pyspark_course

Folders and files

Latest commit

History

Repository files navigation

Repository for the Spark MOOC on Udacity

Setup

Spark Commands - How to start a Master Node (locally)

Connect to an AWS EMR instance

Transmit Files to HDFS

Glossary

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages