pySpark_Notes

Wenqiang Feng's notes for pySpark using real air quality data. I'm leaving practical and ready to use commands

Creating RDDs.ipynb

An RDD in Spark is simply an immutable distributed collection of objects sets. Each RDD is split into multiple partitions (similar pattern with smaller sets), which may be computed on different nodes of the cluster.

Start Spark environment
Importing data from different sources and transforming them into RDDs
List of commands for doing different actions over RDDs.

Source: https://runawayhorse001.github.io/LearningApacheSpark/rdd.html

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
Datasets		Datasets
.gitignore		.gitignore
BasePysparkEnv.ipynb		BasePysparkEnv.ipynb
Creating RDDs.ipynb		Creating RDDs.ipynb
Data Exploration (Multivariate).ipynb		Data Exploration (Multivariate).ipynb
Data Exploration (Univariate).ipynb		Data Exploration (Univariate).ipynb
LICENSE		LICENSE
README.md		README.md
Spark_LinearRegression.ipynb		Spark_LinearRegression.ipynb
Spark_SQL_Test.ipynb		Spark_SQL_Test.ipynb
general_fv.ipynb		general_fv.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

pySpark_Notes

Creating RDDs.ipynb

About

Releases

Packages

Languages

License

c-pzzo/pySpark_Notes

Folders and files

Latest commit

History

Repository files navigation

pySpark_Notes

Creating RDDs.ipynb

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages