In [41]:
#Importando o Pyspark
import pyspark
from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local[1]").appName("SparkByExamples.com").getOrCreate()

# RDD significa "Resilient Distributed Dataset", que em português significa Conjunto de Dados Distribuído e Resiliente.
# Em resumo, o RDD é uma estrutura de dados poderosa que é particularmente útil para processamento distribuído em grandes conjuntos de dados. 
# O Pandas, por exemplo, é uma biblioteca poderosa para processamento de dados em uma única máquina.

# Criando um RDD com 6 elementos, ou seja, transformaremos uma lista em Python para um RDD paralelizado 
paises = ["Brasil", "Italia", "Russia", "Noruega", "Espanha", "Mexico"]
dadosrdd = spark.sparkContext.parallelize(paises)

# Alguns exemplos de operações:
# Exibindo a coleção criada em RDD, ou seja, todos os dados gravados no RDD sobre paises
print(dadosrdd.collect())

# Contando a quantidade de elementos presentes no RDD sobre paises
print(dadosrdd.count())

['Brasil', 'Italia', 'Russia', 'Noruega', 'Espanha', 'Mexico']
6


In [43]:
# Criando outro RDD (dadosrdd2) usando a mesma lista de países, sem especificar o número de partições. 
# Em seguida, exibindo o número de partições no RDD usando o método getNumPartitions()
dadosrdd2 = spark.sparkContext.parallelize(paises)
print("Partições: " + str(dadosrdd2.getNumPartitions()))

# Criando um terceiro RDD (dadosrdd3) com a mesma lista de países, mas especificando que queremos forçar o RDD a ser particionado em cinco partições usando o parâmetro numSlices. 
# Em seguida, estamos exibindo o número de partições no RDD usando novamente o método getNumPartitions().
dadosrdd3 = spark.sparkContext.parallelize(paises, 5)
print("Partições Paralelas: " + str(dadosrdd3.getNumPartitions()))

Partições: 1
Partições Paralelas: 5


In [40]:
# Carregando um arquivo externo para um RDD
food = spark.read.option("header", "true").csv("D:/Python/Arquivo-de-Dados/food_coded.csv")

# Mostrando os 5 primeiros elementos do RDD, note que o cabeçalho também está disponível
print(food.show(5))

# Executando uma operação em cada elemento do RDD
dadosrdd3.foreach(lambda x: print(x))

# Encerrando a sessão Spark
spark.stop()

+--------------+------+---------+----------------+------------+--------------+------+--------------------+--------------------+---------------------------+----+----------------------------+-------+--------------------+------------------+-----+--------------------+--------------------+---------------------+----------+----------+-----------+--------+----------------+-----------------+--------------+-----------------+--------+--------------------+-----+---------+-----------+----------+---------------+--------------------+--------------------+----------------+------+-----------+------------+--------------+--------------+--------------------+----------------+-----------------+-----------------+-------------+------------+------------+------------+----------------------+----+------+---------+-----------------+---------------+-----------+-----------+--------+---------------+--------------------+
|           GPA|Gender|breakfast|calories_chicken|calories_day|calories_scone|coffee|        comfor