In [0]:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType,StructField, StringType, IntegerType


### **Spark Session** ###
A Spark Session é o ponto de entrada pra acessar todas as funcionalidades do Spark. Por meio dela, é possível: <br>
• **Ler e criar DataFrames;<br>
• Realizar queries do SQL;<br>
• Configurar a aplicação;<br>
• Acessar o catálogo de metadados.**<br>

### **Metodos mais comuns** ###

- version() – Returns the Spark version where your application is running, probably the Spark version your cluster is configured with. <br>

- createDataFrame() – Cria um Dataframe de uma coleção  <br>

- getActiveSession() – Retorna a SparkSession ativa ativa <br>

- read() – Usado para ler registros de csv, parquet, avro, delta entre outros formatos num DataFrame. <br>

- readStream() – Usado para ler dados streaming num DataFrame. <br>

- sparkContext() – Retorna um SparkContext. <br>

- sql() – Retorna um Dataframe equivalente a execução de uma instrução SQL. <br>

- sqlContext() – Retorna um SQLContext. <br>

- stop() – Para o SparkContext atual. <br>

- table() – Retorna um Dataframe de uma tabela ou view. <br>



### **Criando uma Spark Session** ###
Algumas formas de criar uma sparkSession: <br>

In [0]:
spark = SparkSession.builder.getOrCreate()


Adicionando configurações a sparkSession durante a criação

In [0]:
spark = SparkSession.builder\
.config('spark.executor.memory', '8G')\
.getOrCreate()

Verificando o valor de alguma configuração no spark

In [0]:
partitions = spark.conf.get("spark.sql.shuffle.partitions")
print(partitions)

200


### **Criando uma Spark Context** ###
Desde o spark 2.0 , a nova forma de acessar driver do spark é com uma SparkSession, atravez da SparkSession temos  <br>
Acesso ao SparkContext

In [0]:
sparkContext=spark.sparkContext

### **Criando um RDD** ###
Utilizando o metodo parallelize, podemos criar um RDD , passando uma lista como fonte de dados, por exemplo.<br>
Com o RDD criado, podemos realizar uma série de ações e transformações . Abaixo executaremos algumas demonstrações de utilização.
### **Metodos mais comuns de um RDD** ###

- count() – Retorna a quantidade de elementos do RDD <br>

- collect() – Retorna uma lista com os elementos do RDD  <br>

- foreach(f) – Executa uma função para cada elemento do RDD, recebe como parametro uma função <br>

- filter(f) – Retorna um novo RDD que satisfaça a função dentro do filter. <br>

- map(f) – Retorna um novo RDD aplicando a função para cada elemento. <br>

- join() – Retorna um novo RDD com os elementos que correspondam a uma chave . <br>
Esse metodo é utilizado para executar uma junção entre dois RDD's <br>



In [0]:
words = ["scale","Java","Hadoop","spark","Akka","spark vs Hadoop","pyspark","pyspark and spark"]

In [0]:
words_rdd = sparkContext.parallelize(words)
type(words_rdd)

Out[7]: pyspark.rdd.RDD

In [0]:
count = words_rdd.count()

In [0]:
type(count)

Out[9]: int

In [0]:
words_rdd.collect()

Out[10]: ['scale',
 'Java',
 'Hadoop',
 'spark',
 'Akka',
 'spark vs Hadoop',
 'pyspark',
 'pyspark and spark']

In [0]:
type(words_rdd.collect())

Out[11]: list

In [0]:
word_filter = words.filter(lambda x: 'spark' in x)
filtered = word_filter.collect()
filtered

Out[19]: ['spark', 'spark vs Hadoop', 'pyspark', 'pyspark and spark']

In [0]:
word_filter = words.filter(lambda x: len(x) > 7)
filtered = word_filter.collect()
filtered

Out[20]: ['spark vs Hadoop', 'pyspark and spark']

In [0]:
word_map = words.map(lambda x: (x, 1))
mapping = word_map.collect()
mapping

Out[21]: [('scale', 1),
 ('Java', 1),
 ('Hadoop', 1),
 ('spark', 1),
 ('Akka', 1),
 ('spark vs Hadoop', 1),
 ('pyspark', 1),
 ('pyspark and spark', 1)]

In [0]:
rdd1 = sparkContext.parallelize([("spark", 1), ("hadoop", 4)])
rdd2 = sparkContext.parallelize([("spark", 2), ("Hadoop", 5)])
joined = rdd1.join(rdd2)
result = joined.collect()
result

Out[22]: [('spark', (1, 2))]