In [1]:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType,StructField, StringType, IntegerType


### **Spark Session** ###
A Spark Session é o ponto de entrada pra acessar todas as funcionalidades do Spark. Por meio dela, é possível: <br>
• **Ler e criar DataFrames;<br>
• Realizar queries do SQL;<br>
• Configurar a aplicação;<br>
• Acessar o catálogo de metadados.**<br>

### **Metodos mais comuns** ###

- version() – Returns the Spark version where your application is running, probably the Spark version your cluster is configured with. <br>

- createDataFrame() – Cria um Dataframe de uma coleção  <br>

- getActiveSession() – Retorna a SparkSession ativa ativa <br>

- read() – Usado para ler registros de csv, parquet, avro, delta entre outros formatos num DataFrame. <br>

- readStream() – Usado para ler dados streaming num DataFrame. <br>

- sparkContext() – Retorna um SparkContext. <br>

- sql() – Retorna um Dataframe equivalente a execução de uma instrução SQL. <br>

- sqlContext() – Retorna um SQLContext. <br>

- stop() – Para o SparkContext atual. <br>

- table() – Retorna um Dataframe de uma tabela ou view. <br>



### **Criando uma Spark Session** ###
Algumas formas de criar uma sparkSession: <br>

In [2]:
spark = SparkSession.builder.getOrCreate()


Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/01/13 11:44:54 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


Adicionando configurações a sparkSession durante a criação

In [7]:
spark = SparkSession.builder\
.config('spark.executor.memory', '8G')\
.getOrCreate()

Verificando o valor de alguma configuração no spark

In [3]:
partitions = spark.conf.get("spark.sql.shuffle.partitions")
print(partitions)

200


### **Criando uma Spark Context** ###
Desde o spark 2.0 , a nova forma de acessar driver do spark é com uma SparkSession, atravez da SparkSession temos  <br>
Acesso ao SparkContext

In [17]:
sparkContext=spark.sparkContext

### **Criando um RDD** ###
Utilizando o metodo parallelize, podemos criar um RDD , passando uma lista como fonte de dados, por exemplo.<br>
Com o RDD criado, podemos realizar uma série de ações e transformações . Abaixo executaremos algumas demonstrações de utilização.
### **Metodos mais comuns de um RDD** ###

- count() – Retorna a quantidade de elementos do RDD <br>

- collect() – Retorna uma lista com os elementos do RDD  <br>

- foreach(f) – Executa uma função para cada elemento do RDD, recebe como parametro uma função <br>

- filter(f) – Retorna um novo RDD que satisfaça a função dentro do filter. <br>

- map(f) – Retorna um novo RDD aplicando a função para cada elemento. <br>

- reduce() – ?????????. <br>

- join() – Retorna um novo RDD com os elementos que correspondam a uma chave . <br>
Esse metodo é utilizado para executar uma junção entre dois RDD's <br>



In [19]:
words = ["scale","Java","Hadoop","spark","Akka","spark vs Hadoop","pyspark","pyspark and spark"]

In [20]:
words_rdd = sparkContext.parallelize(words)
type(words_rdd)

pyspark.rdd.RDD

In [21]:
count = words_rdd.count()

In [27]:
type(count)

int

In [32]:
words_rdd.collect()

['scale',
 'Java',
 'Hadoop',
 'spark',
 'Akka',
 'spark vs Hadoop',
 'pyspark',
 'pyspark and spark']

In [33]:
type(words_rdd.collect())

list

In [36]:
def f(x): print(x)
    
fore = words.foreach(f)

spark
pyspark
Hadoop
spark vs hadoop
scale
Java
pyspark and spark
Akka


In [37]:
word_filter = words.filter(lambda x: 'spark' in x)
filtered = word_filter.collect()
filtered

['spark', 'spark vs hadoop', 'pyspark', 'pyspark and spark']

In [39]:
word_filter = words.filter(lambda x: len(x) > 7)
filtered = word_filter.collect()
filtered

['spark vs hadoop', 'pyspark and spark']

In [40]:
word_map = words.map(lambda x: (x, 1))
mapping = word_map.collect()
mapping

[('scale', 1),
 ('Java', 1),
 ('Hadoop', 1),
 ('spark', 1),
 ('Akka', 1),
 ('spark vs hadoop', 1),
 ('pyspark', 1),
 ('pyspark and spark', 1)]

In [44]:
????? exemplo de reduce
nums = sparkContext.parallelize([1, 2, 3, 4, 5])
add = nums.reduce(add)
(add)

ImportError: cannot import name 'operator' from 'pyspark' (/usr/local/spark/python/pyspark/__init__.py)

In [52]:
rdd1 = sparkContext.parallelize([("spark", 1), ("hadoop", 4)])
rdd2 = sparkContext.parallelize([("spark", 2), ("Hadoop", 5)])
joined = rdd1.join(rdd2)
result = joined.collect()
result

                                                                                

[('spark', (1, 2))]

2

In [12]:
data = [("James","","Smith","36636","M",3000),
    ("Michael","Rose","","40288","M",4000),
    ("Robert","","Williams","42114","M",4000),
    ("Maria","Anne","Jones","39192","F",4000),
    ("Jen","Mary","Brown","","F",-1)
  ]



In [13]:
schema = StructType([ \
    StructField("firstname",StringType(),True), \
    StructField("middlename",StringType(),True), \
    StructField("lastname",StringType(),True), \
    StructField("id", StringType(), True), \
    StructField("gender", StringType(), True), \
    StructField("salary", IntegerType(), True) \
  ])
 


In [14]:
df = spark.createDataFrame(data=data,schema=schema)



In [15]:
df.printSchema()

root
 |-- firstname: string (nullable = true)
 |-- middlename: string (nullable = true)
 |-- lastname: string (nullable = true)
 |-- id: string (nullable = true)
 |-- gender: string (nullable = true)
 |-- salary: integer (nullable = true)



In [16]:
df.show(truncate=False)

                                                                                

+---------+----------+--------+-----+------+------+
|firstname|middlename|lastname|id   |gender|salary|
+---------+----------+--------+-----+------+------+
|James    |          |Smith   |36636|M     |3000  |
|Michael  |Rose      |        |40288|M     |4000  |
|Robert   |          |Williams|42114|M     |4000  |
|Maria    |Anne      |Jones   |39192|F     |4000  |
|Jen      |Mary      |Brown   |     |F     |-1    |
+---------+----------+--------+-----+------+------+



In [None]:
!ls ../

In [None]:
df.write.mode('overwrite').parquet("../data/people/")

In [None]:
df2 = spark.read.format('parquet').load('../data/people/')

In [None]:
df2.show()

In [None]:
df2.write.format("delta").save("../data/delta/people/")

In [None]:
! pip freeze