In [0]:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType,StructField, StringType, IntegerType


### **Spark Dataframe** ###
Um DataFrame spark é uma coleção de dados distribuido, organizado em linhas e colunas, cada coluna num Dataframe tem um nome e um tipo de dados associado. <br>
Podemos considerar um Dataframe spark com tabelas de bancos de dados relacionais com técnicas de otimização para processamento de dados distribuidos, possibilitando a manipulação de grandes volumes de dados <br><br>
**Alguns exemplos de fontes de dados para Dataframes spark** <br>

• **Arquivos estruturados, semiestruturados e não estruturados;<br>
• Fluxos de dados streaming;<br>
• Tabelas de bancos de dados relacionais e não relacionais;**<br>


In [0]:
spark = SparkSession.builder\
.config('spark.executor.memory', '8G')\
.getOrCreate()

In [0]:
data = [("James","","Smith","36636","M",3000),
    ("Michael","Rose","","40288","M",4000),
    ("Robert","","Williams","42114","M",4000),
    ("Maria","Anne","Jones","39192","F",4000),
    ("Jen","Mary","Brown","","F",-1)
  ]



## **Schema e Criação de DataFrames**

• Especificação de tipos das colunas de um DataFrame. <br>
• Usados na leitura de dados externos e criação de DataFrames <br>
• Criados com Structs ou com String DDL (Semelhante SQL padrão) <br>
• Inferencia ou informado ao dataframe. <br>

**Beneficios de informar schema num dataframe** <br>
• Inferir tipos é custoso <br>
• evita erros de tipagem <br>


In [0]:
schema = StructType([ \
    StructField("firstname",StringType(),True), \
    StructField("middlename",StringType(),True), \
    StructField("lastname",StringType(),True), \
    StructField("id", StringType(), True), \
    StructField("gender", StringType(), True), \
    StructField("salary", IntegerType(), True) \
  ])
 

In [0]:
df = spark.createDataFrame(data=data,schema=schema)



In [0]:
df.printSchema()

root
 |-- firstname: string (nullable = true)
 |-- middlename: string (nullable = true)
 |-- lastname: string (nullable = true)
 |-- id: string (nullable = true)
 |-- gender: string (nullable = true)
 |-- salary: integer (nullable = true)



In [0]:
df.show(truncate=False)

+---------+----------+--------+-----+------+------+
|firstname|middlename|lastname|id   |gender|salary|
+---------+----------+--------+-----+------+------+
|James    |          |Smith   |36636|M     |3000  |
|Michael  |Rose      |        |40288|M     |4000  |
|Robert   |          |Williams|42114|M     |4000  |
|Maria    |Anne      |Jones   |39192|F     |4000  |
|Jen      |Mary      |Brown   |     |F     |-1    |
+---------+----------+--------+-----+------+------+



In [0]:
jsonString = '[{ "RecordNumber": 2,"Zipcode": 704,"ZipCodeType": "STANDARD","City":"PASEO COSTA DEL SUR", "State":"PR"}\
,{ "RecordNumber": 10, "Zipcode": 709, "ZipCodeType":"STANDARD",  "City": "BDA SAN LUIS", "State":"PR"}]'

## Criando schemas com DDL

In [0]:
json_schema='RecordNumber int, Zipcode int, ZipCodeType string, City string, State string'

In [0]:
sc = spark.sparkContext

df = spark.read.json(sc.parallelize([jsonString]), schema=json_schema)

df.printSchema()
df.show(truncate=False)


root
 |-- RecordNumber: integer (nullable = true)
 |-- Zipcode: integer (nullable = true)
 |-- ZipCodeType: string (nullable = true)
 |-- City: string (nullable = true)
 |-- State: string (nullable = true)

+------------+-------+-----------+-------------------+-----+
|RecordNumber|Zipcode|ZipCodeType|City               |State|
+------------+-------+-----------+-------------------+-----+
|2           |704    |STANDARD   |PASEO COSTA DEL SUR|PR   |
|10          |709    |STANDARD   |BDA SAN LUIS       |PR   |
+------------+-------+-----------+-------------------+-----+

