In [None]:
from pyspark.sql import SparkSession

**Criando uma aplicação Spark**

In [None]:
spark = SparkSession.builder.master("local").appName("SparkByExamples.com").getOrCreate()

**Criando um dataframe sem definir um schema**

In [None]:
df1 = spark.createDataFrame([("Pedro", 10),("Maria", 20),("José", 40)])

In [None]:
df1.show()

**Criando um dataframe com schema**

In [None]:
schema = "id INT, nome STRING"
dados = [[1, "Pedro"], [2, "Maria"]]
df2 = spark.createDataFrame(dados, schema)

In [None]:
df2.show()

**Agregando dados**

In [None]:
from pyspark.sql.functions import sum  #função de soma (agregação)

In [None]:
schema2 = "produtos STRING, vendas INT"
vendas = [["Caneta", 10], ["Lápis", 15], ["Caneta", 40]]
df3 = spark.createDataFrame(vendas, schema2)

In [None]:
df3.show()

In [None]:
# Colocando o show na mesma linha do script de agregação.
agrupado = df3.groupBy("produtos").agg(sum("vendas")).show()

**Visualizando apenas as colunas que quero**

In [None]:
#O dataframe inteiro
df3.select("produtos","vendas").show()

In [None]:
# Apenas a coluna vendas
df3.select("vendas").show()

In [None]:
# Invertendo a ordem 
df3.select("vendas","produtos").show()

**Criando uma expressão (qualquer cálculo matemático)**

In [None]:
from pyspark.sql.functions import expr

In [None]:
# O quantidade de vendas vezes 0.2 
df3.select("produtos", "vendas", expr("vendas * 0.2")).show()

**Visualizando o schema do dataframe**

In [None]:
df3.schema

**Visualizando as colunas do dataframe**

In [None]:
df3.columns

**Importando um arquivo CSV e definindo um schema para esse arquivo**

In [None]:
from pyspark.sql.types import *

In [None]:
arqschema = "id INT, nome STRING, status STRING, cidade STRING, vendas INT, data STRING"
despachantes = spark.read.csv("/home/rowedder/download/despachantes.csv", header=False, schema = arqschema)

In [None]:
despachantes.show()

In [None]:
# Abrindo o CSV com load (um método genérico) no lugar do spark.read.csv
# Colocando o sep="," --> Para conseguir abrir o formato que o arquivo foi criado (, ou ;)
# inferSchema="True" --> Ele infere o schema automaticamente.
desp_autoschema = spark.read.load("/home/rowedder/download/despachantes.csv", header=False, format="csv", sep=",", inferSchema="True")

In [None]:
desp_autoschema.show()

**Comparando os tipos de dados dos dataframes despachantes e desp_autoschema da coluna data**

In [None]:
despachantes.schema

In [None]:
desp_autoschema.schema

**Filtrando dados com WHERE**

In [None]:
from pyspark.sql import functions as func

In [None]:
# Filtrando vendas maior que 20.
despachantes.select("id","nome","vendas").where(func.col("vendas") > 20).show()

In [None]:
# Filtrando vendas maiores que 20 e menores do que 40.
despachantes.select("id","nome","vendas").where((func.col("vendas") > 20)&(func.col("vendas")<40)).show()

**Renomeando colunas de um dataframe**

In [None]:
novodf = despachantes.withColumnRenamed("nome", "nomes")
novodf.columns

In [None]:
novodf.show()

**Alterando o tipo de dado da coluna**

In [None]:
from pyspark.sql.functions import *

In [None]:
#Cria-se mais uma coluna porém podemos deletá-la depois.
despachantes2 = despachantes.withColumn("data2", to_timestamp(func.col("data"),"yyyy-mm-dd"))

In [None]:
despachantes2.printSchema()

**Filtrando apenas o ano da data completa**

In [None]:
despachantes.select(year("data")).show()

**Filtrando as datas que aparecem apenas uma vez**

In [None]:
despachantes.select(year("data")).distinct().show()

**Ordenando pelo nome e data**

In [None]:
despachantes2.select("nome", year("data")).orderBy("nome").show()

**Contando a quantidade de registros por data**

In [None]:
despachantes2.select("data").groupBy(year("data")).count().show()

**Somar a quantidade de vendas**

In [None]:
despachantes2.select(func.sum("vendas")).show()

**Principais ações e transformações em dataframes**

**Forma tabular**

In [None]:
despachantes.show()

**Forma de lista (take)** 

In [None]:
despachantes.take(2)

**Collect**

In [None]:
#Trás todos os dados na forma duma lista. Ação herdada dos RDDs.
despachantes.collect()

**Count**

In [None]:
#Trás os numeros de linhas (row) do dataframe.
despachantes.count()

**orderBy**

In [None]:
# Por padrão ordena do menor para o maior (crescente)
despachantes.orderBy("vendas").show()

In [None]:
# Decrescente
despachantes.orderBy(func.col("vendas").desc()).show()

In [None]:
# Ordenando a coluna cidade e a coluna vendas de forma decrescente.
despachantes.orderBy(func.col("cidade").desc(), func.col("vendas").desc()).show()

**Total de vendas por cidade**

In [None]:
despachantes.groupBy("cidade").agg(sum("vendas")).show()

**Agregando as vendas por cidade e ordenando do maior para o menor**

In [None]:
# Agreguei as vendas por cidade e ordenei do maior para o menor.
despachantes.groupBy("cidade").agg(sum("vendas")).orderBy(func.col("sum(vendas)").desc()).show()

**Filter**

In [None]:
despachantes.show()

In [None]:
despachantes.filter(func.col("nome") == "Deolinda Vilela").show()