# DataFrame PySpark - comandos básicos

DataFrame é uma coleção distribuída de dados organizados em linhas e colunas. Os conceitos de um dataframe pyspark é o mesmo de dataframe pandas, porém eles possuem diferenças pois no pyspark, o dataframe possui paralelização, vários nós, é imutável, é distribuído fazendo com que sua execução seja bem mais rápida.

Mas vamos aos comandos básicos e, na dúvida sobre conceitos, recomendo este docs do Databricks sobre PySpark Dataframes
https://docs.databricks.com/getting-started/dataframes-python.html

## Criando um dataframe
Vamos criar um dataframe a partir de um arquivo .parquet

Como informação, esse dataset foi extraído do Portal de Dados da Agricultura, contendo dados da produção de sementes no Brasil obtidos a partir das inscrições de campos de produção de sementes e das declarações de área para produção de sementes.

link do dataset: https://dados.agricultura.gov.br/dataset/dados-referentes-ao-controle-da-producao-de-sementes-sigef

In [0]:
data_file = 'dbfs:/FileStore/shared_uploads/italomarcelo@outlook.com/dados_agro.parquet'
df = spark.read.parquet(data_file)

## Conhecendo a estrutura de dados do dataframe

In [0]:
# visualizando a estrutura de dados do dataframe em formato árvore
df.printSchema()

root
 |-- Safra: string (nullable = true)
 |-- Especie: string (nullable = true)
 |-- Categoria: string (nullable = true)
 |-- Cultivar: string (nullable = true)
 |-- Municipio: string (nullable = true)
 |-- UF: string (nullable = true)
 |-- Status: string (nullable = true)
 |-- Data do Plantio: string (nullable = true)
 |-- Data de Colheita: string (nullable = true)
 |-- Area: double (nullable = true)
 |-- Producao bruta: double (nullable = true)
 |-- Producao estimada: double (nullable = true)



In [0]:
# exibindo os dados das duas primeiras linhas de um dataframe
df.show(2)

+---------+-----------+---------+--------+---------+---+----------+---------------+----------------+----+--------------+-----------------+
|    Safra|    Especie|Categoria|Cultivar|Municipio| UF|    Status|Data do Plantio|Data de Colheita|Area|Producao bruta|Producao estimada|
+---------+-----------+---------+--------+---------+---+----------+---------------+----------------+----+--------------+-----------------+
|2013/2013|Zea mays L.|       S1|BRS 2022|    Cedro| PE|Homologado|     01/01/2013|            null| 9.5|          null|             38.0|
|2013/2013|Zea mays L.|       S1|BRS 2022|    Cedro| PE|Homologado|     05/01/2013|            null| 6.0|          null|             24.0|
+---------+-----------+---------+--------+---------+---+----------+---------------+----------------+----+--------------+-----------------+
only showing top 2 rows



In [0]:
# exibindo os dados das duas primeiras linhas de um dataframe, sendo exibido no máximo 3 caractes do valor de cada célula
df.show(2, truncate=3)

+-----+-------+---------+--------+---------+---+------+---------------+----------------+----+--------------+-----------------+
|Safra|Especie|Categoria|Cultivar|Municipio| UF|Status|Data do Plantio|Data de Colheita|Area|Producao bruta|Producao estimada|
+-----+-------+---------+--------+---------+---+------+---------------+----------------+----+--------------+-----------------+
|  201|    Zea|       S1|     BRS|      Ced| PE|   Hom|            01/|             nul| 9.5|           nul|              38.|
|  201|    Zea|       S1|     BRS|      Ced| PE|   Hom|            05/|             nul| 6.0|           nul|              24.|
+-----+-------+---------+--------+---------+---+------+---------------+----------------+----+--------------+-----------------+
only showing top 2 rows



In [0]:
# exibindo os dados das da primeira linha de um dataframe, mas no formato vertical
df.show(1, truncate=3, vertical=True)

-RECORD 0----------------
 Safra             | 201 
 Especie           | Zea 
 Categoria         | S1  
 Cultivar          | BRS 
 Municipio         | Ced 
 UF                | PE  
 Status            | Hom 
 Data do Plantio   | 01/ 
 Data de Colheita  | nul 
 Area              | 9.5 
 Producao bruta    | nul 
 Producao estimada | 38. 
only showing top 1 row



In [0]:
# colunas de um dataframe
df.columns

['Safra',
 'Especie',
 'Categoria',
 'Cultivar',
 'Municipio',
 'UF',
 'Status',
 'Data do Plantio',
 'Data de Colheita',
 'Area',
 'Producao bruta',
 'Producao estimada']

In [0]:
# contar o número de registros de um dataframe
df.count()

442174

In [0]:
# contando somente as linhas distinas do dataframe
df.distinct().count()

434062

In [0]:
# contando dados não duplicados e duplicados
naoDuplicados = df.drop_duplicates().count()
duplicados = df.exceptAll(df.dropDuplicates()).count()

In [0]:
print(f'Não Duplicados: {naoDuplicados}')
print(f'Duplicados: {duplicados}')
print(f'Não Duplicados + Duplicados: {naoDuplicados + duplicados}')
print(f'Todos os registros: {df.count()}')

Não Duplicados: 434062
Duplicados: 8112
Não Duplicados + Duplicados: 442174
Todos os registros: 442174


In [0]:
# resomo sobre a estrutura de dados do dataframe
display(df.describe())

summary,Safra,Especie,Categoria,Cultivar,Municipio,UF,Status,Data do Plantio,Data de Colheita,Area,Producao bruta,Producao estimada
count,442174,442174,442151,442174,442169,442174,442174,442174,113515,442174.0,113515.0,442174.0
mean,,,,Infinity,,,,,,70.29554691908577,4632.775131853973,370.9445765463336
stddev,,,,,,,,,,128.47630774009926,39367.14539391262,7963.926758519097
min,2013/2013,Abelmoschus esculentus (L.) Moench = Hibiscus esculentus L.,Básica,09Bt770 14,APARECIDA D'OESTE,AC,Aprovado,01/01/0001,01/01/0020,0.0,0.0,0.0
max,2023/2024,Zinnia elegans Jacq. = Zinnia violacea Cav.,S2,Ômega,Óleo,TO,Recebido,31/12/3012,31/12/2022,56204.0,993172.0,963000.0


In [0]:
# Sumarizando o dataframe
display(df.summary())

summary,Safra,Especie,Categoria,Cultivar,Municipio,UF,Status,Data do Plantio,Data de Colheita,Area,Producao bruta,Producao estimada
count,442174,442174,442151,442174,442169,442174,442174,442174,113515,442174.0,113515.0,442174.0
mean,,,,Infinity,,,,,,70.29554691908577,4632.775131853973,370.9445765463336
stddev,,,,,,,,,,128.47630774009926,39367.14539391262,7963.926758519097
min,2013/2013,Abelmoschus esculentus (L.) Moench = Hibiscus esculentus L.,Básica,09Bt770 14,APARECIDA D'OESTE,AC,Aprovado,01/01/0001,01/01/0020,0.0,0.0,0.0
25%,,,,Infinity,,,,,,17.0,29.74,50.0
50%,,,,Infinity,,,,,,43.0,97.57,130.0
75%,,,,Infinity,,,,,,92.4,245.154,288.0
max,2023/2024,Zinnia elegans Jacq. = Zinnia violacea Cav.,S2,Ômega,Óleo,TO,Recebido,31/12/3012,31/12/2022,56204.0,993172.0,963000.0


## Selecionando dados

In [0]:
# escolhendo as colunas e exibindo 3 registros
df.select('Especie','Municipio', 'UF', 'Area').show(3)

+-----------+---------+---+----+
|    Especie|Municipio| UF|Area|
+-----------+---------+---+----+
|Zea mays L.|    Cedro| PE| 9.5|
|Zea mays L.|    Cedro| PE| 6.0|
|Zea mays L.|    Cedro| PE| 9.5|
+-----------+---------+---+----+
only showing top 3 rows



In [0]:
# escolhendo as colunas, calculando uma coluna e exibindo 3 registros
df.select('Especie','Municipio', 'UF', 'Area', df['Area']+20).show(3)

+-----------+---------+---+----+-----------+
|    Especie|Municipio| UF|Area|(Area + 20)|
+-----------+---------+---+----+-----------+
|Zea mays L.|    Cedro| PE| 9.5|       29.5|
|Zea mays L.|    Cedro| PE| 6.0|       26.0|
|Zea mays L.|    Cedro| PE| 9.5|       29.5|
+-----------+---------+---+----+-----------+
only showing top 3 rows



In [0]:
# escolhendo as colunas, calculando / renomeando uma coluna e exibindo 3 registros
df.select('Especie','Municipio', 'UF', 'Area', (df['Area']+20).alias('Nova Area')).show(3)

+-----------+---------+---+----+---------+
|    Especie|Municipio| UF|Area|Nova Area|
+-----------+---------+---+----+---------+
|Zea mays L.|    Cedro| PE| 9.5|     29.5|
|Zea mays L.|    Cedro| PE| 6.0|     26.0|
|Zea mays L.|    Cedro| PE| 9.5|     29.5|
+-----------+---------+---+----+---------+
only showing top 3 rows



In [0]:
# retorna uma lista do ripo Row. Dica: use somente quando a matriz resultante for pequena
# pois consome muita memória
df.collect()[:2]

[Row(Safra='2013/2013', Especie='Zea mays L.', Categoria='S1', Cultivar='BRS 2022', Municipio='Cedro', UF='PE', Status='Homologado', Data do Plantio='01/01/2013', Data de Colheita=None, Area=9.5, Producao bruta=None, Producao estimada=38.0),
 Row(Safra='2013/2013', Especie='Zea mays L.', Categoria='S1', Cultivar='BRS 2022', Municipio='Cedro', UF='PE', Status='Homologado', Data do Plantio='05/01/2013', Data de Colheita=None, Area=6.0, Producao bruta=None, Producao estimada=24.0)]

In [0]:
for linha in df.collect()[:2]:
    print(linha['Municipio'])

Cedro
Cedro


In [0]:
df.take(num=5)

[Row(Safra='2013/2013', Especie='Zea mays L.', Categoria='S1', Cultivar='BRS 2022', Municipio='Cedro', UF='PE', Status='Homologado', Data do Plantio='01/01/2013', Data de Colheita=None, Area=9.5, Producao bruta=None, Producao estimada=38.0),
 Row(Safra='2013/2013', Especie='Zea mays L.', Categoria='S1', Cultivar='BRS 2022', Municipio='Cedro', UF='PE', Status='Homologado', Data do Plantio='05/01/2013', Data de Colheita=None, Area=6.0, Producao bruta=None, Producao estimada=24.0),
 Row(Safra='2013/2013', Especie='Zea mays L.', Categoria='S1', Cultivar='BRS 2022', Municipio='Cedro', UF='PE', Status='Homologado', Data do Plantio='10/01/2013', Data de Colheita=None, Area=9.5, Producao bruta=None, Producao estimada=38.0),
 Row(Safra='2013/2013', Especie='Zea mays L.', Categoria='S2', Cultivar='BRS Gorutuba', Municipio='Petrolina', UF='PE', Status='Homologado', Data do Plantio='03/02/2013', Data de Colheita=None, Area=4.5, Producao bruta=None, Producao estimada=15.75),
 Row(Safra='2013/2013',

In [0]:
# escolhendo as colunas e exibindo 3 registros 
# mesmo resultado da função show mas possui mais recursos
display(df.select('Especie','Municipio', 'UF', 'Area').take(5))

Especie,Municipio,UF,Area
Zea mays L.,Cedro,PE,9.5
Zea mays L.,Cedro,PE,6.0
Zea mays L.,Cedro,PE,9.5
Zea mays L.,Petrolina,PE,4.5
Zea mays L.,Petrolina,PE,1.6


## Adicionando colunas no Dataframe

In [0]:
df.show(2)

+---------+-----------+---------+--------+---------+---+----------+---------------+----------------+----+--------------+-----------------+
|    Safra|    Especie|Categoria|Cultivar|Municipio| UF|    Status|Data do Plantio|Data de Colheita|Area|Producao bruta|Producao estimada|
+---------+-----------+---------+--------+---------+---+----------+---------------+----------------+----+--------------+-----------------+
|2013/2013|Zea mays L.|       S1|BRS 2022|    Cedro| PE|Homologado|     01/01/2013|            null| 9.5|          null|             38.0|
|2013/2013|Zea mays L.|       S1|BRS 2022|    Cedro| PE|Homologado|     05/01/2013|            null| 6.0|          null|             24.0|
+---------+-----------+---------+--------+---------+---+----------+---------------+----------------+----+--------------+-----------------+
only showing top 2 rows



In [0]:
# adcionando a coluna Nova Area com o valor da Area + 20
df = df.withColumn('Nova Area', df['Area']+20)
df.show(2)

+---------+-----------+---------+--------+---------+---+----------+---------------+----------------+----+--------------+-----------------+---------+
|    Safra|    Especie|Categoria|Cultivar|Municipio| UF|    Status|Data do Plantio|Data de Colheita|Area|Producao bruta|Producao estimada|Nova Area|
+---------+-----------+---------+--------+---------+---+----------+---------------+----------------+----+--------------+-----------------+---------+
|2013/2013|Zea mays L.|       S1|BRS 2022|    Cedro| PE|Homologado|     01/01/2013|            null| 9.5|          null|             38.0|     29.5|
|2013/2013|Zea mays L.|       S1|BRS 2022|    Cedro| PE|Homologado|     05/01/2013|            null| 6.0|          null|             24.0|     26.0|
+---------+-----------+---------+--------+---------+---+----------+---------------+----------------+----+--------------+-----------------+---------+
only showing top 2 rows



In [0]:
from pyspark.sql.functions import concat_ws
# criando uma nova coluna e, como valor, recebendo 2 valores concatenados Municipio-UF
df=df.withColumn('Cidade_UF', concat_ws("-", "Municipio", "UF"))
df.show(2)

+---------+-----------+---------+--------+---------+---+----------+---------------+----------------+----+--------------+-----------------+---------+---------+
|    Safra|    Especie|Categoria|Cultivar|Municipio| UF|    Status|Data do Plantio|Data de Colheita|Area|Producao bruta|Producao estimada|Nova Area|Cidade_UF|
+---------+-----------+---------+--------+---------+---+----------+---------------+----------------+----+--------------+-----------------+---------+---------+
|2013/2013|Zea mays L.|       S1|BRS 2022|    Cedro| PE|Homologado|     01/01/2013|            null| 9.5|          null|             38.0|     29.5| Cedro-PE|
|2013/2013|Zea mays L.|       S1|BRS 2022|    Cedro| PE|Homologado|     05/01/2013|            null| 6.0|          null|             24.0|     26.0| Cedro-PE|
+---------+-----------+---------+--------+---------+---+----------+---------------+----------------+----+--------------+-----------------+---------+---------+
only showing top 2 rows



In [0]:
from pyspark.sql.functions import lit
# Criando uma nova coluna com o valor default 1
df = df.withColumn('Valor', lit(1))
df.show(2)

+---------+-----------+---------+--------+---------+---+----------+---------------+----------------+----+--------------+-----------------+---------+---------+-----+
|    Safra|    Especie|Categoria|Cultivar|Municipio| UF|    Status|Data do Plantio|Data de Colheita|Area|Producao bruta|Producao estimada|Nova Area|Cidade_UF|Valor|
+---------+-----------+---------+--------+---------+---+----------+---------------+----------------+----+--------------+-----------------+---------+---------+-----+
|2013/2013|Zea mays L.|       S1|BRS 2022|    Cedro| PE|Homologado|     01/01/2013|            null| 9.5|          null|             38.0|     29.5| Cedro-PE|    1|
|2013/2013|Zea mays L.|       S1|BRS 2022|    Cedro| PE|Homologado|     05/01/2013|            null| 6.0|          null|             24.0|     26.0| Cedro-PE|    1|
+---------+-----------+---------+--------+---------+---+----------+---------------+----------------+----+--------------+-----------------+---------+---------+-----+
only showi

## Renomeando colunas no Dataframe

In [0]:
# exibindo o esquema do dataframe
df.printSchema()

root
 |-- Safra: string (nullable = true)
 |-- Especie: string (nullable = true)
 |-- Categoria: string (nullable = true)
 |-- Cultivar: string (nullable = true)
 |-- Municipio: string (nullable = true)
 |-- UF: string (nullable = true)
 |-- Status: string (nullable = true)
 |-- Data do Plantio: string (nullable = true)
 |-- Data de Colheita: string (nullable = true)
 |-- Area: double (nullable = true)
 |-- Producao bruta: double (nullable = true)
 |-- Producao estimada: double (nullable = true)
 |-- Nova Area: double (nullable = true)
 |-- Cidade_UF: string (nullable = false)
 |-- Valor: integer (nullable = false)



In [0]:
# vamos renomear as colunas Nova Area e Valor para Nova_Area e Valor(R$)
df = df.withColumnRenamed("Nova Area","Nova_Area") \
     .withColumnRenamed("Valor","Valor(R$)")

In [0]:
df.printSchema()

root
 |-- Safra: string (nullable = true)
 |-- Especie: string (nullable = true)
 |-- Categoria: string (nullable = true)
 |-- Cultivar: string (nullable = true)
 |-- Municipio: string (nullable = true)
 |-- UF: string (nullable = true)
 |-- Status: string (nullable = true)
 |-- Data do Plantio: string (nullable = true)
 |-- Data de Colheita: string (nullable = true)
 |-- Area: double (nullable = true)
 |-- Producao bruta: double (nullable = true)
 |-- Producao estimada: double (nullable = true)
 |-- Nova_Area: double (nullable = true)
 |-- Cidade_UF: string (nullable = false)
 |-- Valor(R$): integer (nullable = false)



## Excluindo colunas no Dataframe

In [0]:
from pyspark.sql.functions import col

df = df.drop(col("Nova_Area"))
df.printSchema()

root
 |-- Safra: string (nullable = true)
 |-- Especie: string (nullable = true)
 |-- Categoria: string (nullable = true)
 |-- Cultivar: string (nullable = true)
 |-- Municipio: string (nullable = true)
 |-- UF: string (nullable = true)
 |-- Status: string (nullable = true)
 |-- Data do Plantio: string (nullable = true)
 |-- Data de Colheita: string (nullable = true)
 |-- Area: double (nullable = true)
 |-- Producao bruta: double (nullable = true)
 |-- Producao estimada: double (nullable = true)
 |-- Cidade_UF: string (nullable = false)
 |-- Valor(R$): integer (nullable = false)



In [0]:
df = df.drop(col("Cidade_UF"))
df.printSchema()

root
 |-- Safra: string (nullable = true)
 |-- Especie: string (nullable = true)
 |-- Categoria: string (nullable = true)
 |-- Cultivar: string (nullable = true)
 |-- Municipio: string (nullable = true)
 |-- UF: string (nullable = true)
 |-- Status: string (nullable = true)
 |-- Data do Plantio: string (nullable = true)
 |-- Data de Colheita: string (nullable = true)
 |-- Area: double (nullable = true)
 |-- Producao bruta: double (nullable = true)
 |-- Producao estimada: double (nullable = true)
 |-- Valor(R$): integer (nullable = false)



In [0]:
df = df.drop(col("Valor(R$)"))
df.printSchema()

root
 |-- Safra: string (nullable = true)
 |-- Especie: string (nullable = true)
 |-- Categoria: string (nullable = true)
 |-- Cultivar: string (nullable = true)
 |-- Municipio: string (nullable = true)
 |-- UF: string (nullable = true)
 |-- Status: string (nullable = true)
 |-- Data do Plantio: string (nullable = true)
 |-- Data de Colheita: string (nullable = true)
 |-- Area: double (nullable = true)
 |-- Producao bruta: double (nullable = true)
 |-- Producao estimada: double (nullable = true)



## Filtrando dados em um Dataframe

In [0]:
# selecionar as 3 primeiras linhas do dataframe onde o campo Area seja menor que 6
df.select('Especie','Municipio', 'UF', 'Area').filter(df['Area'] < 6).show(3)

+-----------+---------+---+----+
|    Especie|Municipio| UF|Area|
+-----------+---------+---+----+
|Zea mays L.|Petrolina| PE| 4.5|
|Zea mays L.|Petrolina| PE| 1.6|
|Zea mays L.|Petrolina| PE| 1.9|
+-----------+---------+---+----+
only showing top 3 rows



In [0]:
# selecionar as 3 primeiras linhas do dataframe onde o campo Area seja menor que 6 
# e o campo UF seja igual a SP
df.select('Especie','Municipio', 'UF', 'Area').filter("Area < 6 and UF='SP'").show(3)

+-----------------+-----------------+---+-----+
|          Especie|        Municipio| UF| Area|
+-----------------+-----------------+---+-----+
|Lactuca sativa L.|Bragança Paulista| SP|  0.2|
|Lactuca sativa L.|Bragança Paulista| SP|  0.1|
|Lactuca sativa L.|Bragança Paulista| SP|0.025|
+-----------------+-----------------+---+-----+
only showing top 3 rows



In [0]:
# selecionar as 4 primeiras linhas do dataframe onde o campo Municipio possui o texto Prudente em seu valor
df.select('Especie','Municipio', 'UF', 'Area').filter("Municipio like '%Prudente%'").show(4)

+--------------------+-------------------+---+----+
|             Especie|          Municipio| UF|Area|
+--------------------+-------------------+---+----+
|Urochloa humidico...|Presidente Prudente| SP|55.6|
|Solanum melongena L.|Presidente Prudente| SP|0.02|
|Solanum melongena L.|Presidente Prudente| SP| 0.2|
|Solanum melongena L.|Presidente Prudente| SP| 0.2|
+--------------------+-------------------+---+----+
only showing top 4 rows



## Agrupando dados em um dataframe

In [0]:
df.show(10)

+---------+--------------------+---------+------------+----------+---+----------+---------------+----------------+-----+--------------+-----------------+
|    Safra|             Especie|Categoria|    Cultivar| Municipio| UF|    Status|Data do Plantio|Data de Colheita| Area|Producao bruta|Producao estimada|
+---------+--------------------+---------+------------+----------+---+----------+---------------+----------------+-----+--------------+-----------------+
|2013/2013|         Zea mays L.|       S1|    BRS 2022|     Cedro| PE|Homologado|     01/01/2013|            null|  9.5|          null|             38.0|
|2013/2013|         Zea mays L.|       S1|    BRS 2022|     Cedro| PE|Homologado|     05/01/2013|            null|  6.0|          null|             24.0|
|2013/2013|         Zea mays L.|       S1|    BRS 2022|     Cedro| PE|Homologado|     10/01/2013|            null|  9.5|          null|             38.0|
|2013/2013|         Zea mays L.|       S2|BRS Gorutuba| Petrolina| PE|Homolo

In [0]:
# contando o total de registros por estado
df.groupby('UF').count().show()

+---+-----+
| UF|count|
+---+-----+
| SC|43970|
| RO|  698|
| PI| 1978|
| AM|   44|
| RR|  180|
| GO|47840|
| TO| 7347|
| MT|41017|
| SP|34715|
| PB|   74|
| ES|   74|
| RS|81543|
| MS| 9527|
| AL|  101|
| MG|58644|
| PA|  368|
| BA|16845|
| SE|    2|
| PE| 1651|
| CE|  955|
+---+-----+
only showing top 20 rows



In [0]:
# contando, por estado, a quantidade de safras da espécie S1
df.filter("Categoria = 'S1'").groupby('UF').count().show()

+---+-----+
| UF|count|
+---+-----+
| SC|12851|
| RO|  178|
| PI|  552|
| AM|   30|
| RR|   36|
| GO|16270|
| TO| 1635|
| MT|13084|
| SP| 9103|
| PB|   16|
| ES|   14|
| RS|25054|
| MS| 2268|
| AL|   25|
| MG|23300|
| PA|   81|
| BA| 4627|
| PE|  417|
| CE|  414|
| RN|   80|
+---+-----+
only showing top 20 rows



In [0]:
# maior área, por estado, que tem safra da espécie S1
df.filter("Categoria = 'S1'").groupby('UF').max('Area').show()

+---+---------+
| UF|max(Area)|
+---+---------+
| SC|    800.0|
| RO|   217.74|
| PI|    756.0|
| AM|      5.2|
| RR|    413.0|
| GO|  3485.59|
| TO|  1632.24|
| MT|   2000.0|
| SP|    677.6|
| PB|    105.0|
| ES|      1.5|
| RS|   1019.0|
| MS|   1060.0|
| AL|    194.0|
| MG|   1598.0|
| PA|    750.0|
| BA|   4338.0|
| PE|     51.0|
| CE|     50.0|
| RN|    100.0|
+---+---------+
only showing top 20 rows



In [0]:
# menor área, por estado, que tem safra da espécie S1
df.filter("Categoria = 'S1'").groupby('UF').min('Area').show()

+---+---------+
| UF|min(Area)|
+---+---------+
| SC|     0.01|
| RO|      0.5|
| PI|     0.01|
| AM|      0.3|
| RR|      2.8|
| GO|      0.0|
| TO|      2.0|
| MT|     0.04|
| SP|    0.001|
| PB|     20.0|
| ES|    0.106|
| RS|    0.002|
| MS|      0.8|
| AL|     1.28|
| MG|    0.001|
| PA|      1.0|
| BA|      0.4|
| PE|     0.03|
| CE|     0.25|
| RN|      1.0|
+---+---------+
only showing top 20 rows



In [0]:
# vamos agrupar os dados somando o total das áreas por estado (UF) que a espécie é a S2
area_UF = df.filter("Categoria = 'S2'").groupby('UF').sum('Area')
area_UF.show()

+---+------------------+
| UF|         sum(Area)|
+---+------------------+
| SC|399992.09000000055|
| RO|         6839.0962|
| PI|252805.31200000006|
| AM|               1.0|
| RR| 7301.099999999999|
| GO| 2223030.710200001|
| TO|        387679.951|
| MT|2987658.3399999985|
| SP| 483043.7296000024|
| PB|            1212.5|
| ES|            74.165|
| RS| 1534697.497800013|
| MS| 679546.3108999995|
| AL|1719.8700000000003|
| MG|1330204.5008999985|
| PA|           34049.3|
| BA|1723144.0493000026|
| SE|               1.5|
| PE| 3765.345800000001|
| CE|           8355.61|
+---+------------------+
only showing top 20 rows



In [0]:
# vamos somente dar uma formatada: 
# vamos alterar o nome sum(Area) para Area
# - no valor da área vamos arredondar para 2 casas
from pyspark.sql.functions import round
area_UF.select('UF', round('sum(Area)', 2).alias('Area')).show()

+---+----------+
| UF|      Area|
+---+----------+
| SC| 399992.09|
| RO|    6839.1|
| PI| 252805.31|
| AM|       1.0|
| RR|    7301.1|
| GO|2223030.71|
| TO| 387679.95|
| MT|2987658.34|
| SP| 483043.73|
| PB|    1212.5|
| ES|     74.17|
| RS| 1534697.5|
| MS| 679546.31|
| AL|   1719.87|
| MG| 1330204.5|
| PA|   34049.3|
| BA|1723144.05|
| SE|       1.5|
| PE|   3765.35|
| CE|   8355.61|
+---+----------+
only showing top 20 rows



In [0]:
# Linha 1: filtrando o df por estado igual a SP e municipio que contém a palavra Mirante
# Linha 2: agrupando por município e somando as áreas
# Linha 3: exibindo somente as colunas Municipio e Area que foi formatada para 2 casas decimais e criado um alias para o nome da coluna

df.filter("UF='SP' and Municipio like '%Mirante%'") \
.groupby('Municipio').sum('Area') \
.select('Municipio', round('sum(Area)', 2).alias('Area')).show()




+--------------------+--------+
|           Municipio|    Area|
+--------------------+--------+
|Mirante do Parana...|28917.86|
+--------------------+--------+



In [0]:
# Linha 1: selecionando somente as colunas Municipio e Area, filtrando por estado igual a SP e municipio que contém a palavra Presidente
# Linha 2: agrupando por município e criando uma média das áreas selecionadas
# Linha 3: exibindo as 2 colunas selecionadas e adicionando a coluna Area quem tem o mesmo valor da avg(Area)
# mas que foi formatada para 2 casas decimais e criado um alias para o nome da coluna Média / Área
df.select('Municipio', 'Area').filter("UF='SP' and Municipio like '%Presidente%'") \
.groupby('Municipio').avg('Area') \
.select('*', round('avg(Area)', 2).alias('Média / Área')).show()

+--------------------+------------------+------------+
|           Municipio|         avg(Area)|Média / Área|
+--------------------+------------------+------------+
| Presidente Prudente| 4.116142857142858|        4.12|
|    Presidente Alves|              16.0|        16.0|
|Presidente Venceslau| 42.14294736842107|       42.14|
| Presidente Epitácio| 49.64874999999999|       49.65|
|Presidente Bernardes|18.748435207823984|       18.75|
+--------------------+------------------+------------+



## Ordenando Dados e Janelas de Classificação

In [0]:
# exibindo 5 primeiros registros
df.show(5)

+---------+-----------+---------+------------+---------+---+----------+---------------+----------------+----+--------------+-----------------+
|    Safra|    Especie|Categoria|    Cultivar|Municipio| UF|    Status|Data do Plantio|Data de Colheita|Area|Producao bruta|Producao estimada|
+---------+-----------+---------+------------+---------+---+----------+---------------+----------------+----+--------------+-----------------+
|2013/2013|Zea mays L.|       S1|    BRS 2022|    Cedro| PE|Homologado|     01/01/2013|            null| 9.5|          null|             38.0|
|2013/2013|Zea mays L.|       S1|    BRS 2022|    Cedro| PE|Homologado|     05/01/2013|            null| 6.0|          null|             24.0|
|2013/2013|Zea mays L.|       S1|    BRS 2022|    Cedro| PE|Homologado|     10/01/2013|            null| 9.5|          null|             38.0|
|2013/2013|Zea mays L.|       S2|BRS Gorutuba|Petrolina| PE|Homologado|     03/02/2013|            null| 4.5|          null|            15.75|

In [0]:
# exibindo um dataframe ordenado pela coluna Area
df.sort('Area').show(5)

+---------+--------------------+---------+-------------+---------+---+----------+---------------+----------------+----+--------------+-----------------+
|    Safra|             Especie|Categoria|     Cultivar|Municipio| UF|    Status|Data do Plantio|Data de Colheita|Area|Producao bruta|Producao estimada|
+---------+--------------------+---------+-------------+---------+---+----------+---------------+----------------+----+--------------+-----------------+
|2020/2021|Solanum tuberosum L.| Genética|      Markies|Canoinhas| SC|  Recebido|     20/11/2020|            null| 0.0|          null|           5.0E-4|
|2022/2023|Glycine max (L.) ...|       S2|  ST 797 IPRO|Rio Verde| GO|  Inscrito|     15/11/2022|            null| 0.0|          null|              0.0|
|2020/2021|Solanum tuberosum L.| Genética|     Atlantic|Canoinhas| SC|  Recebido|     20/11/2020|            null| 0.0|          null|           5.0E-4|
|2018/2019|Glycine max (L.) ...|       S2|FTR 1192 IPRO|   Uruçuí| PI|Homologado| 

In [0]:
# exibindo um dataframe ordenado pela coluna Area mas de forma decrescente
df.sort(df['Area'].desc()).show(5)

+---------+--------------------+---------+--------------+----------+---+----------+---------------+----------------+-------+--------------+-----------------+
|    Safra|             Especie|Categoria|      Cultivar| Municipio| UF|    Status|Data do Plantio|Data de Colheita|   Area|Producao bruta|Producao estimada|
+---------+--------------------+---------+--------------+----------+---+----------+---------------+----------------+-------+--------------+-----------------+
|2023/2023|         Zea mays L.|       C1|      P3707VYH| Morrinhos| GO|  Inscrito|     07/03/2023|            null|56204.0|          null|            153.6|
|2022/2023|Glycine max (L.) ...|       S2| 84I86RSF IPRO| Jaborandi| BA|  Inscrito|     16/11/2022|            null|10000.0|          null|           3600.0|
|2022/2023|   Coffea arabica L.|       S2|Oeiras MG 6851|    Divino| MG|  Inscrito|     10/11/2002|            null| 8074.0|          null|              1.0|
|2018/2019|Glycine max (L.) ...|       S2|     M8644

In [0]:
# exibindo um dataframe ordenado pelas colunas UF de forma ascendente e Area de forma decrescente
df.sort(df['UF'].asc(), df['Area'].desc()).show(5)

+---------+--------------------+---------+---------------+---------------+---+----------+---------------+----------------+------+--------------+-----------------+
|    Safra|             Especie|Categoria|       Cultivar|      Municipio| UF|    Status|Data do Plantio|Data de Colheita|  Area|Producao bruta|Producao estimada|
+---------+--------------------+---------+---------------+---------------+---+----------+---------------+----------------+------+--------------+-----------------+
|2021/2022|Arachis pintoi Kr...| Genética|    BRS Mandobi|     Rio Branco| AC|  Aprovado|     09/12/2020|      05/10/2022|   0.5|         0.198|              0.3|
|2022/2023|Arachis pintoi Kr...| Genética|    BRS Mandobi|     Rio Branco| AC| Declarado|     09/12/2021|            null|   0.2|          null|              0.1|
|2017/2017|Sorghum bicolor (...|       S2|BRS Ponta Negra|         Anadia| AL|Homologado|     18/07/2017|            null| 220.0|          null|            700.0|
|2015/2015|Sorghum bic

In [0]:
# utilizando o comando orderBy()
df.orderBy('Area').show(5) #crescente
df.orderBy(df['Area'].desc()).show(5) #decrescente

+---------+--------------------+---------+-------------+---------+---+----------+---------------+----------------+----+--------------+-----------------+
|    Safra|             Especie|Categoria|     Cultivar|Municipio| UF|    Status|Data do Plantio|Data de Colheita|Area|Producao bruta|Producao estimada|
+---------+--------------------+---------+-------------+---------+---+----------+---------------+----------------+----+--------------+-----------------+
|2020/2021|Solanum tuberosum L.| Genética|      Markies|Canoinhas| SC|  Recebido|     20/11/2020|            null| 0.0|          null|           5.0E-4|
|2022/2023|Glycine max (L.) ...|       S2|  ST 797 IPRO|Rio Verde| GO|  Inscrito|     15/11/2022|            null| 0.0|          null|              0.0|
|2020/2021|Solanum tuberosum L.| Genética|     Atlantic|Canoinhas| SC|  Recebido|     20/11/2020|            null| 0.0|          null|           5.0E-4|
|2018/2019|Glycine max (L.) ...|       S2|FTR 1192 IPRO|   Uruçuí| PI|Homologado| 

Outra forma de ordenarmos os dados é utilizando classificação de janela

In [0]:
from pyspark.sql.window import Window
from pyspark.sql.functions import row_number, rank, dense_rank

A função row_number é uma função de janela que trará como resultado uma sequência começand de 1 até o último resultado da janela

In [0]:
# criando uma janela de partição por Categoria e ordenadando-a por Area
janela = Window.partitionBy('Categoria')

# abaixo, nossa janela row_number ordenada por tamanho decrescente da área
setup_row_number = row_number().over(janela.orderBy(df['Area'].desc()))

# agora, vamos criar um dataframe, com somente 5 posições, como exemplo
df_rn = df.select('Categoria', 'Area').filter("Municipio like '%Mirante%'") \
    .withColumn('Row Number', setup_row_number).show(5)
df_rn

+---------+----+----------+
|Categoria|Area|Row Number|
+---------+----+----------+
|   Básica|20.8|         1|
|   Básica| 2.0|         2|
|       C1| 8.3|         1|
|       C2|10.0|         1|
|       C2|4.84|         2|
+---------+----+----------+
only showing top 5 rows



Já as funções rank() e dense_rank() são utilizadas para fornecer uma classificação dentro da janela

In [0]:
# configuração da janela rank
setup_rank = rank().over(janela.orderBy(df['Area'].desc()))

df.select('Categoria', 'Area').filter("Municipio like '%Mirante%'") \
    .withColumn('Rank', setup_rank).show(10)


+---------+----+----+
|Categoria|Area|Rank|
+---------+----+----+
|   Básica|20.8|   1|
|   Básica| 2.0|   2|
|       C1| 8.3|   1|
|       C2|10.0|   1|
|       C2|4.84|   2|
| Genética| 4.0|   1|
| Genética| 2.3|   2|
| Genética| 2.3|   2|
| Genética| 2.3|   2|
| Genética| 1.8|   5|
+---------+----+----+
only showing top 10 rows



In [0]:
# configuração da janela dense_rank
setup_dense_rank = dense_rank().over(janela.orderBy(df['Area'].desc()))

df.select('Categoria', 'Area').filter("Municipio like '%Mirante%'") \
    .withColumn('Rank', setup_dense_rank).show(10)

+---------+----+----+
|Categoria|Area|Rank|
+---------+----+----+
|   Básica|20.8|   1|
|   Básica| 2.0|   2|
|       C1| 8.3|   1|
|       C2|10.0|   1|
|       C2|4.84|   2|
| Genética| 4.0|   1|
| Genética| 2.3|   2|
| Genética| 2.3|   2|
| Genética| 2.3|   2|
| Genética| 1.8|   3|
+---------+----+----+
only showing top 10 rows



## Consultas SQL

Uma das vantagens do PySpark é poder executar comandos SQLs junto a um dataframe. Então se você é familiarizado com o SQL, poderá criar uma exibição temporária do seu dataframe e selecionar e manipular os seus dados.

In [0]:
  # criando uma visão temporária do dataframe
  df.createOrReplaceTempView('sementes')

In [0]:
# Executando uma consulta SQL com o método spark.sql()
spark.sql("select Municipio, UF, Area from sementes LIMIT 3").show()

+---------+---+----+
|Municipio| UF|Area|
+---------+---+----+
|    Cedro| PE| 9.5|
|    Cedro| PE| 6.0|
|    Cedro| PE| 9.5|
+---------+---+----+



In [0]:
query = " \
select Municipio, round(avg(Area), 2) as Area \
from sementes where UF = 'PR' \
group by Municipio \
order by Area desc \
Limit 5"
spark.sql(query).show()

+--------------------+------+
|           Municipio|  Area|
+--------------------+------+
|              PINHAO| 250.0|
|RANCHO ALEGRE D'O...| 216.0|
|   Quarto Centenário| 210.0|
|    Quedas do Iguacu| 209.0|
|  Ribeirão do Pinhal|183.67|
+--------------------+------+



Executando uma consulta SQL sem usar o método spark, apenas utilizando o marcador %sql e a consulta abaixo dele

In [0]:
%sql
select Municipio, round(avg(Area), 2) as Area 
from sementes where UF = 'PR' 
group by Municipio 
order by Area desc 
Limit 5

Municipio,Area
PINHAO,250.0
RANCHO ALEGRE D'OESTE,216.0
Quarto Centenário,210.0
Quedas do Iguacu,209.0
Ribeirão do Pinhal,183.67
