In [1]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as F

In [2]:
spark = ( 
 SparkSession
 .builder
    .master("local[*]")
 .appName('spark_dataframe_api')
 .getOrCreate()
)

Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/06/04 11:33:23 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
25/06/04 11:33:23 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.


In [4]:
df = (
    spark
    .read
    .option('delimiter', ';')
    .option('header', 'true')
    .option('inferSchema', 'true')
    .option('enconding', 'ISO-8859-1')
    .csv('./dados/precos-gasolina-etanol-04.csv')
)

In [5]:
df.printSchema()

root
 |-- Regiao - Sigla: string (nullable = true)
 |-- Estado - Sigla: string (nullable = true)
 |-- Municipio: string (nullable = true)
 |-- Revenda: string (nullable = true)
 |-- CNPJ da Revenda: string (nullable = true)
 |-- Nome da Rua: string (nullable = true)
 |-- Numero Rua: string (nullable = true)
 |-- Complemento: string (nullable = true)
 |-- Bairro: string (nullable = true)
 |-- Cep: string (nullable = true)
 |-- Produto: string (nullable = true)
 |-- Data da Coleta: string (nullable = true)
 |-- Valor de Venda: string (nullable = true)
 |-- Valor de Compra: string (nullable = true)
 |-- Unidade de Medida: string (nullable = true)
 |-- Bandeira: string (nullable = true)



In [7]:
df_precos = (
    df
    .select('Estado - Sigla', 'Produto', 'Valor de Venda', 'Unidade de Medida')
    .withColumn(
        "Valor de Venda",
        F.regexp_replace(F.col("Valor de Venda"), ",", ".")
        .cast("float")
    )
)

In [9]:
df_precos.show(5)

+--------------+--------+--------------+-----------------+
|Estado - Sigla| Produto|Valor de Venda|Unidade de Medida|
+--------------+--------+--------------+-----------------+
|            SP|GASOLINA|          5.65|       R$ / litro|
|            SP|  ETANOL|          3.78|       R$ / litro|
|            BA|GASOLINA|          6.79|       R$ / litro|
|            BA|  ETANOL|          4.89|       R$ / litro|
|            BA|GASOLINA|          6.75|       R$ / litro|
+--------------+--------+--------------+-----------------+
only showing top 5 rows


In [8]:
(
    df_precos
    .where(
        F.col('Valor de Compra').isNotNull()
    )
    .show()
)

+--------------+-------+--------------+-----------------+
|Estado - Sigla|Produto|Valor de Venda|Unidade de Medida|
+--------------+-------+--------------+-----------------+
+--------------+-------+--------------+-----------------+



In [10]:
df_precos = (
    df
    .select('Estado - Sigla', 'Produto', 'Valor de Venda', 'Unidade de Medida')
    .withColumn(
        "Valor de Venda",
        F.regexp_replace(F.col("Valor de Venda"), ",", ".")
        .cast("float")
    )
)

In [11]:
df_precos_analise = (
    df_precos
    .groupBy(
        F.col('Estado - Sigla'),
        F.col('Produto'),
        F.col('Unidade de Medida')
    )
    .agg(
        F.min(F.col("Valor de Venda")).alias('menor_valor'),
        F.max(F.col("Valor de Venda")).alias('maior_valor')
    )
    .withColumn(
        "diferenca",
        F.col('maior_valor') - F.col('menor_valor')
    )
    .orderBy('diferenca', ascending=False)
)

In [12]:
df_precos_analise.show(10)


+--------------+------------------+-----------------+-----------+-----------+---------+
|Estado - Sigla|           Produto|Unidade de Medida|menor_valor|maior_valor|diferenca|
+--------------+------------------+-----------------+-----------+-----------+---------+
|            SP|          GASOLINA|       R$ / litro|       5.19|       8.99|3.7999997|
|            SP|GASOLINA ADITIVADA|       R$ / litro|       5.19|       8.99|3.7999997|
|            SP|            ETANOL|       R$ / litro|       3.38|       6.27|2.8899999|
|            PE|            ETANOL|       R$ / litro|       3.99|       6.49|2.4999998|
|            RJ|          GASOLINA|       R$ / litro|       5.46|       7.79|     2.33|
|            SC|            ETANOL|       R$ / litro|       4.37|       6.68|     2.31|
|            RJ|GASOLINA ADITIVADA|       R$ / litro|       5.69|       7.99|2.2999997|
|            PR|            ETANOL|       R$ / litro|       3.45|       5.59|     2.14|
|            PE|          GASOLI