# poetry - python

In [1]:
from pyspark.sql import functions as F
from pyspark.sql import SparkSession

In [2]:
spark = SparkSession.builder.master("local[*]").appName('Etanol_Gasolina').getOrCreate()

25/03/06 14:06:51 WARN Utils: Your hostname, SMSSIC10194 resolves to a loopback address: 127.0.1.1; using 172.31.29.9 instead (on interface eth0)
25/03/06 14:06:51 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/03/06 14:06:52 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
25/03/06 14:06:53 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.


In [3]:
df = (spark
      .read
      .option('delimiter', ';')
      .option('header', 'true')
      .option('inferSchema', 'true')
      .option('enconding', 'ISO-8859-1')
      .csv("./precos-gasolina-etanol-12.csv")
)

In [4]:
df.printSchema()

root
 |-- Regiao - Sigla: string (nullable = true)
 |-- Estado - Sigla: string (nullable = true)
 |-- Municipio: string (nullable = true)
 |-- Revenda: string (nullable = true)
 |-- CNPJ da Revenda: string (nullable = true)
 |-- Nome da Rua: string (nullable = true)
 |-- Numero Rua: string (nullable = true)
 |-- Complemento: string (nullable = true)
 |-- Bairro: string (nullable = true)
 |-- Cep: string (nullable = true)
 |-- Produto: string (nullable = true)
 |-- Data da Coleta: string (nullable = true)
 |-- Valor de Venda: string (nullable = true)
 |-- Valor de Compra: string (nullable = true)
 |-- Unidade de Medida: string (nullable = true)
 |-- Bandeira: string (nullable = true)



In [5]:
df_precos = (
    df
    .select('Estado - Sigla', 'Produto', 'Valor de Compra' ,'Valor de Venda', 'Unidade de Medida')
)

In [6]:
df_precos.show(5)

+--------------+--------+---------------+--------------+-----------------+
|Estado - Sigla| Produto|Valor de Compra|Valor de Venda|Unidade de Medida|
+--------------+--------+---------------+--------------+-----------------+
|            SP|GASOLINA|           NULL|          5,42|       R$ / litro|
|            SP|  ETANOL|           NULL|          3,59|       R$ / litro|
|            AL|GASOLINA|           NULL|          5,99|       R$ / litro|
|            AP|GASOLINA|           NULL|          5,83|       R$ / litro|
|            AP|GASOLINA|           NULL|          5,83|       R$ / litro|
+--------------+--------+---------------+--------------+-----------------+
only showing top 5 rows



In [7]:
(
    df_precos
    .where(
        F.col('Valor de Compra').isNotNull()
    ).show()
)

+--------------+-------+---------------+--------------+-----------------+
|Estado - Sigla|Produto|Valor de Compra|Valor de Venda|Unidade de Medida|
+--------------+-------+---------------+--------------+-----------------+
+--------------+-------+---------------+--------------+-----------------+



In [8]:
df_precos = (
    df
    .select('Estado - Sigla', 'Produto','Valor de Venda', 'Unidade de Medida')
    .withColumn(
        'Valor de Venda', 
        F.regexp_replace(F.col('Valor de Venda'), ',', '.')
        .cast('float')
    )
)

In [13]:
df_precos_analise = (
    df_precos
    .groupBy(
        F.col('Estado - Sigla'), 
        F.col('Produto'), 
        F.col('Unidade de Medida')  
    )
    .agg(
        F.min(F.col('Valor de Venda')).alias('menor_valor'),
        F.max(F.col('Valor de Venda')).alias('maior_valor')
    )
    .withColumn(
    "diferenca",
        F.col('maior_valor') - F.col('menor_valor')
    )
    .orderBy('diferenca', ascending=False)
)

In [14]:
df_precos_analise.show()

+--------------+------------------+-----------------+-----------+-----------+---------+
|Estado - Sigla|           Produto|Unidade de Medida|menor_valor|maior_valor|diferenca|
+--------------+------------------+-----------------+-----------+-----------+---------+
|            SP|GASOLINA ADITIVADA|       R$ / litro|       5.27|       8.89|3.6200004|
|            SP|            ETANOL|       R$ / litro|       3.19|       6.59|      3.4|
|            MG|GASOLINA ADITIVADA|       R$ / litro|       5.67|       8.88|     3.21|
|            SP|          GASOLINA|       R$ / litro|       4.94|       7.99|3.0499997|
|            RJ|          GASOLINA|       R$ / litro|       5.05|       7.79|2.7399998|
|            RJ|GASOLINA ADITIVADA|       R$ / litro|       5.49|       7.99|      2.5|
|            AL|            ETANOL|       R$ / litro|       3.99|       6.49|2.4999998|
|            SC|            ETANOL|       R$ / litro|       3.84|       6.16|     2.32|
|            PE|            ETAN