## Coleta de dados

Esse projeto em PySpark faz uma análise de dados de preços de combustíveis da ANP.

O trabalho faz uso de dados publicados pela ANP (Agência Nacional de Petróleo)

> Em cumprimento às determinações da Lei do Petróleo (Lei nº 9478/1997, artigo 8º), a ANP acompanha os preços praticados por revendedores de combustíveis automotivos e de gás liquefeito de petróleo envasilhado em botijões de 13 quilos (GLP P13), por meio de uma pesquisa semanal de preços realizada por empresa contratada.

- [Série Histórica de Preços de Combustíveis e de GLP](https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/serie-historica-de-precos-de-combustiveis)

Coletamos a série histórica de "Combustíveis automotivos" que vai de 2004 a 2023. São 39 arquivos CSV totalizando aproximadamente 3.7 GB.

![Amostra dos dados](./assets/amostra_planilha_revenda.png)

- [Metadados em PDF](https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/shpc/metadados-serie-historica-precos-combustiveis-1.pdf)

Temos as seguintes colunas nos arquivos CSV, em conformidade com a documentação de metadados:

| Coluna            | Tipo    | Comentário                                                                           |
| ----------------- | ------- | ------------------------------------------------------------------------------------ |
| Regiao            | Texto   | Sigla da região do país (ex: S, N, SE)                                               |
| Estado            | Texto   | Sigla de unidade federativa (ex: RJ, SP, MG)                                         |
| Municipio         | Texto   | Nome de município                                                                    |
| Revenda           | Texto   | Razão social do revendedor de combustível                                            |
| CNPJ da Revenda   | Texto   | CNPJ do revendedor                                                                   |
| Nome da Rua       | Texto   | Logradouro                                                                           |
| Numero Rua        | Texto   | Logradouro                                                                           |
| Complemento       | Texto   | Logradouro                                                                           |
| Bairro            | Texto   | Logradouro                                                                           |
| CEP               | Texto   | Código de Endereçamento Postal                                                       |
| Produto           | Texto   | Produto combustível (ex: GASOLINA, ETANOL, DIESEL)                                   |
| Data da Coleta    | Data    | Data da pesquisa de preço (formato dd/mm/aaaa)                                       |
| Valor de Venda    | Decimal | Valor de venda da unidade de combustível (4 casas decimais, vírgula como separador)  |
| Valor de Compra   | Decimal | Valor de compra da unidade de combustível (4 casas decimais, virgula como separador) |
| Unidade de Medida | Texto   | Unidade ao qual os valores de compra e venda se referem (ex: R$ / litro)             |
| Bandeira          | Texto   | Nome de marca do posto de revenda (ex: IPIRANGA, BRANCA, COSAN, etc.)                |


## Infraestrutura

Aproveitando a configuração de cluster da Google Cloud Platform criada para o [projeto Hadoop](https://github.com/pinei/hadoop-precos-combustiveis), incluímos o JupyterLab para trabalhar com o PySpark.

![cluster-info](./assets/cluster_info.png)

Em paralelo usamos uma instalação em Raspberry Pi 4 para verificar a viabilidade e desempenho nesse tipo de hardware de baixo custo.

- [Running PySpark in JupyterLab on a Raspberry Pi](https://dev.to/pinei/running-pyspark-in-jupyterlab-on-a-raspberry-pi-1293)

Por rodar no modo standalone, vamos chamar este ambiente de "máquina local".

Em projeto anterior os arquivos CSV foram organizados em um bucket do Google Cloud Storage.

> `https://console.cloud.google.com/storage/browser/hadoop-dados-brutos`

No cluster Dataproc o Spark tem acesso padrão aos arquivos desse storage via URL `gs://hadoop-dados-brutos`, podendo inclusive fazer o processamento distribuído entre os nós.

In [None]:
DATA_PATH = 'gs://hadoop-dados-brutos'

No Spark em máquina local, o suporte a conexão com o mesmo storage precisa de configuração adicional.

- [How to fix "No FileSystem for scheme: gs" in pyspark?](https://stackoverflow.com/questions/55595263/how-to-fix-no-filesystem-for-scheme-gs-in-pyspark)

## Iniciando a sessão do Spark

Inicializamos uma sessão do Spark com suporte ao Hive para gerenciamento de metadados das bases de dados.

Também habilitamos o suporte ao sistema de arquivos do Google Cloud.

In [None]:
from pyspark.sql import SparkSession

spark = ( SparkSession
    .builder
    .appName("analise-dados")
    .config("spark.jars", "https://storage.googleapis.com/hadoop-lib/gcs/gcs-connector-hadoop3-latest.jar")
    .enableHiveSupport()
    .getOrCreate() )

spark._jsc.hadoopConfiguration().set('fs.gs.impl', 'com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem')

O conector do Google precisa de uma chave para autenticação no serviço.

Passo a passo para gerar a chave:
- Console do Google Cloud Platform
- APIs e Serviços > Credenciais
- Criar Conta de Serviço
- Criar Chave do tipo JSON

> "É feito o download de um arquivo contendo a chave privada. Armazene o arquivo com segurança porque essa chave não pode ser recuperada em caso de perda."

Subimos o arquivo JSON para uma pasta de trabalho:

> `/home/aldinei_bastos/work/seventh-abacus-395221-52fc140a5609.json`

É necessário então localizar o JSON através de uma variável de ambiente `GOOGLE_APPLICATION_CREDENTIALS`

In [None]:
import os

HOME_DIR = os.environ["HOME"]
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = f'{HOME_DIR}/work/seventh-abacus-395221-52fc140a5609.json'

In [None]:
spark.catalog.listDatabases()

In [None]:
def create_database(name, comment):
    spark.sql(f"CREATE DATABASE IF NOT EXISTS {name} COMMENT '{comment}'")
    return spark.sql(f"DESCRIBE DATABASE {name}")

metadata = create_database("precos_anp", "Base de dados de preços de combustíveis fornecidos pela ANP e alguns indicadores de mercado")
metadata.show()

## Ingestão

Definimos o schema para leitura dos arquivos CSV.

In [None]:
from pyspark.sql.types import StructType, StructField, StringType, DateType, DecimalType

schema = StructType([
    StructField("Regiao", StringType(), True),
    StructField("Estado", StringType(), True),
    StructField("Municipio", StringType(), True),
    StructField("Revenda", StringType(), True),
    StructField("CNPJ da Revenda", StringType(), True),
    StructField("Nome da Rua", StringType(), True),
    StructField("Numero Rua", StringType(), True),
    StructField("Complemento", StringType(), True),
    StructField("Bairro", StringType(), True),
    StructField("CEP", StringType(), True),
    StructField("Produto", StringType(), True),
    StructField("Data da Coleta", DateType(), True),
    StructField("Valor de Venda", DecimalType(10, 4), True),
    StructField("Valor de Compra", DecimalType(10, 4), True),
    StructField("Unidade de Medida", StringType(), True),
    StructField("Bandeira", StringType(), True)
])

df_csv = spark.read.csv(f"{DATA_PATH}/anp-combustiveis-automotivos/ca-*.csv",
                    header=True,
                    schema=schema,
                    sep=';',
                    multiLine=True,
                    quote='"',
                    dateFormat="dd/MM/yyyy",
                    locale='pt-BR')
df_csv.count()

In [None]:
Criamos uma tabela gerenciada e populamos com os dados do dataframe carregado

In [None]:
spark.sql("""
    CREATE TABLE IF NOT EXISTS precos_anp.combustiveis_automotivos (
      regiao STRING,
      estado STRING,
      municipio STRING,
      revenda STRING,
      cnpj_revenda STRING,
      endereco_rua STRING,
      endereco_numero STRING,
      endereco_complemento STRING,
      endereco_bairro STRING,
      endereco_cep STRING,
      mes STRING,
      data DATE,
      valor_venda DECIMAL(10,4),  -- Tipo decimal com até 4 casas decimais
      valor_compra DECIMAL(10,4),  -- Tipo decimal com até 4 casas decimais
      unidade_medida STRING,
      bandeira STRING
    )
    PARTITIONED BY (produto STRING)
    CLUSTERED BY (mes) INTO 8 BUCKETS
""")

# Checando
spark.table('precos_anp.combustiveis_automotivos')

In [None]:
from pyspark.sql import functions as F

df_ca = (
    df_csv.select(
        F.column("Regiao").alias("regiao"),
        F.column("Estado").alias("estado"),
        F.column("Municipio").alias("municipio"),
        F.column("Revenda").alias("revenda"),
        F.column("CNPJ da Revenda").alias("cnpj_revenda"),
        F.column("Nome da Rua").alias("endereco_rua"),
        F.column("Numero Rua").alias("endereco_numero"),
        F.column("Complemento").alias("endereco_complemento"),
        F.column("Bairro").alias("endereco_bairro"),
        F.column("CEP").alias("endereco_cep"),
        F.column("Produto").alias("produto"),
        F.column("Data da Coleta").alias("data"),
        F.column("Valor de Venda").alias("valor_venda"),
        F.column("Valor de Compra").alias("valor_compra"),
        F.column("Unidade de Medida").alias("unidade_medida"),
        F.column("Bandeira").alias("bandeira")
    )
    .withColumn("produto", F.when(F.col("produto") == "ETANO", "ETANOL").otherwise(F.col("produto")))
    .withColumn("mes", F.date_format("data", "yyyy-MM"))
)

df_ca.write.mode("overwrite").saveAsTable("precos_anp.combustiveis_automotivos")