## Arquivos Parquet

Os arquivos Parquet são um formato de armazenamento colunar amplamente utilizado em ambientes de Big Data, como o Databricks e o Apache Spark. Eles oferecem alta eficiência de compressão e desempenho em consultas analíticas, tornando-se ideais para processamento e análise de grandes volumes de dados.

* 80% (Aprox) menos armazenamento ao comparar com CSV e Json

* 30x (Aprox) Mais Rápido

* 90% (Aprox) Economia na leitura agiliza o cluster isso resulta em leituras e gravações mais rápidas.

* Pode ser particionado

* Quanto menor tamando de armazenamento menos dinheiro a empresa paga em recursos Cloud

##### Documentação Databricks

https://docs.databricks.com/pt/external-data/parquet.html

##### Documentação Spark

https://spark.apache.org/docs/latest/sql-data-sources-parquet.html



###Transformando DataFlame em Parquet

O formato Parquet é amplamente utilizado para armazenar dados de forma eficiente em ambientes de Big Data. Transformar um DataFrame em Parquet permite aproveitar benefícios como compressão, leitura otimizada e facilidade de integração com ferramentas analíticas, tornando o processamento de grandes volumes de dados mais rápido e econômico.

In [0]:
path = "/Volumes/workspace/default/tutorial/anac"

In [0]:
df = spark.read.json(f"{path}/V_OCORRENCIA_AMPLA.json")
display(df)

In [0]:
df.write \
  .format('parquet') \
  .mode("overwrite") \
  .save(f"{path}/V_OCORRENCIA_AMPLA_PARQUET")


In [0]:
display(dbutils.fs.ls(f"{path}/V_OCORRENCIA_AMPLA_PARQUET"))

In [0]:
# O CSV tem 9MB, JSON tem 20MB e o PARQUET ficou com 3MB
def get_folder_size(path):
    files = dbutils.fs.ls(path)
    return sum(f.size for f in files if not f.isDir())

folder_size = get_folder_size(f"{path}/V_OCORRENCIA_AMPLA.csv")
print(f"Tamanho total da pasta CSV: {folder_size} bytes")

folder_size = get_folder_size(f"{path}/V_OCORRENCIA_AMPLA.json")
print(f"Tamanho total da pasta JSON: {folder_size} bytes")

folder_size = get_folder_size(f"{path}/V_OCORRENCIA_AMPLA_PARQUET")
print(f"Tamanho total da pasta PARQUET: {folder_size} bytes")

## lendo arquivo Parquet

A leitura de arquivos Parquet é uma etapa fundamental em pipelines de dados, pois permite acessar informações armazenadas de forma eficiente e otimizada. O formato Parquet, por ser colunar e suportar compressão, proporciona consultas rápidas e uso reduzido de recursos computacionais, sendo amplamente adotado em ambientes de Big Data como o Databricks e o Apache Spark.

In [0]:
dfpq = spark.read.parquet(f"{path}/V_OCORRENCIA_AMPLA_PARQUET")
display(dfpq)

## Salvando parquet com Compactado

O armazenamento de dados em formato Parquet pode ser ainda mais eficiente ao aplicar compactação. A compactação reduz o espaço ocupado em disco e pode melhorar o desempenho de leitura e escrita, especialmente em grandes volumes de dados. Utilizar Parquet compactado é uma prática recomendada em ambientes de Big Data para otimizar custos e recursos computacionais.

In [0]:
df.write \
  .format('parquet') \
  .mode("overwrite") \
  .option("compression", "gzip") \
  .save(f"{path}/V_OCORRENCIA_AMPLA_PARQUET.zip")


In [0]:
display(dbutils.fs.ls(path))

In [0]:
display(dbutils.fs.ls(f"{path}/V_OCORRENCIA_AMPLA_PARQUET.zip"))

In [0]:
# O CSV tem 2MB, JSON tem 3MB e o PARQUET ficou com 3MB e o PARQUET ZIP 2MB
def get_folder_size(path):
    files = dbutils.fs.ls(path)
    return sum(f.size for f in files if not f.isDir())

folder_size = get_folder_size(f"{path}/V_OCORRENCIA_AMPLA_CSV.zip")
print(f"Tamanho total da pasta CSV ZIP: {folder_size} bytes")

folder_size = get_folder_size(f"{path}/V_OCORRENCIA_AMPLA_JSON.zip")
print(f"Tamanho total da pasta JSON ZIP: {folder_size} bytes")

folder_size = get_folder_size(f"{path}/V_OCORRENCIA_AMPLA_PARQUET")
print(f"Tamanho total da pasta PARQUET: {folder_size} bytes")

folder_size = get_folder_size(f"{path}/V_OCORRENCIA_AMPLA_PARQUET.zip")
print(f"Tamanho total da pasta PARQUET ZIP: {folder_size} bytes")

## Lendo Arquivo Parquet compactado

A leitura de arquivos Parquet compactados é essencial para otimizar o armazenamento e o desempenho em ambientes de Big Data. O Parquet, aliado à compactação, permite acessar grandes volumes de dados de forma eficiente, reduzindo custos de armazenamento e acelerando operações de leitura e análise. Essa abordagem é amplamente utilizada em plataformas como Databricks e Apache Spark para garantir escalabilidade e performance em pipelines de dados.

In [0]:
dfParquetZip = spark.read\
    .format("parquet")\
    .option("compression", "gzip")\
    .load(f"{path}/V_OCORRENCIA_AMPLA_PARQUET.zip")

display(dfParquetZip)

## tempo de Execução parquet x json

A escolha do formato de armazenamento de dados impacta diretamente o desempenho e a eficiência de pipelines analíticos. Parquet e JSON são formatos amplamente utilizados, porém apresentam diferenças significativas em termos de velocidade de leitura, escrita e uso de recursos. Nesta seção, vamos comparar o tempo de execução entre operações com arquivos Parquet e JSON, destacando as vantagens do formato colunar Parquet em cenários de Big Data.

In [0]:
# Json 2.09s
df_json = spark.read.json(f"{path}/V_OCORRENCIA_AMPLA.json")
display(df_json)

In [0]:
# parquet 1.71s
dfpq = spark.read.parquet(f"{path}/V_OCORRENCIA_AMPLA_PARQUET")
display(dfpq)