##Ler um arquivo json

https://spark.apache.org/docs/latest/sql-data-sources-json.html

A leitura de arquivos JSON é uma tarefa comum em projetos de análise de dados, pois esse formato é amplamente utilizado para armazenar e transferir informações estruturadas. O Apache Spark oferece suporte nativo para leitura e manipulação de arquivos JSON, permitindo que você carregue, consulte e processe dados de forma eficiente em ambientes distribuídos. Nesta seção, veremos como utilizar o Spark para ler arquivos JSON e explorar seus dados.

##### Sites úteis:

https://jsonviewer.stack.hu/

https://codebeautify.org/jsonviewer


In [0]:
path = "/Volumes/workspace/default/tutorial/assets"
df = spark.read.json(f"{path}/V_OCORRENCIA_AMPLA.json")
display(df)

## Renomear Colunas

Renomear colunas é uma etapa fundamental no processo de preparação de dados, pois garante que os nomes dos campos sejam claros, padronizados e adequados ao contexto da análise. No Apache Spark, é possível renomear colunas de forma simples e eficiente, facilitando a manipulação e compreensão dos dados ao longo do pipeline de processamento.

In [0]:

df = df.withColumnRenamed("Aerodromo_de_Destino", "Destino") \
    .withColumnRenamed("Aerodromo_de_Origem", "Origem") \
    .withColumnRenamed("Classificacao_da_Ocorrência", "Classificação")

display(df)

## Salvar arquivo json zipado

Salvar arquivos JSON compactados é uma prática comum para otimizar o armazenamento e a transferência de grandes volumes de dados. O Apache Spark permite salvar DataFrames em formato JSON utilizando compressão, como ZIP ou GZIP, reduzindo o espaço ocupado e facilitando o compartilhamento dos dados entre diferentes sistemas. Nesta seção, veremos como exportar dados em formato JSON compactado utilizando Spark.

In [0]:
df.write \
    .format("json") \
    .option("compression", "gzip") \
    .mode("overwrite") \
    .save(f"{path}/V_OCORRENCIA_AMPLA_JSON.zip")


In [0]:
# O CSV tem 20MB e o ZIP ficou com 3MB
def get_folder_size(path):
    files = dbutils.fs.ls(path)
    return sum(f.size for f in files if not f.isDir())

folder_size = get_folder_size(f"{path}/V_OCORRENCIA_AMPLA.json")
print(f"Tamanho total da pasta CSV: {folder_size} bytes")

folder_size = get_folder_size(f"{path}/V_OCORRENCIA_AMPLA_JSON.zip")
print(f"Tamanho total da pasta ZIP: {folder_size} bytes")

## Lendo Json Compactado

A leitura de arquivos JSON compactados é uma prática essencial para lidar com grandes volumes de dados de forma eficiente, otimizando o armazenamento e a transferência. O Apache Spark permite ler arquivos JSON comprimidos em formatos como ZIP ou GZIP, facilitando o processamento distribuído desses dados sem a necessidade de descompactação manual. Nesta seção, veremos como carregar e explorar arquivos JSON compactados utilizando Spark.

In [0]:
dfCompresao = spark.read \
        .option("compression", "gzip") \
        .json(f"{path}/V_OCORRENCIA_AMPLA_JSON.zip/") 

display(dfCompresao)