## Databricks - files formats

## The Project

In this project we will be analyzing different file formats. Let's compare them, analyzing their differences and main characteristics, checking the advantages and disadvantages of each type of format.
The objective of this project is to analyze different types of formats and identify the role of each of them in the world of data science.

## Imports:

In [0]:
from pyspark.sql.functions import col, concat_ws
from pyspark.sql.types import IntegerType

## Checking directories

In [0]:
dbutils.fs.ls('/')

[FileInfo(path='dbfs:/FileStore/', name='FileStore/', size=0, modificationTime=0),
 FileInfo(path='dbfs:/databricks-datasets/', name='databricks-datasets/', size=0, modificationTime=0),
 FileInfo(path='dbfs:/databricks-results/', name='databricks-results/', size=0, modificationTime=0),
 FileInfo(path='dbfs:/tmp/', name='tmp/', size=0, modificationTime=0),
 FileInfo(path='dbfs:/user/', name='user/', size=0, modificationTime=0)]

In [0]:
display(dbutils.fs.ls('/FileStore/'))

path,name,size,modificationTime
dbfs:/FileStore/tables/,tables/,0,0


In [0]:
display(dbutils.fs.ls('/FileStore/tables/'))

path,name,size,modificationTime
dbfs:/FileStore/tables/databricks-classes/,databricks-classes/,0,0


In [0]:
display(dbutils.fs.ls('/FileStore/tables/databricks-classes/'))

path,name,size,modificationTime
dbfs:/FileStore/tables/databricks-classes/file-formats/,file-formats/,0,0
dbfs:/FileStore/tables/databricks-classes/wine-quality/,wine-quality/,0,0


## Creating directory in Databricks

In [0]:
dbutils.fs.mkdirs('FileStore/tables/databricks-classes/file-formats/')
display(dbutils.fs.ls('FileStore/tables/databricks-classes/'))
display(dbutils.fs.ls('FileStore/tables/databricks-classes/file-formats/'))

path,name,size,modificationTime
dbfs:/FileStore/tables/databricks-classes/file-formats/,file-formats/,0,0
dbfs:/FileStore/tables/databricks-classes/wine-quality/,wine-quality/,0,0


path,name,size,modificationTime
dbfs:/FileStore/tables/databricks-classes/file-formats/AVRO/,AVRO/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/CSV/,CSV/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/JSON/,JSON/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/,ORC/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/PARQUET/,PARQUET/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/PNSB.json,PNSB.json,129046,1705130603000
dbfs:/FileStore/tables/databricks-classes/file-formats/TEXT/,TEXT/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/pnsb.json,pnsb.json,129046,1705406173000


##  The Dataset

### Research carried out in the SIDRA system
https://sidra.ibge.gov.br/pesquisa/pnsb

### SIDRA Tables
Table 354 - Number of municipalities, total and those with occurrence of diseases associated with basic sanitation, by type of disease.

## Files in JSON format

## PROS:

* Most languages provide simplified JSON serialization libraries or built-in support for JSON serialization and deserialization.

* Built-in support for the most modern tools.

## COS:

* File in JSON consumes more memory due to repetitive column names.

* There is great difficulty in executing Parallelism.

## Reading a JSON file

In [0]:
# File Location and Type
file_location = '/FileStore/tables/databricks-classes/file-formats/pnsb.json'
file_type = 'json'

# JSON options
# None

# Reading Database
df_JSON = spark.read.format(file_type) \
    .load(file_location)

display(df_JSON)

D1C,D1N,D2C,D2N,D3C,D3N,D4C,D4N,MC,MN,NC,NN,V
"Brasil, Grande Região e UF (Código)","Brasil, Grande Região e UF",Variável (Código),Variável,Ano (Código),Ano,Tipo de doença (Código),Tipo de doença,Unidade de Medida (Código),Unidade de Medida,Nível Territorial (Código),Nível Territorial,Valor
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120931,Total,1020,Unidades,1,Brasil,2245
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120937,Dengue,1020,Unidades,1,Brasil,1547
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120930,Total geral de municípios,1020,Unidades,1,Brasil,5564
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120932,Diarréia,1020,Unidades,1,Brasil,1517
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120933,Leptospirose,1020,Unidades,1,Brasil,197
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120934,Verminoses,1020,Unidades,1,Brasil,1394
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120935,Cólera,1020,Unidades,1,Brasil,54
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120936,Difteria,1020,Unidades,1,Brasil,65
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120938,Tifo,1020,Unidades,1,Brasil,26


## Renaming  the Columns

In [0]:

for column in df_JSON.columns:
    new_column_name = df_JSON.select(f'{column}').collect()[0][0]
    
    new_column_name = new_column_name.replace(', ', '_') \
        .replace(' ', '_') \
        .replace('(', '') \
        .replace(')', '') \
        .replace('_e_', '_') \
        .replace('_de_', '_') \
        .replace('ã', 'a') \
        .replace('ó', 'o') \
        .replace('í', 'i') \
        .replace('á', 'a') \
        .replace('ç', 'c')
    
    df_JSON = df_JSON.withColumnRenamed(column, new_column_name)

display(df_JSON)

Brasil_Grande_Regiao_UF_Codigo,Brasil_Grande_Regiao_UF,Variavel_Codigo,Variavel,Ano_Codigo,Ano,Tipo_doenca_Codigo,Tipo_doenca,Unidade_Medida_Codigo,Unidade_Medida,Nivel_Territorial_Codigo,Nivel_Territorial,Valor
"Brasil, Grande Região e UF (Código)","Brasil, Grande Região e UF",Variável (Código),Variável,Ano (Código),Ano,Tipo de doença (Código),Tipo de doença,Unidade de Medida (Código),Unidade de Medida,Nível Territorial (Código),Nível Territorial,Valor
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120931,Total,1020,Unidades,1,Brasil,2245
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120937,Dengue,1020,Unidades,1,Brasil,1547
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120930,Total geral de municípios,1020,Unidades,1,Brasil,5564
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120932,Diarréia,1020,Unidades,1,Brasil,1517
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120933,Leptospirose,1020,Unidades,1,Brasil,197
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120934,Verminoses,1020,Unidades,1,Brasil,1394
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120935,Cólera,1020,Unidades,1,Brasil,54
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120936,Difteria,1020,Unidades,1,Brasil,65
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120938,Tifo,1020,Unidades,1,Brasil,26


In [0]:
df_JSON = df_JSON.filter(df_JSON.Valor != 'Valor')
display(df_JSON)

Brasil_Grande_Regiao_UF_Codigo,Brasil_Grande_Regiao_UF,Variavel_Codigo,Variavel,Ano_Codigo,Ano,Tipo_doenca_Codigo,Tipo_doenca,Unidade_Medida_Codigo,Unidade_Medida,Nivel_Territorial_Codigo,Nivel_Territorial,Valor
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120931,Total,1020,Unidades,1,Brasil,2245
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120937,Dengue,1020,Unidades,1,Brasil,1547
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120930,Total geral de municípios,1020,Unidades,1,Brasil,5564
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120932,Diarréia,1020,Unidades,1,Brasil,1517
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120933,Leptospirose,1020,Unidades,1,Brasil,197
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120934,Verminoses,1020,Unidades,1,Brasil,1394
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120935,Cólera,1020,Unidades,1,Brasil,54
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120936,Difteria,1020,Unidades,1,Brasil,65
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120938,Tifo,1020,Unidades,1,Brasil,26
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120939,Malária,1020,Unidades,1,Brasil,159


## Checking data typing and processing the data

In [0]:
df_JSON.printSchema()

root
 |-- Brasil_Grande_Regiao_UF_Codigo: string (nullable = true)
 |-- Brasil_Grande_Regiao_UF: string (nullable = true)
 |-- Variavel_Codigo: string (nullable = true)
 |-- Variavel: string (nullable = true)
 |-- Ano_Codigo: string (nullable = true)
 |-- Ano: string (nullable = true)
 |-- Tipo_doenca_Codigo: string (nullable = true)
 |-- Tipo_doenca: string (nullable = true)
 |-- Unidade_Medida_Codigo: string (nullable = true)
 |-- Unidade_Medida: string (nullable = true)
 |-- Nivel_Territorial_Codigo: string (nullable = true)
 |-- Nivel_Territorial: string (nullable = true)
 |-- Valor: string (nullable = true)



In [0]:
for column in df_JSON.columns:
    if column != 'Brasil_Grande_Regiao_UF' \
    and column != 'Variavel' \
    and column != 'Tipo_doenca' \
    and  column != 'Unidade_Medida' \
    and column != 'Nivel_Territorial':
        df_JSON = df_JSON.withColumn(column, col(column).cast(IntegerType()))
    else:
        df_JSON = df_JSON.withColumn(column, col(column))

display(df_JSON)

Brasil_Grande_Regiao_UF_Codigo,Brasil_Grande_Regiao_UF,Variavel_Codigo,Variavel,Ano_Codigo,Ano,Tipo_doenca_Codigo,Tipo_doenca,Unidade_Medida_Codigo,Unidade_Medida,Nivel_Territorial_Codigo,Nivel_Territorial,Valor
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120931,Total,1020,Unidades,1,Brasil,2245.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120937,Dengue,1020,Unidades,1,Brasil,1547.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120930,Total geral de municípios,1020,Unidades,1,Brasil,5564.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120932,Diarréia,1020,Unidades,1,Brasil,1517.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120933,Leptospirose,1020,Unidades,1,Brasil,197.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120934,Verminoses,1020,Unidades,1,Brasil,1394.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120935,Cólera,1020,Unidades,1,Brasil,54.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120936,Difteria,1020,Unidades,1,Brasil,65.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120938,Tifo,1020,Unidades,1,Brasil,26.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120939,Malária,1020,Unidades,1,Brasil,159.0


In [0]:
df_JSON.printSchema()

root
 |-- Brasil_Grande_Regiao_UF_Codigo: integer (nullable = true)
 |-- Brasil_Grande_Regiao_UF: string (nullable = true)
 |-- Variavel_Codigo: integer (nullable = true)
 |-- Variavel: string (nullable = true)
 |-- Ano_Codigo: integer (nullable = true)
 |-- Ano: integer (nullable = true)
 |-- Tipo_doenca_Codigo: integer (nullable = true)
 |-- Tipo_doenca: string (nullable = true)
 |-- Unidade_Medida_Codigo: integer (nullable = true)
 |-- Unidade_Medida: string (nullable = true)
 |-- Nivel_Territorial_Codigo: integer (nullable = true)
 |-- Nivel_Territorial: string (nullable = true)
 |-- Valor: integer (nullable = true)



## Writing and saving files in JSON - with compression

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/JSON'
file_type = 'json'

# JSON options
compression = 'gzip'

# Mode
mode = 'overwrite'

# Writing Database
df_JSON.write \
    .format(file_type) \
    .option('compression', compression) \
    .mode(mode) \
    .save(file_location)

display(dbutils.fs.ls(file_location))

path,name,size,modificationTime
dbfs:/FileStore/tables/databricks-classes/file-formats/JSON/_committed_3173965463391940533,_committed_3173965463391940533,208,1705435632000
dbfs:/FileStore/tables/databricks-classes/file-formats/JSON/_committed_5370145053587391240,_committed_5370145053587391240,207,1705432883000
dbfs:/FileStore/tables/databricks-classes/file-formats/JSON/_committed_7004320642226999744,_committed_7004320642226999744,220,1705424156000
dbfs:/FileStore/tables/databricks-classes/file-formats/JSON/_committed_7828140760397423722,_committed_7828140760397423722,209,1705441100000
dbfs:/FileStore/tables/databricks-classes/file-formats/JSON/_started_7828140760397423722,_started_7828140760397423722,0,1705441100000
dbfs:/FileStore/tables/databricks-classes/file-formats/JSON/part-00000-tid-7828140760397423722-1e006513-fe5a-49df-b79a-0368067eefa8-436-1-c000.json.gz,part-00000-tid-7828140760397423722-1e006513-fe5a-49df-b79a-0368067eefa8-436-1-c000.json.gz,4359,1705441100000


## Reading compressed JSON files

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/JSON'
file_type = 'json'

# JSON options
compression = 'gzip'

# Reading Database
df_JSON_gzip = spark.read \
    .format(file_location) \
    .option('compression', compression) \
    .json(file_location)

display(df_JSON_gzip)

Ano,Ano_Codigo,Brasil_Grande_Regiao_UF,Brasil_Grande_Regiao_UF_Codigo,Nivel_Territorial,Nivel_Territorial_Codigo,Tipo_doenca,Tipo_doenca_Codigo,Unidade_Medida,Unidade_Medida_Codigo,Valor,Variavel,Variavel_Codigo
2008,2008,Brasil,1,Brasil,1,Total,120931,Unidades,1020,2245.0,Municípios com ocorrência de doenças associadas ao saneamento básico,2597
2008,2008,Brasil,1,Brasil,1,Dengue,120937,Unidades,1020,1547.0,Municípios com ocorrência de doenças associadas ao saneamento básico,2597
2008,2008,Brasil,1,Brasil,1,Total geral de municípios,120930,Unidades,1020,5564.0,Municípios com ocorrência de doenças associadas ao saneamento básico,2597
2008,2008,Brasil,1,Brasil,1,Diarréia,120932,Unidades,1020,1517.0,Municípios com ocorrência de doenças associadas ao saneamento básico,2597
2008,2008,Brasil,1,Brasil,1,Leptospirose,120933,Unidades,1020,197.0,Municípios com ocorrência de doenças associadas ao saneamento básico,2597
2008,2008,Brasil,1,Brasil,1,Verminoses,120934,Unidades,1020,1394.0,Municípios com ocorrência de doenças associadas ao saneamento básico,2597
2008,2008,Brasil,1,Brasil,1,Cólera,120935,Unidades,1020,54.0,Municípios com ocorrência de doenças associadas ao saneamento básico,2597
2008,2008,Brasil,1,Brasil,1,Difteria,120936,Unidades,1020,65.0,Municípios com ocorrência de doenças associadas ao saneamento básico,2597
2008,2008,Brasil,1,Brasil,1,Tifo,120938,Unidades,1020,26.0,Municípios com ocorrência de doenças associadas ao saneamento básico,2597
2008,2008,Brasil,1,Brasil,1,Malária,120939,Unidades,1020,159.0,Municípios com ocorrência de doenças associadas ao saneamento básico,2597


## Files in CSV format

## Writing in csv files

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/CSV'
file_type = 'csv'

# CSV options
infer_schema = 'True'
first_row_is_header = 'True'
delimiter = ','

# Mode
mode = 'overwrite'

# Writing Database
df_JSON.write.format(file_type) \
    .option('inferSchema', infer_schema) \
    .option('header', first_row_is_header) \
    .option('delimiter', delimiter) \
    .mode(mode) \
    .save(file_location)

display(dbutils.fs.ls(file_location))

path,name,size,modificationTime
dbfs:/FileStore/tables/databricks-classes/file-formats/CSV/_committed_177586950844999282,_committed_177586950844999282,197,1705425070000
dbfs:/FileStore/tables/databricks-classes/file-formats/CSV/_committed_3619264915754375863,_committed_3619264915754375863,198,1705432890000
dbfs:/FileStore/tables/databricks-classes/file-formats/CSV/_committed_416097161254189988,_committed_416097161254189988,200,1705441104000
dbfs:/FileStore/tables/databricks-classes/file-formats/CSV/_committed_4587391510247478059,_committed_4587391510247478059,200,1705435636000
dbfs:/FileStore/tables/databricks-classes/file-formats/CSV/_committed_651201178979749856,_committed_651201178979749856,211,1705424164000
dbfs:/FileStore/tables/databricks-classes/file-formats/CSV/_started_416097161254189988,_started_416097161254189988,0,1705441104000
dbfs:/FileStore/tables/databricks-classes/file-formats/CSV/gzip/,gzip/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/CSV/part-00000-tid-416097161254189988-72752f45-4b86-4c4b-a381-f398a9bb941d-447-1-c000.csv,part-00000-tid-416097161254189988-72752f45-4b86-4c4b-a381-f398a9bb941d-447-1-c000.csv,79314,1705441104000


## PROS

* It is readable and easy to edit manually.

* It can be processed by almost all existing applications.

## COS

* Lack of a universal standard.

* Column types are not supported. No difference between text and numeric columns.


## Reading a CSV file

In [0]:
# File Location and Type
file_location = '/FileStore/tables/databricks-classes/file-formats/CSV'
file_type = 'csv'

# CSV options
infer_schema = 'True'
first_row_is_header = 'True'
delimiter = ','

# Reading Database
df_CSV = spark.read.format(file_type) \
    .option('inferSchema', infer_schema) \
    .option('header', first_row_is_header) \
    .option('delimiter', delimiter) \
    .load(file_location)

display(df_CSV)

Brasil_Grande_Regiao_UF_Codigo,Brasil_Grande_Regiao_UF,Variavel_Codigo,Variavel,Ano_Codigo,Ano,Tipo_doenca_Codigo,Tipo_doenca,Unidade_Medida_Codigo,Unidade_Medida,Nivel_Territorial_Codigo,Nivel_Territorial,Valor
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120931,Total,1020,Unidades,1,Brasil,2245.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120937,Dengue,1020,Unidades,1,Brasil,1547.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120930,Total geral de municípios,1020,Unidades,1,Brasil,5564.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120932,Diarréia,1020,Unidades,1,Brasil,1517.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120933,Leptospirose,1020,Unidades,1,Brasil,197.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120934,Verminoses,1020,Unidades,1,Brasil,1394.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120935,Cólera,1020,Unidades,1,Brasil,54.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120936,Difteria,1020,Unidades,1,Brasil,65.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120938,Tifo,1020,Unidades,1,Brasil,26.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120939,Malária,1020,Unidades,1,Brasil,159.0


In [0]:
df_CSV.printSchema()

root
 |-- Brasil_Grande_Regiao_UF_Codigo: integer (nullable = true)
 |-- Brasil_Grande_Regiao_UF: string (nullable = true)
 |-- Variavel_Codigo: integer (nullable = true)
 |-- Variavel: string (nullable = true)
 |-- Ano_Codigo: integer (nullable = true)
 |-- Ano: integer (nullable = true)
 |-- Tipo_doenca_Codigo: integer (nullable = true)
 |-- Tipo_doenca: string (nullable = true)
 |-- Unidade_Medida_Codigo: integer (nullable = true)
 |-- Unidade_Medida: string (nullable = true)
 |-- Nivel_Territorial_Codigo: integer (nullable = true)
 |-- Nivel_Territorial: string (nullable = true)
 |-- Valor: integer (nullable = true)



## Writing and saving files in CSV - with compression

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/CSV/gzip'
file_type = 'csv'

# CSV options
infer_schema = 'True'
first_row_is_header = 'True'
delimiter = ','
compression = 'gzip'

# Mode
mode = 'overwrite'

# Writing Database
df_CSV.write.format(file_type) \
    .option('compression', compression) \
    .option('inferSchema', infer_schema) \
    .option('header', first_row_is_header) \
    .option('delimiter', delimiter) \
    .mode(mode) \
    .save(file_location)

display(dbutils.fs.ls(file_location))

path,name,size,modificationTime
dbfs:/FileStore/tables/databricks-classes/file-formats/CSV/gzip/_committed_3619264915754375863,_committed_3619264915754375863,126,1705432890000
dbfs:/FileStore/tables/databricks-classes/file-formats/CSV/gzip/_committed_4101524899385975857,_committed_4101524899385975857,116,1705441108000
dbfs:/FileStore/tables/databricks-classes/file-formats/CSV/gzip/_committed_416097161254189988,_committed_416097161254189988,115,1705441104000
dbfs:/FileStore/tables/databricks-classes/file-formats/CSV/gzip/_committed_4587391510247478059,_committed_4587391510247478059,114,1705435636000
dbfs:/FileStore/tables/databricks-classes/file-formats/CSV/gzip/_committed_573269861030757085,_committed_573269861030757085,115,1705435641000
dbfs:/FileStore/tables/databricks-classes/file-formats/CSV/gzip/_committed_vacuum3743467043026437490,_committed_vacuum3743467043026437490,95,1705441105000
dbfs:/FileStore/tables/databricks-classes/file-formats/CSV/gzip/_committed_vacuum6818335943385634711,_committed_vacuum6818335943385634711,95,1705441105000
dbfs:/FileStore/tables/databricks-classes/file-formats/CSV/gzip/_started_4101524899385975857,_started_4101524899385975857,0,1705441108000
dbfs:/FileStore/tables/databricks-classes/file-formats/CSV/gzip/part-00000-tid-4101524899385975857-638d39c7-8d6e-45b3-8987-49a2a27fe988-459-1-c000.csv.gz,part-00000-tid-4101524899385975857-638d39c7-8d6e-45b3-8987-49a2a27fe988-459-1-c000.csv.gz,3321,1705441108000


## Reading compressed CSV files

In [0]:
# File Location and Type
file_location = '/FileStore/tables/databricks-classes/file-formats/CSV/gzip'
file_type = 'csv'

# CSV options
infer_schema = 'True'
first_row_is_header = 'True'
delimiter = ','
compression = 'gzip'

# Reading Database
df_CSV_Gzip = spark.read.format(file_type) \
    .option('compression', compression) \
    .option('inferSchema', infer_schema) \
    .option('header', first_row_is_header) \
    .option('delimiter', delimiter) \
    .csv(file_location)

display(df_CSV_Gzip)

Brasil_Grande_Regiao_UF_Codigo,Brasil_Grande_Regiao_UF,Variavel_Codigo,Variavel,Ano_Codigo,Ano,Tipo_doenca_Codigo,Tipo_doenca,Unidade_Medida_Codigo,Unidade_Medida,Nivel_Territorial_Codigo,Nivel_Territorial,Valor
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120931,Total,1020,Unidades,1,Brasil,2245.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120937,Dengue,1020,Unidades,1,Brasil,1547.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120930,Total geral de municípios,1020,Unidades,1,Brasil,5564.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120932,Diarréia,1020,Unidades,1,Brasil,1517.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120933,Leptospirose,1020,Unidades,1,Brasil,197.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120934,Verminoses,1020,Unidades,1,Brasil,1394.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120935,Cólera,1020,Unidades,1,Brasil,54.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120936,Difteria,1020,Unidades,1,Brasil,65.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120938,Tifo,1020,Unidades,1,Brasil,26.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120939,Malária,1020,Unidades,1,Brasil,159.0


## File in TEXT format

## PROS
* Virtually all software packages can read and write text files.

* They are very accessible and easy to modify.

## COS

* Lack of security.

* There is no way to specify the data format.

## Saving the Database in TEXT

## Handling data (removing NAN) Not supported by TEXT

In [0]:
df_CSV_Gzip = df_CSV_Gzip.na.fill(value = 0, subset = ['Valor'])
display(df_CSV_Gzip)

Brasil_Grande_Regiao_UF_Codigo,Brasil_Grande_Regiao_UF,Variavel_Codigo,Variavel,Ano_Codigo,Ano,Tipo_doenca_Codigo,Tipo_doenca,Unidade_Medida_Codigo,Unidade_Medida,Nivel_Territorial_Codigo,Nivel_Territorial,Valor
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120931,Total,1020,Unidades,1,Brasil,2245
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120937,Dengue,1020,Unidades,1,Brasil,1547
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120930,Total geral de municípios,1020,Unidades,1,Brasil,5564
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120932,Diarréia,1020,Unidades,1,Brasil,1517
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120933,Leptospirose,1020,Unidades,1,Brasil,197
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120934,Verminoses,1020,Unidades,1,Brasil,1394
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120935,Cólera,1020,Unidades,1,Brasil,54
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120936,Difteria,1020,Unidades,1,Brasil,65
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120938,Tifo,1020,Unidades,1,Brasil,26
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120939,Malária,1020,Unidades,1,Brasil,159


## Transforming the database into just one column to be compatible with files in TEXT format

In [0]:
df_One_column = df_CSV_Gzip.select(concat_ws('|', * df_CSV_Gzip.columns).alias('data_One_column'))
display(df_One_column)

data_One_column
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120931|Total|1020|Unidades|1|Brasil|2245
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120937|Dengue|1020|Unidades|1|Brasil|1547
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120930|Total geral de municípios|1020|Unidades|1|Brasil|5564
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120932|Diarréia|1020|Unidades|1|Brasil|1517
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120933|Leptospirose|1020|Unidades|1|Brasil|197
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120934|Verminoses|1020|Unidades|1|Brasil|1394
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120935|Cólera|1020|Unidades|1|Brasil|54
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120936|Difteria|1020|Unidades|1|Brasil|65
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120938|Tifo|1020|Unidades|1|Brasil|26
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120939|Malária|1020|Unidades|1|Brasil|159


In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/TEXT'
file_type = 'text'

# TEXT options
infer_schema = 'True'
delimiter = '|'

# Mode
mode = 'overwrite'

# Writing Database
df_One_column.write.format(file_type) \
    .option('inferSchema', infer_schema) \
    .option('delimiter', delimiter) \
    .mode(mode) \
    .save(file_location)

display(dbutils.fs.ls(file_location))

path,name,size,modificationTime
dbfs:/FileStore/tables/databricks-classes/file-formats/TEXT/_committed_4837078269036358440,_committed_4837078269036358440,201,1705441113000
dbfs:/FileStore/tables/databricks-classes/file-formats/TEXT/_committed_4886360028409055175,_committed_4886360028409055175,209,1705435645000
dbfs:/FileStore/tables/databricks-classes/file-formats/TEXT/_committed_83485732034824621,_committed_83485732034824621,110,1705434974000
dbfs:/FileStore/tables/databricks-classes/file-formats/TEXT/_committed_vacuum5632988283650423055,_committed_vacuum5632988283650423055,94,1705441114000
dbfs:/FileStore/tables/databricks-classes/file-formats/TEXT/_started_4837078269036358440,_started_4837078269036358440,0,1705441113000
dbfs:/FileStore/tables/databricks-classes/file-formats/TEXT/gzip/,gzip/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/TEXT/part-00000-tid-4837078269036358440-c4eca6c8-50ce-4ca6-86c9-6108735eb343-473-1-c000.txt,part-00000-tid-4837078269036358440-c4eca6c8-50ce-4ca6-86c9-6108735eb343-473-1-c000.txt,79189,1705441113000


## Reading File in TEXT and Text with CSV

In [0]:
# File Location and Type
file_location = '/FileStore/tables/databricks-classes/file-formats/TEXT'
file_type = 'text'

# CSV options
infer_schema = 'True'
delimiter = '|'

# Reading Database
df_TEXT = spark.read.format(file_type) \
    .option('inferSchema', infer_schema) \
    .option('delimiter', delimiter) \
    .load(file_location)

display(df_TEXT)

value
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120931|Total|1020|Unidades|1|Brasil|2245
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120937|Dengue|1020|Unidades|1|Brasil|1547
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120930|Total geral de municípios|1020|Unidades|1|Brasil|5564
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120932|Diarréia|1020|Unidades|1|Brasil|1517
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120933|Leptospirose|1020|Unidades|1|Brasil|197
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120934|Verminoses|1020|Unidades|1|Brasil|1394
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120935|Cólera|1020|Unidades|1|Brasil|54
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120936|Difteria|1020|Unidades|1|Brasil|65
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120938|Tifo|1020|Unidades|1|Brasil|26
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120939|Malária|1020|Unidades|1|Brasil|159


## TEXT with CSV

In [0]:
# File Location and Type
file_location = '/FileStore/tables/databricks-classes/file-formats/TEXT'
file_type = 'csv'

# CSV options
infer_schema = 'True'
delimiter = '|'

# Reading Database
df_TEXT_CSV = spark.read.format(file_type) \
    .option('inferSchema', infer_schema) \
    .option('delimiter', delimiter) \
    .load(file_location)

display(df_TEXT_CSV)

_c0,_c1,_c2,_c3,_c4,_c5,_c6,_c7,_c8,_c9,_c10,_c11,_c12
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120931,Total,1020,Unidades,1,Brasil,2245
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120937,Dengue,1020,Unidades,1,Brasil,1547
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120930,Total geral de municípios,1020,Unidades,1,Brasil,5564
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120932,Diarréia,1020,Unidades,1,Brasil,1517
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120933,Leptospirose,1020,Unidades,1,Brasil,197
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120934,Verminoses,1020,Unidades,1,Brasil,1394
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120935,Cólera,1020,Unidades,1,Brasil,54
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120936,Difteria,1020,Unidades,1,Brasil,65
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120938,Tifo,1020,Unidades,1,Brasil,26
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120939,Malária,1020,Unidades,1,Brasil,159


## Renaming Database columns

In [0]:
cont = 0
for column in df_TEXT_CSV.columns:
    
    df_TEXT_CSV = df_TEXT_CSV.withColumnRenamed(column, df_JSON.columns[cont])
    
    cont += 1
display(df_TEXT_CSV)
display(df_JSON)

Brasil_Grande_Regiao_UF_Codigo,Brasil_Grande_Regiao_UF,Variavel_Codigo,Variavel,Ano_Codigo,Ano,Tipo_doenca_Codigo,Tipo_doenca,Unidade_Medida_Codigo,Unidade_Medida,Nivel_Territorial_Codigo,Nivel_Territorial,Valor
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120931,Total,1020,Unidades,1,Brasil,2245
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120937,Dengue,1020,Unidades,1,Brasil,1547
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120930,Total geral de municípios,1020,Unidades,1,Brasil,5564
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120932,Diarréia,1020,Unidades,1,Brasil,1517
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120933,Leptospirose,1020,Unidades,1,Brasil,197
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120934,Verminoses,1020,Unidades,1,Brasil,1394
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120935,Cólera,1020,Unidades,1,Brasil,54
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120936,Difteria,1020,Unidades,1,Brasil,65
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120938,Tifo,1020,Unidades,1,Brasil,26
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120939,Malária,1020,Unidades,1,Brasil,159


Brasil_Grande_Regiao_UF_Codigo,Brasil_Grande_Regiao_UF,Variavel_Codigo,Variavel,Ano_Codigo,Ano,Tipo_doenca_Codigo,Tipo_doenca,Unidade_Medida_Codigo,Unidade_Medida,Nivel_Territorial_Codigo,Nivel_Territorial,Valor
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120931,Total,1020,Unidades,1,Brasil,2245.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120937,Dengue,1020,Unidades,1,Brasil,1547.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120930,Total geral de municípios,1020,Unidades,1,Brasil,5564.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120932,Diarréia,1020,Unidades,1,Brasil,1517.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120933,Leptospirose,1020,Unidades,1,Brasil,197.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120934,Verminoses,1020,Unidades,1,Brasil,1394.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120935,Cólera,1020,Unidades,1,Brasil,54.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120936,Difteria,1020,Unidades,1,Brasil,65.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120938,Tifo,1020,Unidades,1,Brasil,26.0
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120939,Malária,1020,Unidades,1,Brasil,159.0


In [0]:
df_TEXT_CSV.printSchema()

root
 |-- Brasil_Grande_Regiao_UF_Codigo: integer (nullable = true)
 |-- Brasil_Grande_Regiao_UF: string (nullable = true)
 |-- Variavel_Codigo: integer (nullable = true)
 |-- Variavel: string (nullable = true)
 |-- Ano_Codigo: integer (nullable = true)
 |-- Ano: integer (nullable = true)
 |-- Tipo_doenca_Codigo: integer (nullable = true)
 |-- Tipo_doenca: string (nullable = true)
 |-- Unidade_Medida_Codigo: integer (nullable = true)
 |-- Unidade_Medida: string (nullable = true)
 |-- Nivel_Territorial_Codigo: integer (nullable = true)
 |-- Nivel_Territorial: string (nullable = true)
 |-- Valor: integer (nullable = true)



## Writing and saving files in TEXT - with compression

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/TEXT/gzip'
file_type = 'text'

# TEXT options
infer_schema = 'True'
delimiter = '|'
compression = 'gzip'

# Mode
mode = 'overwrite'

# Writing Database
df_One_column.write.format(file_type) \
    .option('compression', compression) \
    .option('inferSchema', infer_schema) \
    .option('delimiter', delimiter) \
    .mode(mode) \
    .save(file_location)

display(dbutils.fs.ls(file_location))

path,name,size,modificationTime
dbfs:/FileStore/tables/databricks-classes/file-formats/TEXT/gzip/_SUCCESS,_SUCCESS,0,1705441119000
dbfs:/FileStore/tables/databricks-classes/file-formats/TEXT/gzip/_committed_2045384106456287459,_committed_2045384106456287459,116,1705441119000
dbfs:/FileStore/tables/databricks-classes/file-formats/TEXT/gzip/_committed_4837078269036358440,_committed_4837078269036358440,127,1705441113000
dbfs:/FileStore/tables/databricks-classes/file-formats/TEXT/gzip/_committed_8712060554348065325,_committed_8712060554348065325,116,1705436490000
dbfs:/FileStore/tables/databricks-classes/file-formats/TEXT/gzip/_committed_vacuum2362598662565266311,_committed_vacuum2362598662565266311,96,1705441114000
dbfs:/FileStore/tables/databricks-classes/file-formats/TEXT/gzip/_committed_vacuum6002417459554442213,_committed_vacuum6002417459554442213,96,1705441114000
dbfs:/FileStore/tables/databricks-classes/file-formats/TEXT/gzip/_started_2045384106456287459,_started_2045384106456287459,0,1705441119000
dbfs:/FileStore/tables/databricks-classes/file-formats/TEXT/gzip/part-00000-tid-2045384106456287459-788785fe-5f0f-496b-8fdb-1c79506b5d5d-488-1-c000.txt.gz,part-00000-tid-2045384106456287459-788785fe-5f0f-496b-8fdb-1c79506b5d5d-488-1-c000.txt.gz,3231,1705441119000


## Reading compressed TEXT files

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/TEXT/gzip'
file_type = 'text'

# TEXT options
infer_schema = 'True'
delimiter = '|'
compression = 'gzip'

# Reading TEXT files
df_TEXT_gzip = spark.read.format(file_type) \
    .option('compression', compression) \
    .option('delimiter', delimiter) \
    .option('inferSchema', infer_schema) \
    .text(file_location)

display(df_TEXT_gzip)

value
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120931|Total|1020|Unidades|1|Brasil|2245
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120937|Dengue|1020|Unidades|1|Brasil|1547
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120930|Total geral de municípios|1020|Unidades|1|Brasil|5564
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120932|Diarréia|1020|Unidades|1|Brasil|1517
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120933|Leptospirose|1020|Unidades|1|Brasil|197
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120934|Verminoses|1020|Unidades|1|Brasil|1394
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120935|Cólera|1020|Unidades|1|Brasil|54
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120936|Difteria|1020|Unidades|1|Brasil|65
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120938|Tifo|1020|Unidades|1|Brasil|26
1|Brasil|2597|Municípios com ocorrência de doenças associadas ao saneamento básico|2008|2008|120939|Malária|1020|Unidades|1|Brasil|159


## Files in AVRO format

## PROS

* Facilitates data management and organization.

* Smaller size.

## COS

* Its serialization is potentially slower.

## Writing in AVRO files

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/AVRO'
file_type = 'avro'

# AVRO options


# Mode
mode = 'overwrite'

# Writing Database
df_TEXT_CSV.write.format(file_type) \
    .mode(mode) \
    .save(file_location)

display(dbutils.fs.ls(file_location))

path,name,size,modificationTime
dbfs:/FileStore/tables/databricks-classes/file-formats/AVRO/_committed_2281587703420981411,_committed_2281587703420981411,114,1705436984000
dbfs:/FileStore/tables/databricks-classes/file-formats/AVRO/_committed_7492307694011795217,_committed_7492307694011795217,214,1705437464000
dbfs:/FileStore/tables/databricks-classes/file-formats/AVRO/_committed_9009890057453390244,_committed_9009890057453390244,203,1705441122000
dbfs:/FileStore/tables/databricks-classes/file-formats/AVRO/_committed_vacuum2756037338834233962,_committed_vacuum2756037338834233962,96,1705441123000
dbfs:/FileStore/tables/databricks-classes/file-formats/AVRO/_started_9009890057453390244,_started_9009890057453390244,0,1705441122000
dbfs:/FileStore/tables/databricks-classes/file-formats/AVRO/gzip/,gzip/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/AVRO/part-00000-tid-9009890057453390244-58eb2d3a-af2c-4563-ad44-eb3754a16719-498-1-c000.avro,part-00000-tid-9009890057453390244-58eb2d3a-af2c-4563-ad44-eb3754a16719-498-1-c000.avro,7790,1705441122000


## Readind a AVRO file

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/AVRO'
file_type = 'avro'

# Reading AVRO files
df_AVRO = spark.read.format(file_type) \
    .load(file_location)

display(df_AVRO)

Brasil_Grande_Regiao_UF_Codigo,Brasil_Grande_Regiao_UF,Variavel_Codigo,Variavel,Ano_Codigo,Ano,Tipo_doenca_Codigo,Tipo_doenca,Unidade_Medida_Codigo,Unidade_Medida,Nivel_Territorial_Codigo,Nivel_Territorial,Valor
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120931,Total,1020,Unidades,1,Brasil,2245
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120937,Dengue,1020,Unidades,1,Brasil,1547
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120930,Total geral de municípios,1020,Unidades,1,Brasil,5564
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120932,Diarréia,1020,Unidades,1,Brasil,1517
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120933,Leptospirose,1020,Unidades,1,Brasil,197
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120934,Verminoses,1020,Unidades,1,Brasil,1394
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120935,Cólera,1020,Unidades,1,Brasil,54
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120936,Difteria,1020,Unidades,1,Brasil,65
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120938,Tifo,1020,Unidades,1,Brasil,26
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120939,Malária,1020,Unidades,1,Brasil,159


In [0]:
df_AVRO.printSchema()

root
 |-- Brasil_Grande_Regiao_UF_Codigo: integer (nullable = true)
 |-- Brasil_Grande_Regiao_UF: string (nullable = true)
 |-- Variavel_Codigo: integer (nullable = true)
 |-- Variavel: string (nullable = true)
 |-- Ano_Codigo: integer (nullable = true)
 |-- Ano: integer (nullable = true)
 |-- Tipo_doenca_Codigo: integer (nullable = true)
 |-- Tipo_doenca: string (nullable = true)
 |-- Unidade_Medida_Codigo: integer (nullable = true)
 |-- Unidade_Medida: string (nullable = true)
 |-- Nivel_Territorial_Codigo: integer (nullable = true)
 |-- Nivel_Territorial: string (nullable = true)
 |-- Valor: integer (nullable = true)



## Writing and saving files in AVRO - with compression

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/AVRO/gzip'
file_type = 'avro'

# AVRO options
compression = 'deflate'

# Mode
mode = 'overwrite'

# Writing Database
df_AVRO.write.format(file_type) \
    .option('compression', compression) \
    .mode(mode) \
    .save(file_location)

display(dbutils.fs.ls(file_location))

path,name,size,modificationTime
dbfs:/FileStore/tables/databricks-classes/file-formats/AVRO/gzip/_SUCCESS,_SUCCESS,0,1705441126000
dbfs:/FileStore/tables/databricks-classes/file-formats/AVRO/gzip/_committed_4257077380291924750,_committed_4257077380291924750,114,1705441125000
dbfs:/FileStore/tables/databricks-classes/file-formats/AVRO/gzip/_committed_7392491979835615256,_committed_7392491979835615256,114,1705437557000
dbfs:/FileStore/tables/databricks-classes/file-formats/AVRO/gzip/_committed_9009890057453390244,_committed_9009890057453390244,125,1705441122000
dbfs:/FileStore/tables/databricks-classes/file-formats/AVRO/gzip/_committed_vacuum2101985609863781150,_committed_vacuum2101985609863781150,96,1705441123000
dbfs:/FileStore/tables/databricks-classes/file-formats/AVRO/gzip/_committed_vacuum4630156296794946237,_committed_vacuum4630156296794946237,96,1705441123000
dbfs:/FileStore/tables/databricks-classes/file-formats/AVRO/gzip/_started_4257077380291924750,_started_4257077380291924750,0,1705441125000
dbfs:/FileStore/tables/databricks-classes/file-formats/AVRO/gzip/part-00000-tid-4257077380291924750-320b05cc-f33a-4fa0-979f-d3e1c63aaf2f-508-1-c000.avro,part-00000-tid-4257077380291924750-320b05cc-f33a-4fa0-979f-d3e1c63aaf2f-508-1-c000.avro,4616,1705441125000


## Reading compressed AVRO files

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/AVRO/gzip'
file_type = 'avro'

# Options AVRO files
compression = 'deflate'

# Reading AVRO files
df_AVRO_dft = spark.read.format(file_type) \
    .option('compression', compression) \
    .load(file_location)

display(df_AVRO_dft)

Brasil_Grande_Regiao_UF_Codigo,Brasil_Grande_Regiao_UF,Variavel_Codigo,Variavel,Ano_Codigo,Ano,Tipo_doenca_Codigo,Tipo_doenca,Unidade_Medida_Codigo,Unidade_Medida,Nivel_Territorial_Codigo,Nivel_Territorial,Valor
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120931,Total,1020,Unidades,1,Brasil,2245
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120937,Dengue,1020,Unidades,1,Brasil,1547
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120930,Total geral de municípios,1020,Unidades,1,Brasil,5564
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120932,Diarréia,1020,Unidades,1,Brasil,1517
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120933,Leptospirose,1020,Unidades,1,Brasil,197
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120934,Verminoses,1020,Unidades,1,Brasil,1394
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120935,Cólera,1020,Unidades,1,Brasil,54
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120936,Difteria,1020,Unidades,1,Brasil,65
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120938,Tifo,1020,Unidades,1,Brasil,26
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120939,Malária,1020,Unidades,1,Brasil,159


## Files in PARQUET format

## PROS

* Columnar storage.

* Open code.

* Apache Hadoop ecosystem.

* Suitable for complex and large-scale data.

* Greater Speed for queries and aggregation.

* Popularity.

## COS

* Some external tool is required for data visualization.

* Not efficient for small amounts of data.

## Writing in PARQUET files

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/PARQUET'
file_type = 'parquet'

# Mode
mode = 'overwrite'

# Writing Database
df_AVRO.write.format(file_type) \
    .mode(mode) \
    .save(file_location)

display(dbutils.fs.ls(file_location))

path,name,size,modificationTime
dbfs:/FileStore/tables/databricks-classes/file-formats/PARQUET/_SUCCESS,_SUCCESS,0,1705441129000
dbfs:/FileStore/tables/databricks-classes/file-formats/PARQUET/_committed_5136722002882714454,_committed_5136722002882714454,124,1705438275000
dbfs:/FileStore/tables/databricks-classes/file-formats/PARQUET/_committed_5856010061084174662,_committed_5856010061084174662,234,1705441128000
dbfs:/FileStore/tables/databricks-classes/file-formats/PARQUET/_committed_vacuum4633979120074556585,_committed_vacuum4633979120074556585,96,1705441129000
dbfs:/FileStore/tables/databricks-classes/file-formats/PARQUET/_started_5856010061084174662,_started_5856010061084174662,0,1705441128000
dbfs:/FileStore/tables/databricks-classes/file-formats/PARQUET/gzip/,gzip/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/PARQUET/part-00000-tid-5856010061084174662-339715aa-eaa4-4e24-99c3-ec16d92f7856-518-1-c000.snappy.parquet,part-00000-tid-5856010061084174662-339715aa-eaa4-4e24-99c3-ec16d92f7856-518-1-c000.snappy.parquet,6935,1705441128000


## Reading a PARQUET files

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/PARQUET'
file_type = 'parquet'

# Reading PARQUET files
df_PARQUET = spark.read.format(file_type) \
    .load(file_location)

display(df_PARQUET)

Brasil_Grande_Regiao_UF_Codigo,Brasil_Grande_Regiao_UF,Variavel_Codigo,Variavel,Ano_Codigo,Ano,Tipo_doenca_Codigo,Tipo_doenca,Unidade_Medida_Codigo,Unidade_Medida,Nivel_Territorial_Codigo,Nivel_Territorial,Valor
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120931,Total,1020,Unidades,1,Brasil,2245
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120937,Dengue,1020,Unidades,1,Brasil,1547
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120930,Total geral de municípios,1020,Unidades,1,Brasil,5564
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120932,Diarréia,1020,Unidades,1,Brasil,1517
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120933,Leptospirose,1020,Unidades,1,Brasil,197
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120934,Verminoses,1020,Unidades,1,Brasil,1394
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120935,Cólera,1020,Unidades,1,Brasil,54
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120936,Difteria,1020,Unidades,1,Brasil,65
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120938,Tifo,1020,Unidades,1,Brasil,26
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120939,Malária,1020,Unidades,1,Brasil,159


In [0]:
df_PARQUET.printSchema()

root
 |-- Brasil_Grande_Regiao_UF_Codigo: integer (nullable = true)
 |-- Brasil_Grande_Regiao_UF: string (nullable = true)
 |-- Variavel_Codigo: integer (nullable = true)
 |-- Variavel: string (nullable = true)
 |-- Ano_Codigo: integer (nullable = true)
 |-- Ano: integer (nullable = true)
 |-- Tipo_doenca_Codigo: integer (nullable = true)
 |-- Tipo_doenca: string (nullable = true)
 |-- Unidade_Medida_Codigo: integer (nullable = true)
 |-- Unidade_Medida: string (nullable = true)
 |-- Nivel_Territorial_Codigo: integer (nullable = true)
 |-- Nivel_Territorial: string (nullable = true)
 |-- Valor: integer (nullable = true)



## Writing and saving files in PARQUET - with compression

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/PARQUET/gzip'
file_type = 'parquet'

# Mode
mode = 'overwrite'

# Options PARQUET files
compression = 'gzip'

# Writing Database
df_PARQUET.write.format(file_type) \
    .option('compression', compression) \
    .mode(mode) \
    .save(file_location)

display(dbutils.fs.ls(file_location))

path,name,size,modificationTime
dbfs:/FileStore/tables/databricks-classes/file-formats/PARQUET/gzip/_SUCCESS,_SUCCESS,0,1705441132000
dbfs:/FileStore/tables/databricks-classes/file-formats/PARQUET/gzip/_committed_5856010061084174662,_committed_5856010061084174662,131,1705441128000
dbfs:/FileStore/tables/databricks-classes/file-formats/PARQUET/gzip/_committed_7317808711805727388,_committed_7317808711805727388,120,1705441132000
dbfs:/FileStore/tables/databricks-classes/file-formats/PARQUET/gzip/_committed_8414001477383515808,_committed_8414001477383515808,120,1705438736000
dbfs:/FileStore/tables/databricks-classes/file-formats/PARQUET/gzip/_committed_vacuum2772826929996107689,_committed_vacuum2772826929996107689,96,1705441129000
dbfs:/FileStore/tables/databricks-classes/file-formats/PARQUET/gzip/_committed_vacuum8826513332245361778,_committed_vacuum8826513332245361778,96,1705441129000
dbfs:/FileStore/tables/databricks-classes/file-formats/PARQUET/gzip/_started_7317808711805727388,_started_7317808711805727388,0,1705441131000
dbfs:/FileStore/tables/databricks-classes/file-formats/PARQUET/gzip/part-00000-tid-7317808711805727388-1ca3ea6c-5719-455c-a92e-709879851d1f-529-1-c000.gz.parquet,part-00000-tid-7317808711805727388-1ca3ea6c-5719-455c-a92e-709879851d1f-529-1-c000.gz.parquet,6714,1705441132000


## Reading compressed PARQUET files

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/PARQUET/gzip'
file_type = 'parquet'

# Options PARQUET files
compression = 'gzip'

# Reading PARQUET files
df_PARQUET_Gzip = spark.read.format(file_type) \
    .option('compression', compression) \
    .parquet(file_location)

display(df_PARQUET_Gzip)

Brasil_Grande_Regiao_UF_Codigo,Brasil_Grande_Regiao_UF,Variavel_Codigo,Variavel,Ano_Codigo,Ano,Tipo_doenca_Codigo,Tipo_doenca,Unidade_Medida_Codigo,Unidade_Medida,Nivel_Territorial_Codigo,Nivel_Territorial,Valor
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120931,Total,1020,Unidades,1,Brasil,2245
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120937,Dengue,1020,Unidades,1,Brasil,1547
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120930,Total geral de municípios,1020,Unidades,1,Brasil,5564
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120932,Diarréia,1020,Unidades,1,Brasil,1517
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120933,Leptospirose,1020,Unidades,1,Brasil,197
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120934,Verminoses,1020,Unidades,1,Brasil,1394
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120935,Cólera,1020,Unidades,1,Brasil,54
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120936,Difteria,1020,Unidades,1,Brasil,65
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120938,Tifo,1020,Unidades,1,Brasil,26
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120939,Malária,1020,Unidades,1,Brasil,159


## Files in ORC format

## PROS

* Compaction

* Reduce inputs and outputs

* Most used readings

* Ideal for performing more reads than writes

* It has several compression options

## COS

* Some external tool is required for data visualization.

* Not efficient for small amounts of data.

## Writing in ORC files

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/ORC'
file_type = 'orc'

# Mode
mode = 'overwrite'

# Writing Database
df_PARQUET.write.format(file_type) \
    .mode(mode) \
    .save(file_location)

display(dbutils.fs.ls(file_location))

path,name,size,modificationTime
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Multi-Partition/,Multi-Partition/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Partition/,Partition/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/_SUCCESS,_SUCCESS,0,1705441139000
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/_committed_2135568794874732596,_committed_2135568794874732596,120,1705439129000
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/_committed_3055255685856986904,_committed_3055255685856986904,226,1705441137000
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/_committed_vacuum8337498788639647053,_committed_vacuum8337498788639647053,96,1705441145000
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/_started_3055255685856986904,_started_3055255685856986904,0,1705441136000
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/gzip/,gzip/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/part-00000-tid-3055255685856986904-545e7a87-81e1-4dc8-95bb-931d6ee18d6e-540-1-c000.snappy.orc,part-00000-tid-3055255685856986904-545e7a87-81e1-4dc8-95bb-931d6ee18d6e-540-1-c000.snappy.orc,3753,1705441137000


## Reading a ORC files

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/ORC'
file_type = 'orc'

# Reading ORC files
df_ORC = spark.read.format(file_type) \
    .load(file_location)

display(df_ORC)

Brasil_Grande_Regiao_UF_Codigo,Brasil_Grande_Regiao_UF,Variavel_Codigo,Variavel,Ano_Codigo,Ano,Tipo_doenca_Codigo,Tipo_doenca,Unidade_Medida_Codigo,Unidade_Medida,Nivel_Territorial_Codigo,Nivel_Territorial,Valor
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120931,Total,1020,Unidades,1,Brasil,2245
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120937,Dengue,1020,Unidades,1,Brasil,1547
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120930,Total geral de municípios,1020,Unidades,1,Brasil,5564
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120932,Diarréia,1020,Unidades,1,Brasil,1517
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120933,Leptospirose,1020,Unidades,1,Brasil,197
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120934,Verminoses,1020,Unidades,1,Brasil,1394
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120935,Cólera,1020,Unidades,1,Brasil,54
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120936,Difteria,1020,Unidades,1,Brasil,65
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120938,Tifo,1020,Unidades,1,Brasil,26
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120939,Malária,1020,Unidades,1,Brasil,159


In [0]:
df_ORC.printSchema()

root
 |-- Brasil_Grande_Regiao_UF_Codigo: integer (nullable = true)
 |-- Brasil_Grande_Regiao_UF: string (nullable = true)
 |-- Variavel_Codigo: integer (nullable = true)
 |-- Variavel: string (nullable = true)
 |-- Ano_Codigo: integer (nullable = true)
 |-- Ano: integer (nullable = true)
 |-- Tipo_doenca_Codigo: integer (nullable = true)
 |-- Tipo_doenca: string (nullable = true)
 |-- Unidade_Medida_Codigo: integer (nullable = true)
 |-- Unidade_Medida: string (nullable = true)
 |-- Nivel_Territorial_Codigo: integer (nullable = true)
 |-- Nivel_Territorial: string (nullable = true)
 |-- Valor: integer (nullable = true)



## Writing and saving files in ORC - with compression

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/ORC/gzip'
file_type = 'orc'

# Mode
mode = 'overwrite'

# Options ORC files
compression = 'zlib'

# Writing Database
df_ORC.write.format(file_type) \
    .option('compression', compression) \
    .mode(mode) \
    .save(file_location)

display(dbutils.fs.ls(file_location))

path,name,size,modificationTime
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/gzip/_SUCCESS,_SUCCESS,0,1705441155000
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/gzip/_committed_3055255685856986904,_committed_3055255685856986904,128,1705441137000
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/gzip/_committed_679738812414243180,_committed_679738812414243180,117,1705439333000
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/gzip/_committed_7006192442235384900,_committed_7006192442235384900,118,1705441155000
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/gzip/_committed_vacuum1722289194287221331,_committed_vacuum1722289194287221331,95,1705441146000
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/gzip/_committed_vacuum7528381991855710467,_committed_vacuum7528381991855710467,95,1705441145000
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/gzip/_started_7006192442235384900,_started_7006192442235384900,0,1705441154000
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/gzip/part-00000-tid-7006192442235384900-d75f996c-1043-438f-ab32-fd2a4a945bd3-550-1-c000.zlib.orc,part-00000-tid-7006192442235384900-d75f996c-1043-438f-ab32-fd2a4a945bd3-550-1-c000.zlib.orc,3090,1705441155000


## Reading compressed ORC files

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/ORC/gzip'
file_type = 'orc'

# Options ORC files
compression = 'zlib'

# Reading ORC files
df_Orc_Gzip = spark.read.format(file_type) \
    .option('compression', compression) \
    .orc(file_location)

display(df_Orc_Gzip)

Brasil_Grande_Regiao_UF_Codigo,Brasil_Grande_Regiao_UF,Variavel_Codigo,Variavel,Ano_Codigo,Ano,Tipo_doenca_Codigo,Tipo_doenca,Unidade_Medida_Codigo,Unidade_Medida,Nivel_Territorial_Codigo,Nivel_Territorial,Valor
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120931,Total,1020,Unidades,1,Brasil,2245
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120937,Dengue,1020,Unidades,1,Brasil,1547
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120930,Total geral de municípios,1020,Unidades,1,Brasil,5564
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120932,Diarréia,1020,Unidades,1,Brasil,1517
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120933,Leptospirose,1020,Unidades,1,Brasil,197
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120934,Verminoses,1020,Unidades,1,Brasil,1394
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120935,Cólera,1020,Unidades,1,Brasil,54
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120936,Difteria,1020,Unidades,1,Brasil,65
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120938,Tifo,1020,Unidades,1,Brasil,26
1,Brasil,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120939,Malária,1020,Unidades,1,Brasil,159


##  Partitioning

Databricks is a platform developed primarily for using Spark. The features that make Spark so relevant are:

operate in memory and in clusters;
partition data into different clusters;
allows parallelism.
Partitioning is a way of dividing a large set of data into smaller pieces based on one or more partition keys. That is, we define a column and the data will be divided based on the values in that column.


Databricks is a platform developed primarily for using Spark. The features that make Spark so relevant are:

operate in memory and in clusters; partition data into different clusters; allows parallelism. Partitioning is a way of dividing a large set of data into smaller pieces based on one or more partition keys. That is, we define a column and the data will be divided based on the values in that column.

In [0]:
df_ORC.select('Tipo_doenca_Codigo').distinct().show()

+------------------+
|Tipo_doenca_Codigo|
+------------------+
|            120944|
|            120941|
|            120943|
|            120939|
|            120937|
|            120933|
|            120942|
|            120930|
|            120940|
|            120935|
|            120936|
|            120934|
|            120938|
|            120931|
|            120932|
+------------------+



In [0]:
df_ORC.select('Nivel_Territorial').distinct().show()

+--------------------+
|   Nivel_Territorial|
+--------------------+
|       Grande Região|
|              Brasil|
|Unidade da Federação|
+--------------------+



## Writing and saving files in ORC - Partitioned

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/ORC/Partition'
file_type = 'orc'

# Mode
mode = 'overwrite'

# Options ORCfiles
partitionBy = 'Nivel_Territorial'

# Writing Database
df_ORC.write.format(file_type) \
    .partitionBy(partitionBy) \
    .mode(mode) \
    .save(file_location)

display(dbutils.fs.ls(file_location))

path,name,size,modificationTime
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Partition/Nivel_Territorial=Brasil/,Nivel_Territorial=Brasil/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Partition/Nivel_Territorial=Grande Região/,Nivel_Territorial=Grande Região/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Partition/Nivel_Territorial=Unidade da Federação/,Nivel_Territorial=Unidade da Federação/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Partition/_SUCCESS,_SUCCESS,0,1705441161000
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Partition/_committed_3055255685856986904,_committed_3055255685856986904,35,1705441137000


## Writing and saving files in ORC - Multi-Partition

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/ORC/Multi-Partition'
file_type = 'orc'

# Mode
mode = 'overwrite'

# Options ORCfiles
partitionBy = ['Nivel_Territorial', 'Tipo_doenca_Codigo']

# Writing Database
df_ORC.write.format(file_type) \
    .partitionBy(partitionBy) \
    .mode(mode) \
    .save(file_location)

display(dbutils.fs.ls(file_location))
display(dbutils.fs.ls('/FileStore/tables/databricks-classes/file-formats/ORC/Multi-Partition/Nivel_Territorial=Brasil/'))

path,name,size,modificationTime
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Multi-Partition/Nivel_Territorial=Brasil/,Nivel_Territorial=Brasil/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Multi-Partition/Nivel_Territorial=Grande Região/,Nivel_Territorial=Grande Região/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Multi-Partition/Nivel_Territorial=Unidade da Federação/,Nivel_Territorial=Unidade da Federação/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Multi-Partition/_SUCCESS,_SUCCESS,0,1705441173000
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Multi-Partition/_committed_4323006382593303533,_committed_4323006382593303533,35,1705440251000


path,name,size,modificationTime
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Multi-Partition/Nivel_Territorial=Brasil/Tipo_doenca_Codigo=120930/,Tipo_doenca_Codigo=120930/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Multi-Partition/Nivel_Territorial=Brasil/Tipo_doenca_Codigo=120931/,Tipo_doenca_Codigo=120931/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Multi-Partition/Nivel_Territorial=Brasil/Tipo_doenca_Codigo=120932/,Tipo_doenca_Codigo=120932/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Multi-Partition/Nivel_Territorial=Brasil/Tipo_doenca_Codigo=120933/,Tipo_doenca_Codigo=120933/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Multi-Partition/Nivel_Territorial=Brasil/Tipo_doenca_Codigo=120934/,Tipo_doenca_Codigo=120934/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Multi-Partition/Nivel_Territorial=Brasil/Tipo_doenca_Codigo=120935/,Tipo_doenca_Codigo=120935/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Multi-Partition/Nivel_Territorial=Brasil/Tipo_doenca_Codigo=120936/,Tipo_doenca_Codigo=120936/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Multi-Partition/Nivel_Territorial=Brasil/Tipo_doenca_Codigo=120937/,Tipo_doenca_Codigo=120937/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Multi-Partition/Nivel_Territorial=Brasil/Tipo_doenca_Codigo=120938/,Tipo_doenca_Codigo=120938/,0,0
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Multi-Partition/Nivel_Territorial=Brasil/Tipo_doenca_Codigo=120939/,Tipo_doenca_Codigo=120939/,0,0


## Reading compressed ORC files Partitioned

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/ORC/Partition'
file_type = 'orc'

# Reading ORC files
df_ORC_Partition = spark.read.format(file_type) \
    .load(file_location)

display(df_ORC_Partition)

Brasil_Grande_Regiao_UF_Codigo,Brasil_Grande_Regiao_UF,Variavel_Codigo,Variavel,Ano_Codigo,Ano,Tipo_doenca_Codigo,Tipo_doenca,Unidade_Medida_Codigo,Unidade_Medida,Nivel_Territorial_Codigo,Valor,Nivel_Territorial
11,Rondônia,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120931,Total,1020,Unidades,3,42,Unidade da Federação
11,Rondônia,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120937,Dengue,1020,Unidades,3,29,Unidade da Federação
11,Rondônia,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120930,Total geral de municípios,1020,Unidades,3,52,Unidade da Federação
11,Rondônia,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120932,Diarréia,1020,Unidades,3,27,Unidade da Federação
11,Rondônia,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120933,Leptospirose,1020,Unidades,3,0,Unidade da Federação
11,Rondônia,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120934,Verminoses,1020,Unidades,3,28,Unidade da Federação
11,Rondônia,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120935,Cólera,1020,Unidades,3,2,Unidade da Federação
11,Rondônia,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120936,Difteria,1020,Unidades,3,0,Unidade da Federação
11,Rondônia,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120938,Tifo,1020,Unidades,3,0,Unidade da Federação
11,Rondônia,2597,Municípios com ocorrência de doenças associadas ao saneamento básico,2008,2008,120939,Malária,1020,Unidades,3,8,Unidade da Federação


## Grouping the created partitions

In [0]:
# File location and type
file_location = '/FileStore/tables/databricks-classes/file-formats/ORC/Partition/Group'
file_type = 'orc'

# Mode
mode = 'overwrite'

# Writing Database
df_ORC_Partition.coalesce(1).write.format(file_type) \
    .mode(mode) \
    .save(file_location)

display(dbutils.fs.ls(file_location))


path,name,size,modificationTime
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Partition/Group/_SUCCESS,_SUCCESS,0,1705441449000
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Partition/Group/_committed_89051901403649792,_committed_89051901403649792,118,1705441449000
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Partition/Group/_started_89051901403649792,_started_89051901403649792,0,1705441448000
dbfs:/FileStore/tables/databricks-classes/file-formats/ORC/Partition/Group/part-00000-tid-89051901403649792-06e96c9d-dbe7-4a35-8f04-92e79310fb02-611-1-c000.snappy.orc,part-00000-tid-89051901403649792-06e96c9d-dbe7-4a35-8f04-92e79310fb02-611-1-c000.snappy.orc,3706,1705441449000
