# Arquivos Apache Parquet

Vantagens em espaço ocupado, em tempo de consultas, o Apache Parquet faz parte do ecossistema Hadoop e é muito utilizado como forma de deixar os dados armazenados mais interoperáveis entre as diferentes plataformas e ferramentas.

Instale o pandas, pyarrow e seaborn com o pip ou o poetry caso estiver instalado:

```
pip install pandas pyarrow seaborn
```

```
poetry add pandas pyarrow seaborn
```

Descompacte o arquivo `.zip` de [data](https://drive.google.com/drive/folders/1gb7DQk0Bl8u3h2N_8W_ypewnWxNyk-Br?usp=sharing), irá gerar um arquivo chamado `iris_gigante.csv`

In [None]:
import pandas as pd
import seaborn as sns

#### Primeira Grande Vantagem: espaço e tempo!

Função que faz um check no tamanho do arquivo:

In [None]:
# https://stackoverflow.com/questions/2104080/how-can-i-check-file-size-in-python

def convert_bytes(num):
    """
    this function will convert bytes to MB.... GB... etc
    """
    for x in ['bytes', 'KB', 'MB', 'GB', 'TB']:
        if num < 1024.0:
            return "%3.1f %s" % (num, x)
        num /= 1024.0

In [None]:
import os

csv_em_bytes = os.path.getsize("./data/iris_gigante.csv")
convert_bytes(csv_em_bytes)

Lendo o csv e mostrando a sua descrição:

In [None]:
%%time

df_gigante = pd.read_csv('./data/iris_gigante.csv')
df_gigante.shape

Convertendo para `.parquet`:

In [None]:
df_gigante.to_parquet('./data/iris_gigante.parquet')

Conferindo o arquivo que era `324.0 MB` em `.csv`, agora em parquet:

In [None]:
parquet_em_bytes = os.path.getsize("./data/iris_gigante.parquet")
convert_bytes(parquet_em_bytes)

Lendo o parquet e mostrando suas descrição:

In [None]:
%%time 

df_parquet = pd.read_parquet('./data/iris_gigante.parquet')
df_parquet.shape

Liberando o parquet da memória:

In [None]:
del df_parquet

Compactando com o gzip:

In [None]:
df_gigante.to_parquet('./data/iris_gigante.parquet.gzip', compression='GZIP')

gzip_em_bytes = os.path.getsize('./data/iris_gigante.parquet.gzip')
convert_bytes(gzip_em_bytes)

Compactando com o BROTLI:

In [None]:
# https://en.wikipedia.org/wiki/Brotli

df_gigante.to_parquet('./data/iris_gigante.parquet.brotli', compression='BROTLI')

brotli_em_bytes = os.path.getsize('./data/iris_gigante.parquet.brotli')
convert_bytes(brotli_em_bytes)

Brincando com o parquet:

In [None]:
df_blotli = pd.read_parquet('./data/iris_gigante.parquet.brotli')

In [None]:
df_blotli.head()

In [None]:
df_blotli.tail()

In [None]:
df_blotli.info()

Explorando mais ...

In [None]:
df_sns = sns.load_dataset("iris")

In [None]:
df_sns.shape

In [None]:
df_sns.to_parquet('./data/iris_sns.parquet.brotli', engine='pyarrow', compression='BROTLI')

In [None]:
df_parquet_iris = pd.read_parquet('./data/iris_sns.parquet.brotli')

Lendo 1ªs linhas:

In [None]:
df_parquet_iris.head()

Resumo estatistico:

In [None]:
df_parquet_iris.describe()

Verificando valores faltantes

In [None]:
df_parquet_iris.isnull().sum()

Distribuição de classes

In [None]:
df_parquet_iris.species.value_counts()

In [None]:
df_parquet_iris.groupby('species').mean()