# <center>Diferença de Processamento dos arquivos Apache Parquet e CSV</center>
---
 **O que o arquivos Apache Parquet e CSV**
> - **CSV**:  O formato CSV tem estrutura semelhante atabela, com colunas e linhas. A primeira linha corresponde ao cabeçalho e com separação interna feita por virgula(,) ponto e virgula (;) ou TAB (caractere vazio);
> - **Apache Parquet**: Ele foi desenvolvido com armazenamento de dados baseado em coluna com objetivo de aguentar compressão e codificação de grandes quantidades de dados.
---
**Como arquivo do tipo Apache Parquet tem mais eficiencia de execução do que CSV ?**

> Devido a sua diferença de estrutura faz com que a leitura do Apache Parquet seja mais eficiente pois ele tem estrutura colunar que aguenta compactação o que melhora o desempenho com grandes fontes de dados.

### Importação da biblioteca Timeit
---
> Essa biblioteca é responçavel pelo teste de desempenho, pois nela contem uma função capaz de contagem de tempo de execução.

In [1]:
import timeit

## <center>Realização do teste</center>
**Passos seguidos**

> - Criação da variavel que tera o codigo que sera testado
>    - Importação das biblioteca pandas; 
>    - Leitura do arquivo (*.parquet* e *.csv* respectivamente);
>    - Impressão dos primeiros 5 linhas do arquivo.
> - Teste e impreção do resultado

Obs: Por conta do tamanho do arquivo o codigo so sera testado 10 vezes, é possivel ver no argumento *number*

### Teste do Apache Parquet

In [2]:
test_code = """
import pandas as pd
dfParquet = pd.read_parquet('social_media_entertainment_data.parquet')
dfParquet.head()
"""

if __name__ == "__main__":
    timeParquet = timeit.timeit(test_code, number = 10)
    print(timeParquet)

3.4580556000000797


### Teste do CSV

In [3]:
test_code = """
import pandas as pd
dfCSV = pd.read_csv('social_media_entertainment_data.csv')
dfCSV.head()
"""

if __name__ == "__main__":
    timeCsv = timeit.timeit(test_code, number = 10)
    print(timeCsv)

14.142988499999774


## <center>Variação percentual dos testes</center>
---
### Formula
>
> $Variação\:Percentual=$
> $\dfrac{(Valor\:maior - Valor\:menor)}{Valor\:menor}\,x\, 100$

### Calculo
> $Variação\:Percentual=$
> $\dfrac{(Valor\:maior - Valor\:menor)}{Valor\:menor}\,x\, 100$
>
>
> $Variação\:Percentual=$
> $\dfrac{14,14... - 3,45...}{3,45...}\,x\, 100$
>
>
> $Variação\:Percentual=$
> $\dfrac{10,68...}{3,45...}\,x\, 100$
>
>
> $Variação\:Percentual=$
> $3,08...\,x\, 100$
>
>
> $Variação\:Percentual=$
> $308.99\%$

In [4]:
diferenca = (((timeCsv - timeParquet)/timeParquet)*100)
print(f'Diferença percentual:{diferenca: .2f}%')

Diferença percentual: 308.99%


# <center>Conclusão</center>

---
> O teste de desempenho realizado demonstrou uma diferença significativa no tempo de processamento entre os arquivos no formato Apache Parquet e CSV. Essa diferença é atribuída à estrutura colunar do Apache Parquet, que permite melhor compressão e codificação dos dados.
>
>Enquanto o CSV organiza os dados em linhas completas, o que pode levar à leitura de informações desnecessárias, o Apache Parquet trabalha com armazenamento baseado em colunas. Isso possibilita a leitura apenas das colunas relevantes para a análise, otimizando o processamento e reduzindo o tempo de execução.
>
>A variação percentual de desempenho calculada (308,99%) evidencia como o Apache Parquet é significativamente mais eficiente para lidar com grandes volumes de dados em comparação ao CSV. Essa eficiência torna o Parquet uma escolha ideal em contextos onde a velocidade e a economia de recursos computacionais são fatores críticos, como em análises de dados em larga escala.