# Lógica de programação II - Arquivos

Na aula de hoje iremos explorar os seguintes tópicos em Python:

- Arquivos de texto
- CSV
- Json
- parquet

## Arquivos

Até o momento, todas as informações eram armazenadas na memória RAM, ou seja, uma vez que o programa/notebook fosse finalizado, seja por desligarmos o computador ou por reiniciar o kernel, as informações de cada linha de código eram perdidas. Sendo necessário a execução completa do programa/células, para termos acessos aos dados novamente.

Em outras palavras não tinhamos a **persistência** dos dados. No programa de cadastros, por exemplo, era necessário a reinserção de todos os dados dos usuários para que pudesse ser reaproveitado. Um processo pouco prático e eficiente. Para contornar e permitir que esses dados sejam reaproveitados no mesmo programa ou em diferentes aplicações, podemos **persistir essas informações** no formato de **arquivos**. Esses arquivos são armazenados em unidades de armazenamento, como SSD ou HDD, sendo ele local (seu computador, por exemplo) ou num servidor da nuvem.

### Arquivos em Python

Há dois tipos de arquivos: binários e texto

**Texto:**

Arquivos de texto são representados sequências de caracteres (ASCII, por exemplo) separado por linhas. Tipicamente arquivos de texto são fácilmente entendidos por humanos.

**Binários:**

Arquivos binários são todo o resto. São arquivos que incluem dados que não foram escritos utilizando um padrão de codificação de caracteres, esses arquivos são armazenados da mesma forma que foram armazenados na memória durante o processamento. 

|modo|simbolo|descrição|
|--|--|--|
|read|`r`|lê um arquivo existente|
|write|`w`|cria um novo arquivo|
|append|`a`|abre um arquivo existente para adicionar informações ao seu final|
|update|`+`|ao combinar com outros modos, permite a alteração do arquivo existente (ex: `r+` abre um arquivo existente permitindo a sua modificação (read and write)|
|text|`t`|Abre um arquivo no modo texto (default)|
|binary|`b`|abre um arquivo no modo binário|

Um passo importante ao manipular arquivos é **fechar** o mesmo, utilizando a método `close`. 

- Se o arquivo for alterado porém não finalizado, suas modificações não serão salvas
- Se o arquivo não for finalizado, outros programas podem ter problemas de acesso a este arquivo.



### Escrevendo arquivos

Há três passos para a escrita de arquivos de texto

- 1. Abertura do arquivo no modo correto
- 2. Escrita do conteúdo
- 3. Fechar o arquivo

**Note que apenas *strings* podem ser escrito em arquivo de texto**

**Adicionando novo conteúdo**

### Lendo arquivos

Para ler o conteúdo de arquivos podemos utilizar o método `read`, note que o arquivo precisa estar no modo de leitura (`r`)

### Escrevendo tabelas

O formato mais comum para trabalhar com tabelas, é o uso de um formato especifico chamado de `csv` (Comma-separated values, valores separados por virgula).

### Json

JSON é uma sigla para `JavaScript Object Notation`. Apesar dessa estrutura de arquivo ser primeiro utilizada em linguagens web, esse formato de arquivo é amplamente utilizada por diversas aplicações.

Um dos motivos é que a representação de objetos nesse formato é legível e de fácil entendimento para humanos.

Em JavaScript temos:
```javascript
{
  nome: 'Mario',
  modulo: 3,
  media: 9.5
}
```

No exemplo acima, ele é parecido com os dicionários em Python.

```Python
{
  "nome": "Mario",
  "modulo": 3,
  "media: 9.5
}
```

Os valores de um json podem assumir diferentes tipos, como inteiros, reais, strings, booleanos, nulos...

|Python|Json|
|--|--|
|dict|	Object|
|list|	Array|
|tuple|	Array|
|str|	String|
|int|	Number|
|float|	Number|
|True|	true|
|False|	false|
|None|	null|



**Json para dicionário**

**Convertendo para Json**

Uma forma de persistir os dados, sem ser tabulares (estruturados) é no formato Json!

Para converter uma estrutura Python em Json utilizamos o `json.dumps` que retorna uma string no formato Json.

**Salvando um arquivo json**

**Carregando um arquivo json**

Logo temos que:

Arquivos no formato json são ótimos para armazenar dados que não tem uma estrutura tabular (como no exemplo acima).

São um formato que permitem que seja obtido estruturas de objeto de forma simples e rápida (dicionários, listas).

São amplamente utilizados como armazenamento de informações, como no exemplo acima, e para configurações de sistema!

Utilizamos:
Os comandos com **`s`** para realizar operações locais e sem **`s`** para operações de arquivo

`loads`: transforma uma **string json** em um objeto

`dumps`: transforma um objeto em uma **string json**

`load`: carrega um **arquivo json** em um objeto

`dump`: salva um objeto em um **arquivo json**



### Parquet

O [Apache Parquet](https://arrow.apache.org/docs/python/parquet.html) é um formato de arquivo de código aberto, disponível para qualquer projeto no ecossistema Hadoop.

O Apache Parquet é um arquivo de formato binário que permite o armazenamento dos dados utilizando alguns tipos específicos, como: o ``BOOLEAN``, ``INT32``, ``INT64``, ``INT96``, ``FLOAT``, ``DOUBLE`` e ``BYTE_ARRAY``. Os metadados no Parquet, incluindo esquema e estrutura, são integrados individualmente em cada arquivo tornando o Apache Parquet um formato de arquivo autodescritivo.

Os metadados são segmentados em três partes: metadados de arquivo (FileMetaData), metadados de coluna (ColumnMetaData) e metadados de cabeçalho de página (PageHeader). No caso dos metadados de arquivos, eles são armazenados no rodapé de cada arquivo e contém as seguintes informações:

- Versão do formato Parquet.
- Esquema de dados.
- Metadados da coluna (tipo, número de valores, localização, codificação).
- Número de grupos de linhas.
- Pares de valor-chave adicionais.

#### Parquet vs CSV
O Databricks, realizou um comparativo de performance e economia de espaço com um mesmo conjunto de dados utilizando os formatos Parquet e CSV.

|Arquivo|Espaço utilizado|Tempo de execução|
|-|-|-|
|CSV    |	1 TB|	236 segundos|
|Apache Parquet|	130 GB|	6,78 segundos|


A partir dessa comparação, foi possível verificar uma economia com recursos de armazenamento de 87% e uma redução significativa no tempo de execução de consultas quando utilizamos o formato Parquet.

#### Vantagens
- As consultas podem ser realizadas diretamente em colunas específicas, em vez de realizar uma busca em todos os dados dos arquivos. Isso ocorre pelo fato de os arquivos Parquet serem autodescritivos. Através do arquivo de metadados é possível identificar apenas as colunas que têm relevância para a consulta.

- A compactação é feita coluna por coluna e pode ser realizada utilizando um dos vários codecs disponíveis. Foi idealizada para oferecer suporte a opções flexíveis de compactação e esquemas de codificação extensíveis por tipo de dado, ou seja, uma codificação diferente pode ser aplicada para compactar colunas como dados de tipos distintos.

- Ao utilizar o formato colunar como o Parquet, é possível evoluir o schema. Inicialmente pode-se criar um arquivo com poucas colunas e gradualmente ir adicionando mais colunas ao schema, podendo ter vários arquivos com schemas diferentes e compatíveis entre si.

- Com os tipos de dados mapeados, é possível identificar facilmente com quais dados estamos trabalhando, se texto, números ou outro. Porém, por ser de formato binário, não é possível ler os dados de um arquivo Parquet sem utilizar uma ferramenta externa, como no caso do CSV.

# Exercícios

**1.** Crie um arquivo chamado `frutas.txt`.

Nesse arquivo adicione em cada linha o nome de uma fruta contida na lista frutas.


```python
frutas = ['maça', 'acerola', 'uva']

with ... as ...:
  ...
``````

**2.** Leia o arquivo `frutas.txt` criado acima atribua o seu conteúdo em uma lista, em que cada elemento represente uma fruta.

O nome da nova lista deve ser `frutas`

```python
with ... as ...:
  ...

print(frutas)
```


**3.** Escreva um arquivo no formato `tsv` (Tab-separated values), cujo simbolo é `\t`.

Para tal utilize os dados abaixo da variável `tabela`.

Após a sua escrita, leia o mesmo arquivo utilizando o módulo `csv` e de forma clássica utilizando o `read`.

```python
tabela = [['Aluno', 'Nota 1', 'Nota 2', 'Presenças'],
 ['Luke', '7', '9', '15'],
 ['Han', '4', '7', '10'],
 ['Leia', '9', '9', '16']]

with open('notas.tsv', 'w') as arquivo:
  escritor = csv.writer(arquivo, delimiter=..., lineterminator='\n')  # Preencha aqui
  escritor.... # Preencha aqui

```