## Lógica de programação II - Arquivos

Na aula de hoje iremos explorar os seguintes tópicos em Python:

- Arquivos de texto
- CSV
- Json


### Arquivos

Até o momento, todas as informações eram armazenadas na memória RAM, ou seja, uma vez que o programa/notebook fosse finalizado, seja por desligarmos o computador ou por reiniciar o kernel, as informações de cada linha de código eram perdidas. Sendo necessário a execução completa do programa/células, para termos acessos aos dados novamente.

Em outras palavras não tinhamos a **persistência** dos dados. No programa de cadastros, por exemplo, era necessário a reinserção de todos os dados dos usuários para que pudesse ser reaproveitado. Um processo pouco prático e eficiente. Para contornar e permitir que esses dados sejam reaproveitados no mesmo programa ou em diferentes aplicações, podemos **persistir essas informações** no formato de **arquivos**. Esses arquivos são armazenados em unidades de armazenamento, como SSD ou HDD, sendo ele local (seu computador, por exemplo) ou num servidor da nuvem.

#### Arquivos em Python

Há dois tipos de arquivos: binários e texto

**Texto:**

Arquivos de texto são representados sequências de caracteres (ASCII, por exemplo) separado por linhas. Tipicamente arquivos de texto são fácilmente entendidos por humanos.

**Binários:**

Arquivos binários são todo o resto. São arquivos que incluem dados que não foram escritos utilizando um padrão de codificação de caracteres, esses arquivos são armazenados da mesma forma que foram armazenados na memória durante o processamento. 

|modo|simbolo|descrição|
|--|--|--|
|read|`r`|lê um arquivo existente|
|write|`w`|cria um novo arquivo|
|append|`a`|abre um arquivo existente para adicionar informações ao seu final|
|update|`+`|ao combinar com outros modos, permite a alteração do arquivo existente (ex: `r+` abre um arquivo existente permitindo a sua modificação (read and write)|
|text|`t`|Abre um arquivo no modo texto (default)|
|binary|`b`|abre um arquivo no modo binário|

Um passo importante ao manipular arquivos é **fechar** o mesmo, utilizando a método `close`. 

- Se o arquivo for alterado porém não finalizado, suas modificações não serão salvas
- Se o arquivo não for finalizado, outros programas podem ter problemas de acesso a este arquivo.



#### Escrevendo arquivos

Há três passos para a escrita de arquivos de texto

- 1. Abertura do arquivo no modo correto
- 2. Escrita do conteúdo
- 3. Fechar o arquivo

**Note que apenas *strings* podem ser escrito em arquivo de texto**

In [1]:
# Abrindo um arquivo
arquivo = open(
    './ola.txt',  # Nome do arquivo
    'w' # Modo de escrita
)
# Escrevendo o conteúdo
arquivo.write('Olá Mundo')

# Fechando o arquivo
arquivo.close()


**Quando utilizamos o modo write, um novo arquivo é criado**

In [3]:
# Abrindo um arquivo
# O modo `w` sempre cria um arquivo novo cujo nome foi definido
# Caso exista um arquivo com o mesmo nome sobrescreve! Muito cuidado!!!
arquivo = open(
    './ola.txt',  # Nome do arquivo
    'w' # Modo de escrita
)
# Escrevendo o conteúdo
arquivo.write('Olá Mundo Novo')

# Fechando o arquivo
arquivo.close()


No exemplo acima, não temos a repetição da palavra `Olá mundo`

Arquivos de texto somente aceitam strings!

In [9]:
# Abrindo um arquivo
# O modo `w` sempre cria um arquivo novo cujo nome foi definido
# Caso exista um arquivo com o mesmo nome sobrescreve! Muito cuidado!!!
arquivo = open(
    './ola.txt',  # Nome do arquivo
    'w' # Modo de escrita
)
# Escrevendo o conteúdo
arquivo.write('Olá Mundo Novo! ')
arquivo.write('Muito feliz de estar aqui')
# Escrevendo um inteiro ocorre erro
# Somente strings podem ser escritas em arquivo texto
arquivo.write(19)  
# Fechando o arquivo
arquivo.close()


TypeError: ignored

Precisamos inserir novas linhas ('\n') para separar as frase

In [10]:
# Abrindo um arquivo
# O modo `w` sempre cria um arquivo novo cujo nome foi definido
arquivo = open(
    './ola2.txt',  # Nome do arquivo
    'w' # Modo de escrita
)
# Escrevendo o conteúdo
arquivo.write('Olá Mundo Novo! ')
arquivo.write('\n')  # Escrevendo uma nova linha (newline)
arquivo.write('Muito feliz de estar aqui') 
# Fechando o arquivo
arquivo.close()


**Adicionando novo conteúdo**

In [14]:
arquivo = open(
    './ola3.txt',  # Nome do arquivo
    'a' # Modo de escrita `append`
)

frases = ['Hoje foi um bom dia!', 'Estava frio porém Sol.']
arquivo.write('\n'.join(frases))
arquivo.close()

In [15]:
novas_frases = ['Amanhã também será um bom dia!', 'Apesar que irá chover']
arquivo.write('\n'.join(novas_frases))
arquivo.close()

ValueError: ignored

No passo anterior, o arquivo estava fechado e por este motivo não conseguimos escrever um novo conteúdo! Precisamos abrir novamente o arquivo!

In [17]:
arquivo = open(
    './ola3.txt',  # Nome do arquivo
    'a' # Modo de escrita `append`
)
novas_frases = ['Amanhã também será um bom dia!', 'Apesar que irá chover']
arquivo.write('\n'.join(novas_frases))
arquivo.close()

Note que não houve separação entre a segunda frase e a terceira frase!
Por este motivo é muito comum utilizar compreensões de lista!

In [25]:
arquivo = open(
    './ola4.txt',  # Nome do arquivo
    'w' # Modo de escrita `write`, novo arquivo
)

frases = ['Hoje foi um bom dia!', 'Estava frio porém Sol.']
frases_string = [f'{frase}\n' for frase in frases]
arquivo.write(''.join(frases_string))
arquivo.close()

arquivo = open(
    './ola4.txt',  # Nome do arquivo
    'a' # Modo de escrita `append`
)

novas_frases = ['Amanhã também será um bom dia!', 'Apesar que irá chover']
novas_frases_string = [f'{frase}\n' for frase in novas_frases]
arquivo.write(''.join(novas_frases_string))
arquivo.close()

Como é "difícil" lembrar de fechar o arquivo, o Python permite que seja utilizada uma forma "mais segura" quando trabalhamos com conexões (arquivos/banco de dados, por exemplo). 

De forma resumida damos um contexto utilizando a palavra reservada `with`. Ao executar esse bloco de código, ele irá fechar a conexão ou o arquivo para a gente.

In [32]:
with open('ola5.txt', 'w') as arquivo2:
  arquivo2.write('Olá Tudo bem?\nQue lindo dia!')
  arquivo2.close()

**Drops**

Crie um arquivo chamado `frutas.txt`.

Nesse arquivo adicione em cada linha o nome de uma fruta contida na lista `frutas`.

In [34]:
frutas = ['maça', 'acerola', 'uva']

with open('frutas.txt', "a") as arquivo:
  for fruta in frutas:
    print('Escrevendo a fruta', fruta)
    arquivo.write(f"{fruta}\n" )

Escrevendo a fruta maça
Escrevendo a fruta acerola
Escrevendo a fruta uva


#### Lendo arquivos

Para ler o conteúdo de arquivos podemos utilizar o método `read`, note que o arquivo precisa estar no modo de leitura (`r`)

In [36]:
arquivo = open('ola5.txt', 'r')
print(arquivo)

<_io.TextIOWrapper name='ola5.txt' mode='r' encoding='UTF-8'>


Podemos ler linha a linha

In [37]:
arquivo.readline()

'Olá Tudo bem?\n'

In [38]:
arquivo.readline()

'Que lindo dia!'

In [39]:
arquivo.readline()

''

In [40]:
arquivo.readline()

''

In [41]:
arquivo.close()

Para ler o arquivo todo podemos utilizar o `read`

In [43]:
arquivo = open('ola5.txt', 'r')
texto = arquivo.read()  # Lendo o arquivo inteiro
print(texto)
arquivo.close()

Olá Tudo bem?
Que lindo dia!


In [44]:
texto

'Olá Tudo bem?\nQue lindo dia!'

É muito comum termos que manipular os dados de texto, por exemplo separar em linhas

In [45]:
frases = texto.split('\n')

In [46]:
frases

['Olá Tudo bem?', 'Que lindo dia!']

**Drops**

Leia o arquivo `frutas.txt` criado acima atribua o seu conteúdo em uma lista, em que cada elemento represente uma fruta.

O nome da nova lista deve ser `frutas`

In [54]:
with open('frutas.txt') as arquivo:
  texto = arquivo.read()
  frutas = texto.split('\n')
  # Eliminando string vazia presente no fim do arquivo!
  frutas = [fruta for fruta in frutas if fruta != ""]

print(frutas)

['maça', 'acerola', 'uva', 'maça', 'acerola', 'uva']


In [70]:
with open('ola6.txt', 'w') as f:
  f.write('Olá tudo bem?')

In [71]:
with open('ola6.txt', 'r') as f:
  print(f.read())

Olá tudo bem?


In [67]:
# Tentando ler um arquivo no modo de escrita
with open('ola6.txt', 'w') as f:
  print(f.read())

UnsupportedOperation: ignored

In [68]:
# Tentando escrever em um arquivo no modo de leitura
with open('ola6.txt', 'r') as f:
  f.write('Olá tudo bem?')

UnsupportedOperation: ignored

In [73]:
# Tentando escrever em um arquivo no modo de leitura
with open('ola6.txt', 'a+') as f:
  f.write('Amanhã irá chover!')
  texto = f.read()
  print(texto)




In [77]:
# Tentando escrever em um arquivo no modo de leitura
with open('ola6.txt', 'w+') as f:
  texto = f.read()
  print(texto)
  f.write('Amanhã irá chover!')





Com o `update` precisamos retornar ao início do arquivo com o `seek`

#### Escrevendo tabelas

O formato mais comum para trabalhar com tabelas, é o uso de um formato especifico chamado de `csv` (Comma-separated values, valores separados por virgula).

In [80]:
tabela = [['Aluno', 'Nota 1', 'Nota 2', 'Presenças'],
          ['Luke', 7, 9, 15],
          ['Han', 4, 7, 10],
          ['Leia', 9, 9, 16]]
tabela

[['Aluno', 'Nota 1', 'Nota 2', 'Presenças'],
 ['Luke', 7, 9, 15],
 ['Han', 4, 7, 10],
 ['Leia', 9, 9, 16]]

Escrevendo um arquivo csv

In [78]:
def escreve_linha(arquivo, linha):
  arquivo.write(','.join(linha)) # Escrevendo a linha separada por virgula
  arquivo.write('\n')  # Adicionando uma nova linha a cada linha inserida
  return True

def escreve_tabela(tabela, nome_arquivo):
  # Gerenciando contexto
  # Abrindo o arquivo com o `nome_arquivo`
  with open(nome_arquivo, 'a') as arquivo:
    for idx, linha in enumerate(tabela, start=1):
      print(f'Escrevendo linha #{idx}/{len(tabela)}')
      sucesso = escreve_linha(arquivo, linha)
      print('Linha escrita com sucesso')
  return True


In [81]:
escreve_tabela(tabela, 'notas.csv')

Escrevendo linha #1/4
Linha escrita com sucesso
Escrevendo linha #2/4


TypeError: ignored

Um erro ocorreu! Pois só conseguimos escrever string!

In [82]:
def converte_para_string(linha):
  # Função para converter para string
  linha_string = [str(ele) for ele in linha]
  return linha_string

def escreve_linha(arquivo, linha):
  arquivo.write(','.join(linha)) # Escrevendo a linha separada por virgula
  arquivo.write('\n')  # Adicionando uma nova linha a cada linha inserida
  return True

def escreve_tabela(tabela, nome_arquivo):
  # Gerenciando contexto
  # Abrindo o arquivo com o `nome_arquivo`
  with open(nome_arquivo, 'a') as arquivo:
    for idx, linha in enumerate(tabela, start=1):
      print(f'Escrevendo linha #{idx}/{len(tabela)}')
      linha_string = converte_para_string(linha)
      sucesso = escreve_linha(arquivo, linha_string)
      print('Linha escrita com sucesso')
  return True

In [84]:
escreve_tabela(tabela, 'notas.csv')

Escrevendo linha #1/4
Linha escrita com sucesso
Escrevendo linha #2/4
Linha escrita com sucesso
Escrevendo linha #3/4
Linha escrita com sucesso
Escrevendo linha #4/4
Linha escrita com sucesso


True

Apesar de ser simples essa operação, precisamos codificar algumas funções!

Para facilitar esse processo podemos utilizar o módulo `csv` do Python

In [85]:
import csv

In [86]:
tabela = [['Aluno', 'Nota 1', 'Nota 2', 'Presenças'],
          ['Luke', 7, 9, 15],
          ['Han', 4, 7, 10],
          ['Leia', 9, 9, 16]]
tabela

[['Aluno', 'Nota 1', 'Nota 2', 'Presenças'],
 ['Luke', 7, 9, 15],
 ['Han', 4, 7, 10],
 ['Leia', 9, 9, 16]]

Escrevendo arquivos csv de forma simples

In [87]:
with open('notas2.csv', 'w') as arquivo:
  escritor = csv.writer(arquivo, delimiter=',', lineterminator='\n')
  escritor.writerows(tabela)

Podemos utilizar dicionários!

In [91]:
colunas = tabela[0]

tabela_dict = []
for aluno in tabela[1:]:
  aluno_dict = {}
  for campo, info in zip(colunas, aluno):
    aluno_dict[campo] = info
  tabela_dict.append(aluno_dict)

tabela_dict

[{'Aluno': 'Luke', 'Nota 1': 7, 'Nota 2': 9, 'Presenças': 15},
 {'Aluno': 'Han', 'Nota 1': 4, 'Nota 2': 7, 'Presenças': 10},
 {'Aluno': 'Leia', 'Nota 1': 9, 'Nota 2': 9, 'Presenças': 16}]

In [92]:
with open('notas_dict.csv', 'w') as arquivo:
  escritor = csv.DictWriter(arquivo, fieldnames=colunas)
  escritor.writeheader()  # Escrevendo os nomes das colunas
  escritor.writerows(tabela_dict)

**Lendo o csv**

In [96]:
tabela = []
with open('notas2.csv', 'r') as arquivo:
  planilha = csv.reader(arquivo, delimiter=',', lineterminator='\n')
  print(planilha)
  for linha in planilha:
    tabela.append(linha)
tabela

<_csv.reader object at 0x7f1f9e36ced0>


[['Aluno', 'Nota 1', 'Nota 2', 'Presenças'],
 ['Luke', '7', '9', '15'],
 ['Han', '4', '7', '10'],
 ['Leia', '9', '9', '16']]

In [97]:
# Alternativamente podemos consumir o gerador

with open('notas2.csv', 'r') as arquivo:
  planilha = csv.reader(arquivo, delimiter=',', lineterminator='\n')
  tabela = list(planilha)
tabela

[['Aluno', 'Nota 1', 'Nota 2', 'Presenças'],
 ['Luke', '7', '9', '15'],
 ['Han', '4', '7', '10'],
 ['Leia', '9', '9', '16']]

**Drops**

Escreva um arquivo no formato `tsv` (Tab-separated values), cujo simbolo é `\t`.

Para tal utilize os dados abaixo da variável `tabela`.

Após a sua escrita, leia o mesmo arquivo utilizando o módulo `csv` e de forma clássica utilizando o `read`.

In [99]:
tabela = [['Aluno', 'Nota 1', 'Nota 2', 'Presenças'],
 ['Luke', '7', '9', '15'],
 ['Han', '4', '7', '10'],
 ['Leia', '9', '9', '16']]

with open('notas.tsv', 'w') as arquivo:
  escritor = csv.writer(arquivo, delimiter='\t', lineterminator='\n')  # Preencha aqui
  escritor.writerows(tabela) # Preencha aqui



In [101]:
with open('notas.tsv', 'r') as arquivo:
  leitor = csv.reader(arquivo, delimiter='\t', lineterminator='\n') # Leia o arquivo aqui com o modulo `csv`
  tabela = list(leitor)  # Preencha aqui, lembre de split e compreensões de lista

tabela

[['Aluno', 'Nota 1', 'Nota 2', 'Presenças'],
 ['Luke', '7', '9', '15'],
 ['Han', '4', '7', '10'],
 ['Leia', '9', '9', '16']]

In [106]:
with open('notas.tsv', 'r') as arquivo:
  conteudo = arquivo.read() # Leia o arquivo aqui de forma clássica!
  lista_tabela = conteudo.split('\n')
  lista_tabela = [linha for linha in lista_tabela if linha != ""]
  tabela = [linha.split('\t') for linha in lista_tabela]  # Preencha aqui, lembre de split e compreensões de lista

tabela

[['Aluno', 'Nota 1', 'Nota 2', 'Presenças'],
 ['Luke', '7', '9', '15'],
 ['Han', '4', '7', '10'],
 ['Leia', '9', '9', '16']]

#### Json

JSON é uma sigla para `JavaScript Object Notation`. Apesar dessa estrutura de arquivo ser primeiro utilizada em linguagens web, esse formato de arquivo é amplamente utilizada por diversas aplicações.

Um dos motivos é que a representação de objetos nesse formato é legível e de fácil entendimento para humanos.

Em JavaScript temos:
```javascript
{
  nome: 'Mario',
  modulo: 3,
  media: 9.5
}
```

No exemplo acima, ele é parecido com os dicionários em Python.

```Python
{
  "nome": "Mario",
  "modulo": 3,
  "media: 9.5
}
```

Os valores de um json podem assumir diferentes tipos, como inteiros, reais, strings, booleanos, nulos...

|Python|Json|
|--|--|
|dict|	Object|
|list|	Array|
|tuple|	Array|
|str|	String|
|int|	Number|
|float|	Number|
|True|	true|
|False|	false|
|None|	null|



**Json para dicionário**

In [107]:
# importando o módulo para trabalhar com json
import json

O `json.loads` permite que seja carregada um texto (string) no formato Json e seja retornado um dicionário

In [112]:
jogador = '{"nome": "Mario", "pontuacao": 100}'

dicionario = json.loads(jogador)
print('string json', jogador)

print('dicionario', dicionario)

print('nome', dicionario.get('nome'))

string json {"nome": "Mario", "pontuacao": 100}
dicionario {'nome': 'Mario', 'pontuacao': 100}
nome Mario


**Convertendo para Json**

Uma forma de persistir os dados, sem ser tabulares (estruturados) é no formato Json!

Para converter uma estrutura Python em Json utilizamos o `json.dumps` que retorna uma string no formato Json.

In [115]:
dados = {
    "jogadores": [{
        "nome": "Fulano",
        "pontuacao": 20,
        "level": 3
        },
          {
        "nome": "Maria",
        "pontuacao": 100,
        "level": 4
        }
    ],
    "max_levels": 100,
    "max_vidas": 5,
    "versao": 1.0,
    "autores": ['João', 'Helder'],
    "infos": None
}

In [116]:
dados

{'jogadores': [{'nome': 'Fulano', 'pontuacao': 20, 'level': 3},
  {'nome': 'Maria', 'pontuacao': 100, 'level': 4}],
 'max_levels': 100,
 'max_vidas': 5,
 'versao': 1.0,
 'autores': ['João', 'Helder'],
 'infos': None}

In [118]:
string_dados = json.dumps(dados)
print(type(string_dados))
print(string_dados)

<class 'str'>
{"jogadores": [{"nome": "Fulano", "pontuacao": 20, "level": 3}, {"nome": "Maria", "pontuacao": 100, "level": 4}], "max_levels": 100, "max_vidas": 5, "versao": 1.0, "autores": ["Jo\u00e3o", "Helder"], "infos": null}


In [119]:
# Deixando mais bonito o json
string_dados = json.dumps(dados, indent=2)
print(type(string_dados))
print(string_dados)

<class 'str'>
{
  "jogadores": [
    {
      "nome": "Fulano",
      "pontuacao": 20,
      "level": 3
    },
    {
      "nome": "Maria",
      "pontuacao": 100,
      "level": 4
    }
  ],
  "max_levels": 100,
  "max_vidas": 5,
  "versao": 1.0,
  "autores": [
    "Jo\u00e3o",
    "Helder"
  ],
  "infos": null
}


**Salvando um arquivo json**

In [123]:
json.dump(dados, open('dados.json', 'w'), indent=2)

**Carregando um arquivo json**

In [124]:
dados_novos = json.load(open('dados.json', 'r'))

In [126]:
dados_novos

{'jogadores': [{'nome': 'Fulano', 'pontuacao': 20, 'level': 3},
  {'nome': 'Maria', 'pontuacao': 100, 'level': 4}],
 'max_levels': 100,
 'max_vidas': 5,
 'versao': 1.0,
 'autores': ['João', 'Helder'],
 'infos': None}

In [127]:
dados

{'jogadores': [{'nome': 'Fulano', 'pontuacao': 20, 'level': 3},
  {'nome': 'Maria', 'pontuacao': 100, 'level': 4}],
 'max_levels': 100,
 'max_vidas': 5,
 'versao': 1.0,
 'autores': ['João', 'Helder'],
 'infos': None}

Logo temos que:

Arquivos no formato json são ótimos para armazenar dados que não tem uma estrutura tabular (como no exemplo acima).

São um formato que permitem que seja obtido estruturas de objeto de forma simples e rápida (dicionários, listas).

São amplamente utilizados como armazenamento de informações, como no exemplo acima, e para configurações de sistema!

Utilizamos:
Os comandos com **`s`** para realizar operações locais e sem **`s`** para operações de arquivo

`loads`: transforma uma **string json** em um objeto

`dumps`: transforma um objeto em uma **string json**

`load`: carrega um **arquivo json** em um objeto

`dump`: salva um objeto em um **arquivo json**

