# Arquivos Texto

Turiais com exemplos práticos:
- https://medium.com/reflex%C3%A3o-computacional/arquivos-c3bf80da21aa
- https://www.geeksforgeeks.org/file-handling-python/
- https://www.w3schools.com/python/python_file_handling.asp

Leitura e escrita em arquivos em Python são fáceis de gerenciar.  
A seguir, veremos:
- Como ler dados de um arquivo texto usando a função `open`.
- O primeiro parâmetro é o nome do arquivo que queremos ler; 
- O segundo parâmetro, atribuído ao valor "r", afirmamos que queremos ler do arquivo.

In [55]:
fobj = open("file/myFile.txt", "r")

O "r" é opcional. Um comando `open` com apenas um nome de arquivo é aberto
para leitura por padrão. A função `open` retorna um objeto de arquivo, que
oferece métodos e atributos de arquivo.

Depois de termos finalizado o trabalho com um arquivo, devemos fechá-lo
novamente usando o método do objeto do arquivo `close`:

In [57]:
fobj.close()

## Escrevendo em um arquivo texto

- O seguinte código abre um objeto de arquivo de escrita em um arquivo chamado "file/arq01.txt";
- Se o arquivo não existir, ele será criado com o nome do caminho fornecido;
- Se o arquivo já existe, o Python o abre;
- Quando os dados são gravados no arquivo e o arquivo é fechado (`close`), todos os dados anteriormente existentes no arquivo são apagados;  
- Se você quiser que o texto de saída termine com uma nova linha, você deve incluir o caractere de escape `\n` na string. 
- O exemplo a seguir escreve duas linhas de texto no arquivo:

In [58]:
f = open("file/arq01.txt", 'w')
f.write("First line.\nSecond line.\n")
f.close()

## Escrevendo números em um arquivo texto

- Todos os dados de saída ou entrada de um arquivo texto devem ser strings.
- Os números devem ser convertidos em strings antes da saída; 
- Essas strings devem ser convertidas de volta em números após a entrada;  
- Em Python, os dados podem ser convertidos em strings usando a função `str`.

O código abaixo ilustra a saída de inteiros para um arquivo texto. 
Valores entre 1 e 500 são gerados e escritos em um arquivo texto chamado "file/int.txt". 
O caractere de \textit{newline} é o separador.

In [69]:
import random
f = open("file/int.txt", 'w')
for count in range(20):
    number = random.randint(1, 30)
    f.write(str(number) + "\n")
f.close()

## Lendo dados de um arquivo texto

- A maneira mais simples é usar o método `read`; 
- `read` insere todo o conteúdo do arquivo como uma seqüência única em um objeto string; 
- Se o arquivo contiver várias linhas de texto, os caracteres de nova linha (\textit{newline}) serão incorporados nesta string.

In [61]:
f = open("file/myFile.txt", 'r')
text = f.read()
text

'Python é uma linguagem de programação de alto nível\ninterpretada de script, imperativa, orientada a objetos, \nfuncional, de tipagem dinâmica e forte. \nFoi lançada por Guido van Rossum em 1991.\n'

In [62]:
type(text)

str

In [63]:
print(text)

Python é uma linguagem de programação de alto nível
interpretada de script, imperativa, orientada a objetos, 
funcional, de tipagem dinâmica e forte. 
Foi lançada por Guido van Rossum em 1991.



### Leitura de dados formatados de um arquivo

- O método `rstrip` é usado para retirar os espaços em branco (incluindo o caracter de nova linha ou \textit{newline}) do lado direito da string "line";
- Outra aplicação importante consiste em ler e processar o texto, uma linha de cada vez; 
- O laço `for` exibe um objeto de arquivo como uma seqüência de linhas de texto. Em cada iteração do laço, a variável de iteração está vinculada à próxima linha de texto na seqüência.

In [66]:
fobj = open("file/myFile.txt")
for line in fobj:
    print(line.rstrip())
fobj.close()

Python é uma linguagem de programação de alto nível
interpretada de script, imperativa, orientada a objetos,
funcional, de tipagem dinâmica e forte.
Foi lançada por Guido van Rossum em 1991.


#### Método `readline`

- O método `readline` é utilizado para ler um número especifico de linhas de um arquivo;
- Consome uma linha de entrada e retorna essa string (incluindo o \textit{newline}); 
- Se readline encontrar o final do arquivo, ele retorna a string vazia. 

In [67]:
f = open("file/myFile.txt", 'r')
while True:
    line = f.readline()
    if line == "":
        break
    print(line)

Python é uma linguagem de programação de alto nível

interpretada de script, imperativa, orientada a objetos, 

funcional, de tipagem dinâmica e forte. 

Foi lançada por Guido van Rossum em 1991.



## Lendo números de um arquivo texto

#### 1) Números separados por linhas:

- Em Python, as representações de seqüência de números inteiros e números de ponto flutuante podem ser convertidas para os próprios números usando as funções `int` e `float`, respectivamente;
- Precisamos converter cada linha para o inteiro contido nele; 
- Utiliza-se o método `strip` para remover o \textit{newline} e, em seguida, executa a função `int` para obter o valor inteiro.


In [38]:
f = open("file/int.txt", 'r')
sum = 0
for line in f:
    line = line.strip()
    number = int(line)
    print(number)
    sum += number
print("The sum is", sum)

The sum is 460


#### 2) Números separados por espaço;

- Cada linha pode conter vários números inteiros separados por espaços; 
- Utilizamos o  método de seqüência `split` para obter uma lista das cadeias de caracteres que representam esses números inteiros; 
- Processa cada seqüência desta lista com outro laço for.

* Modificamos o exemplo anterior para lidar com números inteiros separados por espaços e/ou caracteres de \textit{newline}.

In [70]:
f = open("file/int2.txt", 'r')
sum = 0
for line in f:
    wordlist = line.split()
    for word in wordlist:
        number = int(word)
        sum += number 
print("The sum is", sum)

The sum is 673


### Outra forma de manipulação de arquivos

- Visualização do conteúdo:

In [16]:
with open('file/arq01.txt', 'r') as tex:
  for linha in tex:
    print(linha)
tex.close()    

First line.

Second line.



- Armazena o conteúdo em uma lista:

In [15]:
with open('file/arq01.txt') as tex:
  r = tex.readlines()
print(r)

['First line.\n', 'Second line.\n']


- Cria um novo arquivo e armazena conteúdo:

In [17]:
with open('file/arq02.txt', 'w') as texto:
  texto.write('Olá a todos')

In [18]:
with open('file/arq02.txt', 'r') as tex:
  for linha in tex:
    print(linha)

Olá a todos


# Editando Arquivos texto

Com o modo de operação "r+" (ver tabela abaixo), podemos ler todo o texto de um arquivo e fazer qualquer alteração que julgarmos necessária. O texto alterado pode então ser sobrescrito sobre o texto anterior. Ao realizar a leitura de um caractere, ou uma linha, automaticamente o indicador de posição do arquivo se move para o próximo caractere (ou linha). Para voltar ao início do arquivo novamente você pode usar o método `seek`:
```
seek(offset, from_what)
```
onde o primeiro parâmetro indica quantos bytes se mover a partir do valor inicial from_what.
Os valores de from_what podem ser:
  0: indica início do arquivo.
  1: indica a posição atual no arquivo.
  2: indica a posição final do arquivo.
  
Os modos de abertura de arquivo texto e o indicador de posição são:
 
 | modo | operações | indicador de posição |
 | :-:  | :-:       | :-: |
 | r    | leitura   | início do arquivo    |
 | r+   | leitura e escrita | início do arquivo |
 | w    | escrita | início do arquivo |
 | a    | (append) escrita | final do arquivo |

# Tratamento de exceções

Se abrirmos um arquivo para leitura e ele não existir, ocorrerá um erro:

In [None]:
arq = open("naoExiste.txt", "r")

Exceções são eventos inesperados que ocorrem durante a execução de um programa. Uma exceção pode resultar de um erro lógico ou de uma situação imprevista, como no exemplo anterior. Em Python, as exceções (também conhecidas como erros) são objetos que são criados (ou lançados) por código que encontra uma circunstância inesperada. Uma exceção pode ser capturada por um contexto que "trata" a exceção de forma apropriada. Se não for detectada, uma exceção faz com que o interpretador Python pare de executar o programa e emita uma mensagem apropriada para o console. Vamos examinar os tipos de erro mais comuns em Python e o mecanismo para capturar e manipular erros que foram gerados.

## Tipos de Erros mais comuns

O Python inclui uma hierarquia rica de classes de exceções que designam várias categorias de erros. Vários desses erros podem ser levantados em casos excepcionais por comportamentos apresentados neste curso. Por exemplo, o uso de um identificador indefinido em uma expressão faz com que seja lançada uma exceção `NameError`. O envio do número, tipo ou valor errados para os parâmetros de uma função é outra causa comum para uma exceção. Por exemplo, uma chamada para `abs("hello")` causará um `TypeError` porque o parâmetro não é numérico e uma chamada para `abs(3, 5)` causará um `TypeError` porque somente um parâmetro é esperado. Normalmente, um `ValueError` é gerado quando o número e tipo de parâmetros corretos são enviados, mas um valor é ilegítimo para o contexto da função. Por exemplo, o construtor `int` aceita uma string, como em `int("137")`, mas um `ValueError` é gerado se essa string não representa um inteiro, como acontece com `int("3.14")` ou `int("hello")`.

Os tipos de seqüência de Python (por exemplo, lista, tupla e str) lançam um `IndexError` quando a expressão como `data[k]` é usada com um inteiro $k$ que não é um índice válido para a sequência dada. Os conjuntos e os dicionários lançam um `KeyError` quando uma tentativa é feita para acessar um elemento inexistente.

## Tratando uma exceção

O objetivo do tratamento de exceções é evitar totalmente a possibilidade de uma exceção ser levantada através do uso de um teste condicional pró-ativo. Na possibilidade de divisão por zero, podemos evitar a situação ofensiva, escrevendo:

```
if y! = 0:
    ratio = x / y
else:
    ... faça alguma coisa ...
```

A filosofia, muitas vezes abraçada pelos programadores de Python, é que "é mais fácil pedir perdão do que obter permissão". Essa citação é atribuída a Grace Hopper, pioneira em informática. O sentimento é que não precisamos gastar tempo de execução extra salvaguardando contra todos os casos excepcionais, desde que haja um mecanismo para lidar com um problema depois que ele surgir.

Em Python, esta filosofia é implementada usando uma estrutura de controle de tentativa-e-erro. Revisando nosso exemplo, a operação de divisão pode ser salvaguardada da seguinte maneira:

```
try:
    ratio = x / y
except ZeroDivisionError:
    ... faça alguma coisa ...
```

Nesta estrutura, o bloco "try" é o código principal a ser executado. Embora seja um único comando neste exemplo, ele geralmente pode ser um bloco maior de código. O bloco "try" pode ser seguido de um ou mais casos "except", cada um com um tipo de erro identificado e um bloco de código que deve ser executado se o erro designado for lançado no bloco "try".
A vantagem relativa de usar uma estrutura de tentativa-e-erro é que o caso não excepcional funciona de forma eficiente, sem verificações estranhas para a condição excepcional.

O tratamento de exceções é particularmente útil ao trabalhar com a entrada do usuário, ou ao ler ou escrever para arquivos, porque tais interações são inerentemente menos previsíveis.
No nosso exemplo para arquivo inexixtente podemos fazer:

In [71]:
try:
    arq = open("files/myFile.txt", "r")
    print("Abri o arquivo com sucesso.")
except FileNotFoundError:
    print("Não foi possível abrir o arquivo.")
print("fim")

Não foi possível abrir o arquivo.
fim


O exemplo abaixo lê um arquivo e mostra o conteúdo dele na tela:

In [52]:
try:
    arq = open("file/arq01.txt", "r")
    while True:
        s = arq.read(1)
        print(s, end="")
        if(s == ""):
            break
    arq.close()
except:
    print("Arquivo versos.txt não pode ser aberto.")

First line.
Second line.


# Arquivos Binários

Arquivos podem ter o mais variado conteúdo (imagens, videos, audios, documentos, etc), mas do ponto de vista dos programas existem apenas dois tipos de arquivo:

**Arquivo texto:** Armazena caracteres que podem ser mostrados diretamente na tela ou modificados por um editor de textos simples. Exemplos: código fonte Python, documento texto simples, páginas HTML.

**Arquivo binário:** Sequência de bits sujeita às convenções dos programas que o gerou, não legíveis diretamente. Exemplos: arquivos executáveis, arquivos compactados, documentos do Office.

A motivação principal é que objetos (como inteiros, listas, dicionários) na sua representação em binário, ocupam pouco espaço na memória, quando comparado com sua representação em formato texto:
- Para representarmos o número $123456789.00$ na forma textual, teríamos que convertê-lo para strings e gastaríamos 12 bytes para representar este número.
- Sua representação binária, no entanto ocupa sempre 64 bits (ou 8 bytes).

Armazenar objetos em arquivos de forma análoga a utilizada em memória permite:
- Reduzir o tamanho do arquivo.
- Guardar estruturas complexas tendo acesso simples.

Se você usar um editor de texto para abrir um arquivo binário, você verá quantidades abundantes de caracteres acentuados aparentemente aleatórios e caracteres incomuns, e linhas longas transbordando de texto $-$ este exercício é seguro, mas inútil. No entanto, editar ou salvar um arquivo binário em um editor de texto irá corromper o arquivo, então nunca faça isso. A razão pela qual a corrupção ocorre é porque aplicar uma interpretação do modo de texto irá alterar certas sequências de bytes $-$ como descartar bytes NUL, converter linhas novas, descartar sequências que são inválidas sob uma certa codificação de caracteres, etc. $-$ o que significa que abrir e salvar um arquivo binário Provavelmente produzem um arquivo com bytes diferentes.

## Abrindo Arquivos Binários

Assim como em arquivos texto, devemos abrir o arquivo com a função `open` e atribuir o objeto arquivo resultante para um nome.
Desta forma o nome estará associado ao objeto arquivo, com métodos para leitura e escrita sobre este:
```
arq = open("nome_do_arquivo", modo)
```
onde:

| modo | operações |
| :--: | :--:      |
|  rb  | leitura   |
|  wb  | escrita   |
| r+b  | leitura e escrita |


## Lendo e Escrevendo em Arquivos Binários

Python dispões de vários métodos para ler e escrever em arquivos binários. Nós utilizaremos neste curso o `Pickle`. O módulo `pickle` implementa protocolos binários para serialização e de-serialização de objetos Python. "\textit{Pickling}" é o processo pelo qual uma hierarquia de objetos Python é convertida em um fluxo de bytes, e "\textit{Unpickling}" é a operação inversa, pelo que um fluxo de bytes (de um arquivo binário ou objeto do tipo bytes) é convertido de novo em uma hierarquia de objetos. O \textit{Pickling} (e o \textit{Unpickling}) é alternativamente conhecido como "serialização", “marshalling,” ou “flattening” no entanto, para evitar confusões, os termos aqui utilizados serão "\textit{Pickling}" e "\textit{Unpickling}".

Para escrever um objeto em um arquivo binário usamos o método `pickle.dump`.
```
pickle.dump(objeto, var_arquivo)
```

onde: 
- objeto: este é o objeto a ser salvo em arquivo.
- var_arquivo: este é o nome associado a um objeto arquivo previamente
aberto em modo binário.

Por exemplo, o programa a seguir salva uma lista em arquivo:

In [73]:
import pickle

try:
    arq = open("file/teste.bin", "wb")
    lst = [x ** 2 for x in range(20)]
    pickle.dump(lst, arq)
    arq.close()
except IOError:
    print("Problemas com o arquivo teste.bin")

Para ler um objeto de um arquivo binário usamos o método `pickle.load`.
```
var_objeto = pickle.load(var_arquivo)
```
onde:
- var arquivo: este é o nome associado a um objeto arquivo previamente aberto em modo binário.
- O método automaticamente reconhece o tipo de objeto salvo em arquivo, carrega este para a memória e associa este objeto ao nome var_objeto.

O programa a seguir lê a lista previamente salva em arquivo:

In [74]:
try:
    arq = open("file/teste.bin", "rb")
    lst = pickle.load(arq)
    print(lst)
    arq.close()
except IOError:
    print("Problemas com o arquivo teste.bin")

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100, 121, 144, 169, 196, 225, 256, 289, 324, 361]


## Exemplo

Neste exemplo, vamos criar um programa que simula um cadastro de alunos de uma turma de IF62C. Para representar o aluno vamos criar um dicionário com os campos `nome` e `notas` que irão armazenar, respectivamente, o nome do aluno e as notas dos alunos de IF62C. Para representar o `cadastro` criaremos um objeto do tipo lista que contém a lista de alunos. Além disso, o programa deverá fornecer um menu de operações com as funções de inserção e remoção do aluno no cadastro, a inserção de notas e a visualização da lista de alunos. No término no programa ele deverá persistir o cadastro para futuras consultas e alterações.

As funções abaixo implementam as operações básicas do programa, recebendo como parâmetro o cadastro:

In [None]:
def CreateAluno(cadastro, nome):
    aluno = {}
    aluno["nome"] = nome
    aluno["notas"] = []
    cadastro.append(aluno)


def ExcluiAluno(cadastro, nome):
    for aluno in cadastro:
        if aluno["nome"] == nome:
            cadastro.remove(aluno)
            return
    print(nome, " não encontrado!")


def InsertNotas(cadastro, nome, notas):
    for aluno in cadastro:
        if aluno["nome"] == nome:
            aluno["notas"] += notas.split()
            return
    print(nome, " não encontrado!")


def ListaAlunos(cadastro):
    for aluno in cadastro:
        for key in aluno:
            print(key, ": ", aluno[key])

O menu de opções é implementado abaixo:

In [None]:
def Menu(cadastro):
    while True:
        print("\nEscolha uma opção:\n 1- Incluir Aluno\n 2- Excluir Aluno")
        print(" 3- Incluir Notas\n 4- Listar Turma\n 5- Sair\n")
        op = int(input())
        if op == 1:
            nome = input("Digite o nome do aluno: ")
            CreateAluno(cadastro, nome)
        elif op == 2:
            nome = input("Digite o nome do aluno: ")
            ExcluiAluno(cadastro, nome)
        elif op == 3:
            nome = input("Digite o nome do aluno: ")
            notas = input("Digite as notas do aluno separados por espaço: ")
            InsertNotas(cadastro, nome, notas)
        elif op == 4:
            ListaAlunos(cadastro)
        elif op == 5:
            return
        else:
            print("Opção inválida!")

Finalmente, no programa principal, tratamos a persistencia dos dados em memória de disco para futuro uso do mesmo.

In [None]:
import pickle
    
try:
    cadastro = pickle.load(open("cadastro.bin", "rb"))
    Menu(cadastro)
    print("\nSalvando Cadastro...")
    pickle.dump(cadastro, open("cadastro.bin", "wb"))
except FileNotFoundError:
    print("Criando Cadastro...")
    cadastro = []
    Menu(cadastro)
    pickle.dump(cadastro, open("cadastro.bin", "wb"))
except IOError:
    print("Problemas no arquivo de cadastro")