<a href="https://colab.research.google.com/github/ivairton/prog_comp/blob/main/ProgComputadores_Aula5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h3>UNIVERSIDADE FEDERAL DE MATO GROSSO<br>
CAMPUS UNIVERSITÁRIO DO ARAGUAIA<br>
Curso de Bacharelado em Ciência da Computação</h3>

<h2><b>Disciplina de Programação de Computadores</b></h2>

<i>Material desenvolvido pelos professores:</i><br>
Prof. Dr. Ivairton Monteiro Santos<br>
Prof. Dr. Linder Cândido da Silva

<h1>
  <center>
    Aula 5<br><br>
    <b>Arquivos</b>
  </center>
</h1>


# 5.1 Introdução

Variáveis, listas e tuplas oferecem apenas armazenamento temporário para dados. Ou seja, os valores são perdidos quando o programa termina. Por outro lado, os arquivos fornecem armazenamento **persistente** para grandes quantidades de dados, mesmo após o término do programa que os criou. Os computadores armazenam arquivos em dispositivos de armazenamento secundário, incluindo unidades de estado sólido (SSD) e discos rígidos (HD).

Nesta aula, explicaremos como os programas Python criam, atualizam e processam arquivos de dados. Consideraremos arquivos de texto em vários formatos conhecidos, incluindo texto simples, JSON (JavaScript Object Notation) e CSV (valores separados por vírgula). Os programas que usam arquivos normalmente solicitam o acesso e depois liberam sua execução. Frequentemente, eles são limitados ou podem ser usados apenas por um programa por vez. Mostraremos como garantir que após um programa usar um arquivo, ele seja liberado para uso por outros programas.

# 5.2 Arquivos
Há dois tipos de arquivos, arquivos de texto e arquivos binários. Um **arquivo de texto** consiste de um conjunto de caracteres e pode ser editado por qualquer editor de texto simples, como o próprio código do seu programa, que consiste de um arquivo de texto. Este tipo de arquivo tem essa vantagem (fácil edição), no entanto acaba consumindo mais espaço em disco e tem processamento mais lento. Por outro lado, **arquivos binários** são arquivos que armazenam dos dados em seu formado original (em bits), não podem ser editados por um editor de texto, mas demandam menos espaço em disco e têm processamento mais rápido.

Python processa um arquivo de texto como uma sequência de caracteres e um arquivo binário (para imagens, vídeos e muito mais) como uma sequência de bytes. Tal como uma lista, o primeiro caractere em um arquivo de texto e o primeiro byte em um arquivo binário está localizado na posição 0. Portanto, em um arquivo de n caracteres ou bytes, o número da posição mais alta é $n - 1$.

Para trabalhar com um arquivo, precisamos antes abri-lo fazendo uma solicitação ao Sistema Operacional (Programas de usuário não possuem acesso direto aos dispositivos de armazenamento). Para cada arquivo aberto, Python cria um **objeto file**  que você usa para interagir com o conteúdo do arquivo.

## Fim de arquivo (End of File)
Todo sistema operacional fornece um mecanismo para indicar o fim de um arquivo. Alguns o representam com um marcador de fim de arquivo, enquanto outros podem manter uma contagem do total de caracteres ou bytes no arquivo. As linguagens de programação geralmente ocultam esses detalhes do controle por parte do sistema operacional, mas usam termos/ constantes/ marcadores para representar essas características para manipulação dos arquivos.

## Objetos de arquivo padrão
Quando um programa Python inicia a execução, ele cria três *objetos file* padrão:
* **sys.stdin**  — associado à entrada padrão (teclado) -- pode ser alterado.
* **sys.stdout** — associado à saída padrão (monitor) -- pode ser alterado; e
* **sys.stderr** — saída padrão para erros.

Embora sejam considerados *objetos file*, eles não leem nem gravam em arquivos. O objeto *sys.stdin* é usado para obter a entrada do usuário via teclado. A função `print` gera implicitamente a saída para *sys.stdout*. Python gera implicitamente erros de programa e rastreamentos para *sys.stderr*, que também aparece na linha de comando. Você deve importar o módulo **sys** se precisar fazer referência explícita a esses objetos em seu código, mas isso é pouco comum e acaba sendo necessário para casos raros.

# 5.3 Processamento de Arquivos de Texto
Vamos criar e escrever um arquivo de texto simples que supostamente pode ser usado por um sistema de contas a receber para rastrear o dinheiro devido pelos clientes de uma empresa.

Em seguida, leremos esse arquivo de texto para confirmar se ele contém os dados registrados inicialmente.

Para cada cliente, armazenaremos o número da conta do cliente, sobrenome e saldo da conta devido à empresa. Juntos, esses campos de dados representam um registro de cliente. Python não impõe nenhuma estrutura a um arquivo, portanto, noções como registros não existem nativamente no Python.

Assim, o programador deve estruturar os arquivos para atender aos requisitos de suas aplicações. Criaremos e manteremos este arquivo ordenado por número de conta. Neste sentido, o número da conta pode ser considerado uma chave (identificador) de registro.

## 5.3.1 Escrevendo em um Arquivo de Texto: Introduzindo o comando `with`

In [None]:
with open('/home/aluno/contas.txt', mode='w') as contas:
    contas.write('100 Jones 24.98\n')
    contas.write('200 Doe 345.67\n')
    contas.write('300 White 0.00\n')
    contas.write('400 Stone -42.16\n')
    contas.write('500 Rich 224.62\n')

### O comando `with`
Muitas aplicações requerem recursos gerenciados pelo SO, como arquivos, conexões de rede, conexões com banco de dados e muito mais. Estes recursos precisam ser solicitados pelo programa ao SO, ser utilizado e então liberados. Portanto, é fundamental que o programador libere esses recursos assim que eles não forem mais necessários. Essa prática garante que outras aplicações possam usar os recursos, evita possíveis erros no uso destes recursos e otimiza o uso da infraestrutura computacional.

#### Comando `with` do Python:
* adquire um recurso (neste caso, o objeto file para `contas.txt`) e atribui o objeto correspondente a uma variável (contas neste exemplo);
* permite que a aplicação use o recurso por meio da variável que faz referência ao recurso (objeto file aberto); e
* chama o método close do objeto para liberar o recurso quando o controle do programa chegar ao final do conjunto de instruções do bloco `with`.
  
#### Função integrada `open`
A função integrada `open` abre o arquivo `contas.txt` e o associa a um objeto *file*. O argumento `mode` especifica o modo de abertura do arquivo, indicando se o arquivo deve ser aberto para leitura, para escrita, ou ambos. O modo `'w'` abre o arquivo para escrita, criando o arquivo caso ele não exista. Se não for especificado um caminho para o arquivo, Python o criará na pasta atual do programa.

Tenha cuidado: abrir um arquivo para gravação exclui todos os dados existentes no arquivo. Por convenção, a extensão de arquivo `.txt` indica um arquivo de texto simples.

Os modos de abertura de um arquivo são:

| Modo de abertura | Ação |
|---|---|
| `'r'` | abertura apenas para leitura (padrão)|
| `'w'` | abertura para escrita (apaga o conteúdo se houver) |
| `'x'` | abertura para criação. Ocorre falha se o arquivo existir previamente |
| `'a'` | abertura para escrita, adicionando o novo conteúdo ao final do arquivo se ele existir (cria senão existir)|
| `'b'` | abertura em modo binário |
| `'t'` | abertura em modo texto (padrão) |
| `'+'` | abre o arquivo para edição (leitura e escrita)|


#### Escrevendo no Arquivo
A instrução `with` atribui o objeto retornado por `open` à variável `contas` usando cláusula `as`. No conjunto de instruções do `with`, usamos a variável `contas` para manipular/processar o arquivo. Nesse caso, chamamos o método `write` do objeto *file* cinco vezes, para gravar cinco (novos) registros no arquivo, cada um em uma linha, terminando com um caracter de nova linha (observe o marcador de quebra de linha no comando de escrita).  No final do conjunto de instruções, a instrução `with` chama implicitamente o método `close` do objeto file para fechar o arquivo.

#### Conteúdo do arquivo `contas.txt`
Após executar o trecho de códido anterior, seu diretório conterá o arquivo `contas.txt` com o seguinte conteúdo, que você pode visualizar abrindo o arquivo em um editor de texto comum:
```
100 Jones 24,98
200 Doe 345,67
300 White 0,00
400 Stone -42,16
500 Rich 224,62
```

**Exercício:** Crie um arquivo notas.txt e escreva nele os três registros a seguir, consistindo em IDs de alunos, nomes e notas/conceitos indicados por letras:

    1 José A
    2 Maria A
    3 Pedro B


## 5.3.2 Lendo Dados de um Arquivo Texto

In [None]:
contas = open('/home/aluno/contas.txt', mode='r')
with contas:
    print(f'{"Conta":<10}{"Nome":<10}{"Saldo":>10}')
    for registro in contas:
        conta, nome, saldo = registro.split()
        print(f'{conta:<10}{nome:<10}{saldo:>10}')


### Método `readlines` do objeto *file*
O método `readlines` do objeto *file* também pode ser usado para ler um arquivo de texto inteiro. O método retorna cada linha como uma string em uma lista de strings. Para arquivos pequenos, isso funciona bem, mas iterar sobre as linhas em um objeto *file*, como mostrado no código exemplo acima, será mais eficiente e robusto. Chamar `readlines` para um arquivo grande pode ser uma operação demorada, a qual deve ser concluída antes que você possa começar a usar a lista de strings. Usar o objeto *file* em uma instrução `for` permite que seu programa processe cada linha de texto à medida que ela é lida.

### Acessando uma Posição Específica do Arquivo
Durante a leitura de um arquivo, o sistema mantém um ponteiro de posição que representa a localização do próximo caractere a ser lido. Às vezes é necessário processar um arquivo sequencialmente desde o início, várias vezes durante a execução de um programa (ou seja, é preciso recomeçar a leitura no início do arquivo). Cada vez, você deve reposicionar o ponteiro de posição para o início do arquivo, o que pode ser feito fechando e reabrindo o arquivo ou chamando o método `seek` do objeto *file*, como a seguir:

```
file_object.seek(0)
```

A abordagem com uso do comando `seek` é mais rápida e robusta.

**Exercício:** Leia o arquivo `notas.txt` que você criou no código anterior e apresente-o com os campos de cada registro na seguinte ordem: `'ID'`, `'Nome'` e `'Nota'`.

# 5.4 Atualizando Arquivos de Texto
A edição de dados gravados em um arquivo de texto tem o (sério) risco de destruir os outros dados. Por exemplo, se o nome 'White' precisar ser alterado para 'Williams' em `contas.txt`, o nome antigo não poderá simplesmente ser substituído, pois o novo dado demanda mais espaço (possui mais caracteres). O registro original para White é armazenado como (ocupa 5 caracteres):
```  
300 White 0,00
```

Se você substituir o nome 'White' pelo nome 'Williams', o registro se tornará (o novo nome demanda 8 caracteres):
```
300 Williams00
```

O novo nome contém três caracteres a mais que o original, portanto, os caracteres além do segundo “i” em 'Williams' substituem outros caracteres na linha (sobre escrevendo parte do valor numérico referente ao saldo).

O problema é justamente que no modelo de entrada/saída formatado, os registros e seus campos podem variar em tamanho. Por exemplo, 7, 14, -117, 2074 e 27383 são todos números inteiros e são armazenados internamente com o mesmo número de bytes (normalmente 4 ou 8 bytes nos sistemas atuais). No entanto, quando esses números inteiros são exibidos como texto formatado, eles se tornam campos de tamanhos diferentes. Por exemplo, 7 é um caractere, 14 são dois caracteres e 27383 são cinco caracteres.

Assim, para fazer a mudança do nome, conforme descrito anteriormente, podemos (entre outras estratégias possíveis) adotar as seguintes ações:
* copiar os registros originais das linhas anteriores ao registro `300 White 0.00` em um arquivo temporário;
* gravar o registro atualizado e formatado corretamente da conta com *id* `300` neste arquivo temporário;
* copiar os registros após a linha com o registro `300 White 0.00` para o arquivo temporário;
* excluir o arquivo antigo; e
* renomeie o arquivo temporário para usar o nome do arquivo original.
  
Isso pode ser ineficiente porque requer o processamento de todos os registros do arquivo, mesmo que você precise atualizar apenas um registro. A atualização de um arquivo conforme descrito acima é mais eficiente quando uma aplicação precisa atualizar muitos registros em uma única passagem pelo arquivo.

## Atualizando `contas.txt`

In [None]:
contas = open('/home/aluno/contas.txt', 'r')

In [None]:
temp_file = open('/home/aluno/temp_file.txt', 'w')

In [None]:
with contas, temp_file:
    for registro in contas:
        conta, nome, saldo = registro.split()
        if conta != '300':
            temp_file.write(registro)
        else:
            novo_registro = str(conta)+' Williams '+str(saldo)
            temp_file.write(novo_registro + '\n')


## Módulo (biblioteca) `os` para Acesso a Funções de Processamento de *File Processing Functions*

In [None]:
import os

In [None]:
os.remove('/home/aluno/contas.txt')

In [None]:
os.rename('/home/aluno/temp_file.txt', '/home/aluno/contas.txt')