# Trabalhando com Arquivos

## Introdução

Até agora, os dados que utilizamos nos exemplos ou exercícios ou foram inseridos diretamente no código ou foram digitados por nós. Porém, no mundo real, a grande maioria dos dados estão armazenados em arquivos em unidades de armazenamento permanente.

Arquivos são sequências de dados que são armazenados em dispositivos (i.e., memórias) de armazenamento de longa duração dos computadores, como por exemplo, discos rígidos, pen drives, etc.

Vocês já conhecem vários tipos de arquivo, como por exemplo, seus arquivos de música (e.g., .mp3), arquivos de vídeo (e.g., .mp4, .avi), arquivos de texto (e.g., .txt), etc. 

A linguagem Python oferece maneiras fáceis de manipular esses arquivos. Geralmente dividimos os arquivos em duas categorias:

+ arquivos de texto, os quais contém caracteres alfanuméricos.
+ arquivos binários, que contêm dados binários que só podem ser lidos pelo computador.

Neste tópico, nós veremos de maneira sucinta os conceitos necessários para se trabalhar com arquivos.

## Abrindo e fechando arquivos

Para trabalharmos com os dados contidos em um arquivo, devemos abrí-lo com a função embutida `open` antes de usá-lo e fechá-lo com a função embutida `close` após termos terminado de utilizá-lo. 

Depois de aberto, um arquivo passa a ser um **objeto** de maneira semelhante a outros dados. A tabela abaixo mostra os métodos que podem ser usados para abrir e fechar arquivos em Python.

| Função |           Uso          |                                               Explicação                                               |
|:------:|:----------------------:|:------------------------------------------------------------------------------------------------------:|
|  open  | open(nome_arquivo,'r') | Abre um arquivo apenas para leitura. Retorna uma referência para um objeto file. Se você tentar escrever algo nele, uma exceção é lançada. |
|  open  | open(nome_arquivo,'rb') | Abre um arquivo para leitura apenas em formato binário. Retorna uma referência para um objeto file. |
|  open  | open(nome_arquivo,'w') | Abre um arquivo para escrita. Se o arquivo já existir e contiver dados, todos são apagados. Caso não exista, ele será criado. Retorna uma referência para um objeto file. |
|  open  | open(nome_arquivo,'wb') | Abre um arquivo para escrita apenas em formato binário. Se o arquivo já existir e contiver dados, todos são apagados. Caso não exista, ele será criado. Retorna uma referência para um objeto file. |
|  open  | open(nome_arquivo,'a') | Abre um arquivo para escrita sempre anexando novos valores a ele. Retorna uma referência para um objeto file. |
|  open  | open(nome_arquivo,'ab') | Abre um arquivo para escrita sempre anexando novos valores binários a ele. Retorna uma referência para um objeto file. |
|  close |   ref_arquivo.close()  |                 Fecha o arquivo utilizando a referência ao objeto file obtido durante a abertura do arquivo.                 |

**IMPORTANTE 1**: O modo padrão é para somente leitura, ou seja, se você não fornecer nenhum modo, o arquivo será aberto como somente leitura.

**IMPORTANTE 2**: Podemos combinar os modos de operação de um arquivo, por exemplo, `w+` abre um arquivo para escrita e leitura.

#### Exemplo

Vamos usar um arquivo que contenha dados de uma empresa. O formato do arquivo é o seguinte:

|      Nome     | Registro |  Cargo  | Salário | Contratação |
|:-------------:|:--------:|:-------:|:-------:|:-----------:|
| João da Silva |   10001  | Gerente | 5000.00 |  01/02/2019 |

Para abrir esse arquivo utilizamos a função embutida `open`.

In [1]:
f = open('empresa.dat')

A variável `f` mantém uma referência ao objeto do tipo **file** retornado pela função `open`. 

Quando terminamos de trabalhar com o arquivo, podemos fechá-lo usando o método `close`. Depois que o arquivo estiver fechado, qualquer tentativa de usar a referência armazenada em `f` resultará em erro.

In [2]:
f.close()

## Lendo arquivos

Para ler o arquivo inteiro de uma vez, usamos o método `read()`.

In [34]:
f = open('empresa.dat')

conteudo = f.read()

print(conteudo)

f.close()

Joao da Silva  10001 Gerente  5000.00  01/02/2019
Alice de Moraes   10002 Secretaria  2500.00  11/11/2017
Anabel Reis 10003 Analista 3200.00 05/03/2020
Roberto Amaral 10004 Engenheiro  3500.00 17/07/2016
Thais Lima  10005 Psicologa   3100.00 08/09/2019


**IMPORTANTE**: Esta forma de ler um arquivo nem sempre é uma boa ideia, pois um arquivo pode ser muito grande para ser lido e caber na memória. Portanto, é uma boa prática ler um tamanho conhecido do arquivo, por exemplo, uma linha de cada vez.

O método `readline()` lê uma linha de cada vez do arquivo e retorna essa linha como uma string. A string retornada pelo método `readline()` conterá o caractere de nova linha (`'\n'`) no final.

**IMPORTANTE**: Uma linha de um arquivo é definida como uma sequência de caracteres até **e incluindo** um caractere especial chamado de nova linha (newline). Se examinarmos uma string que contém um caractere de nova linha veremos ele representado como `\n`. Se tertarmos imprimir uma string contendo um caractere de nova linha nós não veremos o `\n`, apenas veremos o seu efeito, ou seja, a mudança de linha.

**Exemplo**: Usando o método `readline`.

In [36]:
f = open('empresa.dat')

linha1 = f.readline()
linha2 = f.readline()
linha3 = f.readline()
linha4 = f.readline()
linha5 = f.readline()

print(linha1, end='')
print(linha2, end='')
print(linha3, end='')
print(linha4, end='')
print(linha5, end='')

f.close()

Joao da Silva  10001 Gerente  5000.00  01/02/2019
Alice de Moraes   10002 Secretaria  2500.00  11/11/2017
Anabel Reis 10003 Analista 3200.00 05/03/2020
Roberto Amaral 10004 Engenheiro  3500.00 17/07/2016
Thais Lima  10005 Psicologa   3100.00 08/09/2019

Para lermos todas as linhas de um arquivo, usamos o método `readlines()`. Ele retorna uma lista, onde cada elemento é uma das linhas do arquivo em forma de string.

In [37]:
f = open('empresa.dat')

linhas = f.readlines()

print(linhas)

print('--------')
print(linhas[0], end='')
print(linhas[1])

f.close()

['Joao da Silva  10001 Gerente  5000.00  01/02/2019\n', 'Alice de Moraes   10002 Secretaria  2500.00  11/11/2017\n', 'Anabel Reis 10003 Analista 3200.00 05/03/2020\n', 'Roberto Amaral 10004 Engenheiro  3500.00 17/07/2016\n', 'Thais Lima  10005 Psicologa   3100.00 08/09/2019']
--------
Joao da Silva  10001 Gerente  5000.00  01/02/2019
Alice de Moraes   10002 Secretaria  2500.00  11/11/2017



Nós podemos até mesmo percorrer as linhas de um arquivo com laços de repetição `for` e `while`.

In [5]:
f = open('empresa.dat')

for linha in f:
    print(linha, end='')

f.close()

Joao da Silva  10001 Gerente  5000.00  01/02/2019
Alice de Moraes   10002 Secretaria  2500.00  11/11/2017
Anabel Reis 10003 Analista 3200.00 05/03/2020
Roberto Amaral 10004 Engenheiro  3500.00 17/07/2016
Thais Lima  10005 Psicologa   3100.00 08/09/2019

No exemplo abaixo, a condição do laço `while` se torna falsa quando a última linha do arquivo tiver sido lida.

In [35]:
f = open('empresa.dat')

linha = f.readline()
while linha:
    print(linha, end='')
    linha = f.readline()

f.close()

Joao da Silva  10001 Gerente  5000.00  01/02/2019
Alice de Moraes   10002 Secretaria  2500.00  11/11/2017
Anabel Reis 10003 Analista 3200.00 05/03/2020
Roberto Amaral 10004 Engenheiro  3500.00 17/07/2016
Thais Lima  10005 Psicologa   3100.00 08/09/2019

#### A instrução `with`

A instrução `with` automaticamente se encarrega de fechar o arquivo assim que o fluxo de execução do código sai do bloco da instrução `with`, mesmo em casos de erro.

In [6]:
with open('empresa.dat') as f:
    for linha in f:
        print(linha, end='')

Joao da Silva  10001 Gerente  5000.00  01/02/2019
Alice de Moraes   10002 Secretaria  2500.00  11/11/2017
Anabel Reis 10003 Analista 3200.00 05/03/2020
Roberto Amaral 10004 Engenheiro  3500.00 17/07/2016
Thais Lima  10005 Psicologa   3100.00 08/09/2019

#### Arquivos binários

A função `open()` abre um arquivo em formato de texto por padrão. Para abrir um arquivo em formato binário, adicionamos `'b'` ao parâmetro de modo. Portanto, o modo `'rb'` abre um arquivo em formato binário para leitura, enquanto o modo `'wb'` abre um arquivo em formato binário para escrita. 

Ao contrário dos arquivos em modo texto, os arquivos binários não podem ser lidos por humanos. Quando abertos em qualquer editor de texto, os dados ficam irreconhecíveis.

Arquivos binários podem variar de arquivos de imagem como JPEGs ou GIFs, arquivos de áudio como MP3s ou documentos como Word ou PDF.

Para ler um arquivo binário, a saída do método `read()` deve ser convertida em uma lista usando a função `list()` ou em uma tupla usando a função `tuple()`.

In [7]:
# Usando função list.
with open('binaryfile.bin', 'rb') as f:
    num = list(f.read())
    print(num)

# Usando função tuple.
with open('binaryfile.bin', 'rb') as f:
    num = tuple(f.read())
    print(num)

[56, 10, 15, 20, 25]
(56, 10, 15, 20, 25)


## Escrevendo em arquivos

Para escrever em um arquivo, usamos o método `write()`. Após sua execução, o método retorna o número de caracteres escritos no arquivo.

**Exemplo**: No exemplo abaixo, escrevemos em um arquivo de log algumas datas e a respectiva temperatura.

In [38]:
f = open('log.txt', 'w')

numCaracteres  = f.write('15/10/2020 - 29.1\n')
numCaracteres += f.write('16/10/2020 - 25.3\n')
numCaracteres += f.write('17/10/2020 - 20.9\n')
numCaracteres += f.write('18/10/2020 - 31.5')

print('Número total de caracteres escritos no arquivo:', numCaracteres)

f.close()

# lendo o conteúdo do arquivo.
print('\nConteúdo do arquivo:')
with open('log.txt') as f:
    for linha in f:
        print(linha, end='')

Número total de caracteres escritos no arquivo: 71

Conteúdo do arquivo:
15/10/2020 - 29.1
16/10/2020 - 25.3
17/10/2020 - 20.9
18/10/2020 - 31.5

O método `writelines()` escreve os elementos de uma lista no arquivo.

In [13]:
with open('exemplo1.txt', 'w') as f:
    f.writelines(['Vejo você em breve!\n', 'Tchau'])

# lendo conteúdo do arquivo.
with open("exemplo1.txt", "r") as f:
    print(f.read())

Vejo você em breve!
Tchau


#### Escrevendo em arquivos binários

O código a seguir armazena uma lista de números em um arquivo binário. A lista é primeiro convertida em um vetor de bytes antes de ser escrita no arquivo. A função embutida `bytearray()` é utilizada para retornar uma representação de byte do objeto e então escrita no arquivo.

In [40]:
with open('binfile.bin', 'wb') as f:
    num = [5, 10, 15, 20, 25]
    arr = bytearray(num)
    f.write(arr)
    
with open('binfile.bin', 'rb') as f:
    print(f.read())

b'\x05\n\x0f\x14\x19'


## Trabalhando com arquivos CSV

CSV (Comma Separated Values) é um formato de arquivo usado para armazenar dados em forma tabular, ou seja, em forma de tabela, como por exemplo, os dados de uma planilha ou banco de dados. 

Um arquivo CSV armazena dados em forma de texto. 

Cada linha do arquivo é um registro de dados. Cada registro consiste em um ou mais campos, separados por vírgulas. O uso da vírgula como separador de campo é a origem do nome para este formato de arquivo, porém, outros separadores podem ser utilizados, como por exemplo, `;`, `-`, ` `, etc.

O exemplo abaixo mostra um arquivo CSV com informações sobre carros.

```csv
Ano,Fabricante,Modelo,Preco
1997,Ford,Fiesta,3000.00
1999,Fiat,Palio,4900.00
1999,Fiat,Siena,5000.00
1996,Jeep,Grand Cherokee,4799.00
```

Para trabalhar com arquivos CSV em Python, existe um módulo embutido chamado `csv`. 

A leitura de um arquivo CSV é feita usando-se um objeto do tipo `reader`.

**Exemplo**:

No exemplo abaixo nós lemos um arquivo CSV com algumas informações de funcionários de uma empresa.

Cada linha retornada pelo `reader` é uma lista de elementos do tipo string contendo os dados encontrados após a remoção dos delimitadores. Geralmente, os delimitadores em um arquivo CSV são as vírgulas.

A primeira linha retornada pelo objeto do tipo `reader` contém os nomes das colunas.

In [18]:
import csv

with open('empresa.csv') as f:
    # Normalmente o delimitador de arquivos CSV é a vírgula, 
    # mas pode ser alterado.
    csv_reader = csv.reader(f, delimiter=',')
    line_count = 0
    for linha in csv_reader:
        if line_count == 0:
            print('%10s\t%10s\t%10s\t%10s\t%10s' % tuple(linha) )
        else:
            print('%10s\t%10s\t%10s\t%10s\t%10s' % tuple(linha) )
        line_count += 1
    print('\nNúmero de linhas processadas %d.' % (line_count))

      Nome	  Registro	     Cargo	   Salario	  Admissao
Joao da Silva	     10001	   Gerente	   5000.00	01/02/2019
Alice de Moraes	     10002	Secretaria	   2500.00	11/11/2017
Anabel Reis	     10003	  Analista	   3200.00	05/03/2020
Roberto Amaral	     10004	Engenheiro	   3500.00	17/07/2016
Thais Lima	     10005	 Psicologa	   3100.00	08/09/2019

Número de linhas processadas 6.


Nós podemos escrever em um arquivo CSV usando um objeto do tipo `writer` e seu método `write_row()`, como mostrado no exemplo abaixo.

In [19]:
import csv

with open('funcionarios.csv', mode='w', newline='') as arquivo_funcionario:
    csv_writer = csv.writer(arquivo_funcionario, delimiter=',')

    csv_writer.writerow(['Nome', 'Cargo', 'Salario'])
    csv_writer.writerow(['João Marcos', 'Financas', '2100.00'])
    csv_writer.writerow(['Valeria Vilela', 'Suporte', '1200.00'])

# Lendo o conteúdo do arquivo.
with open('funcionarios.csv') as f:
    for linha in f:
        print(linha, end='')

Nome,Cargo,Salario
João Marcos,Financas,2100.00
Valeria Vilela,Suporte,1200.00


Podemos escrever várias linhas de uma só vez com o método `writerows()`, como mostrado no exemplo abaixo. Para escrever várias linhas, passamos uma lista de listas para o método, onde cada uma das listas é escrita em uma linha do arquivo CSV.

In [20]:
import csv

linhas = [
    ['Nome', 'Cargo', 'Salario'],
    ['João Marcos', 'Financas', '2100.00'],
    ['Valeria Vilela', 'Suporte', '1200.00']
]

# Escrevendo no arquivo.
with open('funcionarios2.csv', mode='w', newline='') as arquivo_funcionario:
    csv_writer = csv.writer(arquivo_funcionario, delimiter=',')
    
    csv_writer.writerows(linhas)

# Lendo o arquivo.
with open('funcionarios2.csv') as f:
    for linha in f:
        print(linha, end='')

Nome,Cargo,Salario
João Marcos,Financas,2100.00
Valeria Vilela,Suporte,1200.00


## Trabalhando com arquivos JSON

JSON (JavaScript Object Notation) é um formato de dados muito popular usado para representar dados estruturados. É comum transmitir e receber dados entre um servidor e um aplicativo web no formato JSON. Além disso, o banco de dados orientado a documentos, MongoDB, utiliza arquivos JSON para armazenar informações.

Um arquivo JSON é praticamente idêntico à um dicionário em Python.

O exemplo a seguir mostra uma possível representação JSON que descreve uma pessoa.

```json
{
  "firstName": "John",
  "lastName": "Smith",
  "isAlive": true,
  "age": 27,
  "address": {
    "streetAddress": "21 2nd Street",
    "city": "New York",
    "state": "NY",
    "postalCode": "10021-3100"
  },
  "phoneNumbers": [
    {
      "type": "home",
      "number": "212 555-1234"
    },
    {
      "type": "office",
      "number": "646 555-4567"
    }
  ],
  "children": [],
  "spouse": null
}
```

Em Python, um exemplo de uma **string** JSON é dada por

```json
p = '{"Nome": "Roberto", "Linguagens": ["Python", "Java"]}'
```

Note que esta string nada mais é do que uma string representando um **dicionário**.

Portanto, podemos analisar uma string JSON usando o método `json.loads()`, o qual retorna um dicionário, como mostrado abaixo.

In [31]:
import json

pessoa = '{"nome": "Roberto", "linguas": ["Portugues", "Ingles", "Frances"]}'
print(type(pessoa))

pessoa_dict = json.loads(pessoa)
print(pessoa_dict)
print(type(pessoa_dict))

# Acessando o valor associado à chave 'linguas'.
print(pessoa_dict['linguas'])

<class 'str'>
{'nome': 'Roberto', 'linguas': ['Portugues', 'Ingles', 'Frances']}
<class 'dict'>
['Portugues', 'Ingles', 'Frances']


Podemos usar o método `json.load()` para ler um arquivo que contém um objeto JSON.

Por exemplo, vamos supor que temos um arquivo chamado `funcionarios3.json` que contém um objeto JSON. Nós podemos carregar e analisar esse arquivo da seguinte forma:

In [104]:
import json

with open('funcionarios3.json') as f:
    funcionarios = json.load(f)

print(funcionarios)

print('Linguas:', funcionarios['Linguas'])

{'nome': 'Roberto', 'Cargo': 'Engenheiro', 'Salario': '3250.00', 'Linguas': ['Portugues', 'Ingles', 'Frances']}
Linguas: ['Portugues', 'Ingles', 'Frances']


O arquivo é analisado usando-se o método `json.load()` o qual retorna um dicionário.

Podemos converter um dicionário em uma string JSON usando o método `json.dumps()`.

In [41]:
import json

pessoa_dict = {'Nome': 'Roberto',
'Idade': 33,
'Cargo': 'Advogado'
}

pessoa_json = json.dumps(pessoa_dict)

print(pessoa_json)
print(type(pessoa_json))

{"Nome": "Roberto", "Idade": 33, "Cargo": "Advogado"}
<class 'str'>


Para escrever dados em um arquivo JSON, nós também utilizamos o método `json.dump()`.

In [43]:
import json

pessoa_dict = {
    "Nome": "Roberto",
    "Linguas": ["Portugues", "Ingles", "Frances"],
    "Casado": True,
    "Idade": 32
}

with open('pessoas.json', 'w') as json_file:
    json.dump(pessoa_dict, json_file)
    
# lendo e imprimindo o conteúdo do arquivo.
with open('pessoas.json') as f:
    pessoas_dict = json.load(f)

print(json.dumps(pessoas_dict, indent = 3))

{
   "Nome": "Roberto",
   "Linguas": [
      "Portugues",
      "Ingles",
      "Frances"
   ],
   "Casado": true,
   "Idade": 32
}


## Tarefas

1. <span style="color:blue">**QUIZ - Trabalhando com arquivos**</span>: respondam ao questionário sobre arquivos no MS teams, por favor. 
2. <span style="color:blue">**Laboratório #9**</span>: cliquem em um dos links abaixo para accessar os exercícios do laboratório #9.

[![Binder](https://mybinder.org/badge_logo.svg)](https://mybinder.org/v2/gh/zz4fap/python-programming/master?filepath=labs%2FLaboratorio9.ipynb)

[![Google Colab](https://badgen.net/badge/Launch/on%20Google%20Colab/blue?icon=terminal)](https://colab.research.google.com/github/zz4fap/python-programming/blob/master/labs/Laboratorio9.ipynb)

**IMPORTANTE**: Para acessar o material das aulas e realizar as entregas dos exercícios de laboratório, por favor, leiam o tutorial no seguinte link:
[Material-das-Aulas](../docs/Acesso-ao-material-das-aulas-resolucao-e-entrega-dos-laboratorios.pdf)

## Avisos

* Se atentem aos prazos de entrega das tarefas na aba de **Avaliações** do MS Teams.
* Horário de atendimento todas as Quintas-feiras as 17:30 às 19:30 via MS Teams enquanto as aulas presenciais não retornam.

<img src="../figures/obrigado.png" width="1000" height="1000">