# Arquivos

Uma característica que nenhum de nossos programas teve até agora é a **persistência** de dados. Sempre que nossos programas eram executados, eles exigiam que os usuários digitassem todos os dados de entrada, e após exibir os dados de saída na tela, o programa era fechado e esses dados eram perdidos para sempre.

A persistência se dá através de **arquivos**: estruturas abstratas para armazenar dados em uma memória permanente, como o disco rígido, um _drive_ USB ou um servidor _web_.

## Arquivos em Python

O Python possui algumas funções prontas para manipular arquivos binários puros (onde, conhecendo a estrutura interna de qualquer formato, podemos salvar qualquer tipo de arquivo) e para manipular arquivos de texto (onde os binários são decodificados como _strings_).

Focaremos no básico de manipulação de arquivo de texto pois, na prática, quando formos trabalhar com arquivos mais complexos, é provável que usaremos bibliotecas específicas para lidar com eles, e elas já terão funções próprias para ler e salvar esses arquivos da maneira correta.

### Abrindo e fechando arquivos

Podemos criar arquivos novos ou abrir arquivos já existentes utilizando a função _open_. Ela possui 2 argumentos: o caminho do arquivo e o modo de operação.

| Modo   | Símbolo | Descrição                                                                                                                             |
|--------|---------|---------------------------------------------------------------------------------------------------------------------------------------|
| _read_   | r       | lê um arquivo existente                                                                                                               |
| _write_  | w       | cria um novo arquivo                                                                                                                  |
| _append_ | a       | abre um arquivo existente para adicionar informações ao seu final                                                                     |
| _update_ | +       | ao ser combinado com outros modos, permite alteração de arquivo já existente (ex: r+ abre um arquivo existente e permite modificá-lo) |

Após abrirmos (ou criarmos) um arquivo, podemos realizar diversas operações. Ao final de todas elas, devemos **fechar** o  arquivo usando a função _close_. Essa etapa é importante por 2 motivos:
* 1. Se alteramos o arquivo mas não o fechamos, as alterações não serão salvas.
* 2. Se esquecermos de fechar um arquivo, outros programas podem ter problemas de acesso a ele.

A função _open_ retorna alguns dados de acesso ao arquivo que devem ser salvos em uma variável, para uso interno do Python.

> **Atenção:** o modo 'w' sempre irá **criar um novo arquivo**. Caso você use esse modo para abrir um arquivo que já existe, o arquivo existente será substituído por um novo arquivo em branco, e seu conteúdo será perdido!

### Escrevendo arquivos

Para entender melhor o _open_ e o _close_, façamos um programinha que escreve algo em um arquivo. Além das duas funções que já vimos, também utilizaremos a função _write_, que escreve um texto em um arquivo. É quase como um _print_ mais simples, mas ele aceita apenas uma _string_.

In [1]:
arquivo = open('ola.txt', 'w') # cria um arquivo ola.txt
arquivo.write('Olá mundo') # escreve "Olá mundo" no arquivo
arquivo.close() # fecha e salva o arquivo

Após executar o código acima, abra a pasta onde seu código-fonte está salvo. Note que apareceu o arquivo `ola.txt` dentro dela. Abra-o e verifique seu conteúdo.

> Por padrão, arquivos serão escritos na mesma pasta onde está nosso código-fonte. Você pode passar caminhos completos caso prefira acessar outras pastas. 
> Ao invés de escrever por extenso o caminho de um arquivo, é recomendável o uso de uma biblioteca para construir os endereços, tanto para lidar melhor com possíveis erros quanto para garantir que nosso programa funcionará bem em computadores diferentes ou mesmo em sistemas operacionais diferentes.
> Um módulo bastante útil é o `os.path`, já instalado junto com o Python. [Aqui](https://linuxhint.com/os-path-module-python/) está um ótimo tutorial introdutório. Caso você precise se aprofundar, consulte a [documentação oficial](https://docs.python.org/pt-br/3.7/library/os.path.html).

In [3]:
import os

os.getcwd()

"C:\\Users\\henri\\iCloudDrive\\Aulas Let's Code\\Turmas\\Turma 1011 - Logica de Programacao II"

In [4]:
a = os.getcwd()
pasta = 'Bases'
pasta2 = 'teste'

os.path.join(a, pasta, pasta2)

"C:\\Users\\henri\\iCloudDrive\\Aulas Let's Code\\Turmas\\Turma 1011 - Logica de Programacao II\\Bases\\teste"

In [None]:
os.listdir()

### Lendo arquivos

Para ler um arquivo existente, não basta usar o _open_ para abri-lo. É necessário carregar seu conteúdo para uma _string_, de modo que possamos trabalhar com o texto da mesma forma que sempre trabalhamos. A função _read_ faz o oposto da _write_: ela retorna o texto existente no arquivo.

Execute o código abaixo:

In [None]:
arquivo = open('ola.txt', 'r') # abre o arquivo já existente
conteudo = arquivo.read() # lê o conteúdo do arquivo e o salva na variável
# arquivo.write('\nTestando 1, 2, 3...')
print(conteudo)
arquivo.close()

> Você pode estar se perguntando: nós aprendemos a criar um arquivo e escrever nele e aprendemos a ler o conteúdo de um arquivo já existente. Mas como realizamos modificações pontuais em um arquivo já existente?
> Uma forma seria utilizar as funções de manipulação de ponteiro de arquivo `seek` e `tell`. Você pode ler mais sobre elas [aqui](https://pynative.com/python-file-seek/). Porém, isso pode ser bastante trabalhoso, e na prática, quase sempre que formos realizar manipulação de arquivos mais complexos, utilizaremos bibliotecas que nos protegerão da manipulação direta do arquivo.
> Para manipular arquivos de texto simples, como estamos fazendo nesta aula, uma solução é sempre reescrever o arquivo inteiro: abra o arquivo em modo leitura (r) e carregue todo seu conteúdo em uma string. Faça as alterações desejadas na string, reabra o arquivo em modo de escrita (w) e escreva a string completa no arquivo.

## 1.4. Gerenciador de contexto

Uma forma alternativa e "mais segura" de trabalhar com arquivos é utilizando um _gerenciador de contextos_. O gerenciador de contextos é, de maneira resumida, um pequeno bloco de código que realiza algumas tarefas e tratamentos de erro de maneira automatizada. 

Com ele, não precisamos nos preocupar em fechar o arquivo ao final da manipulação, pois ele faz isto automaticamente, ao final do bloco. 

In [None]:
with open('ola.txt', 'r') as arquivo:
    conteudo = arquivo.read()
    print(conteudo.title())

# note que a linha abaixo gera um erro:
conteudo2 = arquivo.read()

# O erro é: 
# ValueError: I/O operation on closed file. -> Operação de entrada/saída em arquivo fechado

In [None]:
with open('ola.txt', 'w') as arquivo:
    arquivo.write(conteudo)

No restante dos exemplos seguiremos utilizando a primeira forma que aprendemos para enfatizar que, por dentro do programa, há **sempre** uma abertura e um fechamento de arquivo. Mas recomendamos utilizar sempre que possível o gerenciador de contexto para garantir uma segurança maior.

> Você pode ler mais sobre gerenciadores de contexto e aprender a criar o seu próprio neste ótimo artigo do [RealPython](https://realpython.com/python-with-statement/).

## Arquivos CSV

Muitos dados interessantes ou importantes estão disponíveis na forma de tabela. A capacidade de manipular planilhas foi determinante no sucesso dos computadores pessoais, dada sua importância para empresas e indivíduos.

Aprenderemos a manipular dados utilizando um dos formatos de planilha mais amplamente utilizados na _web_: o formato CSV. Mas antes, como podemos representar tabelas em Python?

### Tabelas em Python

Conforme já mencionamos, temos módulos prontos para realizar muitas tarefas para nós. Um dos módulos mais populares em Python é o _pandas_, que mesmo não vindo instalado por padrão é provavelmente o módulo mais usado para manipular planilhas. Porém, como este é um curso introdutório, convém entendermos um pouquinho de lógica de como manipular uma tabela para futuramente sermos capazes de trabalhar corretamente com os módulos prontos.

Uma das formas mais simples de se representar uma tabela em Python seria através de uma lista de listas. Nossa lista principal seria a tabela como um todo, e cada lista interna seria uma linha da tabela. 

Para acessar um elemento individual, utilizamos 2 índices: o primeiro indica a lista interna (linha) e o segundo o elemento individual na lista (coluna). Para percorrer a tabela inteira, utilizamos 2 _for_ aninhados: o mais externo fixa uma linha e o mais interno percorre cada elemento daquela linha. Execute o código abaixo e verifique o resultado mostrado na tela.

In [5]:
tabela = [['Aluno', 'Nota 1', 'Nota 2', 'Presenças'],
          ['Luke', 7, 9, 15],
          ['Han', 4, 7, 10],
          ['Leia', 9, 9, 16]]
          
print('Imprimindo cada elemento individual da tabela:')
for linha in tabela:
    for elemento in linha:
        print(elemento)
        
print('Imprimindo cada "linha" da tabela:')
for linha in tabela:
    print(linha)
        
print('Imprimindo o elemento na linha 2, coluna 0:')
print(tabela[2][0])

Imprimindo cada elemento individual da tabela:
Aluno
Nota 1
Nota 2
Presenças
Luke
7
9
15
Han
4
7
10
Leia
9
9
16
Imprimindo cada "linha" da tabela:
['Aluno', 'Nota 1', 'Nota 2', 'Presenças']
['Luke', 7, 9, 15]
['Han', 4, 7, 10]
['Leia', 9, 9, 16]
Imprimindo o elemento na linha 2, coluna 0:
Han


### O formato CSV

A sigla CSV significa _Comma-Separated Values_, ou "valores separados por vírgula". Este formato é uma forma padrão de representar tabelas usando arquivos de texto simples: cada elemento é separado por uma vírgula, e cada linha é separada por uma quebra de linha. 

Na prática, nem sempre o padrão é seguido à risca: podemos utilizar outros símbolos para fazer a separação. Um bom motivo é o fato de a vírgula ser utilizada para representar casa decimal em algumas línguas, como a língua portuguesa. O importante é ser coerente: todos os elementos deverão ser separados pelo mesmo símbolo, e todas as linhas deverão ter o mesmo número de elementos.

Cole o texto abaixo em um editor de texto puro (como o Bloco de Notas, do Windows) e salve-o com a extensão .csv.

```
Aluno;Nota 1;Nota 2;Presenças
Luke;7;9;15
Han;4;7;10
Leia;9;9;16
```

Caso você tenha um editor de planilha instalado, como o Excel, é provável que o ícone representando o arquivo seja o ícone do editor de planilhas, e não de um arquivo de texto. Abra-o com seu editor de planilha e observe como ele interpreta corretamente os dados!

Devido ao fato de ser um formato aberto (ou seja, não é necessário pagar por propriedade intelectual para usar) e ser muito fácil de manipular, diversos programas diferentes possuem a opção de importar ou exportar dados em CSV, e diversas bases de dados na _web_ oferecem a opção de baixar os dados neste formato.

### O módulo CSV em Python

Devido à facilidade de trabalhar com arquivos CSV, com o que vimos sobre arquivos até o momento, já conseguimos facilmente escrever um programa que escreva uma planilha (representada como lista de listas) em um arquivo CSV. Da mesma forma, utilizando as funções que vimos de _strings_, conseguimos abrir um arquivo CSV e adequadamente reconhecer seus elementos (dica: _split_).

Porém, como mencionamos antes, o Python possui muita coisa pronta, então não precisamos constantemente reinventar a roda. Existe um módulo chamado _csv_ que já vem instalado com o Python. Ele já faz sozinho o serviço bruto de transformar nossa lista de listas em um texto separado por símbolos e vice-versa.

#### Escrevendo um CSV

Para escrever um CSV utilizando o módulo, precisamos ter nossos dados representados como uma lista de listas. Criaremos (ou abriremos) um arquivo usando o _open_, como já fizemos antes, e utilizaremos um _CSV writer_ - uma estrutura que guardará as regrinhas para escrever nosso CSV. Execute o exemplo abaixo:

In [7]:
import csv

tabela = [['Aluno', 'Nota 1', 'Nota 2', 'Presenças'],
          ['Luke', 7, 9, 15],
          ['Han', 4, 7, 10],
          ['Leia', 9, 9, 16]]

# cria o arquivo CSV
arquivo = open('alunos.csv', 'w')

# definindo as regras do nosso CSV:
# ele será escrito no arquivo apontado pela variável 'arquivo'
# seus elementos serão delimitados (delimiter) pelo símbolo ';'
# suas linhas serão encerradas (lineterminator) por uma quebra de linha
escritor = csv.writer(arquivo, delimiter=';', lineterminator='\n')
# escritor = csv.writer(arquivo, lineterminator='\n')

# escreve uma lista de listas em formato CSV:
escritor.writerows(tabela)

# fecha e salva o arquivo
arquivo.close()

Após executar o programa acima, um arquivo _alunos.csv_ deverá surgir na mesma pasta em que se encontra o seu código-fonte, e seu editor de planilhas provavelmente o reconhecerá com sucesso. Se você abrí-lo com um editor de texto puro, verá os dados separados por **;**, assim como no arquivo que criamos anteriormente.

#### Lendo um CSV

O processo para ler o CSV é semelhante: utilizamos um _CSV reader_, com os mesmos parâmetros utilizados no _CSV writer_. A função _csv.reader_ retorna uma estrutura iterável (ou seja, que pode ser percorrida com _for_) contendo cada linha já organizada como lista.

In [8]:
import csv

arquivo = open('alunos.csv', 'r')

planilha = csv.reader(arquivo, delimiter=';', lineterminator='\n')

for linha in planilha:
    print(linha)

arquivo.close()

['Aluno', 'Nota 1', 'Nota 2', 'Presenças']
['Luke', '7', '9', '15']
['Han', '4', '7', '10']
['Leia', '9', '9', '16']


Note que a estrutura **não é** uma lista, mas um objeto iterável. Vejamos o que acontece se tentarmos imprimi-lo diretamente:

In [9]:
import csv

arquivo = open('alunos.csv', 'r')

planilha = csv.reader(arquivo, delimiter=';', lineterminator='\n')

print(planilha)

arquivo.close()

<_csv.reader object at 0x000002B216A18DC0>


Caso você precise de mais flexibilidade para trabalhar com a sua planilha - por exemplo, caso deseje editá-la, criar novas colunas etc, convém converter a estrutura para uma lista de verdade. É possível usar a função `list` no objeto para fazer a conversão:

In [10]:
import csv

arquivo = open('alunos.csv', 'r')

planilha = list(csv.reader(arquivo, delimiter=';', lineterminator='\n'))

arquivo.close()

print(planilha)

[['Aluno', 'Nota 1', 'Nota 2', 'Presenças'], ['Luke', '7', '9', '15'], ['Han', '4', '7', '10'], ['Leia', '9', '9', '16']]


> Tudo que vem do teclado é considerado `string` e, por isso, frequentemente utilizamos coerção de tipos para interpretar estes dados como `int` ou `float`. O mesmo ocorre com documentos de texto. É comum salvarmos números em nossas planilhas, mas ao carregar o CSV, todos os campos serão strings. Você pode utilizar loops, compreensões de lista ou funções como o `map` para gerar uma tabela contendo números a partir de um arquivo CSV.

## Arquivos JSON

JSON é uma sigla para _JavaScript Object Notation_. O _JavaScript_ é uma linguagem muito utilizada em web, e assim como o Python, ela é uma linguagem orientada a objeto. Ocorre que a forma como objetos são representados nessa linguagem é bastante legível para seres humanos e fácil de decompor usando programação também.

Veja um exemplo de como podemos representar, por exemplo, um estudante em JavaScript:

```
{
    nome: 'Mario',
    modulo: 2,
    media: 9.5 
}
```

Parece familiar? É extremamente parecido com dicionários em Python. O Python possui um módulo já instalado chamado `json` que nos ajuda a realizar conversões entre uma _string_ contendo um JSON e um dicionário.

> **Atenção:** No caso do JSON faremos *exatamente* como nos dicionários em Python: as chaves deverão vir entre aspas.

Os valores de um JSON podem ser de vários tipos de dados: inteiros, reais, _strings_, booleanos, e até mesmo listas (representadas com colchetes) ou outros JSON/dicionários (representados por chaves). Por exemplo:

```
{
    'escola':"Let's Code",
    'cursos':[{'nome':'Python Pro', 'duracao':2}, 
            {'nome':'Data Science', 'duracao':2},
            {'nome':'Front-End', 'duracao':2}]
}
```

### JSON para dicionário

O método `loads` recebe uma _string_ contendo um JSON e retorna um dicionário, o que torna bastante fácil o acesso a informações individuais:

In [11]:
import json

jogador = '{"nome":"Mario","pontuacao":0}'
print(jogador)

dicionario = json.loads(jogador)
print(dicionario)
print(dicionario['nome'])
print(dicionario['pontuacao'])

{"nome":"Mario","pontuacao":0}
{'nome': 'Mario', 'pontuacao': 0}
Mario
0


In [12]:
print(type(jogador))
print(type(dicionario))

str

### Dicionário para JSON

Já o método `dumps` recebe um dicionário e retorna uma _string_ pronta para ser salva ou enviada como JSON:

In [13]:
import json


jogador = dict()
jogador['nome'] = 'Mario'
jogador['pontuacao'] = 0

stringJSON = json.dumps(jogador)
print(stringJSON)

{"nome": "Mario", "pontuacao": 0}


In [14]:
type(stringJSON)

str

O `dumps` possui um parâmetro opcional `indent` que recebe um número inteiro. Isso fará com que a string gerada seja indentada, e o valor desse parâmetro determinará quantos espaços irão ao início de cada "nível".

>  Sabendo realizar a conversão de dicionário para string e vice-versa, basta utilizar as técnicas de manipulação de arquivo de texto para ler a string do arquivo JSON, convertê-la para dicionário, fazer as manipulações desejadas, converter novamente para string e escrever no arquivo.

In [17]:
import json


path = 'projetoModuloII.json'

arquivo = open(path, 'r', encoding='utf-8')
dados = json.loads(arquivo.read())
arquivo.close()

In [None]:
dados.keys()

In [18]:
dados[6] = {
    'Status':True,
    'Nome': 'Joana',
    'Telefone': '3572685726',
    'Endereço': 'iubecyureb'
}

In [None]:
dados.keys()

In [19]:
dados[6]['Status']=False

In [20]:
dados

{'1': {'Status': True,
  'Nome': 'Henrique',
  'Telefone': '78774123',
  'Endereço': 'Rua do Python'},
 '2': {'Status': True,
  'Nome': 'Alex',
  'Telefone': '23546312',
  'Endereço': 'Modulo II'},
 '3': {'Status': True,
  'Nome': 'João',
  'Telefone': '45786327',
  'Endereço': 'Av. Faria Lima'},
 '4': {'Status': False,
  'Nome': 'Maria',
  'Telefone': '74125823',
  'Endereço': 'Av. Paulista'},
 '5': {'Status': False,
  'Nome': 'Juliana',
  'Telefone': '41230578',
  'Endereço': 'Rua das Flores'},
 '6': {'Status': False,
  'Nome': 'Joana',
  'Telefone': '3572685726',
  'Endereço': 'iubecyureb'},
 '7': {'Status': False,
  'Nome': 'Joana',
  'Telefone': '3572685726',
  'Endereço': 'iubecyureb'},
 6: {'Status': False,
  'Nome': 'Joana',
  'Telefone': '3572685726',
  'Endereço': 'iubecyureb'}}

In [21]:
stringCadastro = json.dumps(dados, indent=4, ensure_ascii=False)

In [22]:
stringCadastro

'{\n    "1": {\n        "Status": true,\n        "Nome": "Henrique",\n        "Telefone": "78774123",\n        "Endereço": "Rua do Python"\n    },\n    "2": {\n        "Status": true,\n        "Nome": "Alex",\n        "Telefone": "23546312",\n        "Endereço": "Modulo II"\n    },\n    "3": {\n        "Status": true,\n        "Nome": "João",\n        "Telefone": "45786327",\n        "Endereço": "Av. Faria Lima"\n    },\n    "4": {\n        "Status": false,\n        "Nome": "Maria",\n        "Telefone": "74125823",\n        "Endereço": "Av. Paulista"\n    },\n    "5": {\n        "Status": false,\n        "Nome": "Juliana",\n        "Telefone": "41230578",\n        "Endereço": "Rua das Flores"\n    },\n    "6": {\n        "Status": false,\n        "Nome": "Joana",\n        "Telefone": "3572685726",\n        "Endereço": "iubecyureb"\n    },\n    "7": {\n        "Status": false,\n        "Nome": "Joana",\n        "Telefone": "3572685726",\n        "Endereço": "iubecyureb"\n    },\n    "6"

In [None]:
arquivo = open(path, 'w', encoding='utf-8')
arquivo.write(stringCadastro)
arquivo.close()