# Arquivos

Uma característica que nenhum de nossos programas teve agora é a **persistência** de dados. Sempre que nossos programas eram executados, eles precisavam que os usuários digitassem todos os dados de entrada novamente, e após exibir os dados de saída na tela, o programa era fechado e esses dados eram perdidos para sempre.

A persistência se dá através de **arquivos**: estruturas abstratas para armazenar dados em uma memória permanente, como o disco rígido, um _drive_ USB ou um servidor _web_.

## Arquivos em Python
O Python possui algumas funções prontas para manipular arquivos binários puros (onde, conhecendo a estrutura interna de qualquer formato, podemos salvar qualquer tipo de arquivo) e para manipular arquivos de texto (onde os binários são decodificados como _strings_).

Focaremos no básico de manipulação de arquivo de texto, pois, na prática, quando formos trabalhar com arquivos mais complexos, é provável que usaremos bibliotecas específicas para lidar com eles, e elas já terão funções próprias para ler e salvar esses arquivos da maneira correta.

### Abrindo e fechando arquivos
Podemos criar arquivos novos ou abrir arquivos já existentes utilizando a função _open_. Ela possui 2 argumentos: uma com o caminho do arquivo e outra com o modo de operação.

| Modo   | Símbolo | Descrição                                                                                                                             |
|--------|---------|---------------------------------------------------------------------------------------------------------------------------------------|
| _read_   | r       | lê um arquivo existente                                                                                                               |
| _write_  | w       | cria um novo arquivo                                                                                                                  |
| _append_ | a       | abre um arquivo existente para adicionar informações ao seu final                                                                     |
| _update_ | +       | ao ser combinado com outros modos, permite alteração de arquivo já existente (ex: r+ abre um arquivo existente e permite modificá-lo) |

Após abrirmos (ou criarmos) um arquivo, podemos realizar diversas operações. Ao final de todas elas, devemos **fechar** o nosso arquivo usando a função _close_. Essa etapa é importante por 2 motivos:
* 1. Se alteramos o arquivo mas não o fechamos, as alterações não serão salvas.
* 2. Se esquecermos de fechar um arquivo, outros programas podem ter problemas de acesso a ele.

A função _open_ retorna alguns dados que devem ser salvos em uma variável que será responsável por guardar alguns dados de acesso ao arquivo, para uso interno do Python.

### Escrevendo arquivos
Para entender melhor o _open_ e o _close_, façamos um programinha que escreve algo em um arquivo. Além das duas funções que já vimos, também utilizaremos a função _write_, que escreve um texto em um arquivo. É quase como um _print_ mais simples, mas ele aceita apenas uma _string_.

In [32]:
arquivo = open('ola.txt', 'w') # cria um arquivo ola.txt
arquivo.write('Olá mundo') # escreve "Olá mundo" no arquivo
arquivo.close() # fecha e salva o arquivo

Após executar a célula acima, abra a pasta onde seu _notebook_ está salvo. Note que apareceu um ```ola.txt``` lá. Abra-o e verifique seu conteúdo.

### Lendo arquivos
Para ler um arquivo existente, não basta usar o _open_ para abri-lo. É necessário carregar seu conteúdo para uma _string_, de modo que possamos trabalhar com o texto da mesma forma que sempre trabalhamos. A função _read_ faz o oposto da _write_: ela retorna o texto existente no arquivo.

Rode a célula abaixo.

In [31]:
arquivo = open('ola.txt', 'r')
conteudo = arquivo.read()
print(conteudo)
arquivo.close()




## Gerenciador de contexto

Uma forma alternativa e "mais segura" de trabalhar com arquivos é utilizando um _gerenciador de contextos_. O gerenciador de contextos é, de maneira resumida, um pequeno bloco de código que realiza algumas tarefas e tratamentos de erro de maneira automatizada para nós. 

Com ele não precisamos nos preocupar em fechar o arquivo ao final da manipulação, pois ele irá fechar automaticamente para nós ao final do bloco. 

In [33]:
with open('ola.txt', 'r') as arquivo:
    conteudo = arquivo.read()
    print(conteudo.title())

# note que a linha abaixo dará erro:
conteudo2 = arquivo.read()

# o erro é:
#ValueError: I/O operation on closed file.

Olá Mundo


ValueError: I/O operation on closed file.

No restante dos exemplos seguiremos utilizando a primeira forma que aprendemos para reforçar que, por dentro, há sempre uma abertura e um fechamento de arquivo. Mas sinta-se livre para utilizar a nova forma sempre que quiser!

# Exercícios - parte 1

Use o conteúdo ensinado até o momento para realizar os exercícios abaixo. 

Para os exercícios envolvendo números, você pode utilizar o arquivo ```numeros.txt``` fornecido junto deste _notebook_ para testá-los.

-----

Escreva um programa que lê um arquivo de texto contendo uma série de números separados por quebra de linha (```'\n'```) e os adiciona a uma lista. Imprima a lista na tela.

Escreva um programa que lê um arquivo de texto contendo uma série de números separados por quebra de linha (```\n```) e escreva na tela o somatório dos números.

Escreva um programa que lê um arquivo de texto contendo uma série de números separados por quebra de linha (```\n```). Crie um novo arquivo onde você irá escrever "primo" ou "não-primo" na linha correspondente a cada número.

Lembrete: um número primo é divisível apenas por 1 e por ele mesmo.

Faça um programa que abre o arquivo ```domcasmurro.txt``` e monta um **histograma** das palavras do livro - ou seja, uma contagem de frequência. Use um dicionário para isso. 

Ex: para a string 'eu não programo em Java, mas programo em Python', o dicionário ficaria:

```python
{
    'eu': 1,
    'não': 1,
    'programo': 2,
    'em': 2,
    'mas': 1,
    'Python': 1
}
```

**Importante:** para que seu histograma seja confiável, você precisará "limpar" o texto original: diferenças entre maiúsculas e minúsculas devem ser eliminadas, e caracteres como sinais de pontuação e aspas devem ser removidos.

**Importante²:** o parâmetro opcional ```encoding='utf-8'``` irá garantir que o arquivo deste exercício será interpretado corretamente pelo Python.

In [None]:
arquivo = open('domcasmurro.txt', 'r', encoding='utf8')

...

arquivo.close()

# Arquivos CSV
Muitos dados interessantes ou importantes estão disponíveis na forma de tabela. A capacidade de manipular planilhas foi determinante no sucesso dos computadores pessoais, dada sua importância para empresas e indivíduos.

Aprenderemos a manipular dados utilizando um dos formatos de planilha mais amplamente utilizados na _web_: o formato CSV. Mas antes, como podemos representar tabelas em Python?

## Tabelas em Python
Conforme já mencionamos, temos módulos prontos para realizar muitas tarefas para nós. Um dos módulos mais populares em Python é o _pandas_, que mesmo não vindo instalado por padrão é provavelmente o módulo mais usado para manipular planilhas. Porém, como este é um curso introdutório, convém entendermos um pouquinho de lógica de como manipular uma tabela para futuramente sermos capazes de trabalhar corretamente com os módulos prontos.

Uma das formas mais simples de se representar uma tabela em Python seria através de uma lista de listas. Nossa lista principal seria a tabela como um todo, e cada lista interna seria uma linha da tabela. 

Para acessar um elemento individual, utilizamos 2 índices: o primeiro indica a lista interna (linha) e o segundo o elemento individual na lista (coluna). Para percorrer a tabela inteira, utilizamos 2 _for_ aninhados: o mais externo fixa uma linha e o mais interno percorre cada elemento daquela linha.

In [None]:
tabela = [['Aluno', 'Nota 1', 'Nota 2', 'Presenças'],
          ['Luke', 7, 9, 15],
          ['Han', 4, 7, 10],
          ['Leia', 9, 9, 16]]
          
print('Imprimindo cada elemento individual da tabela:')
for linha in tabela:
    for elemento in linha:
        print(elemento)
        
print('Imprimindo cada "linha" da tabela:')
for linha in tabela:
    print(linha)
        
print('Imprimindo o elemento na linha 2, coluna 0:')
print(tabela[2][0])

## O formato CSV
A sigla CSV significa _Comma-Separated Values_, ou "valores separados por vírgula". Este formato é uma forma padrão de representar tabelas usando arquivos de texto simples: cada elemento é separado por uma vírgula, e cada linha é separada por uma quebra de linha. 

Na prática, nem sempre o padrão é seguido à risca: podemos utilizar outros símbolos para fazer a separação. Um bom motivo é o fato de a vírgula ser utilizada para representar casa decimal em algumas línguas, como a língua portuguesa. O importante é ser coerente: todos os elementos deverão ser separados pelo mesmo símbolo, e todas as linhas deverão ter o mesmo número de elementos.

Cole o texto abaixo em um editor de texto puro (como o Bloco de Notas, no Windows) e salve-o com a extensão .csv. 

```
Aluno;Nota 1;Nota 2;Presenças
Luke;7;9;15
Han;4;7;10
Leia;9;9;16
```

Caso você tenha um editor de planilha instalado, como o Excel, é provável que o ícone representando o arquivo seja o ícone do editor de planilhas, e não de um arquivo de texto. Abra-o com seu editor de planilha e observe como ele interpreta corretamente os dados!

Devido ao fato de ser um formato aberto (ou seja, não é necessário pagar por propriedade intelectual para usar) e ser muito fácil de manipular, diversos programas diferentes possuem a opção de importar ou exportar dados em CSV, e diversas bases de dados na _web_ fornecem a opção de baixar os dados neste formato.

## O módulo CSV em Python
Devido à facilidade de trabalhar com arquivos CSV, com o que vimos sobre arquivos até o momento já conseguimos facilmente escrever um programinha que escreva uma planilha (representada como lista de listas) em um arquivo CSV. Da mesma forma, utilizando as funções que vimos de _strings_, conseguimos abrir um arquivo CSV e adequadamente reconhecer seus elementos (dica: _split_).

Porém, como mencionamos antes, o Python possui muita coisa pronta, então não precisamos constantemente reinventar a roda. Existe um módulo chamado _csv_ que já vem instalado com o Python. Ele já faz sozinho o serviço bruto de transformar nossa lista de listas em um texto separado por símbolos e vice-versa.

### Escrevendo um CSV
Para escrever um CSV utilizando o módulo, precisamos ter nossos dados representados como uma lista de listas. Criaremos (ou abriremos) um arquivo usando o _open_, como já fizemos antes, e utilizaremos um _CSV writer_ - uma estrutura que guardará as regrinhas para escrever nosso CSV. Execute o exemplo abaixo:

In [None]:
import csv

tabela = [['Aluno', 'Nota 1', 'Nota 2', 'Presenças'],
          ['Luke', 7, 9, 15],
          ['Han', 4, 7, 10],
          ['Leia', 9, 9, 16]]

# cria o arquivo CSV
arquivo = open('alunos.csv', 'w')

# definindo as regras do nosso CSV:
# ele será escrito no arquivo apontado pela variável 'arquivo'
# seus elementos serão delimitados (delimiter) pelo símbolo ';'
# suas linhas serão encerradas (lineterminator) por uma quebra de linha
escritor = csv.writer(arquivo, delimiter=';', lineterminator='\n')

# escreve uma lista de listas em formato CSV:
escritor.writerows(tabela)

# fecha e salva o arquivo
arquivo.close()

Após executar o programa acima, deve ter surgido um programa _alunos.csv_ na mesma pasta, e seu editor de planilhas provavelmente o reconhece com sucesso. Se você abri-lo com um editor de texto puro, verá os dados separados por **;** igualzinho ao arquivo que criamos manualmente antes.

### Lendo um CSV
O processo para ler o CSV é semelhante: utilizamos um _CSV reader_, com os mesmos parâmetros utilizados no _CSV writer_. A função _csv.reader_ já retorna para nós uma estrutura iterável (ou seja, que pode ser percorrida com _for_) contendo cada linha já organizada como lista.

In [None]:
import csv

arquivo = open('alunos.csv', 'r')

planilha = csv.reader(arquivo, delimiter=';', lineterminator='\n')

for linha in planilha:
	print(linha)

arquivo.close()

Note que a estrutura **não é** uma lista, mas um objeto iterável. Vejamos o que acontece se tentarmos imprimi-lo diretamente:

In [None]:
import csv

arquivo = open('alunos.csv', 'r')

planilha = csv.reader(arquivo, delimiter=';', lineterminator='\n')

print(planilha)

arquivo.close()

Caso você precise de mais flexibilidade para trabalhar com a sua planilha - por exemplo, caso deseje editá-la, criar novas colunas etc, convém converter a estrutura para uma lista de verdade. É possível usar um ```list``` no objeto para fazer a conversão:

In [None]:
import csv

arquivo = open('alunos.csv', 'r')

planilha = list(csv.reader(arquivo, delimiter=';', lineterminator='\n'))

arquivo.close()

print(planilha)

# Exercícios - parte 2

Use o módulo ```csv``` recém-estudado para fazer os próximos exercícios.

-----

Faça um programa que pede para o usuário digitar a quantidade de provas aplicadas, a quantidade de alunos em uma turma e cada uma das notas. O seu programa deverá salvar as notas digitadas em um arquivo CSV onde cada linha representa um aluno e cada coluna representa uma prova.

In [34]:
import csv

def append_value(dict_obj, key, value):
    if key in dict_obj:
        # Key exist in dict.
        # Check if type of value of key is list or not
        if not isinstance(dict_obj[key], list):
            # If type is not list then make it list
            dict_obj[key] = [dict_obj[key]]
        # Append the value in list
        if value not in dict_obj[key]:
            dict_obj[key].append(value)
    else:
        # As key is not in dict,
        # so, add key-value pair
        dict_obj[key] = value

dict_obj = {}
num_alunos = int(input("Digite quantos alunos: "))

for i in range(num_alunos):
    aluno = input("nome").upper()
    num_notas = int(input("numero de notas"))
    for x in range(num_notas):
        nota = input("Digite a nota: ")
        x = append_value(dict_obj, aluno, nota)

# writing to csv file 
with open('records.csv', 'w') as f: 
    # creating a csv dict writer object 
    csv_writer = csv.writer(f, delimiter = ' ')
    for aluno, notas in dict_obj.items():
        csv_writer.writerow([aluno, notas])

f.close()

Faça um programa que carrega um arquivo CSV de notas (como o gerado pelo exercício anterior) e pede para o usuário digitar a nota mínima para aprovação. Ele deverá gerar um novo arquivo contendo as notas originais e 2 colunas adicionais: a média de cada aluno na primeira (com, no máximo, 2 casas decimais) e "APR" ou "REP" na segunda, indicando se a média atingiu o valor mínimo ou não.

Faça um programa que abre o arquivo ```daily_IBM.csv``` e responda em qual data houve a maior oscilação de valor em um mesmo dia e quais foram os valores máximo e mínimo nessa data.

# Bônus: arquivos JSON

JSON é uma sigla para _JavaScript Object Notation_. O _JavaScript_ é uma linguagem muito utilizada em web, e assim como o Python, ela é uma linguagem orientada a objeto. Ocorre que a forma como objetos são representados nessa linguagem é bastante legível para seres humanos e fácil de decompor usando programação também.

Veja um exemplo de como podemos representar, por exemplo, um estudante em JavaScript:

```
{
    nome: 'Mario',
    modulo: 2,
    media: 9.5 
}
```

Parece familiar? É extremamente parecido com dicionários em Python. O Python possui um módulo já instalado chamado ```json``` que nos ajuda a converter entre uma _string_ contendo um JSON e um dicionário.

> **Atenção:** No caso do JSON faremos *exatamente* como nos dicionários em Python: as chaves deverão vir entre aspas.

Os valores de um JSON podem ser vários tipos de dados que estamos acostumados em Python: inteiros, reais, _strings_, booleanos, e até mesmo listas (representadas com colchetes) e outros JSON/dicionários (representados por chaves). Por exemplo:

```
{
    'escola':"Let's Code",
    'cursos':[{'nome':'Python Pro', 'duracao':2}, 
            {'nome':'Data Science', 'duracao':2},
            {'nome':'Front-End', 'duracao':2}]
}
```

### JSON para dicionário
O método ```loads``` recebe uma _string_ contendo um JSON e retorna um dicionário, o que torna bastante fácil o acesso a informações individuais:

In [None]:
import json

jogador = '{"nome":"Mario","pontuacao":0}'

dicionario = json.loads(jogador)

print(dicionario['nome'])
print(dicionario['pontuacao'])

### Dicionário para JSON
Já o método ```dumps``` recebe um dicionário e retorna uma _string_ pronta para ser salva ou enviada como JSON:

In [None]:
import json

jogador = dict()
jogador['nome']  = 'Mario'
jogador['pontuacao'] = 0

string_json = json.dumps(jogador)

print(string_json)

### E os arquivos?

Arquivos JSON, assim como CSV, são arquivos de texto puro onde o texto deve representar a estrutura dada acima. Sendo assim, caso você tenha um arquivo ```.json```, você pode abri-lo usando as mesmas técnicas que estudamos para arquivos de texto (```open```/```read```) e em seguida usar o ```loads``` para obter um dicionário. 

Já quando temos um dicionário que gostaríamos de salvar como um ```.json```, basta usar o ```dumps``` para obter a string, e em seguida podemos utilizar ```write``` no arquivo desejado. 

# Exercício final

Incremente o seu exercício do histograma de palavras exportando o resultado para json.