<div id="homesweethome"></div>

<div style="width: 100%; text-align: center; color: white; background-color: #222; font-size: 3em; font-weight: 700; padding: .5em .5em .6em .5em; line-height: 1.4em;">Programação em Python para Iniciantes</div>

<br>

<div style="width: 100%; text-align: center; color: white; background-color: #555; font-size: 2.2em; font-weight: 700; padding: .5em .5em .6em .5em; line-height: 1em;">Manipulação de arquivos</div>

<br>

Nesta unidade, vamos passar algumas noções sobre manipulação de arquivos (leitura e escrita) e vamos ensinar como usar um módulo do python chamado `csv` para ler uma planilha e exibir os dados dessa planilha usando o `matplotlib.pyplot` que você já conhece.

<!-- <span style="color: red;">Lembre-se: execute a última célula para melhorar a aparência deste <i>notebook</i> ou clique no ícone .</span> -->


# Arquivos

Os sistemas operacionais (Windows, Linux, etc.) organizam os dados no disco em forma de arquivos. Os arquivos podem conter imagens, textos, números ou qualquer outro tipo de dado.

Nesta unidade, vamos aprender a manipular arquivos de texto, isto é, como acessar arquivos de texto e importar seu conteúdo para dentro de um programa em Python. Também vamos aprender como fazer para gravar dados em um arquivo texto programaticamente.

## Lendo linha por linha

Veja o exemplo a seguir.

In [None]:
arquivo = open("drummond-amor-bicho.txt")

for linha in arquivo:
    print(linha)

arquivo.close()

Se você obteve um erro, é porque o arquivo `drummond-amor-bicho.txt` não foi encontrado no diretório corrente (que é o diretório "Downloads"). Portanto, baixe o arquivo `drummond-amor-bicho.txt`, salve-o no mesmo diretório que este _notebook_ e execute o código acima novamente.

Veja que o conteúdo do arquivo foi exibido na saída do programa acima. 

O `for` (linha 3) itera sobre as linhas de texto do arquivo e a função `print()` (linha 4) mostra a linha da vez na saída do programa. Uma a uma, as linhas vão sendo impressas até que todo o poema tenha sido mostrado. 

Repare que as linhas do poema ficaram separadas umas das outras. Isso ocorreu porque, quando uma linha é lida do arquivo o caractere _newline_ no final de cada linha também é lido junto. Além desse _newline_, a função `print()` costuma pular uma linha no final, então mais um _newline_, só que esse _newline_ não estava no arquivo lido e fica sobrando.

Para corrigir esse problema, basta mandar a função `print()` não imprimir o _newline_ adicional. Para conseguir isso, trocamos a linha 4 pela chamada `print(linha, end='')`.

O programa fica assim:

In [None]:
arquivo = open("drummond-amor-bicho.txt")

for linha in arquivo:
    print(linha, end='')

arquivo.close()

Para o exemplo seguinte, baixe o arquivo `drummond-leiteiro.txt` e salve-o no mesmo diretório em que este _notebook_ se encontra.

Este exemplo servirá para ilustrar que, às vezes, a leitura de um arquivo não funciona exatamente como gostaríamos. 

In [None]:
arquivo = open("drummond-leiteiro.txt")

for linha in arquivo:
    print(linha, end="")

arquivo.close()

O erro se deve ao fato de que o arquivo `drummond-leiteiro.txt` não está codificado da maneira que o Python está esperando. 

Para consultar a codificação desse arquivo, você pode abrir um terminal <kbd>Ctrl+Alt+T</kbd> e navegar até o diretório `Downloads` com o comando `cd ~/Downloads` e depois digitar `file -i *.txt`. Você verá a codificação usada para armazenar os dados em cada arquivo texto após `charset=`.

Em vez de abrir um terminal, você pode executar a célula abaixo.

In [None]:
%%bash
file -i *.txt

Para leitura de arquivos, o Python espera que a codificação seja `utf-8` (ou `ascii`, que é um subconjunto de `utf-8`). Para ler arquivos que possuem codificação diferente, use o parâmetro `encoding` da função `open()`.

In [None]:
arquivo = open("drummond-leiteiro.txt", encoding="iso-8859-1")

for linha in arquivo:
    print(linha, end="")

arquivo.close()

### Exercício <span class="exec"></span>

Baixe o arquivo `poe-alone.txt` e faça um programa que imprima o conteúdo desse arquivo.

## Lendo tudo de uma vez

Também é possível ler o arquivo todo de uma vez e colocar seu conteúdo de texto numa variável. Veja:

In [None]:
f = open("drummond-cidadezinha.txt")
texto = f.read()
f.close()

print(texto, end='')

## Escrevendo em arquivos

Para escrever num arquivo, devemos abrí-lo no modo de escrita e usar o método `write()`.  

Veja um exemplo:    

In [None]:
f = open('teste.txt', 'w')

f.write('Olá, este é um teste. ')
f.write('Para pular linha coloque um \\n no final.\n')
f.write('Nunca se esqueça de fechar o arquivo com o método \'close()\'.\n')

f.close()

O segundo argumento da função `open()` é `'w'` para indicar que o arquivo está sendo aberto no modo de escrita (_write_ em inglês).

Agora minimize esta janela do navegador (minimize o Jupyter) e vá até o gerenciador de arquivos do Ubuntu (procure por Nautilus no menu). Abra o arquivo `teste.txt` com um duplo clique para ver seu conteúdo em um editor de texto comum.

Alternativamente, você pode executar a célula abaixo:

In [None]:
%%bash
mimeopen -n teste.txt 

Agora, se você abrir o mesmo arquivo para escrita novamente e gravar alguns dados com o método `write()`, o novo conteúdo irá sobrescrever o primeiro. Veja:

In [None]:
f = open('teste.txt', 'w')

f.write('Gravando por cima... apagou tudo.\n')

f.close()

In [None]:
%%bash
mimeopen -n teste.txt 

## Escrevendo no final do arquivo

Em programas da vida real, quando queremos escrever em um arquivo, não queremos apagar o que está no arquivo, mas apenas acrescentar conteúdo no final. 

Para abrir um arquivo com essa finalidade, devemos usar o modo _append_, passando o caractere `'a'` como segundo argumento da função `open()`.

veja o exemplo:

In [None]:
f = open('teste.txt', 'a')

f.write('Essa segunda linha foi gravada sem apagar a primeira.\n')

f.close()

In [None]:
%%bash
mimeopen -n teste.txt 

## Fechando o arquivo automaticamente

Sempre que você abre um arquivo (digamos, com a linha `f = open(...)`), seja para leitura ou escrita, você deve fechá-lo com o comando `f.close()` após o términos das operações de entrada e saída. 

Existe uma estrutura na linguagem Python que permite o fechamento automático de arquivos. Veja o exemplo:

In [None]:
with open('teste.txt', 'a') as meu_arquivo:
    meu_arquivo.write('Esta terceira linha foi gravada sem apagar as primeiras.\n')
    meu_arquivo.write('Esta quarta linha também.\n')

A palavra-chave `with` permite que você faça manipulação do arquivo aberto dentro de um bloco de código (repare na indentação das linhas 2 e 3). Quando o bloco termina, o arquivo `meu_arquivo` é fechado automaticamente. Você pode usar qualquer outro nome de variável no lugar de `meu_arquivo`.

Veja como ficou o arquivo.

In [None]:
%%bash
mimeopen -n teste.txt 

Para poder fazer o exercício abaixo, é preciso que você se lembre de como usar a função `split()` para dividir um texto em uma lista de textos de acordo com um separador. 

No exemplo abaixo, o texto é quebrado toda vez que um ponto-e-vírgula for encontrado.

In [None]:
texto = "550;Fulano de Tal;(11) 934-328-232;fulano@gmail.com"
lista = texto.split(';')
print("A lista toda:")
print(lista)
print('O 2º elemento da lista:')
print(lista[1])

### Exercício <span class="exec"></span>

Faça um programa que é uma agenda de contatos. Quando executado, seu programa deve dar uma lista de opções ao usuário:

1. Novo contato
2. Mostrar contatos
3. Sair

Se o usuário selecionar a opção 1, então pergunte ao usuário pelos seguintes dados:

* Nome
* Telefone
* Email

e salve este novo contato no final arquivo `contatos.txt`. Cada contato deve corresponder a uma única linha do arquivo e deve possuir o seguinte formato:

    ID, Nome, Telefone, Email
    
O ID deve ser um identificador único daquele contato, que seu programa deve gerar automaticamente. Não se preocupe em evitar entradas duplicadas (mas os IDs devem ser todos diferentes!).

Se o usuário selecionar a opção 2, você deve mostrar todos os contatos armazenados. Cada entrada na agenda deve ser impressa na forma

       ID: {id do contato}
     Nome: {nome do contato}
     Tel.: {telefone do contato}
    Email: {email do contato}
    ---------------------------------
    
Por exemplo:

       ID: 550
     Nome: Fulano de Tal
     Tel.: (11) 934-328-232
    Email: fulano@gmail.com
    ---------------------------------

Após o término de cada operação seu programa deve voltar a exibir o menu de opções, até que o usuário selecione a opção `Sair`.

# Planilhas

Muitas vezes somos obrigados a trabalhar com planilhas e, nem sempre, os softwares de planilha se comportam da maneira que queremos. Em Python, podemos ler uma planilha que foi salva como um arquivo `.csv` e usar os dados dessa planilha como quisermos!

Para manipular arquivos no formato `.csv` existe um módulo de Python que nos será muito útil. Vamos começar aprendendo como ler um arquivo `.csv` e consultar suas entradas, linha a linha.

Baixe o arquivo `exemplo.csv` do nosso site e salve-o no mesmo diretório que este _notebook_.

Esse arquivo possui muitas entradas (é uma planilha com muitas linhas). Execute a célula a seguir para ver as primeiras 10 linhas desse arquivo.

In [None]:
%%bash
head -10 exemplo.csv

Veja que a primeira linha possui o cabeçalho (os nomes dos campos) e que as demais linhas são os dados propriamente ditos.

Na planilha do exemplo, o cabeçalho tem dois campos (ID Aluno e Nota). Cada uma das linhas seguinte tem dois números: um identificador numérico de aluno e sua nota (de 0 a 100).

In [None]:
import csv

f = open('exemplo.csv', newline='')
reader = csv.reader(f)
for row in reader:
    print(row)

f.close()

Repare que cada entrada da planilha ficou agrupada em um único texto. Isso aconteceu porque o delimitador padrão de campos é a vírgula (afinal csv são as iniciais da expressão _comma separated values_). Como o arquivo `exemplo.csv` usa ponto-e-vírgula para separar os campos, precisamos explicitar o delimitador manualmente. Veja:

In [None]:
import csv

with open('exemplo.csv', newline='') as f:
    reader = csv.reader(f, delimiter=';')
    for row in reader:
        print(row)


Vamos usar o módulo `matplotlib.pyplot` para fazer um histograma das notas, dividindo-as em 5 intervalos iguais. 

In [None]:
import csv

# lista com as notas está inicialmente vazia
notas = []

# abre o arquivo e acrescenta as notas na lista 
with open('exemplo.csv', newline='') as f:
    linhas = csv.reader(f, delimiter=';') 
    next(linhas, None)                       # <--- pula 1ª linha (pois é a linha dos cabeçalhos)
    for linha in linhas:
        notas.append(float(linha[1]))
        
print(notas)

Agora que temos as linhas com as notas, podemos fazer um histograma usando o `matplotlib`.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

num_intervalos = 5
plt.hist(notas, num_intervalos)
plt.title('Histograma das notas')

plt.show()

Para se fazer um histograma, as notas são agrupadas em faixas e, em seguida, conta-se quantas notas cairam em cada faixa. Cada barra do histograma corresponde a uma dessas faixas e sua altura é proporcional ao número de notas em cada faixa.

Note que, no histograma acima, não é muito fácil ver os limites de cada faixa. Isso aconteceu porque a função `hist()` não dividiu o intervalo de 0 a 100 em 5 faixas iguais, como esperávamos, mas dividiu um outro intervalo  em 5 faixas. 

Qual intervalo? 

O intervalo de números entre a nota mínima e a máxima da lista de `notas`.

In [None]:
min(notas)

In [None]:
max(notas)

Para forçar os limites do histograma a serem 0 e 100, podemos escolher as faixas explicitamente, usando o parâmetro `bins` da função `hist()` que plota histogramas.

Basta passarmos a lista de valores que limitam as faixas. Veja o exemplo:

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

num_intervalos = 5
plt.hist(notas, bins=[0, 20, 40, 60, 80, 100])
plt.title('Histograma das notas')

plt.show()


Podemos até ter faixas desiguais. Por exemplo, suponha que usamos a seguinte tabela para converter notas em conceitos:

| Conceito | Nota |
|:-------:|---------:|
| A    | de 85 a 100 |
| B  | de 70 a 84 |
| C  | de 55 a 69 |
| D  | de 45 a 54 |
| F  | até 44 | 

Para sabermos quantos alunos conseguiram cada conceito, podemos fazer o seguinte:

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

num_intervalos = 5
plt.hist(notas, bins=[0, 45, 55, 70, 85, 100])
plt.title('Histograma das notas')

plt.show()

Olhando para as 5 barras do gráfico acima, percebemos que, aproximadamente, 32 alunos ficaram com F, 10 com D, 20 com C, 15 com B e 11 com A.

### Exercício <span class="exec"></span>

Para este exercício, faça o _download_ da planilha `temperaturas.csv` e salve-a no mesmo diretório que este _notebook_. Essa planilha possui as temperaturas mínimas para cada dia de 2016 medidas numa estação meteorológica em Campos do Jordão.

Faça um programa que lê esse arquivo `.csv` e que gera um histograma dessas temperaturas. 

### Exercício <span class="exec"></span>

Usando a mesma planilha `temperaturas.csv`, você deve fazer um programa que lê essa planilha e que gera um gráfico com essas temperaturas, como estávamos acostumados a fazer na última unidade. O eixo x é o tempo (1 até 366, pois 2016 foi bissexto) e o eixo y são as temperaturas. Consulte o _notebook_ Graficos.ipynb se precisar relembrar da função `plot()` do módulo `matplotlib.pyplot`.

Se você quiser, pode deixar este exercício para casa.

## Exercícios para casa

Para que você possa fazer o exercício abaixo, precisamos ensinar algumas coisas bem simples de Python.

A primeira coisa é sobre procurar um texto dentro de outro. Em Python, podemos usar o operador `in` para verificar se um texto ocorre dentro de outro texto. Veja um exemplo:

In [None]:
"rato" in "Baratos"

In [None]:
"A" in "aa"

Repare que esse operador é _case sensitive_, o que quer dizer que letras maiúsculas e minúsculas são diferenciadas. Por isso, talvez você irá apreciar aprender o método `lower()`:

In [None]:
"LaTeX".lower()

In [None]:
nome = "Fulano"
print(nome.lower())

In [None]:
"A".lower() in "aa"

### Exercício <span class="exec"></span>

Modifique o programa da agenda de contatos para acrescentar as opções

1. Novo contato
2. Mostrar contatos
3. Buscar contato
4. Excluir contato
3. Sair

Agora, se o usuário selecionar a opção 3, você deve perguntar por um texto que será buscado e, em seguida, deverá imprimir todas as entradas do arquivo que possuem aquele texto em algum lugar na linha. Cada entrada que possui o texto buscado deve ser impressa do mesmo modo como foi feito na opção 2, isto é, na forma

       ID: {id do contato}
     Nome: {nome do contato}
     Tel.: {telefone do contato}
    Email: {email do contato}
    
Se o usuário escolher a opção 4 (excluir um contato), peça pelo ID do contato que será excluido e efetue a exclusão.

### Exercício <span class="exec"></span>

Na UFABC temos várias disciplinas que exigem conhecimento de programação. É muito comum que, nesse tipo de disciplina, o professor atribua listas de exercícios de programação. Exercício-programa é um exercício que o aluno precisa fazer um programa para resolver, como os que vocês têm feito neste curso.

O problema de mandar os alunos fazerem exercícios-programas é que a correção destes exercícios é uma tarefa extremamente penosa para o professor, pois cada aluno pode fazer o programa de um jeito diferente e o professor precisaria entender cada um deles para poder julgar se cada um está certo ou errado. Existem infinitas formas de se fazer um programa correto.

Hoje em dia existem sites que fazem correção automatizada de programas, como o site [URI Online Judge](https://www.urionlinejudge.com.br/) ou o [UVA Online Judge](https://uva.onlinejudge.org/). Esses sites possuem bancos de dados com milhares de problemas de programação, que cobrem conhecimentos de diversas áreas da Ciência da Computação. Lá os alunos podem submeter suas soluções (programas) em várias linguagens de programação. A plataforma recebe o programa-resposta que o usuário enviou e o submete a uma série de testes. Se o programa passar em todos os testes o aluno ganha o crédito por aquele problema, senão ele pode refazer e enviar novamente a (tentativa de) solução para correção, até acertar. 

Neste exercício, você deve resolver um problema concreto que os professores que utilizam o [URI Online Judge](https://www.urionlinejudge.com.br/) enfrentam. Eles precisam adicionar os alunos de suas turmas (reais) em turmas (virtuais) do URI Online Judge. Cada aluno possui um ID no URI. Na plataforma da URI, o professor pode criar uma turma virtual e adicionar seus alunos passando uma lista de IDs separados por ponto-e-vírgula. 

Na prática, o professor cria um formulário no Google Forms e pede para os alunos preencherem o formulário com seus dados: nome, número de matrícula na UFABC (o famoso RA), e o ID do URI. Depois que os alunos preenchem o formulário, os dados ficam salvos numa planilha. 

Neste exercício, você deve baixar a planilha `uri.csv` do nosso site e salvá-la no mesmo diretório que este _notebook_. Depois faça um programa que acessa essa planilha e extrai a lista de todos os IDs do URI. Finalmente, seu programa deve gravar num arquivo de nome `lista.txt` a lista de IDs em uma única linha, separados por ponto-e-vírgula (e sem nenhum espaço entre eles). Assim, para o professor adicionar esses alunos numa turma virtual do URI, basta ele abrir o arquivo `lista.txt` em um editor de texto, copiar todo o conteúdo do arquivo e colar na plataforma do _URI Online Judge_.

Boa sorte!

In [13]:
%%html
<style>
.rendered_html h1 {
    background-color: #555;
    color: white;
    padding: .5em;
    // border-bottom: 2px solid #000;
    // padding-bottom: .6em;
    margin-bottom: 1em;
}

.rendered_html h1 code {
    color: #EBB7C5;
    background-color: rgba(0,0,0,0);
}

.rendered_html h2 {
    border-bottom: 1px solid #333;
    padding-bottom: .6em;
}
                                      
.rendered_html h3 {
    color: #034f84;
}

.rendered_html code  {
    padding: 2px 4px;
    font-size: 90%;
    color: #c7254e;
    background-color: #f9f2f4;
    border-radius: 4px;
}

.rendered_html pre code {
    padding: 0px;
    font-size: 90%;
    color: #c7254e;
    background-color: rgba(0, 0, 0, 0);
}

kbd {
    border-radius: 3px;  
    padding: 2px, 3px;
}

body {
    counter-reset: h1counter excounter;
}
h1:before {
    content: counter(h1counter) ".\0000a0\0000a0";
    counter-increment: h1counter;
}
span.exec:before {
    content: counter(excounter);
    counter-increment: excounter;
}

</style>  