In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [2]:
from time import perf_counter
from random import shuffle

# Arquivos
Até aqui somente trabalhamos com dados presentes na memória principal, que se perdem assim que o programa termina ou é interrompido por qualquer razão.

Quando é preciso que os dados sejam armazenados de maneira mais persistente, nós os gravamos em arquivos na memória secundária, geralmente um disco magnético ou uma memória *flash*.

A biblioteca padrão de Python oferece um conjunto de funções destinadas à manipulação de arquivos. As funções mais relevantes desse grupo serão estudadas aqui.    

Para os exemplos, usaremos os arquivos de dados `mbox.txt` e `mbox-short.txt` que acompanham o livro *Python for Everybody: Exploring Data in Python 3* de Charles R Severance , publicado sob uma licença Creative Commons Non-Commercial ShareAlike 3.0.    
Esses arquivos estão no formato *Mbox* — o nome genérico de uma família de formatos de arquivos usados para armazenar coleções de mensagens de e-mail.

## Abertura de arquivos
Para que seja possível trabalhar com um arquivo, é preciso abri-lo. Para isso, chamamos a função `open` passando o *caminho* do arquivo e o *modo* de acesso desejados.    
Na sua forma mais simples, um caminho é dado apenas pelo *nome* do arquivo.    
O *modo* é uma *string*. Por exemplo, `'r'` para leitura, `'w'` para escrita.
Outros parâmetros de `open`, que estudaremos mais à frente, são opcionais e têm valores padrão.

Quando a chamada é bem sucedida, `open` retorna uma *alça* para o arquivo desejado.    
Uma *alça* é um objeto contendo, entre outros, dados de localização, acesso e controle do arquivo.   
A *alça* permite ou otimiza a implementação de utras funções e métodos, que estabelecem a funcionalidade desejada.

Por exemplo,...

In [3]:
arq = open('../data/mbox.txt')
print(arq)

<_io.TextIOWrapper name='../data/mbox.txt' mode='r' encoding='UTF-8'>


Neste exemplo, vemos que a *alça* retornada por `open` inclui, além do nome do arquivo, `mode` e `encoding` que foram inicializados com valores padrão.

Quando o arquivo não existe, `open` gera uma exceção. Por exemplo,...

In [27]:
arq = open('../data/stuff.txt')
print(arq)

FileNotFoundError: [Errno 2] No such file or directory: '../data/stuff.txt'

Mais à frente, usaremos o par `try ... except` e o comando `with` para tratar esse problema de forma mais simples e efetiva.

Ao final da operação, todo arquivo deve ser *fechado*.    
Fazemos isso usando o método `close`.

In [5]:
arq = open('../data/mbox.txt')
print(f'File: {arq.name}  closed? {arq.closed}')
arq.close()
print(f'File: {arq.name}  closed? {arq.closed}')

File: ../data/mbox.txt  closed? False
File: ../data/mbox.txt  closed? True


## Arquivos de texto
Arquivos de texto são sequências de linhas.    
Uma linha é uma sequência de caracteres (*string*) terminada por um caractere *nova linha*.   
O caractere *nova linha* aparece na posição 10 da tabela ASCII e é representado graficamente por dois símbolos: o caractere de *escape* (`\`) e `n`.   
Quando uma cadeia que contém `'\n'` é exibida, ela sofre uma quebra na posição em que esse caractere se encontra.

In [6]:
texto = 'Hello\nWorld!'
print(texto)

Hello
World!


In [7]:
texto = 'H\nW'
print(texto, '\n', len(texto))

H
W 
 3


Neste exemplo, o caractere `'\n'` entre o `H` e o `W` provoca a primeira quebra de linha aa saída. Em seguida, o caractere `\n` colocado na lista do `print` provoca uma nova quebra de linha após o `W`. Finalmente, é exibido o comprimento da cadeia `texto` para mostrar que `'\n'` conta mesmo como *um* caractere. Note que o *espaço* automaticamente inserido entre itens da lista do `print` desloca o `3` uma posição para a direita.

Por ser uma sequência, um arquivo pode ser usado como um objeto iterável num *loop* `for` ou `while`.

In [8]:
arq = open('../data/drinks.csv')
núm_linhas = 0
for linha in arq:
    núm_linhas += 1
print('Número de linhas :', núm_linhas)
arq.close()

Número de linhas : 194


### Leitura de arquivos de texto
Desde que o arquivo caiba na memória, é possível lê-lo todo de uma vez, como uma única *string*.

In [9]:
arq = open('../data/drinks.csv')
texto = arq.read()
print('Arquivo:', arq.name)
print('Numero de caracteres:', len(texto))
print('80 primeiros caracteres:', repr(texto[:80]))
print('Número de linhas:', texto.count('\n'))
arq.close()

Arquivo: ../data/drinks.csv
Numero de caracteres: 4384
80 primeiros caracteres: 'country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol'
Número de linhas: 194


O método `readline()` permite ler uma linha do arquivo ou parte dela...

In [10]:
arq = open('../data/drinks.csv')
linha = arq.readline()
print(linha)
arq.close()

country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol



In [11]:
arq = open('../data/drinks.csv')
linha = arq.readline(40)
print(linha)
arq.close()

country,beer_servings,spirit_servings,wi


O método `readlines()` lê todas as linhas do arquivo (ou um certo número delas até um limite de caracteres) e cria uma lista com elas...

In [12]:
import pprint
pp = pprint.PrettyPrinter()

arq = open('../data/drinks.csv')
linhas = arq.readlines()
pp.pprint(linhas[:6])
arq.close()

['country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol\n',
 'Afghanistan,0,0,0,0.0\n',
 'Albania,89,132,54,4.9\n',
 'Algeria,25,0,14,0.7\n',
 'Andorra,245,138,312,12.4\n',
 'Angola,217,57,45,5.9\n']


In [13]:
import pprint
pp = pprint.PrettyPrinter()

arq = open('../data/drinks.csv')
linhas = arq.readlines(180)
pp.pprint(linhas)
arq.close()

['country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol\n',
 'Afghanistan,0,0,0,0.0\n',
 'Albania,89,132,54,4.9\n',
 'Algeria,25,0,14,0.7\n',
 'Andorra,245,138,312,12.4\n',
 'Angola,217,57,45,5.9\n']


### Escrita de arquivos de texto
Para podermos escrever num arquivo ele deve ser aberto, por exemplo, no modo `'w'`.    
Se o arquivo já existir, ele será sobrescrito e o conteúdo anterior se perderá; caso contrário, ele será criado.   

Uma vez que o arquivo esteja aberto, podemos acrescentar linhas a ele usando o método `write()`.   
É preciso lembrar de acrescentar o caractere `'\n'` ao final da linha porque ele não é colocado automaticamente como acontece em `print`. 

Por exemplo...

In [28]:
arq = open('../data/linhas.txt', 'w')
for i in range(5):
    linha = 'Esta é a linha ' + str(i + 1) + '.'
    x = arq.write(linha + '\n')
arq.close()

In [15]:
arq = open('../data/linhas.txt')
for linha in arq:
    print(linha.rstrip())
arq.close()

Esta é a linha 1.
Esta é a linha 2.
Esta é a linha 3.
Esta é a linha 4.
Esta é a linha 5.


## O comando `with`
`with` é um gerente de contextos, responsável por automatizar parte dos processos que precedem e sucedem algumas tarefas, como, por exemplo, o fechamento de arquivos.   
Isto garante que os arquivos abertos serão fechados caso uma exceção interrompa a execução do programa.

Por exemplo, é possível fazer... (note que os dois `print`s foram colocados apenas para deixar mais claro o funcionamento do `with` e não fazem parte de uma implementação normal...)

In [16]:
with open('../data/linhas.txt', 'w') as arq:
    print(f'{arq.name} closed? {arq.closed}')
    for i in range(5):
        linha = 'Esta é a linha ' + str(i + 1) + '.'
        arq.write(linha + '\n')
print(f'{arq.name} closed? {arq.closed}')

../data/linhas.txt closed? False


18

18

18

18

18

../data/linhas.txt closed? True


In [17]:
with open('../data/linhas.txt') as arq:
    print(f'{arq.name} closed? {arq.closed}')
    for linha in arq:
        print(linha.rstrip())
print(f'{arq.name} closed? {arq.closed}')

../data/linhas.txt closed? False
Esta é a linha 1.
Esta é a linha 2.
Esta é a linha 3.
Esta é a linha 4.
Esta é a linha 5.
../data/linhas.txt closed? True


## Buscas em arquivos
Uma operação comum em arquivos de texto é procurar linhas que satisfaçam determinados critérios.    

### Exemplo 1
O arquivo `drinks.csv` é um arquivo de dados separados por vírgulas, um formato comum para representação de `datasets` de forma independente de máquina.

A primeira linha de um arquivo `csv` descreve o conteúdo de cada linha do arquivo.   
As demais linhas contêm os dados propriamente ditos.

Vamos ler `drinks.csv` e mostrar os países com consumo anual de álcool superior a 10 l/habitante.

In [18]:
with open('../data/drinks.csv') as drinks:
    drinks.readline()
    print(f"{'País':16} {'Cerveja':>8} {'Uísque':>8} {'Vinho':>8} {'Álcool':>8}")
    for linha in drinks:
        descrs = linha.rstrip().split(',')
        if float(descrs[4]) > 10.0:
            print(f'{descrs[0][:16]:16} {descrs[1]:>8} {descrs[2]:>8} {descrs[3]:>8} {descrs[4]:>8}')

'country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol\n'

País              Cerveja   Uísque    Vinho   Álcool
Andorra               245      138      312     12.4
Australia             261       72      212     10.4
Belarus               142      373       42     14.4
Belgium               295       84      212     10.5
Bulgaria              231      252       94     10.3
Croatia               230       87      254     10.2
Czech Republic        361      170      134     11.8
Denmark               224       81      278     10.4
France                127      151      370     11.8
Germany               346      117      175     11.3
Grenada               199      438       28     11.9
Hungary               234      215      185     11.3
Ireland               313      118      165     11.4
Latvia                281      216       62     10.5
Lithuania             343      244       56     12.9
Luxembourg            236      133      271     11.4
Poland                343      215       56     10.9
Portugal              194       67      339   

### Exemplo
Os arquivos `mbox.txt` e `mbox-short.txt` contêm muitas mensagens de e-mail.   
Por exemplo, estas são as primeiras linhas do arquivo `mbox-short.txt`:
```
From stephen.marquard@uct.ac.za Sat Jan  5 09:14:16 2008
Return-Path: <postmaster@collab.sakaiproject.org>
Received: from murder (mail.umich.edu [141.211.14.90])
	 by frankenstein.mail.umich.edu (Cyrus v2.3.8) with LMTPA;
	 Sat, 05 Jan 2008 09:14:16 -0500
X-Sieve: CMU Sieve 2.3
Received: from murder ([unix socket])
	 by mail.umich.edu (Cyrus v2.2.12) with LMTPA;
	 Sat, 05 Jan 2008 09:14:16 -0500
Received: from holes.mr.itd.umich.edu (holes.mr.itd.umich.edu [141.211.14.79])
```

Nesse arquivo, a primeira linha de uma mensagem sempre começa por `From:`.    
Quantas mensagens há no arquivo?

In [19]:
arq = open('../data/mbox.txt')
núm_emails = 0
for linha in arq:
    if linha.startswith('From:'):
        núm_emails += 1
print(f"Há {núm_emails} linhas que começam por 'From:'")
arq.close()

Há 1797 linhas que começam por 'From:'


In [20]:
arq = open('../data/mbox.txt')
núm_emails = 0
for linha in arq:
    if linha.startswith('From:'):
        núm_emails += 1
        if núm_emails % 200 == 1:
            print(f'{núm_emails:4} {linha}')
print(f'{núm_emails:4}')
arq.close()

   1 From: stephen.marquard@uct.ac.za

 201 From: cwen@iupui.edu

 401 From: gjthomas@iupui.edu

 601 From: jimeng@umich.edu

 801 From: aaronz@vt.edu

1001 From: ian@caret.cam.ac.uk

1201 From: david.horwitz@uct.ac.za

1401 From: mmmay@indiana.edu

1601 From: mmmay@indiana.edu

1797


Por que as linhas estão com espaçamento duplo?

Porque já vêm do arquivo com um `'\n'` no final e, depois, `print` acrescenta mais um...

Para evitar esse inconveniente, aplicamos o método `rstrip()` à `linha`, que remove *espaços em branco* do final da cadeia.   
Lembre-se de que `'\n'` é considerado *espaço em branco*.

In [21]:
arq = open('../data/mbox.txt')
núm_emails = 0
for linha in arq:
    if linha.startswith('From:'):
        núm_emails += 1
        if núm_emails % 200 == 1:
            print(f'{núm_emails:4} {linha.rstrip()}')
print(f'{núm_emails:4}')
arq.close()

   1 From: stephen.marquard@uct.ac.za
 201 From: cwen@iupui.edu
 401 From: gjthomas@iupui.edu
 601 From: jimeng@umich.edu
 801 From: aaronz@vt.edu
1001 From: ian@caret.cam.ac.uk
1201 From: david.horwitz@uct.ac.za
1401 From: mmmay@indiana.edu
1601 From: mmmay@indiana.edu
1797


Um outro jeito de separar os endereços de email...

In [22]:
arq = open('../data/mbox.txt')
núm_emails = 0
for linha in arq:
    linha = linha.rstrip()
    if linha.startswith('From:'):
        núm_emails += 1
        if núm_emails % 200 == 1:
            palavras = linha.split()
            print(f'{núm_emails:6}  {palavras[1]}')
print(f'{núm_emails:6}')

     1  stephen.marquard@uct.ac.za
   201  cwen@iupui.edu
   401  gjthomas@iupui.edu
   601  jimeng@umich.edu
   801  aaronz@vt.edu
  1001  ian@caret.cam.ac.uk
  1201  david.horwitz@uct.ac.za
  1401  mmmay@indiana.edu
  1601  mmmay@indiana.edu
  1797


E se quiséssemos saber quantos foram os remetentes distintos?

Basta criar um conjunto ou um dicionário, que são estruturas cujos elementos são sempre distintos. 

In [23]:
arq = open('../data/mbox.txt')

remetentes = set()
for linha in arq:
    if linha.startswith('From:'):
        remetentes.add(linha.split()[1])

i = 0
for remetente in sorted(remetentes):
    i += 1
    print(f'{i:3} {remetente}')
arq.close()

  1 a.fish@lancaster.ac.uk
  2 aaronz@vt.edu
  3 ajpoland@iupui.edu
  4 antranig@caret.cam.ac.uk
  5 arwhyte@umich.edu
  6 bahollad@indiana.edu
  7 bkirschn@umich.edu
  8 chmaurer@iupui.edu
  9 colin.clark@utoronto.ca
 10 csev@umich.edu
 11 cwen@iupui.edu
 12 david.horwitz@uct.ac.za
 13 dlhaines@umich.edu
 14 gbhatnag@umich.edu
 15 ggolden@umich.edu
 16 gjthomas@iupui.edu
 17 gopal.ramasammycook@gmail.com
 18 gsilver@umich.edu
 19 hu2@iupui.edu
 20 ian@caret.cam.ac.uk
 21 jimeng@umich.edu
 22 jleasia@umich.edu
 23 jlrenfro@ucdavis.edu
 24 john.ellis@rsmart.com
 25 josrodri@iupui.edu
 26 jzaremba@unicon.net
 27 kimsooil@bu.edu
 28 knoop@umich.edu
 29 ktsao@stanford.edu
 30 lance@indiana.edu
 31 louis@media.berkeley.edu
 32 mbreuker@loi.nl
 33 mmmay@indiana.edu
 34 nuno@ufp.pt
 35 ostermmg@whitman.edu
 36 ray@media.berkeley.edu
 37 rjlowe@iupui.edu
 38 sgithens@caret.cam.ac.uk
 39 ssmail@indiana.edu
 40 stephen.marquard@uct.ac.za
 41 stuart.freeman@et.gatech.edu
 42 thoppaymallika@fhda.e

E se quisermos apenas os remetentes distintos com domínio `@umich.edu`?

In [24]:
arq = open('../data/mbox.txt')

remetentes = set()
for linha in arq:
    if (linha.startswith('From:')
        and linha.find('@umich.edu') != -1):
        remetentes.add(linha.split()[1])

i = 0
for remetente in sorted(remetentes):
    i += 1
    print(f'{i:3} {remetente}')
arq.close()

  1 arwhyte@umich.edu
  2 bkirschn@umich.edu
  3 csev@umich.edu
  4 dlhaines@umich.edu
  5 gbhatnag@umich.edu
  6 ggolden@umich.edu
  7 gsilver@umich.edu
  8 jimeng@umich.edu
  9 jleasia@umich.edu
 10 knoop@umich.edu
 11 zqian@umich.edu


Nesse arquivo, nem todos os endereços de email são de remententes.    
E se quiséssemos conhecer todos eles?

Precisaríamos localizá-los em cada uma das linhas do arquivo.   
Para isso vamos criar uma *expressão regular* que defina um endereço de email válido e usá-la como argumento numa chamada da função `search()`.

Se o arquivo pudesse conter mais de um endereço de email na mesma linha, deveríamos usar `findall` e não `search`.

In [25]:
import re
email_regex = r"([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)$"

arq = open('../data/mbox.txt')
seq = 0
for linha in arq:
    endereço = re.search(email_regex, linha, re.I)
    if endereço:
        seq += 1
        if seq % 500 == 1:
            print(f'{seq:4} {endereço.group(1)}')
print(f'{seq:4}')
arq.close()

   1 source@collab.sakaiproject.org
 501 david.horwitz@uct.ac.za
1001 cwen@iupui.edu
1501 source@collab.sakaiproject.org
2001 zqian@umich.edu
2501 source@collab.sakaiproject.org
3001 ian@caret.cam.ac.uk
3501 jimeng@umich.edu
4001 source@collab.sakaiproject.org
4501 sgithens@caret.cam.ac.uk
5001 zqian@umich.edu
5392


Novamente, se quisermos endereços únicos precisaremos reuni-los em um conjunto ou dicionário, que são estruturas sem elementos repetidos.

In [26]:
import re
email_regex = r"([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)$"

arq = open('../data/mbox.txt')
endereços = set()
for linha in arq:
    endereço = re.search(email_regex, linha, re.I)
    if endereço:
        endereços.add(endereço.group(1))
        
seq = 0
for endereço in sorted(endereços):
    seq += 1
    if seq % 5 == 1:
        print(f'{seq:4} {endereço}')
print(f'{seq:4}')
arq.close()

   1 a.fish@lancaster.ac.uk
   6 bahollad@indiana.edu
  11 cwen@iupui.edu
  16 gjthomas@iupui.edu
  21 jimeng@umich.edu
  26 jzaremba@unicon.net
  31 louis@media.berkeley.edu
  36 ray@media.berkeley.edu
  41 stephen.marquard@uct.ac.za
  46 zach.thomas@txstate.edu
  47
