<div style="text-align: center"> <h2> 
Arquivos
    </h2> </div>

Vamos apresentar a ideia de programas “persistentes”, que mantêm dados em
armazenamento permanente, e mostra como usar tipos diferentes de armazenamento
permanente, como arquivos e bancos de dados.

<div style="text-align: center"> <h2> 
Persistência
    </h2> </div>

A maioria dos programas que vimos até agora são transitórios, porque são executados por
algum tempo e produzem alguma saída, mas, quando terminam, seus dados desaparecem.
Se executar o programa novamente, ele começa novamente do zero.

Outros programas são persistentes: rodam por muito tempo (ou todo o tempo); mantêm
pelo menos alguns dos seus dados em armazenamento permanente (uma unidade de disco
rígido, por exemplo); e se são desligados e reiniciados, continuam de onde pararam.

Exemplos de programas persistentes são sistemas operacionais, que rodam praticamente
durante todo o tempo em que um computador está ligado, e servidores web, que rodam
todo o tempo, esperando pedidos de entrada na rede.

Uma das formas mais simples para programas manterem seus dados é lendo e escrevendo
arquivos de texto. Já vimos programas que leem arquivos de texto; neste capítulo veremos
programas que os escrevem.

Uma alternativa é armazenar o estado do programa em um banco de dados. Neste capítulo
apresentarei um banco de dados simples e um módulo, pickle, que facilita o
armazenamento de dados de programas.

<div style="text-align: center"> <h2> 
Leitura e escrita
    </h2> </div>

Um arquivo de texto é uma sequência de caracteres armazenados em um meio permanente
como uma unidade de disco rígido, pendrive ou CD-ROM. 

In [1]:
"""Para escrever um arquivo texto, é preciso abri-lo com o modo 'w' como segundo
parâmetro:"""

fout = open('output.txt', 'w')

Se o arquivo já existe, abri-lo em modo de escrita elimina os dados antigos e começa tudo
de novo, então tenha cuidado! Se o arquivo não existir, é criado um arquivo novo.

In [2]:
"""open retorna um objeto de arquivo que fornece métodos para trabalhar com o arquivo. O
método write põe dados no arquivo:"""

line1 = "Aqui está p água, \n"
fout.write(line1)

19

In [3]:
"""O valor devolvido é o número de caracteres que foram escritos. O objeto de arquivo
monitora a posição em que está, então se você chamar write novamente, os novos dados
são acrescentados ao fim do arquivo:"""
line2 = "O emblema da sua terra. \n"
fout.write(line2)

25

In [4]:
"""Ao terminar de escrever, você deve fechar o arquivo:"""
fout.close()

Se não fechar o arquivo, ele é fechado para você quando o programa termina.

<div style="text-align: center"> <h2> 
Operador de formatação
    </h2> </div>

In [5]:
"""O argumento de write tem que ser uma string, então, se quisermos inserir outros valores
em um arquivo, precisamos convertê-los em strings. O modo mais fácil de fazer isso é
com str:"""
x = 52
fout.write(str(x))

ValueError: I/O operation on closed file.

Uma alternativa é usar o operador de formatação, %. Quando aplicado a números inteiros,
% é o operador de módulo. No entanto, quando o primeiro operando é uma string, % é o
operador de formatação.

O primeiro operando é a string de formatação, que contém uma ou várias sequências de
formatação que especificam como o segundo operando deve ser formatado. O resultado é
uma string.

In [6]:
"""Por exemplo, a sequência de formatação ‘%d’ significa que o segundo operando deve ser
formatado como um número inteiro decimal:"""
camels = 42
'%d'% camels

'42'

O resultado é a string '42', que não deve ser confundida com o valor inteiro 42.

In [7]:
"""Uma sequência de formatação pode aparecer em qualquer lugar na string, então você pode
embutir um valor em uma sentença:"""
'I have spotted %d camels.' % camels

'I have spotted 42 camels.'

Se houver mais de uma sequência de formatação na string, o segundo argumento tem que
ser uma tupla. Cada sequência de formatação é combinada com um elemento da tupla,
nesta ordem.

In [8]:
"""O seguinte exemplo usa '%d' para formatar um número inteiro, '%g' para formatar um
número de ponto flutuante e '%s' para formatar qualquer objeto como uma string:"""
'In %d years I have spotted %g %s.' % (3, 0.1, 'camels')

'In 3 years I have spotted 0.1 camels.'

In [9]:
"""O número de elementos na tupla tem de corresponder ao número de sequências de
formatação na string. Além disso, os tipos dos elementos têm de corresponder às
sequências de formatação:"""

'%d %d %d' % (1, 2)

TypeError: not enough arguments for format string

In [10]:
'%d' % 'dollars'

TypeError: %d format: a number is required, not str

No primeiro exemplo não há elementos suficientes; no segundo, o elemento é do tipo
incorreto.

<div style="text-align: center"> <h2> 
Nomes de arquivo e caminhos
    </h2> </div>

Os arquivos são organizados em diretórios (também chamados de “pastas”). Cada
programa em execução tem um “diretório atual”, que é o diretório-padrão da maior parte
das operações. Por exemplo, quando você abre um arquivo de leitura, Python o procura no
diretório atual.

In [11]:
"""O módulo os fornece funções para trabalhar com arquivos e diretórios (“os” é a
abreviação de “sistema operacional” em inglês). os.getcwd devolve o nome do diretório
atual:"""

import os
cwb = os.getcwd()
cwb

'C:\\Users\\rafae\\Documents\\Python Scripts\\Repositorio_GitHub\\Python_Basics\\Class-Jupyter'

cwd é a abreviação de “diretório de trabalho atual” em inglês. O resultado neste exemplo é
\Users\\rafae\\Documents\\Python Scripts\\Repositorio_GitHub\\Python_Basics\\Class-Jupyter', que é o diretório-padrão de um usuário chamado “Class-Jupyter”.

Uma string como '\Python_Basics\Class-Jupyter', que identifica um arquivo ou diretório, é chamada
de caminho (path).

Um nome de arquivo simples, como words.txt, também é considerado um caminho, mas é
um caminho relativo, porque se relaciona ao diretório atual. Se o diretório atual é
Python_Basics\\Class-Jupyter, o nome de arquivo words.txt se referiria a Python_Basics\\Class-Jupyter\\words.txt.

In [15]:
"""Um caminho que começa com / não depende do diretório atual; isso é chamado de
caminho absoluto. Para encontrar o caminho absoluto para um arquivo, você pode usar
os.path.abspath:"""
os.path.abspath('words.txt')

'C:\\Users\\rafae\\Documents\\Python Scripts\\Repositorio_GitHub\\Python_Basics\\Class-Jupyter\\words.txt'

In [16]:
"""os.path fornece outras funções para trabalhar com nomes de arquivo e caminhos. Por
exemplo, os.path.exists que verifica se um arquivo ou diretório existe:"""
os.path.exists('words.txt')

True

In [17]:
"""Se existir, os.path.isdir verifica se é um diretório:"""
os.path.isdir('words.txt')

False

In [20]:
os.path.isdir('C:\\Users\\rafae\\Documents\\Python Scripts\\Repositorio_GitHub\\Python_Basics\\Class-Jupyter')

True

In [21]:
"""De forma similar, os.path.isfile verifica se é um arquivo.
os.listdir retorna uma lista dos arquivos (e outros diretórios) no diretório dado:"""

os.listdir(cwb)

['.ipynb_checkpoints',
 '01_Jornada_do_Programador.ipynb',
 '02_Variáveis_Expressões_e_Instruções.ipynb',
 '03_Funções.ipynb',
 '04_Projeto_de_Interface.ipynb',
 '05_Condicionais_e_Recursividade.ipynb',
 '06_Funções_com_resultado.ipynb',
 '07_Iteração.ipynb',
 '08_Strings.ipynb',
 '09_Estudo_de_caso_jogos_de_palavras.ipynb',
 '10_Listas.ipynb',
 '11_Dicionários.ipynb',
 '12_Tuplas.ipynb',
 '13_Arquivos.ipynb',
 'output.txt',
 'script_test.ipynb',
 'script_test.py',
 'words.txt']

<div style="text-align: center"> <h2> 
Captura de exceções
    </h2> </div>

Muitas coisas podem dar errado quando você tenta ler e escrever arquivos. Se tentar abrir
um arquivo que não existe, você recebe um IOError:

In [22]:
fin = open('bad_file')

FileNotFoundError: [Errno 2] No such file or directory: 'bad_file'

In [25]:
"""Se não tiver permissão para acessar um arquivo:
fout = open('/etc/passwd', 'w')"""

print('PermissionError: [Errno 13] Permission denied: /etc/passwd')

PermissionError: [Errno 13] Permission denied: /etc/passwd


In [27]:
"""E se tentar abrir um diretório para leitura, recebe
fin = open('/home')"""

print('IsADirectoryError: [Errno 21] Is a directory: /home')

IsADirectoryError: [Errno 21] Is a directory: /home


Para evitar esses erros, você pode usar funções como os.path.exists e os.path.isfile,
mas levaria muito tempo e código para verificar todas as possibilidades (se “Errno 21”
significa algo, pode ser que pelo menos 21 coisas podem dar errado).

In [28]:
"""É melhor ir em frente e tentar, e lidar com problemas se eles surgirem, que é exatamente o
que a instrução try faz. A sintaxe é semelhante à da instrução if…else:
"""
try:
    fin = open('bad_file')
except:
    print('Something went wrong.')

Something went wrong.


O Python começa executando a cláusula try. Se tudo for bem, ele ignora a cláusula
except e prossegue. Se ocorrer uma exceção, o programa sai da cláusula try e executa a
cláusula except.

Lidar com exceções usando uma instrução try chama-se capturar uma exceção. Neste
exemplo, a cláusula except exibe uma mensagem de erro que não é muito útil. Em geral, a
captura de uma exceção oferece a oportunidade de corrigir o problema ou tentar
novamente, ou, ao menos, de terminar o programa adequadamente.

<div style="text-align: center"> <h2> 
Bancos de dados
    </h2> </div>

Um banco de dados é um arquivo organizado para armazenar dados. Muitos bancos de
dados são organizados como um dicionário, porque mapeiam chaves a valores. A maior
diferença entre um banco de dados e um dicionário é que o banco de dados está em um
disco (ou outro armazenamento permanente), portanto persiste depois que o programa
termina.

In [30]:
"""O módulo dbm fornece uma interface para criar e atualizar arquivos de banco de dados.
Como exemplo, criarei um banco de dados que contém legendas de arquivos de imagem.
Abrir um banco de dados é semelhante à abertura de outros arquivos:"""
import dbm
db = dbm.open('captions', 'c')

In [31]:
"""O modo ‘c’ significa que o banco de dados deve ser criado, se ainda não existir. O
resultado é um objeto de banco de dados que pode ser usado (para a maior parte das
operações) como um dicionário.
Quando você cria um novo item, dbm atualiza o arquivo de banco de dados:"""
db['cleese.png'] = 'Photo of John Cleese.'

In [32]:
"""Quando você acessa um dos itens, dbm lê o arquivo:"""
db['cleese.png']

b'Photo of John Cleese.'

O resultado é um objeto bytes, o que explica o prefixo b. Um objeto bytes é semelhante a
uma string, em muitos aspectos. Quando você avançar no Python, a diferença se tornará
importante, mas, por enquanto, podemos ignorá-la.

In [35]:
"""Se fizer outra atribuição a uma chave existente, o dbm substitui o valor antigo:"""
db['cleese.png'] = 'Photo of John Cleese doing a silly walk.'
db['cleese.png']

b'Photo of John Cleese doing a silly walk.'

In [36]:
"""Alguns métodos de dicionário, como keys e items, não funcionam com objetos de banco
de dados. No entanto, a iteração com um loop for, sim:"""
for key in db:
    print(key, db[key])

b'cleese.png' b'Photo of John Cleese doing a silly walk.'


In [37]:
"""Como em outros arquivos, você deve fechar o banco de dados quando terminar:"""
db.close()

<div style="text-align: center"> <h2> 
Usando o Pickle
    </h2> </div>

Uma limitação de dbm é que as chaves e os valores têm que ser strings ou bytes. Se tentar
usar algum outro tipo, vai receber um erro.
O módulo pickle pode ajudar. Ele traduz quase qualquer tipo de objeto em uma string
conveniente para o armazenamento em um banco de dados, e então traduz strings de volta
em objetos.

In [38]:
"""pickle.dumps recebe um objeto como parâmetro e retorna uma representação de string:"""
import pickle
t = [1,2,3]
pickle.dumps(t)

b'\x80\x04\x95\x0b\x00\x00\x00\x00\x00\x00\x00]\x94(K\x01K\x02K\x03e.'

In [39]:
"""O formato não é óbvio para leitores humanos; o objetivo é que seja fácil para o pickle
interpretar. pickle.loads reconstitui o objeto:"""
t1 = [1,2,3]
s = pickle.dumps(t1)
t2 = pickle.loads(s)
t2

[1, 2, 3]

In [40]:
"""Embora o novo objeto tenha o mesmo valor que o antigo, não é (em geral) o mesmo
objeto:"""
t1 == t2

True

In [41]:
t1 is t2

False

Em outras palavras, usar o pickle.dumps e pickle.loads tem o mesmo efeito que copiar
o objeto.
Você pode usar o pickle para guardar variáveis que não são strings em um banco de
dados. Na verdade, esta combinação é tão comum que foi encapsulada em um módulo
chamado shelve.

<div style="text-align: center"> <h2> 
Pipes
    </h2> </div>

A maior parte dos sistemas operacionais fornece uma interface de linha de comando,
conhecida como shell. Shells normalmente fornecem comandos para navegar nos sistemas
de arquivos e executar programas. Por exemplo, em Unix você pode alterar diretórios com
cd, exibir o conteúdo de um diretório com ls e abrir um navegador web digitando (por
exemplo) firefox.

Qualquer programa que possa ser aberto no shell também pode ser aberto no Python
usando um objeto pipe, que representa um programa em execução.

In [43]:
"""Por exemplo, o comando Unix ls -l normalmente exibe o conteúdo do diretório atual no
formato longo. Você pode abrir ls com os.popen[1]:"""
cmd = 'ls -1'
fp = os.popen(cmd)

In [44]:
"""O argumento é uma string que contém um comando shell. O valor de retorno é um objeto
que se comporta como um arquivo aberto. É possível ler a saída do processo ls uma linha
por vez com readline ou receber tudo de uma vez com read:"""
res = fp.read()

In [45]:
"""Ao terminar, feche o pipe como se fosse um arquivo:"""
stat = fp.close()
print(stat)

1


O valor de retorno é o status final do processo ls; None significa que terminou
normalmente (sem erros).

Por exemplo, a maior parte dos sistemas Unix oferece um comando chamado md5sum, que
lê o conteúdo de um arquivo e calcula uma assinatura digital. Você pode ler sobre o MD5
em http://en.wikipedia.org/wiki/Md5. Este comando fornece uma forma eficiente de
verificar se dois arquivos têm o mesmo conteúdo. A probabilidade de dois conteúdos
diferentes produzirem a mesma assinatura digital é muito pequena (isto é, muito pouco
provável que aconteça antes do colapso do universo).

In [46]:
"""Você pode usar um pipe para executar o md5sum do Python e receber o resultado:"""
filename = 'book.tex'
cmd = 'md5sum ' + filename
fp = os.popen(cmd)
res = fp.read()
stat = fp.close()
print(res)




In [47]:
print(stat)

1


<div style="text-align: center"> <h2> 
Escrevendo módulos
    </h2> </div>

In [48]:
"""Qualquer arquivo que contenha código do Python pode ser importado como um módulo.
Por exemplo, vamos supor que você tenha um arquivo chamado wc.py com o seguinte
código:"""
def linecount(filename):
    count = 0
    for line in open(filename):
        count += 1
    return count
print(linecount('wc.py'))

FileNotFoundError: [Errno 2] No such file or directory: 'wc.py'

In [49]:
"""Quando este programa é executado, ele lê a si mesmo e exibe o número de linhas no
arquivo, que é 7. Você também pode importá-lo desta forma:"""
import wc

ModuleNotFoundError: No module named 'wc'

In [50]:
"""Agora você tem um objeto de módulo wc:"""
wc

NameError: name 'wc' is not defined

In [51]:
"""O objeto de módulo fornece o linecount:"""
wc.linecount('wc.py')

NameError: name 'wc' is not defined

Então é assim que se escreve módulos no Python.

O único problema com este exemplo é que quando você importa o módulo, ele executa o
código de teste no final. Normalmente, quando se importa um módulo, ele define novas
funções, mas não as executa.

In [52]:
"""Os programas que serão importados como módulos muitas vezes usam a seguinte
expressão:"""
if __name__ == '__main__':
    print(linecount('wc.py'))

FileNotFoundError: [Errno 2] No such file or directory: 'wc.py'

<div>__name__ é uma variável integrada, estabelecida quando o programa inicia. Se o programa
estiver rodando como um script, __name__ tem o valor '__main__'; neste caso, o código
de teste é executado. Do contrário, se o módulo está sendo importado, o código de teste é
ignorado.
Como exercício, digite este exemplo em um arquivo chamado wc.py e execute-o como um
script. Então execute o interpretador do Python e import wc. Qual é o valor de __name__
quando o módulo está sendo importado?
Atenção: se você importar um módulo que já tenha sido importado, o Python não faz nada.
Ele não relê o arquivo, mesmo se tiver sido alterado.
Se quiser recarregar um módulo, você pode usar a função integrada reload, mas isso pode
causar problemas, então o mais seguro é reiniciar o interpretador e importar o módulo
novamente.</div>

<div style="text-align: center"> <h2> 
Depuração
    </h2> </div>

In [53]:
"""Quando estiver lendo e escrevendo arquivos, você pode ter problemas com whitespace.
Esses erros podem ser difíceis para depurar, porque os espaços, tabulações e quebras de
linha normalmente são invisíveis:"""
s = '1 2\t 3\n 4'
print(s)

1 2	 3
 4


In [54]:
"""A função integrada repr pode ajudar. Ela recebe qualquer objeto como argumento e
retorna uma representação em string do objeto. Para strings, representa caracteres de
whitespace com sequências de barras invertidas:"""
print(repr(s))

'1 2\t 3\n 4'


Isso pode ser útil para a depuração.

Outro problema que você pode ter é que sistemas diferentes usam caracteres diferentes
para indicar o fim de uma linha. Alguns sistemas usam newline, representado por \n.
Outros usam um caractere de retorno, representado por \r. Alguns usam ambos. Se mover
arquivos entre sistemas diferentes, essas inconsistências podem causar problemas.

Para a maior parte dos sistemas há aplicações para converter de um formato a outro. Você
pode encontrá-los (e ler mais sobre o assunto) em http://en.wikipedia.org/wiki/Newline.
Ou, é claro, você pode escrever um por conta própria.