<h1 align=center>Capítulo 5</h1>
<h2 align=center>Arquivos e I/O</h2>
<p align= center><img src=https://t.ctcdn.com.br/RhgceU3jDPpm_52ctxpo1RRZ3AQ=/0x36:799x486/512x288/smart/filters:format(webp)/i333320.jpeg width=500</p>

Todos os programas precisam executar entrada e saída. Este capítulo abrange idiomas comuns para trabalhar com diferentes tipos de arquivos, incluindo arquivos de texto e binários, codificações de arquivos e outros assuntos relacionados. Técnicas para manipular nomes de arquivos e diretórios também são cobertas.

## 5.1. Lendo e escrevendo dados de texto

**Problema**

Você precisa ler ou gravar dados de texto, possivelmente em diferentes codificações de texto, como ASCII, UTF-8 ou UTF-16.

**Solução**

Use a função `open()` com o modo **rt** para ler um arquivo de texto. Por exemplo:

In [2]:
# Read the entire file as a single string
with open('somefile.txt', 'rt', encoding='utf8') as f:
    data = f.read()
    print(data)

As sem-razões do amor

Eu te amo porque te amo,
Não precisas ser amante,
e nem sempre sabes sê-lo.
Eu te amo porque te amo.
Amor é estado de graça
e com amor não se paga.

Amor é dado de graça,
é semeado no vento,
na cachoeira, no eclipse.
Amor foge a dicionários
e a regulamentos vários.

Eu te amo porque não amo
bastante ou demais a mim.
Porque amor não se troca,
não se conjuga nem se ama.
Porque amor é amor a nada,
feliz e forte em si mesmo.

Amor é primo da morte,
e da morte vencedor,
por mais que o matem (e matam)
a cada instante de amor.


In [5]:
# Iterate over the lines of the file
with open('somefile.txt', 'rt', encoding='utf8') as f:
    for line in f:
        # process line
        print(line)


As sem-razões do amor



Eu te amo porque te amo,

Não precisas ser amante,

e nem sempre sabes sê-lo.

Eu te amo porque te amo.

Amor é estado de graça

e com amor não se paga.



Amor é dado de graça,

é semeado no vento,

na cachoeira, no eclipse.

Amor foge a dicionários

e a regulamentos vários.



Eu te amo porque não amo

bastante ou demais a mim.

Porque amor não se troca,

não se conjuga nem se ama.

Porque amor é amor a nada,

feliz e forte em si mesmo.



Amor é primo da morte,

e da morte vencedor,

por mais que o matem (e matam)

a cada instante de amor.


Da mesma forma, para escrever um arquivo de texto, use `open()` com o modo **wt** para escrever um arquivo, limpando e sobrescrevendo o conteúdo anterior (se houver). Por exemplo:

In [7]:
# Write chunks of text data
text1 = 'Esse é um texto para teste.'
text2 = 'Esse é um outro texto para teste'
with open('otherfile.txt', 'wt') as f:
    f.write(text1)
    f.write(text2)

~~~python
# Redirected print statement
with open('otherfile.txt', 'wt') as f:
    print(line1, file=f)
    print(line2, file=f)
    ...
~~~

Para anexar ao final de um arquivo existente, use `open()` com mode **at**. Por padrão, os arquivos são lidos/gravados usando a codificação de texto padrão do sistema, como pode ser encontrado em `sys.getdefaultencoding()`. Na maioria das máquinas, isso é definido como utf-8. Se você sabe que o texto que está lendo ou escrevendo está em uma codificação diferente, forneça o parâmetro de codificação opcional para `open()`. Por exemplo:

~~~python
with open('somefile.txt', 'rt', encoding='latin-1') as f:
    ...
~~~

In [9]:
import sys
sys.getdefaultencoding()

'utf-8'

Python entende várias centenas de codificações de texto possíveis. No entanto, algumas das codificações mais comuns são **ascii, latin-1, utf-8 e utf-16**. O **UTF-8** geralmente é uma aposta segura se estiver trabalhando com aplicativos da web. **ascii** corresponde aos caracteres de 7 bits no intervalo U+0000 a U+007F. **latin-1** é um mapeamento direto de bytes 0-255 para caracteres Unicode U+0000 para U+00FF. A codificação **latin-1** é notável por nunca produzir um erro de decodificação ao ler o texto de uma codificação possivelmente desconhecida. Ler um arquivo como **latin-1** pode não produzir uma decodificação de texto completamente correta, mas ainda pode ser suficiente para extrair dados úteis dele. Além disso, se você gravar os dados posteriormente, os dados de entrada originais serão preservados.

**Discussão**

Ler e escrever arquivos de texto normalmente é muito simples. No entanto, há uma série de aspectos sutis para manter em mente. Primeiro, o uso da instrução `with` nos exemplos estabelece um contexto no qual o arquivo será usado. Quando o controle sai do bloco com, o arquivo será fechado automaticamente. Você não precisa usar a instrução `with`, mas se não usá-la, lembre-se de fechar o arquivo:

In [10]:
f = open('somefile.txt', 'rt')
data = f.read()
f.close()

Outra complicação menor diz respeito ao reconhecimento de novas linhas, que são diferentes no Unix e no Windows (ou seja, **\n** versus **\r\n**). Por padrão, o Python opera no que é conhecido como modo “nova linha universal”. Nesse modo, todas as convenções comuns de nova linha são reconhecidas e os caracteres de nova linha são convertidos em um único caractere **\n** durante a leitura.

Da mesma forma, o caractere de nova linha **\n** é convertido no caractere de nova linha padrão do sistema na saída. Se você não quiser essa tradução, forneça o argumento `newline=''` para `open()`, assim:
~~~python
# Read with disabled newline translation
with open('somefile.txt', 'rt', newline='') as f:
    ...
~~~

Para ilustrar a diferença, aqui está o que você verá em uma máquina Unix se ler o conteúdo de um arquivo de texto codificado pelo Windows contendo os dados brutos `hello world!\r\n`:

In [17]:
# Newline translation enabled (the default)
f = open('hello.txt', 'rt', encoding='utf8')
f.read()

'Olá Mundo!!\n'

In [18]:
# Newline translation disabled
g = open('hello.txt', 'rt', newline='', encoding='utf8')
g.read()

'Olá Mundo!!\r\n'

Uma questão final diz respeito a possíveis erros de codificação em arquivos de texto. Ao ler ou gravar um arquivo de texto, você pode encontrar um erro de codificação ou decodificação. Por exemplo:
~~~python
f = open('sample.txt', 'rt', encoding='ascii')
f.read()
Traceback (most recent call last):
    File "<stdin>", line 1, in <module>
    File "/usr/local/lib/python3.3/encodings/ascii.py", line 26, in decode
        return codecs.ascii_decode(input, self.errors)[0]
 UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position
12: ordinal not in range(128)
>>>
~~~

Se você receber esse erro, geralmente significa que você não está lendo o arquivo na codificação correta. Você deve ler cuidadosamente a especificação do que quer que esteja lendo e verificar se está fazendo certo (por exemplo, lendo dados como UTF-8 em vez de Latin-1 ou o que for necessário). Se erros de codificação ainda são uma possibilidade, você pode fornecer um argumento opcional errors para open() para lidar com os erros. Aqui estão alguns exemplos de esquemas comuns de tratamento de erros:

In [20]:
>>> # Replace bad chars with Unicode U+fffd replacement char
>>> f = open('sample.txt', 'rt', encoding='ascii', errors='replace')
>>> f.read()

'Spicy Jalape��o'

In [21]:
>>> # Ignore bad chars entirely
>>> g = open('sample.txt', 'rt', encoding='ascii', errors='ignore')
>>> g.read()

'Spicy Jalapeo'

Se você está constantemente mexendo nos argumentos de codificação e erros para `open()` e fazendo muitos hacks, provavelmente está tornando a vida mais difícil do que precisa. A regra número um com o texto é que você simplesmente precisa ter certeza de que está sempre usando a codificação de texto adequada. Em caso de dúvida, use a configuração padrão (normalmente UTF-8).

## 5.2. Imprimindo em um arquivo

**Problema**

Você deseja redirecionar a saída da função `print()` para um arquivo.

**Solução**

Use o argumento da palavra-chave do arquivo para `print()`, assim:

In [3]:
with open('otherfile.txt', 'r+') as f:
    print('Hello World!', file=f)

**Discussão**

Não há muito mais para imprimir em um arquivo além disso. No entanto, certifique-se de que o arquivo seja aberto no modo de texto. A impressão falhará se o arquivo subjacente estiver no modo binário.

## 5.3. Imprimindo com um separador ou final de linha diferente

**Problema**

Você deseja gerar dados usando `print()`, mas também deseja alterar o caractere separador ou o final da linha.

**Solução**

Use os argumentos das palavras-chave **sep** e **end** para `print()` para alterar a saída como desejar. Por exemplo:

In [4]:
print('ACME', 50, 91.5)

ACME 50 91.5


In [5]:
print('ACME', 50, 91.5, sep=',')

ACME,50,91.5


In [6]:
print('ACME', 50, 91.5, sep=',', end='!!\n')

ACME,50,91.5!!


O uso do argumento final também é como você suprime a saída de novas linhas na saída. Por exemplo:

In [7]:
for i in range(5):
    print(i)

0
1
2
3
4


In [9]:
for i in range(5):
    print(i, end=' ')

0 1 2 3 4 

**Discussão**

Usar `print()` com um separador de item diferente geralmente é a maneira mais fácil de gerar dados quando você precisa de algo diferente de um espaço separando os itens. Às vezes você verá programadores usando `str.join()` para realizar a mesma coisa. Por exemplo:

In [21]:
print(', '.join(['ACME', '50','91.5']))

ACME, 50, 91.5


O problema com `str.join()` é que ele só funciona com strings. Isso significa que muitas vezes é necessário realizar várias acrobacias para que funcione. Por exemplo:
~~~python
row = ('ACME', 50, 91.5)
print(','.join(row))
Traceback (most recent call last):
    File "<stdin>", line 1, in <module>
 TypeError: sequence item 1: expected str instance, int found
~~~

In [22]:
row = ('ACME', 50, 91.5)
print(','.join(str(x) for x in row))

ACME,50,91.5


Em vez de fazer isso, você poderia simplesmente escrever o seguinte:

In [25]:
print(*row, sep=',')

ACME,50,91.5


## 5.4. Lendo e gravando dados binários

**Problema**

Você precisa ler ou gravar dados binários, como os encontrados em imagens, arquivos de som e assim por diante.

**Solução**

Use a função `open()` com o modo **rb** ou **wb** para ler ou gravar dados binários. Por exemplo:

In [30]:
# Read the entire file as a single byte string
with open('somefile.bin', 'rb') as f:
    data = f.read()

In [31]:
# Write binary data to a file
with open('somefile.bin', 'wb') as f:
    f.write(b'Hello World')

Ao ler o binário, é importante enfatizar que todos os dados retornados estarão na forma de strings de bytes, não em strings de texto. Da mesma forma, ao escrever, você deve fornecer dados na forma de objetos que expõem dados como bytes (por exemplo, strings de bytes, objetos bytearray etc.).

**Discussão**

Ao ler dados binários, as sutis diferenças semânticas entre strings de bytes e strings de texto representam uma pegadinha em potencial. Em particular, esteja ciente de que a indexação e a iteração retornam valores de bytes inteiros em vez de strings de bytes. Por exemplo:

In [32]:
# Text string
t = 'Hello World'
t[0]

'H'

In [33]:
for c in t:
    print(c)

H
e
l
l
o
 
W
o
r
l
d


In [34]:
# Byte string
b = b'Hello World'
b[0]

72

In [35]:
for c in b:
    print(c)

72
101
108
108
111
32
87
111
114
108
100


Se você precisar ler ou escrever texto de um arquivo em modo binário, lembre-se de decodificá-lo ou codificá-lo. Por exemplo:

In [36]:
with open('somefile.bin', 'rb') as f:
    data = f.read(16)
    text = data.decode('utf-8')

In [37]:
with open('somefile.bin', 'wb') as f:
    text = 'Hello World'
    f.write(text.encode('utf-8'))

Um aspecto menos conhecido da I/O binária é que objetos como arrays e estruturas C podem ser usados para escrita sem nenhum tipo de conversão intermediária para um objeto bytes. Por exemplo:

In [2]:
import array
nums = array.array('i', [1, 2, 3, 4])
with open('data.bin','wb') as f:
    f.write(nums)

Isso se aplica a qualquer objeto que implemente a chamada “interface de buffer”, que expõe diretamente um buffer de memória subjacente a operações que podem funcionar com ele. Escrever dados binários é uma dessas operações.

Muitos objetos também permitem que dados binários sejam lidos diretamente em sua memória subjacente usando o método `readinto()` de arquivos. Por exemplo:

In [3]:
import array
a = array.array('i', [0, 0, 0, 0, 0, 0, 0, 0])
with open('data.bin', 'rb') as f:
    f.readinto(a)

In [4]:
a

array('i', [1, 2, 3, 4, 0, 0, 0, 0])

No entanto, muito cuidado deve ser tomado ao usar essa técnica, pois geralmente é específica da plataforma e pode depender de coisas como o tamanho da palavra e a ordenação dos bytes (ou seja, big endian versus little endian). Veja a Receita 5.9 para outro exemplo de leitura de dados binários em um buffer mutável.

## 5.5. Gravando em um arquivo que ainda não existe

**Problema**

Você deseja gravar dados em um arquivo, mas somente se ele ainda não existir no sistema de arquivos.

**Solução**

Este problema é facilmente resolvido usando o modo **x** pouco conhecido para `open()` em vez do modo **w** usual. Por exemplo:

In [5]:
with open('somefile', 'wt') as f:
    f.write('Hello\n')

~~~python
with open('somefile', 'xt') as f:
    f.write('Hello\n')
    ...
Traceback (most recent call last):
    File "<stdin>", line 1, in <module>
 FileExistsError: [Errno 17] File exists: 'somefile'
~~~
Se o arquivo estiver no modo binário, use o modo **xb** em vez de **xt**.

**Discussão**

Esta receita ilustra uma solução extremamente elegante para um problema que às vezes surge ao escrever arquivos (ou seja, substituir acidentalmente um arquivo existente). Uma solução alternativa é primeiro testar o arquivo assim:

In [7]:
import os
if not os.path.exists('somefile'):
    with open('somefile', 'wt') as f:
        f.write('Hello\n')
else:
    print('Arquivo já existe!')

Arquivo já existe!


Claramente, usar o modo de arquivo **x** é muito mais direto. É importante notar que o modo **x** é uma extensão específica do Python 3 para a função `open()`. Em particular, esse modo não existe nas versões anteriores do Python ou nas bibliotecas C subjacentes usadas na implementação do Python.

## 5.6. Executando operações de I/O em uma string

**Problema**

Você deseja alimentar um texto ou uma string binária no código que foi escrito para operar em objetos semelhantes a arquivos.

**Solução**

Use as classes `io.StringIO()` e `io.BytesIO()` para criar objetos semelhantes a arquivos que operam em dados de string. Por exemplo:

In [9]:
import io
s = io.StringIO()
s.write('Hello World\n')

12

In [11]:
s = io.StringIO()
s.write('Hello World\n')
print('This is a test', file=s)

In [12]:
# Get all of the data written so far
s.getvalue()

'Hello World\nThis is a test\n'

In [13]:
# Wrap a file interface around an existing string
s = io.StringIO('Hello\nWorld\n')
s.read(4)

'Hell'

In [14]:
s.read()

'o\nWorld\n'

A classe `io.StringIO` deve ser usada apenas para texto. Se você estiver operando com dados binários, use a classe `io.BytesIO`. Por exemplo:

In [15]:
s = io.BytesIO()
s.write(b'binary data')
s.getvalue()

b'binary data'

**Discussão**

As classes `StringIO` e `BytesIO` são mais úteis em cenários em que você precisa imitar um arquivo normal por algum motivo. Por exemplo, em testes de unidade, você pode usar `StringIO` para criar um objeto semelhante a um arquivo contendo dados de teste que são alimentados em uma função que, de outra forma, funcionaria com um arquivo normal.

Esteja ciente de que as instâncias StringIO e BytesIO não possuem um descritor de arquivo inteiro adequado. Assim, eles não funcionam com código que requer o uso de um arquivo de nível de sistema real, como um arquivo, pipe ou soquete.

## 5.7. Lendo e gravando arquivos de dados compactados

**Problema**

Você precisa ler ou gravar dados em um arquivo com compactação **gzip** ou **bz2**.

**Solução**

Os módulos `gzip` e `bz2` facilitam o trabalho com esses arquivos. Ambos os módulos fornecem uma implementação alternativa de `open()` que pode ser usada para esta finalidade. Por exemplo, para ler arquivos compactados como texto, faça o seguinte:

In [19]:
# gzip compression
import gzip
with gzip.open('somefile.gz', 'rt') as f:
    text = f.read()

In [23]:
# bz2 compression
import bz2
with bz2.open('somefile.bz2', 'rt') as f:
    text = f.read()

Da mesma forma, para gravar dados compactados, faça o seguinte:

In [24]:
# gzip compression
import gzip
with gzip.open('somefile.gz', 'wt') as f:
    f.write(text)

In [25]:
# bz2 compression
import bz2
with bz2.open('somefile.bz2', 'wt') as f:
    f.write(text)

Conforme mostrado, todas as I/O usarão texto e realizarão codificação/decodificação Unicode. Se você quiser trabalhar com dados binários, use um modo de arquivo de rb ou wb.

**Discussão**

Na maioria das vezes, ler ou gravar dados compactados é simples. No entanto, esteja ciente de que escolher o modo de arquivo correto é extremamente importante. Se você não especificar um modo, o modo padrão será binário, o que interromperá os programas que esperam receber texto. Ambos `gzip.open()` e `bz2.open()` aceitam os mesmos parâmetros que a função `open()` integrada, incluindo codificação, erros, nova linha e assim por diante.

Ao gravar dados compactados, o nível de compactação pode ser opcionalmente especificado usando o argumento de palavra-chave `compresslevel`. Por exemplo:

In [26]:
with gzip.open('somefile.gz', 'wt', compresslevel=5) as f:
    f.write(text)

O nível padrão é **9**, que fornece o nível mais alto de compactação. Níveis mais baixos oferecem melhor desempenho, mas não tanta compressão.

Finalmente, um recurso pouco conhecido de `gzip.open()` e `bz2.open()` é que eles podem ser colocados em cima de um arquivo existente aberto em modo binário. Por exemplo, isso funciona:

In [27]:
import gzip
f = open('somefile.gz', 'rb')
with gzip.open(f, 'rt') as g:
    text = g.read()

Isso permite que os módulos `gzip` e `bz2` funcionem com vários objetos semelhantes a arquivos, como soquetes, pipes e arquivos na memória.

## 5.8. Iterando sobre registros de tamanho fixo

**Problema**

Em vez de iterar sobre um arquivo por linhas, você deseja iterar sobre uma coleção de registros ou blocos de tamanho fixo.

**Solução**

Use a função `iter()` e `functools.partial()` usando este truque legal:

In [29]:
from functools import partial
RECORD_SIZE = 32
with open('somefile.data', 'rb') as f:
    records = iter(partial(f.read, RECORD_SIZE), b'')
    for r in records:
        print(r)

b'Em lingu\xc3\xadstica, a no\xc3\xa7\xc3\xa3o de te'
b'xto \xc3\xa9 ampla e ainda aberta a um'
b'a defini\xc3\xa7\xc3\xa3o mais precisa. Gros'
b'so modo, pode ser entendido como'
b' manifesta\xc3\xa7\xc3\xa3o lingu\xc3\xadstica das'
b' ideias de um autor, que ser\xc3\xa3o '
b'interpretadas pelo leitor de aco'
b'rdo com seus conhecimentos lingu'
b'\xc3\xadsticos e culturais. Seu tamanh'
b'o \xc3\xa9 vari\xc3\xa1vel.\r\n\r\n\xe2\x80\x9cConjunto d'
b'e palavras e frases articuladas,'
b' escritas sobre qualquer suporte'
b'\xe2\x80\x9d.[1]\r\n\r\n\xe2\x80\x9cObra escrita consi'
b'derada na sua reda\xc3\xa7\xc3\xa3o original'
b' e aut\xc3\xaantica (por oposi\xc3\xa7\xc3\xa3o a '
b'sum\xc3\xa1rio, tradu\xc3\xa7\xc3\xa3o, notas, com'
b'ent\xc3\xa1rios, etc.)\xe2\x80\x9d.[2]\r\n\r\n"Um t'
b'exto \xc3\xa9 uma ocorr\xc3\xaancia lingu\xc3\xads'
b'tica, escrita ou falada de qualq'
b'uer extens\xc3\xa3o, dotada de unidade'
b' sociocomunicativa, sem\xc3\xa2ntica e'
b' formal. \xc3\x89 uma unidade de

O objeto de registros neste exemplo é um iterável que produzirá pedaços de tamanho fixo até que o final do arquivo seja alcançado. No entanto, esteja ciente de que o **último item** pode ter menos bytes do que o esperado se o tamanho do arquivo não for um múltiplo exato do tamanho do registro.

**Discussão**

Um recurso pouco conhecido da função `iter()` é que ela pode criar um iterador se você passar um valor callable e um valor sentinela. O iterador resultante simplesmente chama o callable fornecido repetidamente até retornar o sentinela, ponto em que a iteração é interrompida.

Na solução, o `functools.partial` é usado para criar um callable que lê um número fixo de bytes de um arquivo cada vez que é chamado. A sentinela de b'' é o que é retornado quando um arquivo é lido, mas o final do arquivo foi atingido.

Por último, mas não menos importante, a solução mostra o arquivo sendo aberto no modo binário. Para ler registros de tamanho fixo, esse provavelmente seria o caso mais comum. Para arquivos de texto, a leitura linha por linha (o comportamento de iteração padrão) é mais comum.

## 5.9. Lendo dados binários em um buffer mutável

**Problema**

Você deseja ler dados binários diretamente em um buffer mutável sem nenhuma cópia intermediária. Talvez você queira alterar os dados no local e gravá-los de volta em um arquivo.

**Solução**

Para ler dados em uma matriz mutável, use o método `readinto()` de arquivos. Por exemplo:

In [30]:
import os.path
def read_into_buffer(filename): 
    buf = bytearray(os.path.getsize(filename))
    with open(filename, 'rb') as f:
        f.readinto(buf)
    return buf

Aqui está um exemplo que ilustra o uso:

In [31]:
# Write a sample file
with open('sample.bin', 'wb') as f:
    f.write(b'Hello World')

buf = read_into_buffer('sample.bin')
buf

bytearray(b'Hello World')

In [32]:
buf[0:5] = b'Hallo'
buf

bytearray(b'Hallo World')

In [33]:
with open('newsample.bin', 'wb') as f:
    f.write(buf)

**Discussão**

O método `readinto()` de arquivos pode ser usado para preencher qualquer array pré-alocado com dados. Isso inclui até mesmo arrays criados a partir do módulo `array` ou bibliotecas como `numpy`. Ao contrário do método `read()` normal, `readinto()` preenche o conteúdo de um buffer existente em vez de alocar novos objetos e retorná-los. Assim, você poderá usá-lo para evitar alocações extras de memória. Por exemplo, se você estiver lendo um arquivo binário que consiste em registros de tamanhos iguais, poderá escrever um código como este:

In [34]:
record_size = 32 # Size of each record (adjust value)
buf = bytearray(record_size)
with open('somefile', 'rb') as f:
    while True:
        n = f.readinto(buf)
        if n < record_size:
            break
            # Use the contents of buf
            ...
    

Outro recurso interessante para usar aqui pode ser um `memoryview`, que permite fazer fatias de cópia zero de um buffer existente e até mesmo alterar seu conteúdo. Por exemplo:

In [35]:
buf

bytearray(b'Hello\r\n\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00')

In [37]:
m1 = memoryview(buf)
m2 = m1[-5:]
m2

<memory at 0x0000023FEFDFDE80>

In [39]:
m2[:] = b'WORLD'
buf

bytearray(b'Hello\r\n\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00WORLD')

Um cuidado ao usar `f.readinto()` é que você deve sempre verificar seu código de retorno, que é o número de bytes realmente lidos.

Se o número de bytes for menor que o tamanho do buffer fornecido, isso pode indicar dados truncados ou corrompidos (por exemplo, se você esperava que um número exato de bytes fosse lido).

Finalmente, fique atento a outras funções relacionadas “into” em vários módulos de biblioteca (por exemplo, `recv_into()`, `pack_into()`, etc.). Muitas outras partes do Python têm suporte para I/O direta ou acesso a dados que podem ser usados para preencher ou alterar o conteúdo de arrays e buffers.

Consulte a Receita 6.12 para obter um exemplo significativamente mais avançado de interpretação de estruturas binárias e uso de visualizações de memória.

## 5.10. Arquivos binários de mapeamento de memória

**Problema**

Você deseja mapear a memória de um arquivo binário em uma matriz de bytes mutável, possivelmente para acesso aleatório ao seu conteúdo ou para fazer modificações no local.

**Solução**

Use o módulo `mmap` para arquivos de mapa de memória. Aqui está uma função de utilitário que mostra como abrir um arquivo e mapeá-lo na memória de maneira portátil:

In [40]:
import os
import mmap
def memory_map(filename, access=mmap.ACCESS_WRITE):
    size = os.path.getsize(filename)
    fd = os.open(filename, os.O_RDWR)
    return mmap.mmap(fd, size, access=access)

Para utilizar esta função, você precisaria ter um arquivo já criado e preenchido com dados. Aqui está um exemplo de como você pode inicialmente criar um arquivo e expandi-lo para um tamanho desejado:

In [41]:
size = 1000000
with open('data', 'wb') as f:
    f.seek(size-1)
    f.write(b'\x00')

Agora aqui está um exemplo de mapeamento de memória do conteúdo usando a função `memory_map()`:

In [42]:
m = memory_map('data')
len(m)

1000000

In [43]:
m[0:10]

b'\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00'

In [44]:
m[0]

0

In [45]:
# Reassign a slice
m[0:11] = b'Hello World'
m.close()

In [46]:
# Verify that changes were made
with open('data', 'rb') as f:
    print(f.read(11))

b'Hello World'


O objeto mmap retornado por `mmap()` também pode ser usado como gerenciador de contexto, caso em que o arquivo subjacente é fechado automaticamente. Por exemplo:

In [47]:
with memory_map('data') as m:
    print(len(m))
    print(m[0:10])

1000000
b'Hello Worl'


In [48]:
m.closed

True

Por padrão, a função `memory_map()` mostrada abre um arquivo para leitura e escrita. Quaisquer modificações feitas nos dados são copiadas de volta para o arquivo original. Se o acesso somente leitura for necessário, forneça `map.ACCESS_READ` para o argumento de acesso. Por exemplo:
~~~python
m = memory_map(filename, mmap.ACCESS_READ)
~~~

Se você pretende modificar os dados localmente, mas não deseja que essas alterações sejam gravadas no arquivo original, use `mmap.ACCESS_COPY`:
~~~python
m = memory_map(filename, mmap.ACCESS_COPY)
~~~

**Discussão**

Usar `mmap` para mapear arquivos na memória pode ser um meio eficiente e elegante de acessar aleatoriamente o conteúdo de um arquivo. Por exemplo, em vez de abrir um arquivo e executar várias combinações de chamadas `seek()`, `read()` e `write()`, você pode simplesmente mapear o arquivo e acessar os dados usando operações de fatiamento. Normalmente, a memória exposta por `mmap()` se parece com um objeto `bytearray`. No entanto, você pode interpretar os dados de maneira diferente usando uma visualização de memória. Por exemplo:

In [50]:
m = memory_map('data')
# Memoryview of unsigned integers
v = memoryview(m).cast('I')
v[0] = 7
m[0:4]

b'\x07\x00\x00\x00'

In [51]:
m[0:4] = b'\x07\x01\x00\x00'
v[0]

263

Deve-se enfatizar que o mapeamento de memória de um arquivo não faz com que o arquivo inteiro seja lido na memória. Ou seja, não é copiado em algum tipo de buffer de memória ou array.

Em vez disso, o sistema operacional apenas reserva uma seção de memória virtual para o conteúdo do arquivo. Conforme você acessa diferentes regiões, essas partes do arquivo serão lidas e mapeadas na região de memória conforme necessário. No entanto, partes do arquivo que nunca são acessadas simplesmente permanecem no disco. Tudo isso acontece de forma transparente, nos bastidores.

Se mais de uma memória do interpretador Python mapear o mesmo arquivo, o objeto `mmap` resultante poderá ser usado para trocar dados entre os interpretadores. Ou seja, todos os intérpretes podem ler/gravar dados simultaneamente, e as alterações feitas nos dados de um intérprete aparecerão automaticamente nos outros. Obviamente, alguns cuidados extras são necessários para sincronizar as coisas, mas esse tipo de abordagem às vezes é usado como uma alternativa à transmissão de dados em mensagens por pipes ou sockets.

Como mostrado, esta receita foi escrita para ser o mais geral possível, funcionando tanto no Unix quanto no Windows. Esteja ciente de que existem algumas diferenças de plataforma em relação ao uso da chamada `mmap()` oculta nos bastidores. Além disso, há opções para criar regiões de memória mapeadas anonimamente. Se isso for do seu interesse, certifique-se de ler atentamente a documentação do Python sobre o assunto.

## 5.11. Manipulando nomes de caminho

**Problema**

Você precisa manipular os nomes de caminho para encontrar o nome do arquivo base, o nome do diretório, o caminho absoluto e assim por diante.

**Solução**

Para manipular nomes de caminhos, use as funções no módulo `os.path`. Aqui está um exemplo interativo que ilustra alguns recursos principais:

In [54]:
import os
path = r'\Users\dell\OneDrive\Documentos\4. GitHub\Python_Cookbook_Recipes_3rd\somefile.txt'

In [55]:
# Pegando o último componente do caminho
os.path.basename(path)

'somefile.txt'

In [56]:
# Pegando o nome do diretório
os.path.dirname(path)

'\\Users\\dell\\OneDrive\\Documentos\\4. GitHub\\Python_Cookbook_Recipes_3rd'

In [57]:
# Juntando os componentes
os.path.join('tmp','data',os.path.basename(path))

'tmp\\data\\somefile.txt'

In [59]:
# Expand the user's home directory
path = '~/Python_Cookbook_Recipes_3rd/somefile.txt'
os.path.expanduser(path)

'C:\\Users\\dell/Python_Cookbook_Recipes_3rd/somefile.txt'

In [60]:
# Split the file extension
os.path.splitext(path)

('~/Python_Cookbook_Recipes_3rd/somefile', '.txt')

**Discussão**

Para qualquer manipulação de nomes de arquivos, você deve usar o módulo `os.path` em vez de tentar criar seu próprio código usando as operações de string padrão. Em parte, isso é para portabilidade. O módulo `os.path` conhece as diferenças entre Unix e Windows e pode lidar de forma confiável com nomes de arquivos como **Data/data.csv** e **Data\data.csv**. Em segundo lugar, você realmente não deve gastar seu tempo reinventando a roda. Geralmente, é melhor usar a funcionalidade que já foi fornecida para você.

Deve-se notar que o módulo `os.path` possui muitos outros recursos não mostrados nesta receita. Consulte a documentação para obter mais funções relacionadas ao teste de arquivos, links simbólicos e assim por diante.

## 5.12. Testando a existência de um arquivo

**Problema**

Você precisa testar se existe ou não um arquivo ou diretório.

**Solução**

Use o módulo `os.path` para testar a existência de um arquivo ou diretório. Por exemplo:

In [62]:
import os
os.path.exists('somefile.txt')

True

In [63]:
os.path.exists('spam')

False

Você pode realizar mais testes para ver que tipo de arquivo pode ser. Esses testes retornam `False` se o arquivo em questão não existir:

In [64]:
# Is a regular file
os.path.isfile('somefile.txt')

True

In [65]:
# Is a directory
os.path.isdir('somefile.txt')

False

In [66]:
# Is a symbolic link
os.path.islink('/usr/local/bin/python3')

False

In [67]:
# Get the file linked to
os.path.realpath('/usr/local/bin/python3')

'C:\\usr\\local\\bin\\python3'

Se você precisar obter metadados (por exemplo, o tamanho do arquivo ou a data de modificação), isso também está disponível no módulo `os.path`.

In [69]:
os.path.getsize('somefile.txt')

589

In [70]:
os.path.getmtime('somefile.txt')

1667214399.0

In [71]:
import time
time.ctime(os.path.getmtime('somefile.txt'))

'Mon Oct 31 07:06:39 2022'

**Discussão**

O teste de arquivos é uma operação direta usando `os.path`. Provavelmente, a única coisa que você deve estar ciente ao escrever scripts é que talvez você precise se preocupar com permissões, especialmente para operações que obtêm metadados. Por exemplo:
~~~python
os.path.getsize('/Users/guido/Desktop/foo.txt')
Traceback (most recent call last):
    File "<stdin>", line 1, in <module>
    File "/usr/local/lib/python3.3/genericpath.py", line 49, in getsize
      return os.stat(filename).st_size
 PermissionError: [Errno 13] Permission denied: '/Users/guido/Desktop/foo.txt'
~~~