# Manipulando Arquivos em Python

Python assume que cada arquivo está oculto por trás de um objeto de uma classe adequada.

**O que Significa "Classe Adequada"?**
- Conteúdo do Arquivo: Arquivos podem ser processados de várias formas, dependendo do conteúdo do arquivo.
- Intenção do Programador: Diferentes operações podem ser necessárias para diferentes arquivos.

Arquivos diferentes podem exigir diferentes conjuntos de operações e comportar-se de maneiras diferentes.
Um objeto de uma classe adequada é criado quando você abre o arquivo e é destruído quando você o fecha.
Entre esses dois eventos, você pode usar o objeto para especificar as operações a serem realizadas
em um stream específico.


### Objetos e Classes de Streams

Em geral, o objeto do stream vem de uma das seguintes classes:

- BufferIOBase
- TextIOBase


### Criando e Fechando Streams

- Criação: Você nunca usa construtores diretamente para criar esses objetos.
    A única forma de obtê-los é invocando a função open(). 
    
- Fechamento: Para se livrar do objeto, você invoca o método close(),
    que cortará a conexão entre o objeto e o arquivo, removendo o objeto.    
    

### Tipos de Streams: Texto e Binário

Os streams são divididos em dois tipos, com base no conteúdo do stream:

    
- **Streams de Texto:**
Estruturados em Linhas: Contêm caracteres tipográficos (letras, dígitos, pontuação, etc.) organizados em linhas.
    
Operações: Normalmente escritos e lidos caractere por caractere ou linha por linha.

    
- **Streams Binários:**
Contêm Bytes: São sequências de bytes de qualquer valor, como programas executáveis,
imagens, áudios, vídeos, arquivos de banco de dados, etc.

Operações: Lidos e escritos byte a byte ou bloco a bloco, onde o tamanho do bloco pode variar.

In [None]:
## Opening the streams

A função open() é uma ferramenta fundamental para trabalhar com arquivos em Python. 
Ela cria um stream associado a um arquivo, permitindo a leitura, escrita e 
manipulação dos dados conforme o modo e a codificação especificados.
O correto uso dos parâmetros file, mode, e encoding garante que o arquivo
seja manipulado de acordo com suas necessidades.

    stream = open(file, mode = 'r', encoding = None)

**Nome da Função:**
A função open() é autoexplicativa. Se a abertura for bem-sucedida,
a função retorna um objeto de stream; caso contrário,
uma exceção é levantada (por exemplo, FileNotFoundError se o arquivo que você está tentando ler não existir).


**Parâmetro file:**
O primeiro parâmetro da função, file, especifica o nome do arquivo que será associado ao stream.
É uma string que contém o caminho e o nome do arquivo.


**Parâmetro mode:**
O segundo parâmetro, mode, especifica o modo de abertura usado para o stream.

É uma string composta por uma sequência de caracteres, cada um com um significado especial:
- 'r': Modo de leitura (padrão se mode não for especificado).
- 'w': Modo de escrita (o arquivo é criado ou sobrescrito).
- 'a': Modo de anexação (dados são adicionados ao final do arquivo).
- 'b': Modo binário (para arquivos binários; combina com outros modos como 'rb' para leitura binária).
- 't': Modo texto (padrão; combina com outros modos como 'rt' para leitura textual).
    
**Parâmetro encoding:**
O terceiro parâmetro, encoding, especifica o tipo de codificação para o arquivo
(por exemplo, UTF-8 quando trabalhando com arquivos de texto). 
A codificação define como os caracteres são representados em bytes.
Abertura do Stream:

*A abertura deve ser a primeira operação realizada no stream.*
*Sem abrir o arquivo, você não pode ler ou escrever dados.*

**Valores Padrão:**
Os argumentos mode e encoding podem ser omitidos:
Se mode for omitido, o padrão é leitura em modo texto ('rt').
Se encoding for omitido, o valor padrão depende da plataforma utilizada (por exemplo, UTF-8 em muitas plataformas).


In [None]:
#Exemplos:

# Abrir um arquivo para leitura (modo texto padrão)
file = open('example.txt')

# Abrir um arquivo para leitura em modo binário
file = open('example.bin', 'rb')

# Abrir um arquivo para escrita (modo texto padrão)
file = open('output.txt', 'w', encoding='utf-8')

# Abrir um arquivo para anexação em modo texto
file = open('log.txt', 'a')


# Resumo dos Modos

# r: Leitura. O arquivo deve existir e ser legível.

# w: Escrita. O arquivo é criado se não existir, ou apagado se já existir.

# a: Anexação. O arquivo é criado se não existir, e novos dados são adicionados ao final do arquivo.

# r+: Leitura e Atualização. O arquivo deve existir e ser gravável.

# w+: Escrita e Atualização. O arquivo é criado se não existir, e seu conteúdo é apagado se já existir.
    

Seleção dos Modos de Texto e Binário
Quando você abre um arquivo em Python, você pode especificar o modo de abertura para definir como o arquivo
será manipulado. Isso inclui a escolha entre modos de texto e binário. 
Aqui está uma explicação detalhada:

Modo Binário (b):
Descrição: Se o modo de abertura termina com a letra b, o arquivo será aberto em modo binário.
    
Comportamento:
Os dados são lidos e escritos como bytes. Não há nenhuma conversão de caracteres ou manipulação especial.
Exemplo: open('example.bin', 'rb') abre o arquivo example.bin para leitura binária.
    
    open('example.bin', 'wb') abre para escrita binária.

    
Modo Texto (t):
Descrição: Se o modo de abertura termina com a letra t, o arquivo será aberto em modo texto.
    
Comportamento:
Os dados são tratados como strings de texto. A conversão entre a representação de caracteres e bytes
é realizada automaticamente.
O padrão de fim de linha (\n em Unix/Linux e \r\n em Windows) é tratado de forma transparente.
Exemplo: open('example.txt', 'rt') abre o arquivo example.txt para leitura textual.
    
    open('example.txt', 'wt') abre para escrita textual.

    
Modo Padrão:
Se você não especificar o modo binário ou texto, o padrão é o modo texto. 
Portanto, open('example.txt') é equivalente a open('example.txt', 'rt').


Posição Atual do Arquivo:
Após a abertura bem-sucedida do arquivo:
    
Se o modo não for a: A posição atual do arquivo (a cabeça de leitura/escrita virtual) será colocada antes 
do primeiro byte do arquivo. Isso significa que a leitura ou escrita começará no início do arquivo.

Se o modo for a: A posição atual do arquivo será colocada após o último byte do arquivo.
Isso significa que quaisquer operações de escrita começarão no final do arquivo,
mantendo o conteúdo existente inalterado.


Resumo

Modo Binário (b): Manipula dados como bytes, sem conversão. Exemplo: rb, wb, ab.
        
Modo Texto (t): Manipula dados como strings, com conversão de texto e tratamento de fim de linha. Exemplo: rt, wt, at.
        
Modo Padrão: Se nenhum modo é especificado, o padrão é o modo texto.
  

Posição Atual:
    
Não a: Cabeça de leitura/escrita antes do primeiro byte.
    
a: Cabeça de leitura/escrita após o último byte.
    
Esses modos ajudam a garantir que você possa ler e escrever arquivos da maneira
mais adequada ao tipo de dados e às necessidades do seu programa.

## Modo Exclusivo (x)

O modo exclusivo x é usado para garantir que um arquivo seja criado somente se ele não existir.
Esse modo é útil para evitar a sobrescrição de um arquivo existente. 

O modo x abre o arquivo para criação, mas somente se o arquivo não existir previamente.
Se o arquivo especificado já existir, a função open() levantará uma exceção (FileExistsError).

Se o arquivo não existir, ele será criado e aberto para escrita.

Uso Combinado:
O modo x pode ser combinado com os modos binário (b) ou texto (t):
Texto: open('newfile.txt', 'x') cria um novo arquivo de texto se ele não existir.
Binário: open('newfile.bin', 'xb') cria um novo arquivo binário se ele não existir.
    
    

In [6]:
# exemplo:

try:
    with open('exclusive_file.txt', 'x') as file:
        file.write("Este é um arquivo criado exclusivamente.")
except FileExistsError:
    print("O arquivo já existe.")
   
try:
    # Abre o arquivo em modo binário exclusivo para escrita
    with open('exclusive_file.bin', 'xb') as file:
        # Escreve dados binários no arquivo
        file.write("Dados binários exclusivos.".encode('utf-8')) # bytes can only contain ASCII literal characters
except FileExistsError:
    print("O arquivo binário já existe.")
    

O arquivo já existe.
O arquivo binário já existe.


## Abrindo o stream pela primeira vez

Imagine que queremos desenvolver um programa que leia o conteúdo do arquivo de texto chamado:

    C:\Users\User\Desktop\file.txt.
    

Abrimos o bloco try-except porque queremos lidar com erros em tempo de execução de maneira suave;

Usamos a função open() para tentar abrir o arquivo especificado (note a forma como especificamos o nome do arquivo);

O modo de abertura é definido como texto para leitura (como texto é o padrão, podemos pular o t na string do modo);

Se tivermos sucesso, obtemos um objeto da função open() e o atribuiremos à variável stream;

Se open() falhar, lidamos com a exceção imprimindo as informações completas sobre o erro (é definitivamente bom saber o que exatamente aconteceu).

try:
    stream = open("C:\Users\User\Desktop\file.txt", "rt")
    # Processing goes here.
    stream.close()
except Exception as exc:
    print("Cannot open the file:", exc)


## Streams Pré-Abertos

Dissemos anteriormente que qualquer operação com streams deve ser precedida
pela invocação da função open(). 
No entanto, há três exceções bem definidas a essa regra.

Quando o nosso programa começa, três streams já estão abertos
e não requerem preparações adicionais. Além disso, seu programa pode usar
esses streams explicitamente se você importar o módulo sys:

import sys
Pois é lá que a declaração dos três streams está localizada.

**Os nomes desses streams são: sys.stdin, sys.stdout e sys.stderr.**

**sys.stdin**
stdin (entrada padrão)
O stream stdin está normalmente associado ao teclado, pré-aberto para leitura 
e considerado a fonte primária de dados para os programas em execução.
A função conhecida input() lê dados do stdin por padrão.

**sys.stdout**
stdout (saída padrão)
O stream stdout está normalmente associado à tela, pré-aberto para escrita e
considerado o destino primário para a saída de dados pelo programa em execução.
A função conhecida print() envia os dados para o stream stdout.

**sys.stderr**
stderr (saída de erro padrão)
O stream stderr está normalmente associado à tela, pré-aberto para escrita e
considerado o local primário onde o programa em execução deve enviar informações
sobre erros encontrados durante sua execução.

A separação entre stdout (resultados úteis produzidos pelo programa) 
e stderr (mensagens de erro, indiscutivelmente úteis, mas que não fornecem resultados)
possibilita redirecionar esses dois tipos de informações para alvos diferentes. 


## Fechando Streams

A última operação realizada em um stream (isto não inclui os streams stdin, stdout e stderr, que não requerem isso)
deve ser o fechamento.

Essa ação é realizada por um método invocado a partir do objeto de stream aberto:
    
    stream.close().

O nome da função é definitivamente autoexplicativo: close().
    
A função não espera argumentos; o stream não precisa estar aberto.

A função não retorna nada, mas levanta uma exceção IOError em caso de erro.


## Diagnóstico de problemas de stream

O objeto IOError é equipado com uma propriedade chamada **errno** (o nome vem da frase número do erro)
pode-se acessá-lo da seguinte forma:

try: Algumas operações de stream. except IOError as exc: print(exc.errno)
     O valor do atributo errno pode ser comparado com uma das constantes simbólicas
     predefinidas definidas no módulo errno.

        
*Algumas constantes selecionadas úteis para detectar erros de stream:*

- errno.EACCES → Permissão negada
    O erro ocorre quando você tenta, por exemplo, abrir um arquivo com o atributo de somente leitura para escrita.

- errno.EBADF → Número de arquivo ruim
    O erro ocorre quando você tenta, por exemplo, operar com um stream não aberto.

- errno.EEXIST → Arquivo existe 
    O erro ocorre quando você tenta, por exemplo, renomear um arquivo com seu nome anterior.

- errno.EFBIG → Arquivo muito grande 
    O erro ocorre quando você tenta criar um arquivo que é maior do que o máximo permitido pelo sistema operacional.

- errno.EISDIR → É um diretório 
    O erro ocorre quando você tenta tratar um nome de diretório como o nome de um arquivo comum.

- errno.EMFILE → Muitos arquivos abertos 
    O erro ocorre quando você tenta abrir simultaneamente mais streams do que o aceitável para seu sistema operacional.

- errno.ENOENT → Arquivo ou diretório não encontrado 
    O erro ocorre quando você tenta acessar um arquivo/diretório inexistente.

- errno.ENOSPC → Sem espaço livre no dispositivo
    O erro ocorre quando não há espaço livre no dispositivo.
    
    A lista completa é muito mais longa
    (inclui também alguns códigos de erro não relacionados ao processamento de stream).
    

In [9]:
import errno

try:
    s = open("C:/Users/bress/Downloads/Jupyter/file.txt", "rt")
    # Actual processing goes here.
    s.close()
except Exception as exc:
    if exc.errno == errno.ENOENT:
        print("The file doesn't exist.")
    elif exc.errno == errno.EMFILE:
        print("You've opened too many files.")
    else:
        print("The error number is:", exc.errno)
        
        
# Existe uma função que pode simplificar dramaticamente o código de tratamento de erros.

# Seu nome é strerror(), e ela vem do módulo os e espera apenas um argumento – um número de erro.

# Sua função é simples: você fornece um número de erro e obtém uma string que descreve o significado do erro.

# Nota: se você passar um código de erro inexistente (um número que não está associado a nenhum erro real),
#       a função levantará uma exceção ValueError.

# Veja abaixo

The file doesn't exist.


In [10]:
# função -> strerror()

from os import strerror

try:
    s = open("c:/users/user/Desktop/file.txt", "rt")
    # Actual processing goes here.
    s.close()
except Exception as exc:
    print("The file could not be opened:", strerror(exc.errno))
    

The file could not be opened: No such file or directory


# Resumo

Um arquivo precisa estar aberto antes de ser processado por um programa
e deve ser fechado quando o processamento for concluído.

Abrir o arquivo associa-o ao stream, que é uma representação abstrata dos dados físicos armazenados no meio.
A forma como o stream é processado é chamada de modo de abertura.

Existem três modos de abertura:

- Modo de leitura – apenas operações de leitura são permitidas;
- Modo de escrita – apenas operações de escrita são permitidas;
- Modo de atualização – tanto leituras quanto escritas são permitidas.

Dependendo do conteúdo físico do arquivo, diferentes classes Python podem ser usadas para processar arquivos.
Em geral, a BufferedIOBase é capaz de processar qualquer arquivo,
enquanto a TextIOBase é uma classe especializada dedicada ao processamento de arquivos de texto
(ou seja, arquivos contendo textos visíveis por humanos divididos em linhas usando marcadores de nova linha).
Assim, os streams podem ser divididos em binários e textuais.

A seguinte sintaxe da função open() é usada para abrir um arquivo:

    open(file_name, mode=open_mode, encoding=text_encoding)
    
A invocação cria um objeto de stream e o associa ao arquivo nomeado file_name,
usando o open_mode especificado e definindo o text_encoding especificado, ou levanta uma exceção em caso de erro.


Três streams pré-definidos já estão abertos quando o programa começa:
- sys.stdin – entrada padrão;
- sys.stdout – saída padrão;
- sys.stderr – saída de erro padrão.

O objeto de exceção IOError, criado quando qualquer operação com arquivos falha (incluindo operações de abertura),
contém uma propriedade chamada errno, que contém o código de conclusão da ação falhada. 
Use esse valor para diagnosticar o problema.


In [13]:
# Question 1: 
# How do you encode an open() function’s mode argument value if you're going 
# to create a new text file to only fill it with an article?

# resp: "w" ou "wt"

novo_texto = open("C:/Users/bress/Downloads/Jupyter/file.txt", mode='w', encoding='UTF-8')

novo_texto.close()


In [None]:
# Question 2:
# What is the meaning of the value represented by errno.EACCES?

# Permission denied: you're not allowed to access the file's contents.

# Permissão negada

# errno.EACCES → Permissão negada
# O erro ocorre quando você tenta, por exemplo, abrir um arquivo com o atributo de somente leitura para escrita.

In [15]:
# Question 3:
# What is the expected output of the following code,
# assuming that the file named file does not exist?

import errno
 
try:
    stream = open("file", "rb")
    print("exists")
    stream.close()
except IOError as error:
    if error.errno == errno.ENOENT:
        print("absent")
    else:
        print("unknown")
 
# errno.ENOENT → Arquivo ou diretório não encontrado 
# O erro ocorre quando você tenta acessar um arquivo/diretório inexistente.

absent
