# Processando arquivos de texto

## read() e readlines()

    stream = open('file.txt', 'rt', encoding='utf-8')

Se aplicada a um arquivo de texto, a função open() é capaz de:

- ler um número desejado de caracteres (incluindo apenas um)
  do arquivo e retorná-los como uma string;

- ler todo o conteúdo do arquivo e retorná-lo como uma string;

- se não houver mais nada para ler (a cabeça de leitura virtual chegar ao fim do arquivo),
  a função retorna uma string vazia.


In [None]:
# leitura letra por letra

from os import strerror

try:
    counter = 0
    stream = open('text.txt', "rt")
    char = stream.read(1) # Tenta ler o primeiro caractere do arquivo (char = stream.read(1))
    while char != '':
        print(char, end='') # se for um arquivo enorme esse método não vai funcionar , ler letra por letra.
        counter += 1
        char = stream.read(1)
    stream.close()
    print("\n\nCharacters in file:", counter)
except IOError as e:
    print("I/O error occurred: ", strerror(e.errno))
    

In [None]:
# leitura letra por conteúdo

from os import strerror

try:
    counter = 0
    stream = open('text.txt', "rt")
    content = stream.read() # Lê o conteúdo com uma única invocação da função read();
    for char in content:
        print(char, end='')
        counter += 1
    stream.close()
    print("\n\nCharacters in file:", counter)
except IOError as e:
    print("I/O error occurred: ", strerr(e.errno))

In [None]:
# usando readline() - leitura linha por linha

from os import strerror

try:
    ccnt = lcnt = 0
    s = open('c:/users/bress/downloads/jupyter/text.txt', 'rt')
    line = s.readline() # tenta ler uma linha completa de texto do arquivo e a retorna como uma string em caso de sucesso.
                        # Caso contrário, ele retorna uma string vazia.
    while line != '':
        lcnt += 1
        for ch in line: # leitura de caracter por caracter dentro de uma linha
            print(ch, end='')
            ccnt += 1
        line = s.readline()
    s.close()
    print("\n\nCharacters in file:", ccnt)
    print("Lines in file:     ", lcnt)
except IOError as e:
    print("I/O error occurred:", strerror(e.errno))
    

In [None]:
# readlines()

# Trata um arquivo de texto como um conjunto de linhas, e não como caracteres.

# O método readlines(), quando invocado sem argumentos, 
# tenta ler todo o conteúdo do arquivo e retorna uma lista de strings, 
# com um elemento por linha do arquivo.

# Se você não tiver certeza se o tamanho do arquivo é pequeno o suficiente
# e não quiser testar os limites do sistema operacional,
# você pode convencer o método readlines()
# a ler não mais do que um número especificado de bytes por vez
# (o valor retornado permanece o mesmo – é uma lista de strings).

stream = open("text.txt")
print(stream.readlines(20))
print(stream.readlines(20))
print(stream.readlines(20))
print(stream.readlines(20))
stream.close()

In [None]:
# readlines() - como usar

from os import strerror

try:
    ccnt = lcnt = 0
    s = open('text.txt', 'rt')
    lines = s.readlines(20) # máximo de 20 linhas -> buffer
    while len(lines) != 0:
        for line in lines: # para linha em linhas
            lcnt += 1
            for ch in line: # para caracter em linha
                print(ch, end='')
                ccnt += 1
        lines = s.readlines(10)
    s.close()
    print("\n\nCharacters in file:", ccnt)
    print("Lines in file:     ", lcnt)
except IOError as e:
    print("I/O error occurred:", strerror(e.errno))
    

In [None]:
from os import strerror

try:
	ccnt = lcnt = 0
	for line in open('text.txt', 'rt'): # usando open() diretamente, o close() se dá sem ser especificado.
		lcnt += 1
		for ch in line:
			print(ch, end='')
			ccnt += 1
	print("\n\nCharacters in file:", ccnt)
	print("Lines in file:     ", lcnt)
except IOError as e:
	print("I/O error occurred: ", strerror(e.errno))
    

## write()

O método write() espera apenas um argumento – uma string que será transferida para um arquivo aberto 
(não se esqueça – o modo de abertura deve refletir a maneira como os dados são transferidos
 – tentar escrever em um arquivo aberto no modo de leitura não funcionará).

Nenhum caractere de nova linha é adicionado ao argumento de write(),
então você deve adicioná-lo manualmente se quiser que o arquivo seja preenchido com várias linhas.

*O exemplo no editor mostra um código muito simples que cria um arquivo chamado newtext.txt
(observe: o modo de abertura w garante que o arquivo será criado do zero,
 mesmo se já existir e contiver dados) e, em seguida, coloca dez linhas nele.*


In [None]:
from os import strerror

try:
	file = open('novotext.txt', 'wt') # Um novo arquivo (novotext.txt) é criado.
	for i in range(10):
		s = "line #" + str(i+1) + "\n"
		for char in s:
			file.write(char)
	file.close()
except IOError as e:
	print("I/O error occurred: ", strerror(e.errno))
 

# A string a ser gravada consiste na palavra "line", seguida pelo número da linha.
# Decidimos escrever o conteúdo da string caractere por caractere (isso é feito pelo loop for interno),
# mas você não é obrigado a fazer dessa maneira.

line #1  
line #2  
line #3  
line #4  
line #5  
line #6  
line #7  
line #8  
line #9  
line #10


In [None]:
from os import strerror

try:
    file = open('newtext.txt', 'wt')
    for i in range(10):
        file.write("line #" + str(i+1) + "\n")
    file.close()
except IOError as e:
    print("I/O error occurred: ", strerror(e.errno))

In [None]:
# Se quiser personalizar a mensagem de erro

import sys
sys.stderr.write("Mensagem de erro")


## O que é um bytearray?

Dados amorfos são dados que não têm uma forma ou estrutura específica – são apenas uma série de bytes.

Isso não significa que esses bytes não possam ter seu próprio significado
ou representar algum objeto útil, como gráficos bitmap.

Dados amorfos não podem ser armazenados usando nenhum dos métodos apresentados anteriormente
– eles não são nem strings nem listas.

Deve haver um contêiner especial capaz de lidar com tais dados.
O Python tem mais de um contêiner desse tipo –
um deles é a classe especializada chamada bytearray
– como o nome sugere, é um array contendo bytes (amorfos).

Se você quiser ter um tal contêiner, por exemplo, para ler uma imagem bitmap
e processá-la de qualquer forma, você precisa criá-lo explicitamente,
usando um dos construtores disponíveis.

 **data = bytearray(10)**
 

Tal invocação cria um objeto bytearray capaz de armazenar dez bytes.

**Nota: esse construtor preenche todo o array com zeros.**

Os bytearrays se assemelham às listas em muitos aspectos.
Por exemplo, eles são mutáveis, são sujeitos à função len(),
e você pode acessar qualquer um de seus elementos usando indexação convencional.

*Há uma limitação importante – você não deve definir nenhum elemento do array de bytes
com um valor que não seja um inteiro (violar essa regra causará uma exceção TypeError)
e não é permitido atribuir um valor que não esteja no intervalo de 0 a 255 inclusive
(a menos que você queira provocar uma exceção ValueError).*

In [None]:
#POde-se tratar qualquer elemento do array de bytes como valores inteiros – assim como no exemplo:

data = bytearray(10)

for i in range(len(data)):
    data[i] = 10 - i

for b in data:
    print(hex(b))
    

# Nota: usamos dois métodos para iterar sobre os arrays de bytes e utilizamos a função hex()
#     para ver os elementos impressos como valores hexadecimais.

# Agora, vamos mostrar como gravar um array de bytes em um arquivo binário – binário,
# pois não queremos salvar sua representação legível, mas sim escrever
# uma cópia exata do conteúdo da memória física, byte por byte.

# Então, como gravamos um array de bytes em um arquivo binário?

In [None]:
from os import strerror

data = bytearray(10)

for i in range(len(data)):
    data[i] = 10 + i

try:
    bf = open('file.bin', 'wb')
    bf.write(data)
    bf.close()
except IOError as e:
    print("I/O error occurred:", strerror(e.errno))
    


- Inicialização do bytearray: Primeiro, inicializamos o bytearray com valores subsequentes começando de 10.
    Se você quiser que o conteúdo do arquivo seja claramente legível, substitua 10 por algo como ord('a')
    isso produzirá bytes contendo valores correspondentes à parte alfabética do código ASCII
    (não pense que isso fará do arquivo um arquivo de texto – ele ainda é binário, já que foi criado com o flag wb).

- Criação do arquivo: Em seguida, criamos o arquivo usando a função open().
    A única diferença em relação às variantes anteriores é o modo de abertura contendo o flag b.

- Gravação dos dados: O método write() recebe seu argumento (o bytearray)
    e o envia (como um todo) para o arquivo.

- Fechamento do fluxo: O fluxo é então fechado de maneira rotineira.

- O método write() retorna o número de bytes gravados com sucesso.

- Se o número de bytes gravados for diferente do comprimento do argumento do método,
    pode indicar alguns erros de gravação.


### Como ler bytes de um fluxo
Ler de um arquivo binário requer o uso de um método especializado chamado readinto(),
pois o método não cria um novo objeto bytearray, mas preenche um já criado com os valores retirados do arquivo binário.

*Nota:
O método retorna o número de bytes lidos com sucesso.
O método tenta preencher todo o espaço disponível no argumento.
Se houver mais dados no arquivo do que espaço no argumento,
a operação de leitura será interrompida antes do final do arquivo;
caso contrário, o resultado do método pode indicar que o array de bytes 
foi preenchido apenas parcialmente (o resultado mostrará isso também,
e a parte do array que não foi utilizada pelos novos conteúdos lidos permanece inalterada).*

In [None]:
from os import strerror

data = bytearray(10)

try:
    binary_file = open('file.bin', 'rb')
    # abrimos o arquivo (aquele craido usando o código anterior) com o modo descrito como rb.
    binary_file.readinto(data)
    #  lemos seu conteúdo para o array de bytes chamado data, com tamanho de dez bytes.
    binary_file.close()

    for b in data:
        print(hex(b), end=' ') # imprimimos o conteúdo do array de bytes
except IOError as e:
    print("I/O error occurred:", strerror(e.errno))
    

In [None]:
# Uma forma alternativa de ler o conteúdo de um arquivo binário
# é oferecida pelo método chamado read().

# Invocado sem argumentos, ele tenta ler todo o conteúdo do arquivo para a memória,
# tornando-o parte de um novo objeto da classe bytes.

# Essa classe tem algumas semelhanças com bytearray,
# com a exceção de uma diferença significativa – ela é imutável.

# Felizmente, não há obstáculos para criar um array de bytes
# a partir do valor inicial diretamente do objeto bytes, assim como aqui:

from os import strerror

try:
    binary_file = open('file.bin', 'rb')
    data = bytearray(binary_file.read())
    binary_file.close()

    for b in data:
        print(hex(b), end=' ')

except IOError as e:
    print("I/O error occurred:", strerror(e.errno))
    
    
# Cuidado – não use esse tipo de leitura se você não tiver certeza
# se o conteúdo do arquivo caberá na memória disponível.

# Se o método read() for invocado com um argumento,
# ele especifica o número máximo de bytes a ser lido.
# O método tenta ler o número desejado de bytes do arquivo,
# e o comprimento do objeto retornado pode ser usado para determinar
# o número de bytes realmente lidos.

# Você pode usar o método assim abaixo:

In [None]:
try:
    binary_file = open('file.bin', 'rb')
    data = bytearray(binary_file.read(5))
    binary_file.close()

    for b in data:
        print(hex(b), end=' ')

except IOError as e:
    print("I/O error occurred:", strerror(e.errno))

# Os primeiros cinco bytes do arquivo foram lidos pelo código – 
# os próximos cinco ainda estão aguardando para serem processados.


## Copiando Arquivos 

In [None]:
from os import strerror

srcname = input("(open file) Escreva o nome do arquivo: ") #Solicite ao usuário o nome do arquivo a ser copiado 
try:
    src = open(srcname, 'rb') # tente abri-lo para leitura
except IOError as e:
    print("Cannot open the source file: ", strerror(e.errno))
    exit(e.errno)	#  termina a execução do programa se a abertura falhar;

dstname = input("(save as) Escreva o novo nome do arquivo: ") #Solicite ao usuário  o novo nome do arquivo
try:
    dst = open(dstname, 'wb') 
except Exception as e:
    print("Cannot create the destination file: ", strerror(e.errno))
    src.close()
    exit(e.errno)	#  termina a execução do programa se houver erro

buffer = bytearray(65536)
# Prepara um pedaço de memória para transferir dados do arquivo de origem para o arquivo de destino;
# essa área de transferência é frequentemente chamada de buffer, daí o nome da variável;
# o tamanho do buffer é arbitrário – neste caso, decidimos usar 64 megabytes;
# tecnicamente, um buffer maior é mais rápido na cópia de itens,
# pois um buffer maior significa menos operações de E/S; na prática,
# sempre há um limite, cuja ultrapassagem não traz mais melhorias

total  = 0 # Conta os bytes copiados – este é o contador e seu valor inicial.

try:
    readin = src.readinto(buffer) # Tenta preencher o buffer pela primeira vez.
    
    while readin > 0: # Enquanto não obtiver um número não zero de bytes, repita as mesmas ações.
        written = dst.write(buffer[:readin]) # Escreve o conteúdo do buffer no arquivo de saída
                                             # (nota: usamos uma fatia para limitar o número de bytes sendo escritos,
                                            #   já que write() sempre prefere escrever o buffer inteiro).
        total += written # Atualiza o contador.
        readin = src.readinto(buffer) # Lê o próximo bloco do arquivo.
except IOError as e:
    print("Cannot create the destination file: ", strerror(e.errno))
    exit(e.errno)	
    
print(total,'byte(s) succesfully written')
src.close()
dst.close()
    

### Exercício 1

**Histograma de Frequência de Caracteres**

Um arquivo de texto contém algum texto (nada incomum),
mas precisamos saber com que frequência (ou quão raramente) cada letra aparece no texto.
Tal análise pode ser útil em criptografia, então queremos ser capazes de fazer isso em relação ao alfabeto latino.

**Sua tarefa é escrever um programa que:**

- Solicite ao usuário o nome do arquivo de entrada;

- Leia o arquivo (se possível) e conte todas as letras latinas
    (letras minúsculas e maiúsculas são tratadas como iguais);
    
- Imprima um histograma simples em ordem alfabética 
    (somente contagens não zero devem ser apresentadas).
    
- Crie um arquivo de teste para o código e verifique se o seu histograma contém resultados válidos.

Assumindo que o arquivo de teste contém apenas uma linha preenchida com: 
    
    aBc
    
O resultado é:
    
    a -> 1
    b -> 1
    c -> 1


*Dica: Acreditamos que um dicionário é um meio de coleta de dados perfeito para armazenar as contagens.
       As letras podem ser as chaves, enquanto os contadores podem ser os valores.*
        

In [7]:
from os import strerror

# Criação do dicionário com todas as letras / 26 contadores para cada letra latina.
# Usando compreensão para fazer isso.
contadores = {chr(ch): 0 for ch in range(ord('a'), ord('z') + 1)}
# print(contadores) # for debug

nome_do_arquivo = input("Escreva o nome do arquivo: ")

try:
    arquivo = open(nome_do_arquivo, 'rt')
    for line in arquivo: 
        for char in line:
            if char.isalpha(): # se for uma letra
                contadores[char.lower()] += 1 # será tratada como minúscula e atualiza o contador apropriado.
    arquivo.close()       

# exibindo os contadores
    for char in contadores.keys():
        contador = contadores[char]
        if contador > 0:
            print(char, '->', contador)
            
except IOError as e:
    print("I/O error occurred: ", strerror(e.errno))
    


Escreva o nome do arquivo: abc.txt
a -> 1
b -> 1
c -> 1


### Exercício 2

**Refatorar o código anterior**

- O histograma de saída será ordenado com base na frequência dos caracteres 
    (o contador maior deve ser apresentado primeiro).
    
- O histograma deve ser enviado para um arquivo com o mesmo nome do arquivo de entrada,
    mas com o sufixo ".hist" (ele deve ser concatenado ao nome original).
    
- Assumindo que o arquivo de entrada contenha apenas uma linha preenchida com:
    
    cBabAa

O resultado é:

    a -> 3
    b -> 2
    c -> 1


In [12]:
from os import strerror

dicionario = {chr(ch): 0 for ch in range(ord('a'), ord('z') + 1)}
nome_do_arquivo = input("Escreva o nome do arquivo: ")

try:
    # Primeiro bloco: leitura do arquivo
    file = open(nome_do_arquivo, "rt")
    for line in file:
        for char in line:
            if char.isalpha():
                dicionario[char.lower()] += 1
    file.close()

    # Segundo bloco: escrita no arquivo .hist
    file = open(nome_do_arquivo + '.hist', 'wt') # salva com o  com o sufixo ".hist" 
    
    # Ordenando e escrevendo o histograma no arquivo
    # Observação:função lambda para acessar os elementos do dicionário e configur o reverse para obter uma ordem válida.
    for char in sorted(dicionario.keys(), key=lambda x: dicionario[x], reverse=True):
        c = dicionario[char]
        if c > 0:
            file.write(char + ' -> ' + str(c) + '\n')
    
    file.close()
    print("Histograma salvo em", nome_do_arquivo + '.hist')

except IOError as e:
    print("Ocorreu um erro de E/S: ", strerror(e.errno))
    
    
# Visualizando o resultado
leitura = open(nome_do_arquivo + '.hist', "rt")
line = leitura.readline()

while line != '':
    print(line, end='')  # Imprime a linha inteira sem adicionar uma nova linha extra
    line = leitura.readline()

leitura.close()


Escreva o nome do arquivo: text.txt
Histograma salvo em text.txt.hist
t -> 16
e -> 14
i -> 12
l -> 8
a -> 6
c -> 6
p -> 6
b -> 5
m -> 5
s -> 5
h -> 4
n -> 4
r -> 4
o -> 3
u -> 3
x -> 3
d -> 1
f -> 1
g -> 1
y -> 1


## Exercício 3

**Avaliando os resultados dos alunos**

O professor Jekyll ministra aulas para os alunos e regularmente faz anotações em um arquivo de texto.
Cada linha do arquivo contém três elementos:
    - o primeiro nome do aluno,
    - o sobrenome do aluno 
    - e o número de pontos que o aluno recebeu durante certas aulas.

Os elementos são separados por espaços em branco.
Cada aluno pode aparecer mais de uma vez no arquivo do professor Jekyll.

O arquivo pode ter a seguinte aparência:

John Smith 5
Anna Boleyn 4.5
John Smith 2
Anna Boleyn 11
Andrew Cox 1.5

** A tarefa é escrever um programa que:**

- pergunte ao usuário o nome do arquivo do professor Jekyll;
- leia o conteúdo do arquivo e calcule a soma dos pontos recebidos para cada aluno;
- imprima um relatório simples (mas ordenado), assim como este:

Andrew   Cox      1.5
Anna     Boleyn   15.5
John     Smith    7.0

Seu programa deve estar totalmente protegido contra todas as possíveis falhas: a inexistência do arquivo, o arquivo estar vazio ou quaisquer falhas nos dados de entrada; ao encontrar qualquer erro de dados, o programa deve ser encerrado imediatamente e o erro deve ser apresentado ao usuário.

Implemente e utilize sua própria hierarquia de exceções – nós a apresentamos no editor; a segunda exceção deve ser levantada quando uma linha errada for detectada, e a terceira quando o arquivo de origem existir, mas estiver vazio.

Dica: Use um dicionário para armazenar os dados dos alunos.

In [5]:
# A classe base de exceção para o nosso código:
class StudentsDataException(Exception):
    pass


# Uma exceção para linhas errôneas:
class WrongLine(StudentsDataException):
    def __init__(self, line_number, line_string):
        super().__init__(self)
        self.line_number = line_number
        self.line_string = line_string


# Uma exceção para um arquivo vazio.
class FileEmpty(StudentsDataException):
    def __init__(self):
        super().__init__(self)


from os import strerror

# Um dicionário para os dados dos alunos:
data = { }

file_name = input("Digite o nome do arquivo de dados dos alunos: ")
line_number = 1
try:
    arquivo = open(file_name, "rt")
    # Leia o arquivo inteiro em uma lista.
    lines = arquivo.readlines()
    arquivo.close()
    
    # O arquivo está vazio?
    if (len(lines) == 0):
        raise FileEmpty()
        
    # Escaneie o arquivo linha por linha.
    for i in range(len(lines)):
        # Obtenha a i-ésima linha.
        line = lines[i]
        
        # Divida-a em colunas.
        columns = line.split()
        
        # Devem haver 3 colunas - elas estão lá?
        if len(columns) != 3:
            raise WrongLine(i + 1, line)
            
        # Construa uma chave a partir do nome e sobrenome do aluno.
        student = columns[0] + ' ' + columns[1]
        
        # Obtenha os pontos.
        try:
            points = float(columns[2])
        except ValueError:
            raise WrongLine(i + 1, line)
            
        # Atualize o dicionário.
        try:
            data[student] += points
        except KeyError:
            data[student] = points
            
    # Imprima os resultados.
    for student in sorted(data.keys()):
        print(student,'\t', data[student])

except IOError as e:
    print("Ocorreu um erro de E/S: ", strerror(e.errno))
except WrongLine as e:
    print("Linha errada #" + str(e.line_number) + " no arquivo de origem:" + e.line_string)
except FileEmpty:
    print("Arquivo de origem vazio")

    
# imprimindo o dicionário
# print(data)

Digite o nome do arquivo de dados dos alunos: alunos.txt
Creuza Antunes 	 15.5
Henriqueta Seabra 	 4.4
Oberlaque Silveira 	 3.5
Setembrino Cunha 	 9.2
Sobervalda Rodrigues 	 7.0
{'Sobervalda Rodrigues': 7.0, 'Creuza Antunes': 15.5, 'Oberlaque Silveira': 3.5, 'Setembrino Cunha': 9.2, 'Henriqueta Seabra': 4.4}


## Resumo

**Para ler o conteúdo de um arquivo, os seguintes métodos de fluxo podem ser utilizados:**
    
- read(number) – lê o número de caracteres/bytes do arquivo e os retorna como uma string;
    é capaz de ler o arquivo inteiro de uma vez;

- readline() – lê uma única linha do arquivo de texto;

- readlines(number) – lê o número de linhas do arquivo de texto; é capaz de ler todas as linhas de uma vez;

- readinto(bytearray) – lê os bytes do arquivo e preenche o bytearray com eles;


** Para escrever novo conteúdo em um arquivo, os seguintes métodos de fluxo podem ser utilizados:**
    
- write(string) – escreve uma string em um arquivo de texto;

- write(bytearray) – escreve todos os bytes do bytearray em um arquivo;

- O método open() retorna um objeto iterável que pode ser usado para iterar por todas as linhas do arquivo
    dentro de um loop for. Por exemplo:

for line in open("file", "rt"):
    print(line, end='')
    
O código copia o conteúdo do arquivo para o console, linha por linha.
*Nota: o fluxo se fecha automaticamente quando chega ao final do arquivo.*
    

1- What do we expect from the readlines() method
   when the stream is associated with an empty file?
    
    **An empty list (a zero-length list).**

2- What is the following code intended to do?

 ** It copies the file's contents to the console, ignoring all vowels. **

In [6]:
for line in open("file.txt", "rt"):
    for char in line:
        if char.lower() not in "aeiouy ":
            print(char, end='')

Btflsbttrthngl.
xplctsbttrthnmplct.
Smplsbttrthncmplx.
Cmplxsbttrthncmplctd.

3- You're going to process a bitmap stored in a file named image.png,
    and you want to read its contents as a whole into a bytearray variable named image.
    Add a line to the following code to achieve this goal.
    
try:
    stream = open("image.png", "rb")
    
    ** Insert a line here.**
    
    stream.close()
except IOError:
    print("failed")
else:
    print("success")
    

In [None]:
try:
    stream = open("image.png", "rb")
    image = bytearray(stream.read())
    stream.close()
except IOError:
    print("failed")
else:
    print("success")