## Trabalhando com arquivos de texto com Python

É possível abrir, escrever e reescrever arquivos de texto usando Python. Vejamos algumas formas.

**Criar arquivos de texto usando a função open()**

Para criar um arquivo de texto e escrever texto nele, podemos usar a função `open()`. Existem duas formas de fazer isso: uma delas envolve abrir o arquivo usando `open()`, trabalhar com ele, e, em seguida, fechar o arquivo usando `close()`. Porém, uma forma mais simples é usando a keyword `with`, e essa é a forma que usaremos. Dessa forma, não precisamos nos preocupar em fechar o arquivo (Nota: não fechar o arquivo pode ser problemático).

O arquivo de texto no qual o texto será escrito pode ser criado anteriormente, ou ser criado "na hora". Se o arquivo já existir, basta passar o valor `'a'` se quiser acrescentar texto a ele (append), ou `'w'` se quiser escrever o texto substituindo o que estiver escrito (write). É sempre recomendável usar o modo append para não perder o que está escrito no arquivo.

Se o arquivo de texto não existir, a função `open()` pode ser chamada com o símbolo `'+'` na frente da letra. Assim, o valor `'a+'` tem duas partes: `'a'` significa que o arquivo será aberto no modo append, e o `'+'` significa: se um arquivo com esse nome não existir, crie um arquivo vazio, e abra no modo append.

A keyword `"end"` indica o que fazer ao terminar de escrever uma linha. Usamos `end='\n'` para passar para a próxima linha após cada string.

In [None]:
# Esse comando criará o arquivo de texto "arquivo.txt" contendo a string "Isso é uma string"
print("Isso é uma string", file=open("arquivo.txt", 'a+'))

In [2]:
# Criando um arquivo de texto com várias linhas
with open('linhas.txt', 'a+') as texto:  # criar linhas.txt no modo append. Se o arquivo não existir, criá-lo
    for value in range(1, 6):  # loop com range de 1 a 5
        # Usei uma f-string para introduzir os números do loop nas strings
        s = f"Linha {value}/5"
        # A keyword "end" é pra ele "dar enter" após cada frase
        print(s, end='\n', file=texto)

O output do código acima será um arquivo chamado `linhas.txt` com o seguinte conteúdo:

Linha 1/5 <br> Linha 2/5 <br> Linha 3/5 <br> Linha 4/5 <br> Linha 5/5

**Ler arquivos de texto**

Para ler um arquivo de texto existente, sem modificá-lo, usamos o modo "read" com o argumento `'r'`. Esse modo é usado para trabalhar com arquivos de texto baixados, por exemplo. 

Usando `readlines()`, podemos ler o arquivo linha a linha, e trabalhar com cada uma individualmente. Por exemplo, podemos verificar se uma palavra está em uma linha:

In [None]:
with open('words.txt') as file:
    i = 0
    for line in file.readlines():
        if 'banana' in line:
            return i
        i += 1

Vou colocar como exemplo o exercício 9.3 do excelente livro Think Python. O exercício consiste em verificar a presença de "letras proibidas" em palavras de um dicionário. Devemos gerar combinações de 5 letras do alfabeto e verificar a presença dessas letras nas palavras. Se uma das letras estiver presente na palavra, removemos a palavra. O objetivo é descobrir quais são as letras que removem mais palavras e as que removem menos.

In [7]:
def avoids(word, forbidden):
    """
    Essa função verifica se uma ou mais letras estão presentes em uma palavra.
    Se alguma letra estiver presente, a função retorna False
    """
    for letter in forbidden:
        if letter in word:
            # print(f"Forbidden letter \"{letter}\" was found")
            return False
    return True

O Python possui ferramentas para facilitar a geração das combinações de 5 letras (lembrando que não faz sentido repetir as letras, e que a ordem também não faz diferença).

Podemos usar os módulos string e itertools:

In [8]:
# Gerando uma string com todas as letras do alfabeto
import string
alphabet = string.ascii_lowercase

# Testar todas as combinações de 5 letras usando itertools.combinations(alphabet, 5)
from itertools import combinations

five_letter_combs = combinations(alphabet, 5)
print("Número de combinações de 5 letras:", len(list(five_letter_combs)))

Número de combinações de 5 letras: 65780


O script a seguir verificará cada combinação para cada palavra do arquivo de texto (brute force). 

Com 10 minutos, o programa não terminou de checar todas as combinações (65780 * 113809), por isso interrompi a execução.

Esse [link](https://stackoverflow.com/questions/22506193/is-there-a-better-algorithm-for-exercise-9-3-in-think-python-how-to-think-like) apresenta uma forma mais elegante de resolver esse problema.

In [None]:
# A melhor combinação é a que remove o menor número de palavras
min_words = 113809  # Número de palavras no arquivo words.txt
best_combination = []

# A pior combinação é a que remove o maior número de palavras
max_words = 0
worst_combination = []

with open(r'C:\Users\Rafael\PycharmProjects\teste\notebooks\Learn_Python\words.txt') as fin:
    for comb in five_letter_combs:
        # comb é uma lista de 5 letras, funciona como argumento para a função avoids()
        num = 0
        for word in fin.readlines():  # cada palavra está em uma linha
            if avoids(word, comb):
                num += 1
        if num > max_words:
            max_words = num
            worst_combination = comb
        if num < min_words:
            min_words = num
            best_combination = comb
        fin.seek(0)  # linha importante: indicamos que queremos ler o arquivo da linha 0 novamente

# Converter as listas de letras a strings
best_comb_str = ""
for letter in best_combination:
    best_comb_str += letter

worst_comb_str = ""
for letter in worst_combination:
    worst_comb_str += letter

print(f"""
A combinação que removeu o menor número de palavras de words.txt é "{best_comb_str}".
{113809-min_words} palavras foram removidas de um total de 113809.
A combinação que removeu o maior número de palavras de words.txt é "{worst_comb_str}".
{113809-max_words} palavras foram removidas de um total de 113809.
""")