# Aula 06

## Manipulação de arquivos em Python

### Abrindo arquivo existente com o modo de acesso `read`

A função `open(path, mode)` recebe dois parâmetros: path e mode. O primeiro se refere ao caminho de onde está o arquivo a ser aberto. Já o segundo, se refere ao modo de acesso. A seguir, alguns modos de acesso:

    - r  : read / leitura
    - w  : write / escrita -> sobrescreve ou cria um novo
    - r+ : read and write / leitura + escrita
    - w+ : write and read / escrita + leitura
    - a  : append / acrescenta no fim
    - a+ : append / acrescento no início

                      | r   r+   w   w+   a   a+
    ------------------|--------------------------
    read              | +   +        +        +
    write             |     +    +   +    +   +
    write after seek  |     +    +   +
    create            |          +   +    +   +
    truncate          |          +   +
    position at start | +   +    +   +
    position at end   |                   +   +  
 
    - 'after seek': significa que você pode definir o byte onde vai começar a operação. Por exemplo: arquivo.write(2).
    - 'truncate': significa que o arquivo vai ser sobrescrito.

Como estou utilizando o VSCode, tenho como workspace a pasta POO II, o qual é tido como o início do caminho (path). Portanto, basta escrever o caminho do arquivo dentro do workspace.

A função `open()` retorna o arquivo pedido, com o respectivo modo de acesso. Por isso é necessário uma variável para 'receber' esse arquivo. No nosso caso, o nome da variável é 'arquivo', mas poderia ser qualquer outra palavra, desde  que não seja alguma já reservada (exemplo de palavra reservada: `if`). A partir de então, é possível manipular o arquivo a partir da variável.

É interessante sempre escrever logo o `.close()`, para evitar problemas. Caso a execução seja interrompida, ou finalizada normalmente, sem que o arquivo seja fechado, você terá problemas para acessá-lo, mesmo com outro programa, como o bloco de notas.

Porém, existe outra forma mais "cômoda" de lidar com abertura e fechamento de arquivos: `with open()`. Neste caso, o próprio Python garantirá o fechamento adequado do arquivo.

In [None]:
arquivo = open("teste.txt", "r")

print(arquivo.readable())  # imprimindo a verificação se o arquivo pode ser lido
print(arquivo.read())      # imprimindo o arquivo

arquivo.close()

`readline()` lê uma linha e deixa o `cursor` na linha seguinte. Portanto, uma sequência de `readline()` vai retornar sempre a linha seguinte. Com o `print()`, a leitura de cada linha é impressa. Como cada linha do arquivo que está sendo lido termina com `\n` (quebra de linha) o resultado de cada `readline()` vai ter a seguir uma linha em branco.

In [None]:
with open("teste.txt", "r") as arquivo:
    print(arquivo.readline())
    print(arquivo.readline())
    print(arquivo.readline())

A função `readlines()` retorna uma lista, onde cada elemento da lista é o conteúdo de uma linha. Essa lista está sendo armazenada na variável lista. A partir daí podemos manipular a lista. Perceba que manipulando a lista, mesmo que apagando elementos, não vai afetar o arquivo.

In [None]:
with open("teste.txt", "r") as arquivo:
    lista = arquivo.readlines()
    print(lista)

Outra maneira de imprimir uma lista é utilizando o comando `for`. Da maneira que foi escrita, este `for` funciona como o `for each` (para cada) de outras linguagens. Então, o código está dizendo mais ou menos assim: para cada elemento da lista, visto como l : ...

Outra peculiaridade do Python é a sua necessidade de identação. Isto porque, como você já deve ter notado, não temos ponto e vírgula para definir o fim de uma linha, ou { e } para definir o escopo de um bloco. Portanto, todo bloco em Python inicia com a 'chamada' do bloco seguido de dois pontos. No nosso caso, a 'chamada' é o `for`, ou seja, a chamada de um bloco de repetição. Seguido do `for` temos o `:`. Após os dois pontos, para que o interpretador do Python saibda que uma linha faz parte do bloco, é necessário que aquela linha comece 'tabulada', ou seja deslocada para o lado. Por isso, o `print(l)` é visto como uma linha dentro do `for`. A primeira após o bloco cujo código não esteja deslocado, o interpretador já vai entender como um comando que não pertence ao `for`.

In [None]:
with open("teste.txt", "r") as arquivo:
    lista = arquivo.readlines()

    for l in lista: 
        print(l)

### Abrindo um arquivo existente com o modo de acesso `append`.

A partir disso é possível acrescentar conteúdo ao arquivo. No nosso caso, criamos um comando para que fosse escrito `"\nSQL"`. Quando o arquivo é aberto em modo `'a'` a nova escrita vai iniciar no espaço seguinte ao último já existente. No nosso exemplo, em `teste.txt`, tínhamos como último elemento a palavra Matlab. Com o `append`, a nova escrita começaria colado ao Matlab. Porém, como escrevemos o `\n`, vai haver primeiro uma quebra de linha. O SQL é escrito logo após a quebra de linha.

In [None]:
with open("teste.txt", "a") as arquivo:
    arquivo.write("\nSQL")
    arquivo.write("\nR\n")

### Modo de acesso `write`

Caso o modo de escrita seja 'selecionado', e o arquivo pedido não exista, então ele será criado. É importan te lembrar também que, caso o arquivo já exista, com este modo de acesso, o coonteúdo dele será sobrescrito.

In [None]:
with open("teste2.txt", "w") as arquivo:
    arquivo.write("Portugol\n")
    arquivo.write("ADA\n")
    arquivo.write("C#")

### Remoção de arquivos

A remoção de arquivos pode ser feita com a importação do módulo `os` (de operating system, ou sistema operacional). Esse módulo provê uma interface para funcionalidades dependentes do sistema operacional.

In [None]:
import os # Apesar de ser nativo do Python, precisa ser explicitamente importado

#   Verificando se um arquivo existe. Caso positivo, o arquivo é removido. Senão, é impressa a mensagem.
if os.path.exists("teste3.txt"):
    os.remove("teste3.txt")
else:
    print("Arquivo não existe")

Da mesma forma, ou seja, com o uso do módulo `os`, é possível criar e remover pastas. Entretanto, a remoção só é possível se a pasta estiver vazia.

In [None]:
os.mkdir("TESTE")
os.rmdir("../06") # Só remove se estiver vazia

## Exercícios

### Questões Fáceis (1-20)
Essas questões focam em operações básicas de abertura, leitura, escrita e fechamento de arquivos de texto.

1. Crie um script que abra um arquivo de texto chamado "exemplo.txt" e imprima todo o seu conteúdo na tela.

2. Escreva um programa que crie um novo arquivo chamado "saida.txt" e escreva a string "Olá, mundo!" nele.

3. Abra o arquivo "exemplo.txt" e imprima apenas a primeira linha do arquivo.

4. Leia todas as linhas de "exemplo.txt" em uma lista e imprima o número total de linhas.

5. Conte o número de palavras no arquivo "exemplo.txt" (considere que as palavras são separadas por espaços).

6. Copie o conteúdo inteiro de "entrada.txt" para um novo arquivo chamado "copia.txt".

7. Abra "exemplo.txt" em modo de append e adicione a linha "Nova linha adicionada." no final.

8. Verifique se o arquivo "exemplo.txt" existe antes de tentar abri-lo e imprima uma mensagem apropriada.

9. Crie um arquivo "numeros.txt" e escreva os números de 1 a 10, um por linha.

10. Leia o arquivo "exemplo.txt" e imprima cada linha em maiúsculas.

11. Substitua todas as ocorrências da palavra "Python" por "Java" no arquivo "exemplo.txt" e salve em um novo arquivo.

12. Leia "exemplo.txt", divida o texto em palavras e imprima a lista de palavras.

13. Conte quantas vezes a letra 'a' aparece no arquivo "exemplo.txt" (case-insensitive).

14. Inverta a ordem das linhas de "exemplo.txt" e escreva o resultado em "invertido.txt".

15. Leia as linhas de "exemplo.txt", ordene-as alfabeticamente e escreva em "ordenado.txt".

16. Encontre e imprima a linha mais longa (em caracteres) do arquivo "exemplo.txt".

17. Remova todas as linhas vazias de "exemplo.txt" e salve o resultado em "limpo.txt".

18. Use um gerenciador de contexto (with) para abrir "exemplo.txt" e imprimir seu conteúdo.

19. Crie um arquivo "vogais.txt" escrevendo apenas as vogais encontradas em "exemplo.txt".

20. Leia "exemplo.txt" e imprima o tamanho total do arquivo em bytes.

In [None]:
# ...


### Questões de Dificuldade Média (21-40)
Essas questões envolvem manipulação mais avançada, como processamento de linhas, tratamento de erros e operações com múltiplos arquivos.

21. Leia dois arquivos de texto ("arquivo1.txt" e "arquivo2.txt") e concatene seu conteúdo em um terceiro arquivo "uniao.txt".

22. Procure por uma palavra específica (ex: "erro") em "log.txt" e imprima as linhas que a contêm.

23. Trate um erro de arquivo não encontrado ao tentar abrir "nao_existe.txt" e imprima uma mensagem de erro personalizada.

24. Leia "exemplo.txt" com codificação UTF-8 e converta todo o texto para minúsculas, salvando em "minusculo.txt".

25. Crie um dicionário de frequência de palavras em "exemplo.txt" e imprima as 5 palavras mais comuns.

26. Numere as linhas de "exemplo.txt" (ex: "1: linha um") e escreva em "numerado.txt".

27. Compare dois arquivos linha por linha e imprima as diferenças em "diferencas.txt".

28. Gere um backup de "exemplo.txt" renomeando-o para "exemplo_backup.txt" se o original existir.

29. Leia "exemplo.txt", remova linhas que contenham uma palavra específica (ex: "ignore") e salve o filtro em "filtrado.txt".

30. Crie um arquivo "resumo.txt" que contenha o número de linhas, palavras e caracteres de "exemplo.txt".

31. Divida "exemplo.txt" em parágrafos (separados por linhas vazias) e salve cada parágrafo em um arquivo separado (ex: para1.txt, para2.txt).

32. Encontre todas as linhas que são palíndromos em "exemplo.txt" e liste-as.

33. Substitua múltiplas palavras em "exemplo.txt" usando um dicionário de substituições e salve o resultado.

34. Leia "exemplo.txt" e "referencia.txt", encontre linhas comuns e escreva em "comuns.txt".

35. Trate exceções ao escrever em um arquivo que está sendo lido simultaneamente (use try-except).

36. Crie um script que processe todos os arquivos .txt em um diretório e conte o total de palavras em todos eles.

37. Adicione timestamps (data/hora atual) no início de cada linha ao ler e reescrever "exemplo.txt".

38. Valide se "exemplo.txt" tem exatamente 10 linhas; se não, adicione linhas vazias até atingir o número.

39. Extraia apenas os números de "exemplo.txt" (usando expressões regulares simples) e salve em "numeros_extraidos.txt".

40. Crie um arquivo "estatisticas.txt" com a média de comprimento das linhas de "exemplo.txt".

In [None]:
# ...


### Questões de Dificuldade Alta (41-50)
Essas questões demandam complexidade maior, como processamento eficiente de arquivos grandes, regex avançado, manipulação in-place e integração com estruturas de dados.

41. Processe um arquivo grande ("log_grande.txt") em chunks de 1024 bytes, contando erros (linhas com "ERROR") sem carregar tudo na memória.

42. Use expressões regulares para extrair e-mails de "emails.txt" e valide-os salvando apenas os válidos em "validos.txt".

43. Edite "exemplo.txt" in-place (sem criar cópia), removendo linhas duplicadas consecutivas.

44. Parse um arquivo de configuração simples (formato chave=valor) em "config.txt" e crie um dicionário para usá-lo em outro arquivo.

45. Compare a similaridade entre dois arquivos grandes usando um algoritmo simples de dif (ex: contagem de palavras comuns) e gere um relatório.

46. Gere um relatório consolidado de múltiplos arquivos de log ("log1.txt" a "log5.txt"), somando contagens de eventos por categoria.

47. Implemente uma busca e substituição condicional em "exemplo.txt": substitua "old" por "new" apenas se a linha contiver "if".

48. Crie um script que leia "arvore.txt" (formato hierárquico indentado), construa uma árvore de dados e salve uma versão JSON-like em texto.

49. Otimize a leitura de "arquivo_enorme.txt" para buscar uma substring em tempo O(1) aproximado, usando índices de linhas.

50. Integre manipulação de arquivos com uma estrutura de dados: leia "transacoes.txt", processe transações em uma lista de dicionários, valide saldos e gere um arquivo de auditoria com discrepâncias.

In [None]:
# ...