In [None]:
## Não se preocupem com essa célula. Ela é só pra essa aula funcionar no Google Colab
## Se estiver rodando isso no Colab, Descomente e rode o código abaixo:

#!git clone https://github.com/gavieira/curso_programacao

#import os
#os.chdir('/content/curso_programacao')
#!git pull

# Manipulação de arquivos

Muitas vezes, precisamos transferir o arquivo para "dentro" do nosso programa para que seu conteúdo seja manipulado.

A forma mais comum de se trabalhar com arquivos em Python é usar a função `open()`. Sua sintaxe é:

     open(arquivo, modo)

- **arquivo**: caminho/nome do arquivo que se quer abrir
- **modo**: string definindo o modo de abertura do arquivo
  - **"r"** - Read (Padrão) - Abre arquivo para leitura. Erro se o aqruivo não existir.
  - **"a"** - Append - Abre arquivo para *appending* (adicionar conteúdo a partir da última linha). Cria arquivo se o mesmo não existir.
  - **"w"** - Write - Abre arquivo para escrita. Sobrescreve arquivo já existente. Cria novo arquivo se o mesmo não existir.
  - **"x"** - Create - Cria o arquivo. Erro se o arquivo existir
- Além desses 4 modos, é possível especificar se o arquivo aberto será em formato binário ou de texto (**não será tão útil aqui**):
  - **"t"** - Text (Padrão) - Arquivos de texto (.txt, .fasta, .genbank, .html, .ipynb)
  - **"b"** - Binário - Imagens, por exemplo.

A função `open()` retorna um objeto (chamado *file object*), que possui vários métodos associados à leitura do conteúdo do arquivo:

In [None]:
# Criando file object
open('arquivos/arquivo_texto.txt') # Default mode: 'r'

<_io.TextIOWrapper name='arquivos/arquivo_texto.txt' mode='r' encoding='UTF-8'>

Não especificamos o modo para mostrar que o valor padrão é `r` (`rt`, para ser mais exato), mas passaremos a declarar explicitamente o modo daqui pra frente por ser uma boa prática.

In [None]:
type(open('arquivos/arquivo_texto.txt', 'r'))

_io.TextIOWrapper

## Métodos do *file object*

In [None]:
# Métodos associados ao file object
print(dir(open('arquivos/arquivo_texto.txt', 'r')))

['_CHUNK_SIZE', '__class__', '__del__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__ne__', '__new__', '__next__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '_checkClosed', '_checkReadable', '_checkSeekable', '_checkWritable', '_finalizing', 'buffer', 'close', 'closed', 'detach', 'encoding', 'errors', 'fileno', 'flush', 'isatty', 'line_buffering', 'mode', 'name', 'newlines', 'read', 'readable', 'readline', 'readlines', 'reconfigure', 'seek', 'seekable', 'tell', 'truncate', 'writable', 'write', 'write_through', 'writelines']


### `read()` e `seek()`

Agora, vamos passar a salvar o *file object* em variáveis para começar a brincar com ele.

Primeiramente, iremos ler todo o conteúdo do arquivo com o método `read()`:

In [None]:
# Botando file object em variável
arquivo_texto = open('arquivos/arquivo_texto.txt', 'r')

#Imprimindo linhas do arquivo
print(arquivo_texto.read())

Olá!
Esse é um arquivo de texto para o curso de programação em Python.
Ele tem só algumas linhas.
Que vão ser mostradas na aula sobre manipulação de arquivos.


Se tentarmos imprimir novamente o conteúdo do arquivo com o método `read()`, nada será impresso:

In [None]:
print(arquivo_texto.read())




Isso acontece porque há um contador em *file objects* que indicam até onde nós lemos o seu conteúdo. Esse contador não é resetado ao chegar no fim do arquivo. É comum dizer nesse caso que o objeto foi **exaurido**.

Para resolver isso, podemos:
  - Recriar o objeto
  - Resetar a posição do contador com o método seek()
  - Salvando o conteúdo de `arquivo_texto.read()` em uma variável, que pode ser acessada quantas vezes se quiser (mas gasta mais memória).

In [None]:
# Recriando o objeto e imprimindo conteúdo
arquivo_texto = open('arquivos/arquivo_texto.txt', 'r')
print(arquivo_texto.read())

Olá!
Esse é um arquivo de texto para o curso de programação em Python.
Ele tem só algumas linhas.
Que vão ser mostradas na aula sobre manipulação de arquivos.


In [None]:
print("Antes de resetar contador:\n", arquivo_texto.read()) # Não vai imprimir nada

# Usando método seek() para resetar a posição de leitura do objeto

arquivo_texto.seek(0) # Voltando pra posição 0 (início do arquivo)
print("Depois de resetar contador:\n", arquivo_texto.read())

Antes de resetar contador:
 
Depois de resetar contador:
 Olá!
Esse é um arquivo de texto para o curso de programação em Python.
Ele tem só algumas linhas.
Que vão ser mostradas na aula sobre manipulação de arquivos.


In [None]:
# Salvando conteúdo do arquivo em variável
# Cuidado! Gasta mais memória. Não recomendável para arquivos grandes

arquivo_texto.seek(0)
conteúdo = arquivo_texto.read()

print(conteúdo + '\n')
print(conteúdo + '\n')
print(conteúdo + '\n')
print(conteúdo + '\n')
print(conteúdo + '\n')
print(conteúdo + '\n')
print(conteúdo + '\n')
print(conteúdo + '\n')

Olá!
Esse é um arquivo de texto para o curso de programação em Python.
Ele tem só algumas linhas.
Que vão ser mostradas na aula sobre manipulação de arquivos.

Olá!
Esse é um arquivo de texto para o curso de programação em Python.
Ele tem só algumas linhas.
Que vão ser mostradas na aula sobre manipulação de arquivos.

Olá!
Esse é um arquivo de texto para o curso de programação em Python.
Ele tem só algumas linhas.
Que vão ser mostradas na aula sobre manipulação de arquivos.

Olá!
Esse é um arquivo de texto para o curso de programação em Python.
Ele tem só algumas linhas.
Que vão ser mostradas na aula sobre manipulação de arquivos.

Olá!
Esse é um arquivo de texto para o curso de programação em Python.
Ele tem só algumas linhas.
Que vão ser mostradas na aula sobre manipulação de arquivos.

Olá!
Esse é um arquivo de texto para o curso de programação em Python.
Ele tem só algumas linhas.
Que vão ser mostradas na aula sobre manipulação de arquivos.

Olá!
Esse é um arquivo de texto para o c

Essa característica do `file object` de possuir um contador que não é resetado automaticamente e eventualmente acabar exaurido é muito comum em uma classe de iteráveis chamados de *generators*.

Esses objetos infelizmente não serão abordados aqui, mas são muito importantes em momentos nos quais precisamos iterar sobre objetos muito grandes e ao mesmo tempo otimizar o consumo de RAM.

Voltando aos métodos de `file objects`, temos que o método `read()` pode receber um parâmetro numérico que especifica quantos caracteres devem ser retornados:

In [None]:
# Resetando a posição do objeto:
arquivo_texto.seek(0)

# Retornando os primeiros 20 caracteres:
print(arquivo_texto.read(20))

# Retornando os próximos 5 caracteres:
print(arquivo_texto.read(5))

Olá!
Esse é um arqui
vo de


### `readline()`

Se quisermos ler uma única linha do arquivo de texto, podemos usar o método `readline()`:

In [None]:
arquivo_texto = open('arquivos/arquivo_texto.txt', 'r')

In [None]:
# Rode essa célula múltiplas vezes
# Eventualmente, o objeto será exaurido

print(arquivo_texto.readline())

Olá!



#### OBS: `for` loop para ler linhas em arquivo

Também é possível usar um **for loop** para ler o arquivo inteiro, linha por linha:

In [None]:
arquivo_texto = open('arquivos/arquivo_texto.txt', 'r')
for linha in arquivo_texto:
    print(linha)

Olá!

Esse é um arquivo de texto para o curso de programação em Python.

Ele tem só algumas linhas.

Que vão ser mostradas na aula sobre manipulação de arquivos.


### `write()`

Como o nome dá a entender, o método `write()` recebe um parâmetro que é escrito em um arquivo que foi previamente aberto (no modo 'w' ou 'a'):

In [None]:
arquivo_novo = open("arquivos/arquivo_novo.txt", "w")
for num in range(10):
    arquivo_novo.write("Linha {}\n".format(num))

# Checar se arquivo saiu como o esperado...

# ...e se descomentar a linha abaixo? Funciona?
#arquivo_texto.close() # Spoilers do próximo método...

### `close()` 

É considerada boa prática **fechar** o arquivo aberto pela função `open()` após terminar de manuseá-lo. Para isso, basta usar o método `close()`.

As mudanças em um arquivo só aparecerão no mesmo após seu fechamento. Logo, esquecer de fechar um arquivo é particularmente ruim para arquivos que estamos querendo modificar.

Mas, por via das dúvidas, **SEMPRE** feche o arquivo.

In [None]:
arquivo_texto = open('arquivos/arquivo_texto.txt', 'r')
for linha in arquivo_texto:
    print(linha)
arquivo_texto.close() # SEMPRE fechar o arquivo. Mudanças no mesmo só aparecerão após fechá-lo.

Olá!

Esse é um arquivo de texto para o curso de programação em Python.

Ele tem só algumas linhas.

Que vão ser mostradas na aula sobre manipulação de arquivos.


### Usando `with` em conjunto com `open()`

Uma maneira de evitar a burocracia de gerenciar a abertura e fechamento de arquivos, salvar `file objects` em variáveis e afins  a palavra-chave `with`. Com ela, a sintaxe para abrir um arquivo muda um pouco:

        with open(arquivo, modo) as nome_de_variável:
            bloco_de_codigo_manipulando_arquivo
            
Com isso, já definimos o nome da variável que vai receber o objeto. Também é possível abrir mais de um objeto de uma vez assim. Mas talvez o mais importante seja que, após a execução do bloco de código, o arquivo será fechado automaticamente. Logo, **não precisamos nos preocupar com o fechamento de arquivos**.

In [None]:
with open("arquivos/arquivo_texto.txt", "r") as arquivo_texto:
    for linha in arquivo_texto:
        print("Linha lida: {}".format(linha))
    print("\nEu não precisarei fechar esse arquivo!")

Linha lida: Olá!

Linha lida: Esse é um arquivo de texto para o curso de programação em Python.

Linha lida: Ele tem só algumas linhas.

Linha lida: Que vão ser mostradas na aula sobre manipulação de arquivos.

Eu não precisarei fechar esse arquivo!


## Exemplo: arquivos fasta -  conversão DNA para RNA

Os arquivos fasta possuem a seguinte estrutura:

- Cabeçalho: Linha sempre iniciada por '>'. Identifica a sequência.
- Sequência: Linhas com a sequência (de nucleotídeos ou aminoácidos).

Um arquivo com extensão .fasta ou .fa pode conter uma ou múltiplas sequências. No segundo caso, o arquivo é chamado de **multifasta**.

Vamos ver alguns exemplos:

In [None]:
with open("arquivos/seq1.fasta", "r") as fasta:
    for linha in fasta:
        print(linha, end="") # Parâmetro 'end' usado para evitar newlines

>seq1
ATGTTGAGTCTTCAGATCTGATTTAAGCCT
AGTTCAGCTACGATCCGACTACGACTCGAA
TCGACTCGATCAGCCATACGACTCGCAGAG
TGCGTCGATCGGTCTTTAGCGTCAGCTACT
GCTACGATCAGCTACGACGTACACGATAAA
TCAGCTACA

In [None]:
with open("arquivos/multifasta.fasta", "r") as multifasta:
    for linha in multifasta:
        print(linha, end="")

>seq1
ATGTTGAGTCTTCAGATCTGATTTAAGCCT
AGTTCAGCTACGATCCGACTACGACTCGAA
TCGACTCGATCAGCCATACGACTCGCAGAG
TGCGTCGATCGGTCTTTAGCGTCAGCTACT
GCTACGATCAGCTACGACGTACACGATAAA
TCAGCTACA
>seq2
ATGGATCGATCAGCTACGACTACGACTACA
TCAGCTACGACTAGCACTCAGCATCATCAG
TCAGCTACGACGATCCGATCACGATCAGAT
CTACGACATCGCATCACGACTACTCAGCAA
TCAGCAACTCAGCATCAGCATCAGCACATG
TCAGCTACGCATCGCATCAGACCTACGATT
TCAGCCTAAGCCGATCATCACATCATCAGG
TCACGACATCAGCATCAGACTCAGCAGACG
CACACHACYACTCAGCCAGCATCAGTAGCA
GTCAGCTACGCATCAGCACTACAGCATCAA
AAACTCAGCTCACGACATCACAGACTCAGT
CTACAGCATCAGGACCTACAGCATCAGCAT
CTACGCATCAGACCTACATCACAGTTAAAT
TCG
>seq3
GCTAGCATCTAGCATGCTAGCTACGTACGT
TCAGCATCAGCATCAGCATCAGCAACTCAG
ACACACTATACGTACGCATCAGACTCAGTC
GAGCTACGATCAGCATACTACGACCATCAT
TACGCT

Vamos criar uma função que converta sequências de DNA em RNA, ou seja, substitua T (timina) por U (uracila):

In [None]:
def dna_para_rna(arquivo_fasta):
    conteudo = ''
    with open(arquivo_fasta, 'r') as fasta:
        for linha in fasta:
            if linha.startswith('>'):
                conteudo = conteudo + linha
            else:
                conteudo = conteudo + linha.replace("T", "U")
        return conteudo

In [None]:
print(dna_para_rna("arquivos/seq1.fasta"))

>seq1
AUGUUGAGUCUUCAGAUCUGAUUUAAGCCU
AGUUCAGCUACGAUCCGACUACGACUCGAA
UCGACUCGAUCAGCCAUACGACUCGCAGAG
UGCGUCGAUCGGUCUUUAGCGUCAGCUACU
GCUACGAUCAGCUACGACGUACACGAUAAA
UCAGCUACA


In [None]:
print(dna_para_rna("arquivos/multifasta.fasta"))

>seq1
AUGUUGAGUCUUCAGAUCUGAUUUAAGCCU
AGUUCAGCUACGAUCCGACUACGACUCGAA
UCGACUCGAUCAGCCAUACGACUCGCAGAG
UGCGUCGAUCGGUCUUUAGCGUCAGCUACU
GCUACGAUCAGCUACGACGUACACGAUAAA
UCAGCUACA
>seq2
AUGGAUCGAUCAGCUACGACUACGACUACA
UCAGCUACGACUAGCACUCAGCAUCAUCAG
UCAGCUACGACGAUCCGAUCACGAUCAGAU
CUACGACAUCGCAUCACGACUACUCAGCAA
UCAGCAACUCAGCAUCAGCAUCAGCACAUG
UCAGCUACGCAUCGCAUCAGACCUACGAUU
UCAGCCUAAGCCGAUCAUCACAUCAUCAGG
UCACGACAUCAGCAUCAGACUCAGCAGACG
CACACHACYACUCAGCCAGCAUCAGUAGCA
GUCAGCUACGCAUCAGCACUACAGCAUCAA
AAACUCAGCUCACGACAUCACAGACUCAGU
CUACAGCAUCAGGACCUACAGCAUCAGCAU
CUACGCAUCAGACCUACAUCACAGUUAAAU
UCG
>seq3
GCUAGCAUCUAGCAUGCUAGCUACGUACGU
UCAGCAUCAGCAUCAGCAUCAGCAACUCAG
ACACACUAUACGUACGCAUCAGACUCAGUC
GAGCUACGAUCAGCAUACUACGACCAUCAU
UACGCU


Isso é o bastante sobre manipulação de arquivos, um tópico extremamente útil e importante dentro e fora da bioinformática.

Até a próxima aula!