# Leitura e escrita de arquivos em Python

## Introdução

- Arquivos são áreas do disco que permitem a leitura e escrita de informação;
- O sistema operacional é responsável pelo seu gerenciamento;
- A forma básica de se ler um arquivo em Python consiste de:
    - Abrir o arquivo (função ``open``);
    - Informar o nome do arquivo e o caminho do diretório onde o arquivo está;
    - Informar o tipo de operação que queremos realizar com este arquivo usando os caracteres (ou combinação deles):
        - ``r`` (leitura), ``w`` (escrita), ``a`` (escrita, mas preserva o conteúdo se já existir), ``b`` (modo binário) e ``+`` (atualização leitura/escrita).

## open()

- A função ``open`` retorna um objeto do tipo ``file`` (arquivo) e abrirá o arquivo passado como argumento para leitura ou escrita;
- A função ``write`` é utilizada para escrever;
- A função ``read`` é usada para ler;
- A função ``close`` é usada para fechar o arquivo;

- __Lendo um arquivo__: Existem várias maneiras de se ler um arquivo, por exemplo:
    - ``read(n)``: lê n bytes do arquivo. Sem o valor de n, a função lê o arquivo inteiro;
    - ``readline()``: retorna uma string com apenas uma linha do arquivo. O código de nova linha ‘\n’ (newline) também está incluído na string retornada;
    - ``readlines()``: retorna uma lista onde cada elemento é do tipo string e consiste de uma linha do arquivo. 
    
- __Cuidado__: especialmente para os dados biológicos, salvar todas as linhas de arquivo em memória pode não ser uma boa ideia.

In [1]:
ref_arquivo1 = open("boasvindas.txt")
entrada_arquivo = ref_arquivo1.read()
print(entrada_arquivo)
ref_arquivo1.close()

Seja bem-vindo!
Volte sempre!
Um texto qualquer.


In [7]:
ref_arquivo1 = open("boasvindas.txt")
print(ref_arquivo1.readline().rstrip())
print(ref_arquivo1.readline().rstrip())
print(ref_arquivo1.readline().rstrip())
ref_arquivo1.close()

Seja bem-vindo!
Volte sempre!
Um texto qualquer.


In [16]:
ref_arquivo1 = open("boasvindas.txt")
linhas_do_arquivo = ref_arquivo1.readlines()
print(linhas_do_arquivo)


for linha in linhas_do_arquivo:
    print(linha.rstrip())

ref_arquivo1.close()

['Seja bem-vindo!\n', 'Volte sempre!\n', 'Um texto qualquer.']
Seja bem-vindo!
Volte sempre!
Um texto qualquer.


- __Escrevendo um arquivo__

In [17]:
ref_arquivo2 = open("saida3.txt", 'w')
ref_arquivo2.write("Olá!")
ref_arquivo2.close()

## Usando ``with`` para ler e escrever arquivos

- A estrutura ``with`` tem o seguinte formato:

In [None]:
with EXPRESSÃO as VARIÁVEL:
    BLOCO DE INSTRUÇÕES

1. Quando esta declaração é executada, EXPRESSÃO é avaliada. 
2. Um método especial ``__enter__`` do objeto retornado por EXPRESSÃO é chamado. 
3. Tudo que for retornado por ``__enter__`` é chamado de VARIÁVEL. 
4. O código em BLOCO será executado. 
5. Quando BLOCO terminar (por exaustão ou erro), um método chamado ``__exit__`` é chamado. 
6. ``__enter__``  retorna o arquivo em si e ``__exit__`` fecha o arquivo. 
7. Quando realizamos a leitura e escrita nos casos anteriores, usamos a função ``close`` para fechar o arquivo aberto. Se ocorrer um erro que faça com que o programa seja encerrado antes de fechar um arquivo aberto, os dados serão perdidos e o arquivo não poderá ser acessado por outros aplicativos. 
8. Com ``with`` podemos ter certeza de que o arquivo será fechado.

In [18]:
with open("boasvindas.txt") as ref_arquivo1:
    linhas_do_arquivo = ref_arquivo1.readlines()
    print(linhas_do_arquivo)

    for linha in linhas_do_arquivo:
        print(linha.rstrip())

['Seja bem-vindo!\n', 'Volte sempre!\n', 'Um texto qualquer.']
Seja bem-vindo!
Volte sempre!
Um texto qualquer.


In [19]:
with open("saida2.txt", 'w') as ref_arquivo2:
    ref_arquivo2.write("Olá de novo!")

## Exemplo: leitura e escrita de um arquivo no formato FASTA

- __O que é um arquivo FASTA?__: é um tipo de arquivo que se popularizou por ser uma maneira simples de representar seqüências de nucleotídeos ou aminoácidos.
- Extensão: .fasta, .fa, .fna, .fsa
- Possui no mínimo duas linhas;
- Predominantemente, a primeira linha denominada linha de cabeçalho começa com o símbolo ">" e fornece informações básicas sobre a sequência; 
- Não há um formato definido para a linha de cabeçalho; 
- Após a linha de cabeçalho, a sequência de ácido nucleico ou proteína é incluída no código padrão de uma letra;

- Arquivo FASTA com apenas uma sequência:

In [None]:
>XR_006057577.7
CAATTCAGCACAGTAATGCAATTCAGCACAGTAATGCAATTCAGCACAGTAATGCAATTCAGCACAGTAATGCAAT
TCAGCACAGTAATGCAATTCAGCACAGTAATG

- Arquivo FASTA com múltiplas sequências ou multi-FASTA:

In [None]:
>XR_002086427.1 Candida albicans SC5314 uncharacterized ncRNA (SCR1), ncRNA
TGGCTGTGATGGCTTTTAGCGGAAGCGCGCTGTTCGCGTACCTGCTGTTTGTTGAAAATTTAAGAGCAAAGTGTCCG
GCTCGATCCCTGCGAATTGAATTCTGAACGCTAGAGTAATCAGTGTCTTTCAAGTTCTGGTAATGTTTAGCATAACC
ACTGGAGGGAAGCAATTCAGCACAGTAATGCTAATCGTGGTGGAGGCGAATCCGGATGGCACCTTGTTTGTTGATAA
ATAGTGCGGTATCTAGTGTTGCAACTCTATTTTT
>XR_004054578.7
CTGGAGGGAAGCAATTCAGCACAGTAATGCTAATCGTGGTGGAGGCGAATCCGGATGGCACCTTGTTTGTTGATAAA

- __Obtendo as sequências do exemplo__: sequências de aminoácidos do _Trypanosoma cruzi_ cepa CL Brener Esmeraldo-like disponível na base de dados TriTrypDB (https://tritrypdb.org/).
    - Baixar o arquivo multi-FASTA (https://tritrypdb.org/common/downloads/release-47/TcruziCLBrenerEsmeraldo-like/fasta/data/)
    - Buscar a sequência do gene TcCLB.506717.80
        - Quais informações são fornecidas pelo cabeçalho?
    - Criar um arquivo (CTRL+C e CTRL+V) somente com a sequência do gene TcCLB.506717.80 (como estou falando de uma sequência no formato FASTA, implicitamente me refiro a criar um arquivo com cabeçalho + sequência de aminoácidos).
    - Chamamos o arquivo de ``TcCLB.506717.80_AA.fasta``:

In [None]:
1  >TcCLB.506717.80:mRNA-p1 | transcript=TcCLB.506717.80:mRNA | gene=TcCLB.506717.80 | organism=Trypanosoma_cruzi_CL_Brener_Esmeraldo-like | gene_product=trans-sialidase, Group VIII, putative | transcript_product=trans-sialidase, Group VIII, putative | location=TcChr2-S:113450-116617(+) | protein_length=1055 | sequence_SO=chromosome | SO=protein_coding | is_pseudo=false
2  MLSRVAAVKAPNKHNRRRVTGSSGRRREGRVSEQQMPNMSRRVFTSAVLLLLVFVLMCCD
3  VGGAHAGESNVKKAVDALRGIKWEELDKWEEIDNAGGKYGSLFSPSLVEVQGHVFAIAEA
4  HCTDGGKCSDVSLTGIASKHLDLSGVGSTEISAANAGASIFGTDLLKEESEGISARNGIT
5  RPTTLVLGDSVYMLLGNYRRRAAGTQLTKIQGKNERGLLLVRGTVAEENGKKKIRWNETH
6  VMNPQAIGYSHSLTELIGGGGSGAVMRDGTLVFPMQAKNKYGQHVLLSMSFNPSDKKWRL
7  SSETPGKGCRDPTLVKWEENEDDERLFMMAHCAGGYYDVYRSTENGGNWYTLGEPINRVW
8  GNSHNRAGHGVQSGFTTAIIEGKKVMLVTAPVYAKDNEGGKGRLHLWVTDNARVYDVGPV
9  SRENDDAAASSLLMKSGRDNKELVSLHEKKKGDGSYNLVAVRLTEKLERIKKVVKTWADL
10 DSALQSCSSVSIGTVGLPKKGMCNGRVPTERLVGFLSGNSTQTEWRDEYLCVNATVTNGE
11 RRVPNGLTFKGSGAGAVWPVGDMGQTVPYYFANNEFTLVATVSIHEVPKGDSSSIPLMGV
12 RMNDTDSTVLFGLSYTHDKKWLAIPENSGNMEDVDYWEPNKTYQVVLRMDSDFWTVIVDK
13 REIHHKKYDASLFDLHRISHFYIGGDSKDQSATGGHVTVTNVMLYNEKLFGSELYELNAS
14 KVTIPSLGAEKQPTGPVNGTGLSVAPESNSKESTASHEELTEDDTDKQEEGIVHDLVPAV
15 PPSTVAGGSSVSESAIAAQSAENSLPENNAQFHQGETSQQTTPHEAKESMQRDSDVQPRE
16 LPSTKSTEVADVEGSAESNDTQQPVEEGEADDRSGGSTSSVGASLSMDTATETVGSEHQV
17 QQSTEPATENDDVRSTGTGTTGAEESLSLEAGDSDSERTMGSDSSLTSSKSDAEPTSAED
18 TDNISWTEGAEFSFEDVKEVPQTVDTAPENTNTTPGGEGIPSTKGAARHSDNDTFTGEIA
19 ELLSMGLNHDSTVHVCVSRVLLLLLLLGLWGIVAL

__Lendo a sequência do arquivo FASTA__: 
- primeiramente criamos uma referência chamada refArquivo para o nosso arquivo chamado ``TcCLB.506717.80_AA.fasta``:

In [20]:
refArquivo = open("TcCLB.506717.80_AA.fasta")

- O arquivo inteiro é lido com read() e armazenado como uma variável do tipo string em ``arquivoFasta``.

In [21]:
arquivoFasta = refArquivo.read()

✨__Relembrando detalhes do FASTA__✨
- Um arquivo FASTA é formado por uma ou mais sequências que seguem a seguinte formatação: 
    - um cabeçalho iniciado pelo símbolo “>” seguido de uma sequência de DNA, RNA ou aminoácidos, na linha seguinte. 
    - Então temos uma linha que começa com o símbolo “>” e termina com “\n” (new line); 
    - Após este último símbolo inicia a sequência referente a este cabeçalho (se seu arquivo FASTA está formatado corretamente); 
    - A sequência biológica de fato pode está um uma única longa linha ou dividida em múltiplas linhas.
    - Caso a sequência esteja dividida em múltiplas linhas após o cabeçalho (como em nosso exemplo), precisamos concatenar todas linhas com exceção da primeira (o cabeçalho) em uma única string. 

In [33]:
cabecalho = arquivoFasta.split('\n')[0][1:]
print(cabecalho)

['>TcCLB.506717.80:mRNA-p1 | transcript=TcCLB.506717.80:mRNA | gene=TcCLB.506717.80 | organism=Trypanosoma_cruzi_CL_Brener_Esmeraldo-like | gene_product=trans-sialidase, Group VIII, putative | transcript_product=trans-sialidase, Group VIII, putative | location=TcChr2-S:113450-116617(+) | protein_length=1055 | sequence_SO=chromosome | SO=protein_coding | is_pseudo=false', 'MLSRVAAVKAPNKHNRRRVTGSSGRRREGRVSEQQMPNMSRRVFTSAVLLLLVFVLMCCD', 'VGGAHAGESNVKKAVDALRGIKWEELDKWEEIDNAGGKYGSLFSPSLVEVQGHVFAIAEA', 'HCTDGGKCSDVSLTGIASKHLDLSGVGSTEISAANAGASIFGTDLLKEESEGISARNGIT', 'RPTTLVLGDSVYMLLGNYRRRAAGTQLTKIQGKNERGLLLVRGTVAEENGKKKIRWNETH', 'VMNPQAIGYSHSLTELIGGGGSGAVMRDGTLVFPMQAKNKYGQHVLLSMSFNPSDKKWRL', 'SSETPGKGCRDPTLVKWEENEDDERLFMMAHCAGGYYDVYRSTENGGNWYTLGEPINRVW', 'GNSHNRAGHGVQSGFTTAIIEGKKVMLVTAPVYAKDNEGGKGRLHLWVTDNARVYDVGPV', 'SRENDDAAASSLLMKSGRDNKELVSLHEKKKGDGSYNLVAVRLTEKLERIKKVVKTWADL', 'DSALQSCSSVSIGTVGLPKKGMCNGRVPTERLVGFLSGNSTQTEWRDEYLCVNATVTNGE', 'RRVPNGLTFKGSGAGAVWPVGDMGQTVPYYFANNEFTLVATVSIHEVPK

- ``split('\n')`` = “quebro” o arquivoFasta (string) em linhas (``\n`` é o símbolo que indica o fim de uma linha)
- ``arquivoFasta.split('\n')[0]`` = pega o primeiro elemento que foi separado por split, ou seja, a primeira linha. 
- ``arquivoFasta.split('\n')[0][1:]`` = da primeira linha (``[0]``) eu quero a partir do segundo caractere (ou seja, excluindo o símbolo ``>``) até o fim desta primeira linha (``[1:]``)

In [31]:
sequencia = ''.join(arquivoFasta.split('\n')[1:])
print(sequencia)

MLSRVAAVKAPNKHNRRRVTGSSGRRREGRVSEQQMPNMSRRVFTSAVLLLLVFVLMCCDVGGAHAGESNVKKAVDALRGIKWEELDKWEEIDNAGGKYGSLFSPSLVEVQGHVFAIAEAHCTDGGKCSDVSLTGIASKHLDLSGVGSTEISAANAGASIFGTDLLKEESEGISARNGITRPTTLVLGDSVYMLLGNYRRRAAGTQLTKIQGKNERGLLLVRGTVAEENGKKKIRWNETHVMNPQAIGYSHSLTELIGGGGSGAVMRDGTLVFPMQAKNKYGQHVLLSMSFNPSDKKWRLSSETPGKGCRDPTLVKWEENEDDERLFMMAHCAGGYYDVYRSTENGGNWYTLGEPINRVWGNSHNRAGHGVQSGFTTAIIEGKKVMLVTAPVYAKDNEGGKGRLHLWVTDNARVYDVGPVSRENDDAAASSLLMKSGRDNKELVSLHEKKKGDGSYNLVAVRLTEKLERIKKVVKTWADLDSALQSCSSVSIGTVGLPKKGMCNGRVPTERLVGFLSGNSTQTEWRDEYLCVNATVTNGERRVPNGLTFKGSGAGAVWPVGDMGQTVPYYFANNEFTLVATVSIHEVPKGDSSSIPLMGVRMNDTDSTVLFGLSYTHDKKWLAIPENSGNMEDVDYWEPNKTYQVVLRMDSDFWTVIVDKREIHHKKYDASLFDLHRISHFYIGGDSKDQSATGGHVTVTNVMLYNEKLFGSELYELNASKVTIPSLGAEKQPTGPVNGTGLSVAPESNSKESTASHEELTEDDTDKQEEGIVHDLVPAVPPSTVAGGSSVSESAIAAQSAENSLPENNAQFHQGETSQQTTPHEAKESMQRDSDVQPRELPSTKSTEVADVEGSAESNDTQQPVEEGEADDRSGGSTSSVGASLSMDTATETVGSEHQVQQSTEPATENDDVRSTGTGTTGAEESLSLEAGDSDSERTMGSDSSLTSSKSDAEPTSAEDTDNISWTEGAEFSFEDVKEVPQTVDTAPENTNTTPGGEGI

- Seleciono todas as linhas restantes (“[1:]”) e concatena uma nas outras (usando a função join)
- Portanto, esta instrução vai concatenar todas linhas com exceção da primeira (o cabeçalho) em uma única string.

- Por fim, imprimo os dois atributos e fecho o arquivo:

In [32]:
print("Identificador: %s" % cabecalho)
print("Sequencia: %s" % sequencia)
refArquivo.close()

Identificador: TcCLB.506717.80:mRNA-p1 | transcript=TcCLB.506717.80:mRNA | gene=TcCLB.506717.80 | organism=Trypanosoma_cruzi_CL_Brener_Esmeraldo-like | gene_product=trans-sialidase, Group VIII, putative | transcript_product=trans-sialidase, Group VIII, putative | location=TcChr2-S:113450-116617(+) | protein_length=1055 | sequence_SO=chromosome | SO=protein_coding | is_pseudo=false
Sequencia: MLSRVAAVKAPNKHNRRRVTGSSGRRREGRVSEQQMPNMSRRVFTSAVLLLLVFVLMCCDVGGAHAGESNVKKAVDALRGIKWEELDKWEEIDNAGGKYGSLFSPSLVEVQGHVFAIAEAHCTDGGKCSDVSLTGIASKHLDLSGVGSTEISAANAGASIFGTDLLKEESEGISARNGITRPTTLVLGDSVYMLLGNYRRRAAGTQLTKIQGKNERGLLLVRGTVAEENGKKKIRWNETHVMNPQAIGYSHSLTELIGGGGSGAVMRDGTLVFPMQAKNKYGQHVLLSMSFNPSDKKWRLSSETPGKGCRDPTLVKWEENEDDERLFMMAHCAGGYYDVYRSTENGGNWYTLGEPINRVWGNSHNRAGHGVQSGFTTAIIEGKKVMLVTAPVYAKDNEGGKGRLHLWVTDNARVYDVGPVSRENDDAAASSLLMKSGRDNKELVSLHEKKKGDGSYNLVAVRLTEKLERIKKVVKTWADLDSALQSCSSVSIGTVGLPKKGMCNGRVPTERLVGFLSGNSTQTEWRDEYLCVNATVTNGERRVPNGLTFKGSGAGAVWPVGDMGQTVPYYFANNEFTLVATVSIHEVPKGDSSSIPLMGVRMNDT

- Existem outras maneiras de percorrer as linhas de um arquivo usando as estruturas de repetição ``while`` e ``for`` por exemplo:

In [34]:
refArquivo = open("TcCLB.506717.80_AA.fasta")
primeiraLinha = refArquivo.readline()
cabecalho = primeiraLinha[1:-1]
sequencia = ""
while True:
    linha = refArquivo.readline()
    if linha == "":
        break
    sequencia += linha.replace('\n','')
print ("Cabecalho: %s"%cabecalho)
print ("Sequencia: %s"%sequencia)
refArquivo.close()

Cabecalho: TcCLB.506717.80:mRNA-p1 | transcript=TcCLB.506717.80:mRNA | gene=TcCLB.506717.80 | organism=Trypanosoma_cruzi_CL_Brener_Esmeraldo-like | gene_product=trans-sialidase, Group VIII, putative | transcript_product=trans-sialidase, Group VIII, putative | location=TcChr2-S:113450-116617(+) | protein_length=1055 | sequence_SO=chromosome | SO=protein_coding | is_pseudo=false
Sequencia: MLSRVAAVKAPNKHNRRRVTGSSGRRREGRVSEQQMPNMSRRVFTSAVLLLLVFVLMCCDVGGAHAGESNVKKAVDALRGIKWEELDKWEEIDNAGGKYGSLFSPSLVEVQGHVFAIAEAHCTDGGKCSDVSLTGIASKHLDLSGVGSTEISAANAGASIFGTDLLKEESEGISARNGITRPTTLVLGDSVYMLLGNYRRRAAGTQLTKIQGKNERGLLLVRGTVAEENGKKKIRWNETHVMNPQAIGYSHSLTELIGGGGSGAVMRDGTLVFPMQAKNKYGQHVLLSMSFNPSDKKWRLSSETPGKGCRDPTLVKWEENEDDERLFMMAHCAGGYYDVYRSTENGGNWYTLGEPINRVWGNSHNRAGHGVQSGFTTAIIEGKKVMLVTAPVYAKDNEGGKGRLHLWVTDNARVYDVGPVSRENDDAAASSLLMKSGRDNKELVSLHEKKKGDGSYNLVAVRLTEKLERIKKVVKTWADLDSALQSCSSVSIGTVGLPKKGMCNGRVPTERLVGFLSGNSTQTEWRDEYLCVNATVTNGERRVPNGLTFKGSGAGAVWPVGDMGQTVPYYFANNEFTLVATVSIHEVPKGDSSSIPLMGVRMNDTDSTV

In [35]:
refArquivo = open("TcCLB.506717.80_AA.fasta")
cabecalho = refArquivo.readline()[1:-1]
sequencia = ""
for linha in refArquivo:
    sequencia += linha.replace('\n','')
print ("Cabecalho: %s" % cabecalho)
print ("Sequencia: %s" % sequencia)
refArquivo.close()

Cabecalho: TcCLB.506717.80:mRNA-p1 | transcript=TcCLB.506717.80:mRNA | gene=TcCLB.506717.80 | organism=Trypanosoma_cruzi_CL_Brener_Esmeraldo-like | gene_product=trans-sialidase, Group VIII, putative | transcript_product=trans-sialidase, Group VIII, putative | location=TcChr2-S:113450-116617(+) | protein_length=1055 | sequence_SO=chromosome | SO=protein_coding | is_pseudo=false
Sequencia: MLSRVAAVKAPNKHNRRRVTGSSGRRREGRVSEQQMPNMSRRVFTSAVLLLLVFVLMCCDVGGAHAGESNVKKAVDALRGIKWEELDKWEEIDNAGGKYGSLFSPSLVEVQGHVFAIAEAHCTDGGKCSDVSLTGIASKHLDLSGVGSTEISAANAGASIFGTDLLKEESEGISARNGITRPTTLVLGDSVYMLLGNYRRRAAGTQLTKIQGKNERGLLLVRGTVAEENGKKKIRWNETHVMNPQAIGYSHSLTELIGGGGSGAVMRDGTLVFPMQAKNKYGQHVLLSMSFNPSDKKWRLSSETPGKGCRDPTLVKWEENEDDERLFMMAHCAGGYYDVYRSTENGGNWYTLGEPINRVWGNSHNRAGHGVQSGFTTAIIEGKKVMLVTAPVYAKDNEGGKGRLHLWVTDNARVYDVGPVSRENDDAAASSLLMKSGRDNKELVSLHEKKKGDGSYNLVAVRLTEKLERIKKVVKTWADLDSALQSCSSVSIGTVGLPKKGMCNGRVPTERLVGFLSGNSTQTEWRDEYLCVNATVTNGERRVPNGLTFKGSGAGAVWPVGDMGQTVPYYFANNEFTLVATVSIHEVPKGDSSSIPLMGVRMNDTDSTV

## Exemplo: Conversão do formato FASTA em tabular

- Em algumas situações, torna-se interessante fazer a conversão de determinados formatos de arquivos em outros formatos que facilitem a manipulação de seu conteúdo.
- No exemplo a seguir, vamos converter o formato FASTA em um arquivo com duas colunas separadas por tabulação. Na primeira coluna, vamos armazenar o cabeçalho e na segunda coluna será a sequência de aminoácidos.

- Primeiramente, abrimos o arquivo de entrada ``TcCLB.506717.80_AA.fasta`` e criamos o arquivo para escrita ``TcCLB.506717.80_AA.fasta``.

In [41]:
refArquivoEntrada = open("TcCLB.506717.80_AA.fasta")
refArquivoSaida = open("TcCLB.506717.80_AA.tsv",'w')

- Escrevemos a primeira linha que contém o nome das colunas:

In [42]:
refArquivoSaida.write("cabecalho\tsequencia\n")

20

- Extraímos o cabeçalho e inicializamos a variável que vai receber a concatenação das linhas com sequência:

In [43]:
cabecalho = refArquivoEntrada.readline()[1:-1]
sequencia = ""

for linha in refArquivoEntrada:
    sequencia = sequencia + linha.replace('\n','')

MLSRVAAVKAPNKHNRRRVTGSSGRRREGRVSEQQMPNMSRRVFTSAVLLLLVFVLMCCD

MLSRVAAVKAPNKHNRRRVTGSSGRRREGRVSEQQMPNMSRRVFTSAVLLLLVFVLMCCD
-----------
VGGAHAGESNVKKAVDALRGIKWEELDKWEEIDNAGGKYGSLFSPSLVEVQGHVFAIAEA

MLSRVAAVKAPNKHNRRRVTGSSGRRREGRVSEQQMPNMSRRVFTSAVLLLLVFVLMCCDVGGAHAGESNVKKAVDALRGIKWEELDKWEEIDNAGGKYGSLFSPSLVEVQGHVFAIAEA
-----------
HCTDGGKCSDVSLTGIASKHLDLSGVGSTEISAANAGASIFGTDLLKEESEGISARNGIT

MLSRVAAVKAPNKHNRRRVTGSSGRRREGRVSEQQMPNMSRRVFTSAVLLLLVFVLMCCDVGGAHAGESNVKKAVDALRGIKWEELDKWEEIDNAGGKYGSLFSPSLVEVQGHVFAIAEAHCTDGGKCSDVSLTGIASKHLDLSGVGSTEISAANAGASIFGTDLLKEESEGISARNGIT
-----------
RPTTLVLGDSVYMLLGNYRRRAAGTQLTKIQGKNERGLLLVRGTVAEENGKKKIRWNETH

MLSRVAAVKAPNKHNRRRVTGSSGRRREGRVSEQQMPNMSRRVFTSAVLLLLVFVLMCCDVGGAHAGESNVKKAVDALRGIKWEELDKWEEIDNAGGKYGSLFSPSLVEVQGHVFAIAEAHCTDGGKCSDVSLTGIASKHLDLSGVGSTEISAANAGASIFGTDLLKEESEGISARNGITRPTTLVLGDSVYMLLGNYRRRAAGTQLTKIQGKNERGLLLVRGTVAEENGKKKIRWNETH
-----------
VMNPQAIGYSHSLTELIGGGGSGAVMRDGTLVFPMQAKNKYGQHVLLSMSFNPSDKKWRL

MLSRVAAVKAPNKHNRRRVTGSSGRRREGRVSEQQMPN

- Agora já temos o cabeçalho e a sequência. Vamos escrever no arquivo de saída usando como separador de colunas a tabulação (``\t``):

In [44]:
refArquivoSaida.write ("%s\t%s" % (cabecalho,sequencia))

1424

- Finalmente, fechamos os arquivos de entrada e saída:

In [45]:
refArquivoEntrada.close()
refArquivoSaida.close()

## Continua...

- Vimos um caso específico de leitura e escrita de arquivos em Python utilizando um arquivo no formato FASTA;
- Os princípios são os mesmos para qualquer arquivo, como será exemplificado com arquivos no formato CSV, isto é, arquivo com dados tabulares separados por vírgula.
- Num segundo momento, vamos ver como utilizar bibliotecas otimizadas para manipular determinados tipos de arquivos.