# Ficheiros de texto

## Leitura

O modelo mais simples é ler todo o conteúdo de um ficheiro para uma _string_:

![](fichs.png)

### `.read()`

In [2]:
a = open('eno1.fasta')
seq = a.read()
a.close()

print 'A sequência, em FASTA é'
print seq

print type(seq)

A sequência, em FASTA é
>gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]
MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVN
DVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKS
KTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVG
DEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLA
DLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQI
GTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEEL
GDNAVFAGENFHHGDKL
<type 'str'>


Uma versão mais moderna para abrir e automaticamente fechar o ficheiro é utilizar o comando `with`:

In [4]:
with open('eno1.fasta') as a:
    seq = a.read()

print 'A sequência, em FASTA é'
print seq

A sequência, em FASTA é
>gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]
MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVN
DVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKS
KTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVG
DEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLA
DLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQI
GTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEEL
GDNAVFAGENFHHGDKL


Mas `read()` não é a única maneira de ler um ficheiro.

### `.readlines()`

A função `readlines()` lê e separa **as linhas** de um ficheiro para uma lista:

In [5]:
with open('eno1.fasta') as a:
    seq = a.readlines()

print seq

['>gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]\n', 'MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVN\n', 'DVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKS\n', 'KTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVG\n', 'DEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLA\n', 'DLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQI\n', 'GTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEEL\n', 'GDNAVFAGENFHHGDKL']


O que são os `\n` no fim das _strings_?

**Numa string,** `\n` **indica a mudança de linha**. (Conta como apenas **1** caractere).

Neste caso eles aparecem porque no ficheiro original há mudanças de linha. 

Podemos elimina-los com a função `.strip()`:

In [6]:
with open('eno1.fasta') as a:
    seq = a.readlines()

seq = [linha.strip() for linha in seq]
print seq

['>gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]', 'MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVN', 'DVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKS', 'KTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVG', 'DEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLA', 'DLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQI', 'GTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEEL', 'GDNAVFAGENFHHGDKL']


Ou, de uma forma sucinta, usando uma lista em compreensão:

In [7]:
with open('eno1.fasta') as a:
    seq = [linha.strip() for linha in a.readlines()]
print seq

['>gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]', 'MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVN', 'DVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKS', 'KTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVG', 'DEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLA', 'DLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQI', 'GTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEEL', 'GDNAVFAGENFHHGDKL']


Com ficheiros muito grandes, a leitura pelas funções `.read()` e `.readlines()` pode esgotar a memória de um computador e "congelar" um programa.

Existe uma terceira maneira de ler um ficheiro (que não traz problemas com ficheiros grandes):

### Iteração de ficheiros com `for`.

**A iteração de um ficheiro "percorre" as linhas do ficheiro**

In [8]:
linhas = []
with open('eno1.fasta') as a:
    for linha in a:
        linha = linha.strip()
        print 'linha', linha
        print 'tem', len(linha), 'caracteres'
        if linha.startswith('>'):
            print 'é o cabeçalho do ficheiro FASTA'
        linhas.append(linha)

print linhas

linha >gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]
tem 69 caracteres
é o cabeçalho do ficheiro FASTA
linha MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVN
tem 70 caracteres
linha DVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKS
tem 70 caracteres
linha KTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVG
tem 70 caracteres
linha DEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLA
tem 70 caracteres
linha DLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQI
tem 70 caracteres
linha GTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEEL
tem 70 caracteres
linha GDNAVFAGENFHHGDKL
tem 17 caracteres
['>gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]', 'MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVN', 'DVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKS', 'KTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKT

Reparar que, para ler todas as linhas para uma lista poderíamos não ter usado a função `.readlines()`:

In [9]:
with open('eno1.fasta') as a:
    seq = [linha.strip() for linha in a] # aqui tínhamos ... for linha in a.readlines()
print seq

['>gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]', 'MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVN', 'DVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKS', 'KTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVG', 'DEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLA', 'DLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQI', 'GTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEEL', 'GDNAVFAGENFHHGDKL']


**Problema: ler uma ficheiro FASTA e separar o cabeçalho da sequência em duas strings (juntando toda a sequência numa só string)**

In [10]:
with open('eno1.fasta') as a:
    linhas = [i.strip() for i in a]

cab = linhas[0]
seq = ''.join(linhas[1:]) # estamos a usar um slice de uma lista e a funçao .join() com separador vazio.

print "cabeçalho: ", cab
print "sequência: \n", seq

cabeçalho:  >gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]
sequência: 
MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVNDVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKSKTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVGDEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLADLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQIGTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEELGDNAVFAGENFHHGDKL


Às vezes os ficheiros não têm cabeçalho! É melhor testar se a primeira linha começa por ">" !

In [11]:
with open('eno1.fasta') as a:
    linhas = [i.strip() for i in a]

if linhas[0].startswith('>'):
    cab = linhas[0]
    seq = ''.join(linhas[1:])
else:
    cab = ""
    seq = ''.join(linhas)

print "cabeçalho: ", cab
print "sequência: \n", seq

cabeçalho:  >gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]
sequência: 
MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVNDVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKSKTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVGDEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLADLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQIGTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEELGDNAVFAGENFHHGDKL


Agora a versão com `for`:

In [15]:
cab = ""
seq = []
with open('eno1.fasta') as a:
    for i in a:
        i = i.strip()
        if i.startswith('>'): 
            cab = i
        else:
            seq.append(i)
seq = ''.join(seq)

print "cabeçalho: ", cab
print "sequência: \n", seq

cabeçalho:  >gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]
sequência: 
MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVNDVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKSKTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVGDEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLADLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQIGTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEELGDNAVFAGENFHHGDKL


## Escrita

### Comando `print` para ficheiros

Basta modificar o comando `print`, indicando que deve escrever para um ficheiro em modo de escrita:

In [12]:
with open('exp.txt', 'w') as a: # o 'w' indica o modo de escrita
    print >> a, '1, 2, 3, experiência, som, som'

Aparentemente não aconteceu nada, mas um ficheiro novo foi criado

Vamos ler o ficheiro:

In [14]:
with open('exp.txt') as a:
    for i in a:
        print i

1, 2, 3, experiência, som, som



### Função `.write()`

Também existe a função `.write()` que funciona como o contrário de `.read()`:

In [2]:
tudo = """
Um texto que ocupa
1 linha
2 linhas
3 linhas
"""

with open('exp2.txt', 'w') as a: # o 'w' indica o modo de escrita
    a.write(tudo)

**Problema: ler uma ficheiro com dados numéricos e converter o ponto decimal em vírgula decimal**

Vamos supor que temos o ficheiro de texto `masses_annotated.txt` (menos de 1 MB) em que as cinco primeiras linhas são:

```
raw_mass	peak_height	KEGG_mass(original)	npossible	KEGG_mass (Addukt)	ppm	KEGG_cid	KEGG_formula	KEGG_name	uniqueID
154.97517	7.25775e+06	155.982446466881	1(4)	154.975098039829	0.464333550973771	C00988	C2H5O6P	2-Phosphoglycolate;Phosphoglycolic acid ([M-H]-)	
154.97517	7.25775e+06	155.982446466881	2(4)	154.975098039829	0.464333550973771	HMDB00816	C2H5O6P	Phosphoglycolic acid (see KEGG C00988); 2-phosphonooxyacetic acid [carboxylic acid] ([M-H]-)	
154.97517	7.25775e+06	120.005768420091	3(4)	154.975274805989	-0.676276005999922	C02287	C3H4O5	Hydroxymalonate;Tartronic acid;Hydroxymalonic acid;2-Hydroxymalonate;2-Hydroxymalonic acid;2-Tartronic acid ([M+Cl35]-)	
157.08700	1.21735e+06	158.094276466881	1(13)	157.087017840779	-0.113572599952848	C02975	C8H14O3	Ethyl 3-oxohexanoate;Ethyl butyrylacetate ([M-H]-)	
```

Os diferentes campos são separados por **tabs** (_tab delimited file_) e em certas configurações do MS-Excel podemos ter problemas a importar os dados.

De uma form sucinta, podemos passar os `.` a `,` ?

In [2]:
with open('masses_annotated.txt') as a:
    tudo = a.read()

tudo = tudo.replace('.', ',')

with open('masses_annotated_fixed.txt', 'w') as a:
    a.write(tudo)

Como prova, as cinco primeiras linhas do ficheiro `masses_annotated_fixed.txt`:

```
raw_mass	peak_height	KEGG_mass(original)	npossible	KEGG_mass (Addukt)	ppm	KEGG_cid	KEGG_formula	KEGG_name	uniqueID
154,97517	7,25775e+06	155,982446466881	1(4)	154,975098039829	0,464333550973771	C00988	C2H5O6P	2-Phosphoglycolate;Phosphoglycolic acid ([M-H]-)	
154,97517	7,25775e+06	155,982446466881	2(4)	154,975098039829	0,464333550973771	HMDB00816	C2H5O6P	Phosphoglycolic acid (see KEGG C00988); 2-phosphonooxyacetic acid [carboxylic acid] ([M-H]-)	
154,97517	7,25775e+06	120,005768420091	3(4)	154,975274805989	-0,676276005999922	C02287	C3H4O5	Hydroxymalonate;Tartronic acid;Hydroxymalonic acid;2-Hydroxymalonate;2-Hydroxymalonic acid;2-Tartronic acid ([M+Cl35]-)	
157,08700	1,21735e+06	158,094276466881	1(13)	157,087017840779	-0,113572599952848	C02975	C8H14O3	Ethyl 3-oxohexanoate;Ethyl butyrylacetate ([M-H]-)	
```