# Ficheiros de texto

## Leitura

O modelo mais simples é ler todo o conteúdo de um ficheiro para uma _string_:

![](./images/fichs.png)

### `.read()`

In [31]:
a = open('eno1.fasta')
seq = a.read()
a.close()

print 'A sequência, em FASTA é'
print seq

print type(seq)

A sequência, em FASTA é
>gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]
MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVN
DVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKS
KTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVG
DEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLA
DLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQI
GTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEEL
GDNAVFAGENFHHGDKL
<type 'str'>


Uma versão mais moderna para abrir e **automaticamente fechar** o ficheiro é utilizar o comando `with`:

In [32]:
with open('eno1.fasta') as a:
    seq = a.read()

print 'A sequência, em FASTA é'
print seq

A sequência, em FASTA é
>gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]
MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVN
DVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKS
KTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVG
DEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLA
DLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQI
GTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEEL
GDNAVFAGENFHHGDKL


Mas `read()` não é a única maneira de ler um ficheiro.

### `.readlines()`

A função `readlines()` lê e separa **as linhas** de um ficheiro para uma lista:

In [33]:
with open('eno1.fasta') as a:
    seq = a.readlines()

print seq

['>gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]\n', 'MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVN\n', 'DVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKS\n', 'KTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVG\n', 'DEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLA\n', 'DLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQI\n', 'GTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEEL\n', 'GDNAVFAGENFHHGDKL']


O que são os `\n` no fim das _strings_?

**Numa string,** `\n` **indica a mudança de linha**. (Conta como apenas **1** caractere).

Neste caso eles aparecem porque no ficheiro original há mudanças de linha. 

Podemos elimina-los com a função `.strip()`:

In [34]:
with open('eno1.fasta') as a:
    seq = a.readlines()

seq = [linha.strip() for linha in seq]
print seq

['>gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]', 'MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVN', 'DVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKS', 'KTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVG', 'DEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLA', 'DLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQI', 'GTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEEL', 'GDNAVFAGENFHHGDKL']


Ou, de uma forma sucinta, usando uma lista em compreensão:

In [35]:
with open('eno1.fasta') as a:
    seq = [linha.strip() for linha in a.readlines()]
print seq

['>gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]', 'MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVN', 'DVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKS', 'KTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVG', 'DEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLA', 'DLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQI', 'GTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEEL', 'GDNAVFAGENFHHGDKL']


Com ficheiros muito grandes, a leitura pelas funções `.read()` e `.readlines()` pode esgotar a memória de um computador e "congelar" um programa.

Existe uma terceira maneira de ler um ficheiro (que não traz problemas com ficheiros grandes):

### Iteração de ficheiros com `for`.

**A iteração de um ficheiro "percorre" as linhas do ficheiro**

In [36]:
with open('eno1.fasta') as a:
    for linha in a:
        linha = linha.strip()
        print linha

>gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]
MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVN
DVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKS
KTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVG
DEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLA
DLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQI
GTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEEL
GDNAVFAGENFHHGDKL


In [37]:
with open('eno1.fasta') as a:
    for i, linha in enumerate(a):
        linha = linha.strip()
        print 'linha', i, ':', linha

linha 0 : >gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]
linha 1 : MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVN
linha 2 : DVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKS
linha 3 : KTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVG
linha 4 : DEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLA
linha 5 : DLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQI
linha 6 : GTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEEL
linha 7 : GDNAVFAGENFHHGDKL


In [38]:
linhas = []
with open('eno1.fasta') as a:
    for i, linha in enumerate(a):
        linha = linha.strip()
        
        print 'linha', i, 'tem', len(linha), 'caracteres'
        if linha.startswith('>'):
            print 'e é o cabeçalho do ficheiro FASTA'
        print linha
        linhas.append(linha)
        print

linha 0 tem 69 caracteres
e é o cabeçalho do ficheiro FASTA
>gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]

linha 1 tem 70 caracteres
MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVN

linha 2 tem 70 caracteres
DVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKS

linha 3 tem 70 caracteres
KTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVG

linha 4 tem 70 caracteres
DEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLA

linha 5 tem 70 caracteres
DLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQI

linha 6 tem 70 caracteres
GTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEEL

linha 7 tem 17 caracteres
GDNAVFAGENFHHGDKL



Reparar que, para ler todas as linhas para uma lista poderíamos não ter usado a função `.readlines()`:

In [39]:
with open('eno1.fasta') as a:
    seq = [linha.strip() for linha in a]
    # aqui tínhamos ... for linha in a.readlines()
print seq

['>gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]', 'MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVN', 'DVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKS', 'KTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVG', 'DEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLA', 'DLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQI', 'GTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEEL', 'GDNAVFAGENFHHGDKL']


**Problema: ler uma ficheiro FASTA e separar o cabeçalho da sequência em duas strings (juntando toda a sequência numa só string)**

In [40]:
with open('eno1.fasta') as a:
    linhas = [i.strip() for i in a]

cab = linhas[0]
seq = ''.join(linhas[1:]) # estamos a usar um slice de uma lista e a funçao .join() com separador vazio.

print "cabeçalho: ", cab
print "sequência: \n", seq

cabeçalho:  >gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]
sequência: 
MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVNDVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKSKTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVGDEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLADLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQIGTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEELGDNAVFAGENFHHGDKL


Às vezes os ficheiros não têm cabeçalho! É melhor testar se a primeira linha começa por ">" !

In [41]:
with open('eno1.fasta') as a:
    linhas = [i.strip() for i in a]

if linhas[0].startswith('>'):
    cab = linhas[0]
    seq = ''.join(linhas[1:])
else:
    cab = ""
    seq = ''.join(linhas)

print "cabeçalho: ", cab
print "sequência: \n", seq

cabeçalho:  >gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]
sequência: 
MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVNDVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKSKTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVGDEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLADLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQIGTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEELGDNAVFAGENFHHGDKL


Agora a versão com `for`:

In [42]:
cab = ""
seq = []
with open('eno1.fasta') as a:
    for i in a:
        i = i.strip()
        if i.startswith('>'): 
            cab = i
        else:
            seq.append(i)
seq = ''.join(seq)

print "cabeçalho: ", cab
print "sequência: \n", seq

cabeçalho:  >gi|398366315|ref|NP_011770.3| Eno1p [Saccharomyces cerevisiae S288c]
sequência: 
MAVSKVYARSVYDSRGNPTVEVELTTEKGVFRSIVPSGASTGVHEALEMRDGDKSKWMGKGVLHAVKNVNDVIAPAFVKANIDVKDQKAVDDFLISLDGTANKSKLGANAILGVSLAASRAAAAEKNVPLYKHLADLSKSKTSPYVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKTFAEALRIGSEVYHNLKSLTKKRYGASAGNVGDEGGVAPNIQTAEEALDLIVDAIKAAGHDGKIKIGLDCASSEFFKDGKYDLDFKNPNSDKSKWLTGPQLADLYHSLMKRYPIVSIEDPFAEDDWEAWSHFFKTAGIQIVADDLTVTNPKRIATAIEKKAADALLLKVNQIGTLSESIKAAQDSFAAGWGVMVSHRSGETEDTFIADLVVGLRTGQIKTGAPARSERLAKLNQLLRIEEELGDNAVFAGENFHHGDKL


## Escrita

### Comando `print` para ficheiros

Basta modificar o comando `print`, indicando que deve escrever para um ficheiro em modo de escrita:

In [43]:
with open('exp.txt', 'w') as a: # o 'w' indica o modo de escrita
    print >> a, '1, 2, 3, experiência, som, som'

Aparentemente não aconteceu nada, mas um ficheiro novo foi criado

Vamos ler o ficheiro:

In [44]:
with open('exp.txt') as a:
    for i in a:
        print i

1, 2, 3, experiência, som, som



### Função `.write()`

Também existe a função `.write()` que funciona como o contrário de `.read()`:

In [45]:
tudo = """
Um texto que ocupa
1 linha
2 linhas
3 linhas
"""

with open('exp2.txt', 'w') as a: # o 'w' indica o modo de escrita
    a.write(tudo)

**Problema: ler uma ficheiro com dados numéricos e converter o ponto decimal em vírgula decimal**

Vamos supor que temos o ficheiro de texto `masses_annotated.txt` (menos de 1 MB) em que as cinco primeiras linhas são:

```
raw_mass	peak_height	KEGG_mass(original)	npossible	KEGG_mass (Addukt)	ppm	KEGG_cid	KEGG_formula	KEGG_name	uniqueID
154.97517	7.25775e+06	155.982446466881	1(4)	154.975098039829	0.464333550973771	C00988	C2H5O6P	2-Phosphoglycolate;Phosphoglycolic acid ([M-H]-)	
154.97517	7.25775e+06	155.982446466881	2(4)	154.975098039829	0.464333550973771	HMDB00816	C2H5O6P	Phosphoglycolic acid (see KEGG C00988); 2-phosphonooxyacetic acid [carboxylic acid] ([M-H]-)	
154.97517	7.25775e+06	120.005768420091	3(4)	154.975274805989	-0.676276005999922	C02287	C3H4O5	Hydroxymalonate;Tartronic acid;Hydroxymalonic acid;2-Hydroxymalonate;2-Hydroxymalonic acid;2-Tartronic acid ([M+Cl35]-)	
157.08700	1.21735e+06	158.094276466881	1(13)	157.087017840779	-0.113572599952848	C02975	C8H14O3	Ethyl 3-oxohexanoate;Ethyl butyrylacetate ([M-H]-)	
```

Os diferentes campos são separados por **tabs** (_tab delimited file_) e em certas configurações do MS-Excel podemos ter problemas a importar os dados.

De uma form sucinta, podemos passar os `.` a `,` ?

In [46]:
with open('masses_annotated.txt') as a:
    tudo = a.read()

tudo = tudo.replace('.', ',')

with open('masses_annotated_fixed.txt', 'w') as a:
    a.write(tudo)

Como prova, as cinco primeiras linhas do ficheiro `masses_annotated_fixed.txt`:

```
raw_mass	peak_height	KEGG_mass(original)	npossible	KEGG_mass (Addukt)	ppm	KEGG_cid	KEGG_formula	KEGG_name	uniqueID
154,97517	7,25775e+06	155,982446466881	1(4)	154,975098039829	0,464333550973771	C00988	C2H5O6P	2-Phosphoglycolate;Phosphoglycolic acid ([M-H]-)	
154,97517	7,25775e+06	155,982446466881	2(4)	154,975098039829	0,464333550973771	HMDB00816	C2H5O6P	Phosphoglycolic acid (see KEGG C00988); 2-phosphonooxyacetic acid [carboxylic acid] ([M-H]-)	
154,97517	7,25775e+06	120,005768420091	3(4)	154,975274805989	-0,676276005999922	C02287	C3H4O5	Hydroxymalonate;Tartronic acid;Hydroxymalonic acid;2-Hydroxymalonate;2-Hydroxymalonic acid;2-Tartronic acid ([M+Cl35]-)	
157,08700	1,21735e+06	158,094276466881	1(13)	157,087017840779	-0,113572599952848	C02975	C8H14O3	Ethyl 3-oxohexanoate;Ethyl butyrylacetate ([M-H]-)	
```

## Exemplo: Extração de informação de ficheiros de resultados de metabolómica.

[MassTRIX](http://www.masstrix.org), (_Mass TRanslator into Pathways_) [1] é um serviço online de tratamento de dados de metabolómica.

A funcionalidade primária é a identificação de compostos a partir de listas de massas e intensidades obtidas por análise de amostras biológics por Espectrometria de Massa.

O resultado da identificação é disponibilizado em vários ficheiros de texto. Num dos formatos, cada linha do ficheiro diz respeito a um pico de massa e apresenta, de entre outros, os compostos identificados com aquela massa, bem como as anotações das vias celulares em que esses compostos podem estar envolvidos.

Pretende-se ilustrar o uso programático da leitura de ficheiros e as operações com _strings_ com um exemplo da **extração da informação contida num desses ficheiros**.

[1] K. Suhre and P. Schmitt-Kopplin (2008) MassTRIX: Mass TRanslator Into Pathways, _Nucleic Acids Research_, **36**, Web Server issue, W481-W484.

### Exploração do formato

Vamos ler o ficheiro `masses.annotated.reformat.tsv`, separar todas as linhas para uma lista e mostrar a primeira e a última:

In [47]:
name = 'masses.annotated.reformat.tsv'
with open(name) as a:
    all_lines = [line.strip() for line in a]

print 'FIRST line'
print all_lines[0]
print '---------------------------------'
print 'LAST line'
print all_lines[-1]

FIRST line
154.97517	7.25775e+06	120.005768420091	4	154.975098039829#154.975098039829#154.975274805989	0.464333550973771#0.464333550973771#-0.676276005999922	C00988#HMDB00816#C02287	C2H5O6P#C2H5O6P#C3H4O5	2-Phosphoglycolate;Phosphoglycolic acid ([M-H]-)#Phosphoglycolic acid (see KEGG C00988); 2-phosphonooxyacetic acid [carboxylic acid] ([M-H]-)#Hydroxymalonate;Tartronic acid;Hydroxymalonic acid;2-Hydroxymalonate;2-Hydroxymalonic acid;2-Tartronic acid ([M+Cl35]-)													ko00630;ko01100#null#null	;Glyoxylate and dicarboxylate metabolism;Metabolic pathways#null#null	null#null#null
---------------------------------
LAST line
raw_mass	peak_height	corrected_mass	npossible	KEGG_mass	ppm	KEGG_cid	KEGG_formula	KEGG_name	uniqueID	C13	O18	N15	S34	Mg25	Mg26	Fe54	Fe57	Ca44	Cl37	K41	KEGG Pathways	KEGG Pathways descriptions	Compound in Organism(X)


Nas linhas deste ficheiro, os vários campos com informação estão separados por **tabs** (o caractere `\t`).

A última linha tem como informação os nomes de cada um destes campos (`raw_mass peak_height` etc)

Vamos dividir a linha 0 em várias partes, pelo separador `\t`. As partes obtidas são os vários campos de informação reltiva a um pico de MS.

Já agora, vamos obter os nomes de cada campo, fazendo o mesmo à última linha:

In [48]:
headers = all_lines[-1].split('\t')
line_parts = all_lines[0].split('\t')

for i, h, p in zip(range(len(headers)), headers, line_parts):
    print i, '|', h, ':', p

0 | raw_mass : 154.97517
1 | peak_height : 7.25775e+06
2 | corrected_mass : 120.005768420091
3 | npossible : 4
4 | KEGG_mass : 154.975098039829#154.975098039829#154.975274805989
5 | ppm : 0.464333550973771#0.464333550973771#-0.676276005999922
6 | KEGG_cid : C00988#HMDB00816#C02287
7 | KEGG_formula : C2H5O6P#C2H5O6P#C3H4O5
8 | KEGG_name : 2-Phosphoglycolate;Phosphoglycolic acid ([M-H]-)#Phosphoglycolic acid (see KEGG C00988); 2-phosphonooxyacetic acid [carboxylic acid] ([M-H]-)#Hydroxymalonate;Tartronic acid;Hydroxymalonic acid;2-Hydroxymalonate;2-Hydroxymalonic acid;2-Tartronic acid ([M+Cl35]-)
9 | uniqueID : 
10 | C13 : 
11 | O18 : 
12 | N15 : 
13 | S34 : 
14 | Mg25 : 
15 | Mg26 : 
16 | Fe54 : 
17 | Fe57 : 
18 | Ca44 : 
19 | Cl37 : 
20 | K41 : 
21 | KEGG Pathways : ko00630;ko01100#null#null
22 | KEGG Pathways descriptions : ;Glyoxylate and dicarboxylate metabolism;Metabolic pathways#null#null
23 | Compound in Organism(X) : null#null#null


Vamos extraír da linha 0

- a massa do pico "_raw mass_", (campo 0)
- a intensidade do pico, (campo 1)
- os IDs dos compostos, (campo 6)
- os nomes dos compostos (campo 8)
- os IDs das vias (campo 21)
- as descrições das vias (campo 22)

Havendo vários compostos possíveis em cada pico, é usado como separador o caractere `#`. 

Podemos já separar a informação por composto.

In [49]:
mass = line_parts[0]
intensity = line_parts[1]
cIds = line_parts[6].split('#')
cnames = line_parts[8].split('#')
pIds = line_parts[21].split('#')
pdesc = line_parts[22].split('#')

for info in [mass, intensity, cIds, cnames, pIds, pdesc]:
    print info

154.97517
7.25775e+06
['C00988', 'HMDB00816', 'C02287']
['2-Phosphoglycolate;Phosphoglycolic acid ([M-H]-)', 'Phosphoglycolic acid (see KEGG C00988); 2-phosphonooxyacetic acid [carboxylic acid] ([M-H]-)', 'Hydroxymalonate;Tartronic acid;Hydroxymalonic acid;2-Hydroxymalonate;2-Hydroxymalonic acid;2-Tartronic acid ([M+Cl35]-)']
['ko00630;ko01100', 'null', 'null']
[';Glyoxylate and dicarboxylate metabolism;Metabolic pathways', 'null', 'null']


Para cada composto, podemos armazenar a informação num dicionário, e criar **uma lista com estes dicionários**.

In [50]:
compounds = []
for cId, name, pathId, pathdesc in zip(cIds, cnames, pIds, pdesc):
    c = {}
    c['mass'] = mass
    c['intensity'] = intensity
    c['cId'] = cId
    c['name']= name
    c['pathIds'] = pathId
    c['paths'] = pathdesc
    compounds.append(c)
    
for c in compounds:
    print c

{'paths': ';Glyoxylate and dicarboxylate metabolism;Metabolic pathways', 'name': '2-Phosphoglycolate;Phosphoglycolic acid ([M-H]-)', 'cId': 'C00988', 'pathIds': 'ko00630;ko01100', 'intensity': '7.25775e+06', 'mass': '154.97517'}
{'paths': 'null', 'name': 'Phosphoglycolic acid (see KEGG C00988); 2-phosphonooxyacetic acid [carboxylic acid] ([M-H]-)', 'cId': 'HMDB00816', 'pathIds': 'null', 'intensity': '7.25775e+06', 'mass': '154.97517'}
{'paths': 'null', 'name': 'Hydroxymalonate;Tartronic acid;Hydroxymalonic acid;2-Hydroxymalonate;2-Hydroxymalonic acid;2-Tartronic acid ([M+Cl35]-)', 'cId': 'C02287', 'pathIds': 'null', 'intensity': '7.25775e+06', 'mass': '154.97517'}


Quanto à informação relativa às vias em que cada composto pode estar envolvido, podemos reparar que:

1. Um composto pde ter várias vias, separadas por `;`.

2. Um composto pode não ter nenhuma via. neste caso, aparece a anotação "null".

Vamos optar por extarír apenas compostos para os quais existe pelo menos uma via. Vamos **ignorar os outros**.

In [51]:
compounds = [c for c in compounds if c['paths']!='null']
for c in compounds:
    print c

{'paths': ';Glyoxylate and dicarboxylate metabolism;Metabolic pathways', 'name': '2-Phosphoglycolate;Phosphoglycolic acid ([M-H]-)', 'cId': 'C00988', 'pathIds': 'ko00630;ko01100', 'intensity': '7.25775e+06', 'mass': '154.97517'}


Finalmente, vamos transformar a informação relativa às vias (quer os IDs quer as descrições) em **listas**.

Repare-se que ainda são _strings_ e que usam como separador o `;` para delimitar várias vias.

In [52]:
for c in compounds:
    paths = c['paths'].split(';')
    # pode haver strings vazias!
    # vamos ignorá-las
    paths = [p for p in paths if p!='']
    c['paths'] = paths
    
    # tudo numa só linha, para os pathIds:
    c['pathIds'] = [p for p in c['pathIds'].split(';') if p!='']

for c in compounds:
    print c

{'paths': ['Glyoxylate and dicarboxylate metabolism', 'Metabolic pathways'], 'name': '2-Phosphoglycolate;Phosphoglycolic acid ([M-H]-)', 'cId': 'C00988', 'pathIds': ['ko00630', 'ko01100'], 'intensity': '7.25775e+06', 'mass': '154.97517'}


Agora **tudo junto, aplicando ao ficheiro inteiro**. Para controlo, podemos contar os compostos obtidos.

In [53]:
name = 'masses.annotated.reformat.tsv'
with open(name) as a:
    all_lines = [line.strip() for line in a]

compounds = []
for line in all_lines[:-1]:
    line_parts = line.split('\t')
    
    mass = line_parts[0]
    intensity = line_parts[1]
    cIds = line_parts[6].split('#')
    cnames = line_parts[8].split('#')
    pIds = line_parts[21].split('#')
    pdescs = line_parts[22].split('#')
    
    for cId, name, pId, desc in zip(cIds, cnames, pIds, pdescs):
        c = {}
        if pId != 'null':
            c['cId'] = cId
            c['name']= name
            c['mass'] = mass
            c['intensity'] = intensity
            c['paths'] = [p for p in desc.split(';') if p!='']
            c['pathIds'] = [p for p in pId.split(';') if p!='']
            compounds.append(c)

print 'São', len(compounds), 'compostos'

São 421 compostos


### Utilização da informação

Agora com esta **lista de dicionários** chamada `compounds` disponível podemos responder a várias questões:

Exemplo: Como obter uma tabela que associe (ID de composto) `---->` (via)?

In [54]:
# Só para os primeiros 20 compostos:
for c in compounds[:21]:
    for p in c['paths']:
        print c['cId'], '---->', p

C00988 ----> Glyoxylate and dicarboxylate metabolism
C00988 ----> Metabolic pathways
C16652 ----> Drug metabolism - cytochrome P450
C16655 ----> Drug metabolism - cytochrome P450
C01088 ----> Pantothenate and CoA biosynthesis
C01989 ----> Glyoxylate and dicarboxylate metabolism
C02488 ----> Pyruvate metabolism
C02991 ----> Fructose and mannose metabolism
C03652 ----> Nicotinate and nicotinamide metabolism
C03979 ----> Fructose and mannose metabolism
C06159 ----> Fructose and mannose metabolism
C16390 ----> Nicotinate and nicotinamide metabolism
C00079 ----> Phenylalanine metabolism
C00079 ----> Phenylalanine, tyrosine and tryptophan biosynthesis
C00079 ----> Phenylpropanoid biosynthesis
C00079 ----> Tropane, piperidine and pyridine alkaloid biosynthesis
C00079 ----> Glucosinolate biosynthesis
C00079 ----> Aminoacyl-tRNA biosynthesis
C00079 ----> Biosynthesis of phenylpropanoids
C00079 ----> Biosynthesis of alkaloids derived from shikimate pathway
C00079 ----> Biosynthesis of alkaloids 

Exemplo: Como obter uma **lista** com nomes das vias, mas sem repetições?

In [55]:
all_paths = []
for c in compounds:
    for p in c['paths']:
        if p not in all_paths:
            all_paths.append(p)

# AS primeiras 20 vias:
for p in all_paths[:21]:
    print p

Glyoxylate and dicarboxylate metabolism
Metabolic pathways
Drug metabolism - cytochrome P450
Pantothenate and CoA biosynthesis
Pyruvate metabolism
Fructose and mannose metabolism
Nicotinate and nicotinamide metabolism
Phenylalanine metabolism
Phenylalanine, tyrosine and tryptophan biosynthesis
Phenylpropanoid biosynthesis
Tropane, piperidine and pyridine alkaloid biosynthesis
Glucosinolate biosynthesis
Aminoacyl-tRNA biosynthesis
Biosynthesis of phenylpropanoids
Biosynthesis of alkaloids derived from shikimate pathway
Biosynthesis of alkaloids derived from ornithine, lysine and nicotinic acid
Biosynthesis of plant hormones
ABC transporters
Biosynthesis of plant secondary metabolites
Alanine, aspartate and glutamate metabolism
Tetracycline biosynthesis


Exemplo: Como obter um **dicionário** com os nomes das **vias como chaves** e o **numero de vezes que aparecem como valores**?

In [56]:
pcounts = {}
for c in compounds:
    for p in c['paths']:
        if p in pcounts:
            pcounts[p] = pcounts[p] + 1
        else:
            pcounts[p] = 1

print 'São', len(pcounts), 'vias'

print '\nAlgumas contagens:'

for i, k in zip(range(6), pcounts):
    print k, '--->', pcounts[k], 'compostos'

São 150 vias

Algumas contagens:
Bacterial chemotaxis ---> 2 compostos
Biosynthesis of alkaloids derived from histidine and purine ---> 8 compostos
Geraniol degradation ---> 1 compostos
Biosynthesis of plant hormones ---> 16 compostos
Biosynthesis of unsaturated fatty acids ---> 33 compostos
Long-term depression ---> 1 compostos


Sendo um dicionário, não se aplica a noção de ordem e é evidente que as vias não estão ordenadas segundo as contagens de compostos.

Podemos obter as vias por ordem decrescente de compostos?

Para, por exemplo, obter **as 20 vias mais abundantes** em compostos?

Uma vez que os dicionários não estão associados a uma "ordenação", temos de trabalhar com listas.

Estratégia:

- Criar uma lista com os pares (contagens, nome da via)
- Ordenar a lista

In [57]:
pcounts_list = [(pcounts[k], k) for k in pcounts]
print 'Controlo: 5 primeiros elementos, lista desordenada:'
for c, p in pcounts_list[:5]:
    print p, '--->', c

Controlo: 5 primeiros elementos, lista desordenada:
Bacterial chemotaxis ---> 2
Biosynthesis of alkaloids derived from histidine and purine ---> 8
Geraniol degradation ---> 1
Biosynthesis of plant hormones ---> 16
Biosynthesis of unsaturated fatty acids ---> 33


In [58]:
pcounts_list.sort(reverse=True)
# Reverse=True indica que a ordenação é por ordem decrescente

print '\nAs 20 vias com mais compostos:'
for c, p in pcounts_list[:20]:
    print p, '--->', c


As 20 vias com mais compostos:
Metabolic pathways ---> 134
alpha-Linolenic acid metabolism ---> 42
Biosynthesis of plant secondary metabolites ---> 34
Biosynthesis of unsaturated fatty acids ---> 33
Linoleic acid metabolism ---> 25
Steroid biosynthesis ---> 21
Galactose metabolism ---> 21
Diterpenoid biosynthesis ---> 20
Biosynthesis of terpenoids and steroids ---> 18
Starch and sucrose metabolism ---> 17
Fructose and mannose metabolism ---> 17
Ascorbate and aldarate metabolism ---> 17
Phosphotransferase system (PTS) ---> 16
Fatty acid biosynthesis ---> 16
Biosynthesis of plant hormones ---> 16
Glycolysis / Gluconeogenesis ---> 15
Biosynthesis of phenylpropanoids ---> 15
Biosynthesis of alkaloids derived from shikimate pathway ---> 15
Insect hormone biosynthesis ---> 14
ABC transporters ---> 14


Finalmente:

Escrever um ficheiro, chamado `compostos.txt` com vários campos, separados por `\t` e um compostos por linha.

Os campos são:

- A massa (_raw mass_)
- A intensidade
- O ID do composto
- O nome do composto (havendo vários nomes, usar apenas o primeiro)
- A descrição das vias, separadas por `;`
- Os IDs das vias, separadas por `;`.

Só para os compostos que têm pelo menos uma via associada, claro.

In [59]:
file_name = 'compostos.txt'

with open(file_name, 'w') as a:
    for c in compounds:
        campos = []
        campos.append(c['mass'])
        campos.append(c['intensity'])
        campos.append(c['cId'])
        campos.append(c['name'].split(';')[0])
        campos.append(';'.join(c['paths']))
        campos.append(';'.join(c['pathIds']))
        # finalmente, juntar todos os campos
        # usando \t como separador
        # e escrever no ficheiro "a"
        print >> a, '\t'.join(campos)

In [60]:
# verificar se correu bem...
file_name = 'compostos.txt'

with open(file_name) as a:
    for i, line in enumerate(a):
        line = line.strip()
        print line
        if i > 10:
            break

154.97517	7.25775e+06	C00988	2-Phosphoglycolate	Glyoxylate and dicarboxylate metabolism;Metabolic pathways	ko00630;ko01100
157.08700	1.21735e+06	C16652	3-Oxovalproic acid	Drug metabolism - cytochrome P450	ko00982
157.08700	1.21735e+06	C16655	2-n-Propyl-4-oxopentanoic acid	Drug metabolism - cytochrome P450	ko00982
161.04552	8.01413e+06	C01088	(R)-3,3-Dimethylmalate ([M-H]-)	Pantothenate and CoA biosynthesis	ko00770
161.04552	8.01413e+06	C01989	3-Ethylmalate ([M-H]-)	Glyoxylate and dicarboxylate metabolism	ko00630
161.04552	8.01413e+06	C02488	(R)-2-Ethylmalate ([M-H]-)	Pyruvate metabolism	ko00620
161.04552	8.01413e+06	C02991	L-Rhamnono-1,4-lactone	Fructose and mannose metabolism	ko00051
161.04552	8.01413e+06	C03652	(2R,3S)-2,3-Dimethylmalate ([M-H]-)	Nicotinate and nicotinamide metabolism	ko00760
161.04552	8.01413e+06	C03979	2-Dehydro-3-deoxy-L-rhamnonate ([M-H]-)	Fructose and mannose metabolism	ko00051
161.04552	8.01413e+06	C06159	2-Dehydro-3-deoxy-D-fuconate ([M-H]-)	Fructose and manno