# Ficheiros de texto

## Leitura

O modelo mais simples é ler todo o conteúdo de um ficheiro para uma _string_:

![](./images/fichs.png)

### `.read()`

In [None]:
a = open('eno1.fasta')
seq = a.read()
a.close()

print('A sequência, em FASTA é')
print(seq)

print(type(seq))

Uma versão mais moderna para abrir e **automaticamente fechar** o ficheiro é utilizar o comando `with`:

In [None]:
with open('eno1.fasta') as a:
    seq = a.read()

print('A sequência, em FASTA é')
print(seq)

Mas `read()` não é a única maneira de ler um ficheiro.

### `.readlines()`

A função `readlines()` lê e separa **as linhas** de um ficheiro para uma lista:

In [None]:
with open('eno1.fasta') as a:
    seq = a.readlines()

print(seq)

O que são os `\n` no fim das _strings_?

**Numa string,** `\n` **indica a mudança de linha**. (Conta como apenas **1** caractere).

Neste caso eles aparecem porque no ficheiro original há mudanças de linha. 

Podemos elimina-los com a função `.strip()`:

In [None]:
with open('eno1.fasta') as a:
    seq = a.readlines()

seq = [linha.strip() for linha in seq]
print(seq)

Ou, de uma forma sucinta, usando uma lista em compreensão:

In [None]:
with open('eno1.fasta') as a:
    seq = [linha.strip() for linha in a.readlines()]
print(seq)

Com ficheiros muito grandes, a leitura pelas funções `.read()` e `.readlines()` pode esgotar a memória de um computador e "congelar" um programa.

Existe uma terceira maneira de ler um ficheiro (que não traz problemas com ficheiros grandes):

### Iteração de ficheiros com `for`.

**A iteração de um ficheiro "percorre" as linhas do ficheiro**

In [None]:
with open('eno1.fasta') as a:
    for linha in a:
        linha = linha.strip()
        print(linha)

In [None]:
with open('eno1.fasta') as a:
    for i, linha in enumerate(a):
        linha = linha.strip()
        print('linha', i, ':', linha)

In [None]:
linhas = []
with open('eno1.fasta') as a:
    for i, linha in enumerate(a):
        linha = linha.strip()
        
        print('\nlinha', i, 'tem', len(linha), 'caracteres')
        if linha.startswith('>'):
            print('e é o cabeçalho do ficheiro FASTA')
        print(linha)
        linhas.append(linha)

Reparar que, para ler todas as linhas para uma lista poderíamos não ter usado a função `.readlines()`:

In [None]:
with open('eno1.fasta') as a:
    seq = [linha.strip() for linha in a]
    # aqui tínhamos ... for linha in a.readlines()
print(seq)

**Problema: ler uma ficheiro FASTA e separar o cabeçalho da sequência em duas strings (juntando toda a sequência numa só string)**

In [None]:
with open('eno1.fasta') as a:
    linhas = [i.strip() for i in a]

cab = linhas[0]
seq = ''.join(linhas[1:]) # estamos a usar um slice de uma lista e a funçao .join() com separador vazio.

print("cabeçalho:", cab)
print("sequência:")
print(seq)

Às vezes os ficheiros não têm cabeçalho! É melhor testar se a primeira linha começa por ">" !

In [None]:
with open('eno1.fasta') as a:
    linhas = [i.strip() for i in a]

if linhas[0].startswith('>'):
    cab = linhas[0]
    seq = ''.join(linhas[1:])
else:
    cab = ""
    seq = ''.join(linhas)

print("cabeçalho:", cab)
print("sequência:")
print(seq)

Agora a versão com `for`:

In [None]:
cab = ""
seq = []
with open('eno1.fasta') as a:
    for i in a:
        i = i.strip()
        if i.startswith('>'): 
            cab = i
        else:
            seq.append(i)
seq = ''.join(seq)

print("cabeçalho:", cab)
print("sequência:")
print(seq)

## Escrita

### Função `print()` para ficheiros

Basta modificar a função `print()`, indicando que deve escrever para um ficheiro em modo de escrita:

In [None]:
with open('exp.txt', 'w') as a: # o 'w' indica o modo de escrita
    print('1, 2, 3, experiência, som, som', file=a)

Aparentemente não aconteceu nada, mas um ficheiro novo foi criado

Vamos ler o ficheiro:

In [None]:
with open('exp.txt') as a:
    for i in a:
        print(i)

### Função `.write()`

Também existe a função `.write()` que funciona como o contrário de `.read()`:

In [None]:
tudo = """
Um texto que ocupa
1 linha
2 linhas
3 linhas
"""

with open('exp2.txt', 'w') as a: # o 'w' indica o modo de escrita
    a.write(tudo)

**Problema: ler uma ficheiro com dados numéricos e converter o ponto decimal em vírgula decimal**

Vamos supor que temos o ficheiro de texto `masses_annotated.txt` (menos de 1 MB) em que as cinco primeiras linhas são:

```
raw_mass	peak_height	KEGG_mass(original)	npossible	KEGG_mass (Addukt)	ppm	KEGG_cid	KEGG_formula	KEGG_name	uniqueID
154.97517	7.25775e+06	155.982446466881	1(4)	154.975098039829	0.464333550973771	C00988	C2H5O6P	2-Phosphoglycolate;Phosphoglycolic acid ([M-H]-)	
154.97517	7.25775e+06	155.982446466881	2(4)	154.975098039829	0.464333550973771	HMDB00816	C2H5O6P	Phosphoglycolic acid (see KEGG C00988); 2-phosphonooxyacetic acid [carboxylic acid] ([M-H]-)	
154.97517	7.25775e+06	120.005768420091	3(4)	154.975274805989	-0.676276005999922	C02287	C3H4O5	Hydroxymalonate;Tartronic acid;Hydroxymalonic acid;2-Hydroxymalonate;2-Hydroxymalonic acid;2-Tartronic acid ([M+Cl35]-)	
157.08700	1.21735e+06	158.094276466881	1(13)	157.087017840779	-0.113572599952848	C02975	C8H14O3	Ethyl 3-oxohexanoate;Ethyl butyrylacetate ([M-H]-)	
```

Os diferentes campos são separados por **tabs** (_tab delimited file_) e em certas configurações do MS-Excel podemos ter problemas a importar os dados.

De uma form sucinta, podemos passar os `.` a `,` ?

In [None]:
with open('masses_annotated.txt') as a:
    tudo = a.read()

tudo = tudo.replace('.', ',')

with open('masses_annotated_fixed.txt', 'w') as a:
    a.write(tudo)

Como prova, as cinco primeiras linhas do ficheiro `masses_annotated_fixed.txt`:

```
raw_mass	peak_height	KEGG_mass(original)	npossible	KEGG_mass (Addukt)	ppm	KEGG_cid	KEGG_formula	KEGG_name	uniqueID
154,97517	7,25775e+06	155,982446466881	1(4)	154,975098039829	0,464333550973771	C00988	C2H5O6P	2-Phosphoglycolate;Phosphoglycolic acid ([M-H]-)	
154,97517	7,25775e+06	155,982446466881	2(4)	154,975098039829	0,464333550973771	HMDB00816	C2H5O6P	Phosphoglycolic acid (see KEGG C00988); 2-phosphonooxyacetic acid [carboxylic acid] ([M-H]-)	
154,97517	7,25775e+06	120,005768420091	3(4)	154,975274805989	-0,676276005999922	C02287	C3H4O5	Hydroxymalonate;Tartronic acid;Hydroxymalonic acid;2-Hydroxymalonate;2-Hydroxymalonic acid;2-Tartronic acid ([M+Cl35]-)	
157,08700	1,21735e+06	158,094276466881	1(13)	157,087017840779	-0,113572599952848	C02975	C8H14O3	Ethyl 3-oxohexanoate;Ethyl butyrylacetate ([M-H]-)	
```

## Exemplo: Extração de informação de ficheiros de resultados de metabolómica.

[MassTRIX](http://www.masstrix.org), (_Mass TRanslator into Pathways_) [1] é um serviço online de tratamento de dados de metabolómica.

A funcionalidade primária é a identificação de compostos a partir de listas de massas e intensidades obtidas por análise de amostras biológics por Espectrometria de Massa.

O resultado da identificação é disponibilizado em vários ficheiros de texto. Num dos formatos, cada linha do ficheiro diz respeito a um pico de massa e apresenta, de entre outros, os compostos identificados com aquela massa, bem como as anotações das vias celulares em que esses compostos podem estar envolvidos.

Pretende-se ilustrar o uso programático da leitura de ficheiros e as operações com _strings_ com um exemplo da **extração da informação contida num desses ficheiros**.

[1] K. Suhre and P. Schmitt-Kopplin (2008) MassTRIX: Mass TRanslator Into Pathways, _Nucleic Acids Research_, **36**, Web Server issue, W481-W484.

### Exploração do formato

Vamos ler o ficheiro `masses.annotated.reformat.tsv`, separar todas as linhas para uma lista e mostrar a primeira e a última:

In [None]:
name = 'masses.annotated.reformat.tsv'
with open(name) as a:
    all_lines = [line.strip() for line in a]

print('FIRST line')
print(all_lines[0])
print('---------------------------------')
print('LAST line')
print(all_lines[-1])

Nas linhas deste ficheiro, os vários campos com informação estão separados por **tabs** (o caractere `\t`).

A última linha tem como informação os nomes de cada um destes campos (`raw_mass peak_height` etc)

Vamos dividir a linha 0 em várias partes, pelo separador `\t`. As partes obtidas são os vários campos de informação reltiva a um pico de MS.

Já agora, vamos obter os nomes de cada campo, fazendo o mesmo à última linha:

In [None]:
headers = all_lines[-1].split('\t')
line_parts = all_lines[0].split('\t')

for i, h, p in zip(range(len(headers)), headers, line_parts):
    print(i, '|', h, ':', p)

Vamos extraír da linha 0

- a massa do pico "_raw mass_", (campo 0)
- a intensidade do pico, (campo 1)
- os IDs dos compostos, (campo 6)
- os nomes dos compostos (campo 8)
- os IDs das vias (campo 21)
- as descrições das vias (campo 22)

Havendo vários compostos possíveis em cada pico, é usado como separador o caractere `#`. 

Podemos já separar a informação por composto.

In [None]:
mass = line_parts[0]
intensity = line_parts[1]
cIds = line_parts[6].split('#')
cnames = line_parts[8].split('#')
pIds = line_parts[21].split('#')
pdesc = line_parts[22].split('#')

for info in [mass, intensity, cIds, cnames, pIds, pdesc]:
    print(info)

Para cada composto, podemos armazenar a informação num dicionário, e criar **uma lista com estes dicionários**.

In [None]:
compounds = []
for cId, name, pathId, pathdesc in zip(cIds, cnames, pIds, pdesc):
    c = {}
    c['mass'] = mass
    c['intensity'] = intensity
    c['cId'] = cId
    c['name']= name
    c['pathIds'] = pathId
    c['paths'] = pathdesc
    compounds.append(c)
    
for c in compounds:
    print(c)

Quanto à informação relativa às vias em que cada composto pode estar envolvido, podemos reparar que:

1. Um composto pde ter várias vias, separadas por `;`.

2. Um composto pode não ter nenhuma via. neste caso, aparece a anotação "null".

Vamos optar por extarír apenas compostos para os quais existe pelo menos uma via. Vamos **ignorar os outros**.

In [None]:
compounds = [c for c in compounds if c['paths']!='null']
for c in compounds:
    print(c)

Finalmente, vamos transformar a informação relativa às vias (quer os IDs quer as descrições) em **listas**.

Repare-se que ainda são _strings_ e que usam como separador o `;` para delimitar várias vias.

In [None]:
for c in compounds:
    paths = c['paths'].split(';')
    # pode haver strings vazias!
    # vamos ignorá-las
    paths = [p for p in paths if p!='']
    c['paths'] = paths
    
    # tudo numa só linha, para os pathIds:
    c['pathIds'] = [p for p in c['pathIds'].split(';') if p!='']

for c in compounds:
    print(c)

Agora **tudo junto, aplicando ao ficheiro inteiro**. Para controlo, podemos contar os compostos obtidos.

In [None]:
name = 'masses.annotated.reformat.tsv'
with open(name) as a:
    all_lines = [line.strip() for line in a]

compounds = []
for line in all_lines[:-1]:
    line_parts = line.split('\t')
    
    mass = line_parts[0]
    intensity = line_parts[1]
    cIds = line_parts[6].split('#')
    cnames = line_parts[8].split('#')
    pIds = line_parts[21].split('#')
    pdescs = line_parts[22].split('#')
    
    for cId, name, pId, desc in zip(cIds, cnames, pIds, pdescs):
        c = {}
        if pId != 'null':
            c['cId'] = cId
            c['name']= name
            c['mass'] = mass
            c['intensity'] = intensity
            c['paths'] = [p for p in desc.split(';') if p!='']
            c['pathIds'] = [p for p in pId.split(';') if p!='']
            compounds.append(c)

print('São', len(compounds), 'compostos')

### Utilização da informação

Agora com esta **lista de dicionários** chamada `compounds` disponível podemos responder a várias questões:

Exemplo: Como obter uma tabela que associe (ID de composto) `---->` (via)?

In [None]:
# Só para os primeiros 20 compostos:
for c in compounds[:21]:
    for p in c['paths']:
        print(c['cId'], '---->', p)

Exemplo: Como obter uma **lista** com nomes das vias, mas sem repetições?

In [None]:
all_paths = []
for c in compounds:
    for p in c['paths']:
        if p not in all_paths:
            all_paths.append(p)

# AS primeiras 20 vias:
for p in all_paths[:21]:
    print(p)

Exemplo: Como obter um **dicionário** com os nomes das **vias como chaves** e o **numero de vezes que aparecem como valores**?

In [None]:
pcounts = {}
for c in compounds:
    for p in c['paths']:
        if p in pcounts:
            pcounts[p] = pcounts[p] + 1
        else:
            pcounts[p] = 1

print('São', len(pcounts), 'vias')

print('\nAlgumas contagens:')

for i, k in zip(range(6), pcounts):
    print(k, '--->', pcounts[k], 'compostos')

Sendo um dicionário, não se aplica a noção de ordem e é evidente que as vias não estão ordenadas segundo as contagens de compostos.

Podemos obter as vias por ordem decrescente de compostos?

Para, por exemplo, obter **as 20 vias mais abundantes** em compostos?

Uma vez que os dicionários não estão associados a uma "ordenação", temos de trabalhar com listas.

Estratégia:

- Criar uma lista com os pares (contagens, nome da via)
- Ordenar a lista

In [None]:
pcounts_list = [(pcounts[k], k) for k in pcounts]
print('Controlo: 5 primeiros elementos, lista desordenada:')
for c, p in pcounts_list[:5]:
    print(p, '--->', c)

In [None]:
pcounts_list.sort(reverse=True)
# Reverse=True indica que a ordenação é por ordem decrescente

print('\nAs 20 vias com mais compostos:')
for c, p in pcounts_list[:20]:
    print(p, '--->', c)

Finalmente:

Escrever um ficheiro, chamado `compostos.txt` com vários campos, separados por `\t` e um compostos por linha.

Os campos são:

- A massa (_raw mass_)
- A intensidade
- O ID do composto
- O nome do composto (havendo vários nomes, usar apenas o primeiro)
- A descrição das vias, separadas por `;`
- Os IDs das vias, separadas por `;`.

Só para os compostos que têm pelo menos uma via associada, claro.

In [None]:
file_name = 'compostos.txt'

with open(file_name, 'w') as a:
    for c in compounds:
        campos = []
        campos.append(c['mass'])
        campos.append(c['intensity'])
        campos.append(c['cId'])
        campos.append(c['name'].split(';')[0])
        campos.append(';'.join(c['paths']))
        campos.append(';'.join(c['pathIds']))
        # finalmente, juntar todos os campos
        # usando \t como separador
        # e escrever no ficheiro "a"
        print('\t'.join(campos), file=a)

In [None]:
# verificar se correu bem...
file_name = 'compostos.txt'

with open(file_name) as a:
    for i, line in enumerate(a):
        line = line.strip()
        print(line)
        if i > 10:
            break