# Expressões regulares

As expressões regulares são usadas nas linguagens de programação e, em Linux, na generalidade das ferramentas que trabalham com ficheiros.

Nesta ficha vamos aprender coisas básicas de expressões regulares.

Se necessário, tem disponível a [documentação de expressões regulares em Python](https://docs.python.org/3/howto/regex.html).

### Escrita de expressões regulares

As expressões regulares usam uma sintaxe especial para escrever os padrões. Como usam muitas vezes o `\`, que também é usado nas strings para representar carateres especiais, como o newline `\n`, as expressões regulares não devem ser tratadas como uma string normal. Por isso, usa-se o prefiro `r` (de raw) antes de se escrever uma expressão regular.

In [None]:
# exemplo de um string normal
print("O céu\nestá azul")
# forçar a escrita de um \
print("O céu\\nestá azul")
# usar o prefixo r, para raw, print ou assim
print(r"O céu\nestá azul")

Para se manter as expressões regulares legíveis, vamos escrevê-las sempre com o prefixo `r` de raw. Contudo, lembre-se que as seguintes expressões, por exemplo, são idênticas:
```
match = re.search(r'\d+', frase)
match = re.search('\\d+', frase)
```


## Células de texto e células de código

Não se esqueça que está usar um notebook, onde há células com texto apenas e células com código.

Na célula seguinte apresenta-se o código inicial que vamos usar nos primeiros exemplos. Tem que executar esta célula, antes de executar as posteriores.

In [None]:
import re
frase = "O João tem 18 anos e nasceu em 2004, 2 anos antes da Inês que agora tem 16, que nasceu em 2006"

As expressões regulares consistem em definir padrões e depois usar funções que vão à procura desses padrões num texto.

As duas funções mais simples são `search()` e `match()`.

A função `search()` procura o padrão em qualquer posição.

A função `match()` procura o padrão no início da frase.

Ambas retornam `None` se o padrão não for encontrado.

In [None]:
match = re.search(r'[0123456789]', frase)
print(match[0])


No exemplo anterior, usa-se o padrão `[0123456789]` para indicar que queremos ir à procura de um algarismo.

Os padrões seguintes são equivalentes a este:
- `[0-9]`
- `\d`

No exemplo, a função `search` dá um resultado diferente de None (quer dizer que encontrou o padrão) e o texto que satisfez o padrão foi o a primeira ocorrência do algarismo `1`.

#### Compilar versus não compilar

Ao consultar a documentação ou ao ver exemplos, pode verificar que as expressões regulares podem ser compiladas antes de serem usadas.

É exatamente a mesma coisa:

```
match = re.search(r'\d+', frase)
```

ou

```
p = re.compile(r'\d+')
p.search(frase)
```

No exemplo seguinte, usa-se o padrão `[0-9]+`. O `+` indica uma ou repetições do elemento anterior.


In [None]:
p = re.compile(r'[0-9]+')
p.search(frase)

In [None]:
match = re.match(r'\d+', frase)
print(match)

Como se referiu, o `search` e o `match` têm comportamentos ligeiramente diferentes.

O `match` não encontra o padrão, a não ser no início.

In [None]:
import re 

pal1 = "1975, ano de boa produção"
pal2 = "Viva o 1 de dezembro"
match1 = re.match(r'\d+', pal1)
print(match1)
print(match1[0])
match2 = re.match(r'\d+', pal2)
print(match2)

Quando se quer encontrar mais do que uma ocorrência, usa-se a função `findall()`.

In [None]:
#para todos os números
match = re.findall(r'\d+', frase)

#para todos os números com 4 dígitos
match = re.findall(r'\d{4}', frase) 

print(match)

In [None]:
re.findall(r'\w+', frase)

Se for importante saber a posição onde ocorre cada instância do padrão, pode-se usar a função `finditer()`

In [None]:
for m in re.finditer(r'\d+', frase):
    print('{}-{}: {}'.format(m.start(), m.end(), m.group(0)))


Com a função `sub()` pode-se substituir cada match com o valor retornado pela função aplicada ao match.

In [None]:
def tohex(match):
    return(hex(int(match[0])))

re.sub(r"\d+", tohex, frase)

#### Grupos

A função match permite agrupar partes do padrão. Esses grupos podem ser usados para aceder a cada uma das partes da entrada que fez match com o grupo.

No exemplo seguinte, usam-se três grupos.

No primeiro grupo, temos o dia, no segundo o mês e no terceiro o ano.

In [None]:
nascimento = "14 10 1992"
# nascimento = "14-10-1992"

#m = re.match(r"(\d\d)[/-](\d\d)[/-](\d\d\d\d)", nascimento)

m = re.match(r"(\d+)[ /-](\d+)[ /-](\d+)", nascimento)

if m:
    print( m.group(3), m.group(2), m.group(1) )

A função `re.split()` é muito útil. É muito mais flexível que o método `split()` das strings.

In [None]:
"Pires, João Paulo    Alves Cabrita".split(' ')

In [None]:
# e = re.compile(r'[^0-9a-zA-Z]+')
phrase="Pires,,,,João Paulo           Alves;Cabrita, Corte-Real"
e = re.compile(r'[ ,;-]+')
e.split(phrase) 

### Sequências

Nos exemplos seguintes, usam-se sequências guardas no [Genbank](https://www.ncbi.nlm.nih.gov/genbank/). Estas estão guardadas num formato próprio, exemplificado no registo seguinte: https://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

Para os exercícios, descarregámos duas entradas, a partir dos links:
- https://www.ncbi.nlm.nih.gov/nuccore/L42022
- https://www.ncbi.nlm.nih.gov/nuccore/L42023

Estão guardadas nos documentos `L42022.1.gb` e `L42023.1.gb`.

Para ler um registo inteiro e guardá-lo numa string `locus`, usa-se o código Python seguinte:



In [None]:
import re

fonte = open("L42022.1.gb",'r')
locus = fonte.read()
fonte.close()
print( locus )

Tenha em atenção que a string contém `\n` (mudanças de linha). Pode-se ter que usar as flags `re.DOTALL` ou `re.MULTILINE`.

Sendo `locus` um string com o conteúdo do registo, pode-se verificar se existem determinados padrões com a função `search`.

In [None]:

re.search("VERSION\s+[\w.]+", locus)

Versão com a flag `re.MULTILINE`, para garantir que o padrão VERSION aparece no início de uma linha (usando o `^`):

In [None]:

re.search("^VERSION\s+[\w.]+", locus, re.MULTILINE)

Procurar as linhas onde aparece a sequência:

In [None]:
re.findall("^\s+\d+ [actg ]+", locus, re.MULTILINE)

### Exercício (resolvido)

Dado uma entrada do genbank (como a do exemplo anterior), escreva um pequeno programa que, dado um registo, dá o link para o Genbank onde o mesmo aparece. 

Exemplo:

dados o seguinte registo em texto (abreviado):
```
LOCUS       L42023               1830138 bp    DNA     circular BCT 31-JAN-2014
DEFINITION  Haemophilus influenzae Rd KW20, complete genome.
ACCESSION   L42023 U32686-U32848
VERSION     L42023.1  GI:6626252
DBLINK      BioProject: PRJNA219
            BioSample: SAMN02603991
KEYWORDS    .
SOURCE      Haemophilus influenzae Rd KW20
  ORGANISM  Haemophilus influenzae Rd KW20
(...)
```

O resultado deveria ser:
```
https://www.ncbi.nlm.nih.gov/nuccore/L42022
```

In [None]:
import re

# fonte = open("L42022.1.gb",'r')
fonte = open("L42023.1.gb",'r')
locus = fonte.read()
fonte.close()

existe = re.search(r'ACCESSION\s+[^\s]+', locus)
if existe:
    # print( existe[0] )
    m = re.match(r'ACCESSION\s+([^\s]+)', existe[0] )
    if m:
        id = m.group(1)
        print( "https://www.ncbi.nlm.nih.gov/nuccore/{}".format( id ) )
else:
    print( "Padrão não encontrado" )

### Exercício

Dado uma entrada do genbank (como a do exemplo anterior), escreva um pequeno programa que, dado um registo, dá a respetiva definição.

Exemplo:

dados o seguinte registo em texto (abreviado):
```
LOCUS       HIVI5C                   231 bp    DNA     linear   VRL 24-MAR-1997
DEFINITION  Human immunodeficiency virus type 1 (isolate genotype C, I5) gag
            gene, partial cds.
ACCESSION   L42022
VERSION     L42022.1
KEYWORDS    gag gene; p24 protein.
SOURCE      Human immunodeficiency virus 1 (HIV-1)
  ORGANISM  Human immunodeficiency virus 1
            Viruses; Riboviria; Pararnavirae; Artverviricota; Revtraviricetes;
            Ortervirales; Retroviridae; Orthoretrovirinae; Lentivirus.
REFERENCE   1  (bases 1 to 231)
  AUTHORS   Voevodin,A., Crandall,K.A., Seth,P. and al Mufti,S.
  TITLE     HIV type 1 subtypes B and C from new regions of India and Indian
            and Ethiopian expatriates in Kuwait
  JOURNAL   AIDS Res. Hum. Retroviruses 12 (7), 641-643 (1996)
   PUBMED   8743090
(...)
```

O resultado deveria ser:
```
Human immunodeficiency virus type 1 (isolate genotype C, I5) gag gene, partial cds.
```

In [133]:
# resposta
import re

fonte = open("../M8_avaliacao/L42022.1.gb",'r')
#fonte = open("../M8_avaliacao/L42023.1.gb",'r')
locus = fonte.read()
fonte.close()
defi=''

#Como no documento L42023.1 existem múltiplas proteínas, o código identifica-as uma a uma e apresenta o seu link individual
m = re.search( r'DEFINITION\s+(.*?)(?=ACCESSION)', locus,re.DOTALL)
if m:
    n=m.group(1).split()
    for line2 in n:
        defi=defi+line2+' '
    print(defi)
else:
    print('No definition provided')


Human immunodeficiency virus type 1 (isolate genotype C, I5) gag gene, partial cds. 


### Exercício (resolvido)

Dado uma entrada do genbank (como a do exemplo anterior), escreva um pequeno programa que, dado um registo, dá todos os títulos das referências que aparecem no registo.

Exemplo:

dados o seguinte registo em texto (abreviado):
```
LOCUS       HIVI5C                   231 bp    DNA     linear   VRL 24-MAR-1997
DEFINITION  Human immunodeficiency virus type 1 (isolate genotype C, I5) gag
            gene, partial cds.
ACCESSION   L42022
VERSION     L42022.1
KEYWORDS    gag gene; p24 protein.
SOURCE      Human immunodeficiency virus 1 (HIV-1)
  ORGANISM  Human immunodeficiency virus 1
            Viruses; Riboviria; Pararnavirae; Artverviricota; Revtraviricetes;
            Ortervirales; Retroviridae; Orthoretrovirinae; Lentivirus.
REFERENCE   1  (bases 1 to 231)
  AUTHORS   Voevodin,A., Crandall,K.A., Seth,P. and al Mufti,S.
  TITLE     HIV type 1 subtypes B and C from new regions of India and Indian
            and Ethiopian expatriates in Kuwait
  JOURNAL   AIDS Res. Hum. Retroviruses 12 (7), 641-643 (1996)
   PUBMED   8743090
(...)
```

O resultado deveria ser:
```
HIV type 1 subtypes B and C from new regions of India and Indian and Ethiopian expatriates in Kuwait
```

In [None]:
import re

#fonte = open("L42022.1.gb",'r')
fonte = open("L42023.1.gb",'r')
locus = fonte.read()
fonte.close()
#print(locus)
# ver https://docs.python.org/3/howto/regex.html#lookahead-assertions
# ver https://docs.python.org/3/howto/regex.html#greedy-versus-non-greedy
existe = re.findall(r'TITLE\s+.*?(?=JOURNAL)', locus, re.DOTALL)
if existe:
    for title in existe:
       m = re.match( r'TITLE\s+(.+)', title, re.DOTALL )
       #print(m.group(1))
       print( re.sub(r'\s+', ' ', m.group(1) ) )

### Exercício

Dado uma entrada do genbank (como a do exemplo anterior), escreva um pequeno programa que, dado um registo, dá a sequência que aparece no final.

A sequência deve ser apresentada numa única linha, sem espaços e sem outras eltas, a não ser a, c, t e g.

Exemplo:

dados o seguinte registo em texto (abreviado):
```
LOCUS       HIVI5C                   231 bp    DNA     linear   VRL 24-MAR-1997
DEFINITION  Human immunodeficiency virus type 1 (isolate genotype C, I5) gag
            gene, partial cds.
ACCESSION   L42022
VERSION     L42022.1
KEYWORDS    gag gene; p24 protein.
SOURCE      Human immunodeficiency virus 1 (HIV-1)
  ORGANISM  Human immunodeficiency virus 1
            Viruses; Riboviria; Pararnavirae; Artverviricota; Revtraviricetes;
            Ortervirales; Retroviridae; Orthoretrovirinae; Lentivirus.
REFERENCE   1  (bases 1 to 231)
  AUTHORS   Voevodin,A., Crandall,K.A., Seth,P. and al Mufti,S.
  TITLE     HIV type 1 subtypes B and C from new regions of India and Indian
            and Ethiopian expatriates in Kuwait
  JOURNAL   AIDS Res. Hum. Retroviruses 12 (7), 641-643 (1996)
   PUBMED   8743090
(...)
                     EIYKRWIILGLNKIVRMYSPVSILDIKQGPKEP"
ORIGIN      
        1 catccagtac atgcagggcc tattgcacca ggccaaatga gagaaccaag gggaagtgac
       61 atagcaggaa ctacaagtac ccttcaggaa caagtagcat ggatgacagg taacccacct
      121 gttccagtgg gagaaatcta taaaagatgg ataattctgg gattaaataa aatagtaaga
      181 atgtatagcc ctgtcagcat tttggacata aaacaagggc caaaggaacc c
//
```

O resultado deveria ser:
```
catccagtacatgcagggcctattgcaccaggccaaatgagagaaccaaggggaagtgacatagcaggaactacaagtacccttcaggaacaagtagcatggatgacaggtaacccacctgttccagtgggagaaatctataaaagatggataattctgggattaaataaaatagtaagaatgtatagccctgtcagcattttggacataaaacaagggccaaaggaaccc
```

In [101]:
# resposta
import re

#fonte = open("../M8_avaliacao/L42023.1.gb",'r')
fonte = open("../M8_avaliacao/L42022.1.gb",'r')
locus = fonte.read()
fonte.close()

gen=''
code=re.findall("^\s+\d+ [a-z ]+", locus, re.MULTILINE)
if code:
    for line in code:
        m=m = re.match( r'\s+(.+)', line)
        gen=gen+m.group(1)
else:
    print(r'No genetic code found in document')
    
genetic_code=re.sub(r'[\s\d\n]+', '', gen)

#no caso de haver alguma letra que não actg:
#Como o professor poderá verificar, existe uma letra n no caso do documento L42023.1.gb, que descobri graças a este teste

error=re.search(r'[bd-fh-su-z]',genetic_code)

if error==None:
    print('Genetic code is:\n{}'.format(genetic_code))
else:
    print('Error: Non-genetic element {}'.format(error.group())+'at position {}.'.format(error.span()))   

Genetic code is:
catccagtacatgcagggcctattgcaccaggccaaatgagagaaccaaggggaagtgacatagcaggaactacaagtacccttcaggaacaagtagcatggatgacaggtaacccacctgttccagtgggagaaatctataaaagatggataattctgggattaaataaaatagtaagaatgtatagccctgtcagcattttggacataaaacaagggccaaaggaaccc


### Exercício

Dado uma entrada do genbank (como a do exemplo anterior), escreva um pequeno programa que, dado um registo, dá a lista de proteínas (só o identificador) que são codificadas a partir de partes da sequência de DNA.

Opcionalmente, em vez de apresentar só o identificador da proteína, apresente o URL necessário para consultar mais informações sobre a mesma. O URL tem a seguinte forma: base + sufixo, em que a base é `https://www.ncbi.nlm.nih.gov/protein/` e o sufixo é o identificador da proteína.

Exemplo:

dados o seguinte registo em texto (abreviado):
```
LOCUS       HIVI5C                   231 bp    DNA     linear   VRL 24-MAR-1997
DEFINITION  Human immunodeficiency virus type 1 (isolate genotype C, I5) gag
            gene, partial cds.
ACCESSION   L42022
VERSION     L42022.1
(...)
FEATURES             Location/Qualifiers
     source          1..231
                     /organism="Human immunodeficiency virus 1"
                     /proviral
                     /mol_type="genomic DNA"
                     /isolate="genotype C, I5"
                     /db_xref="taxon:11676"
     gene            1..231
                     /gene="gag"
     CDS             <1..>231
                     /gene="gag"
                     /codon_start=1
                     /protein_id="AAB50165.1"
                     /translation="HPVHAGPIAPGQMREPRGSDIAGTTSTLQEQVAWMTGNPPVPVG
                     EIYKRWIILGLNKIVRMYSPVSILDIKQGPKEP"
ORIGIN      
        1 catccagtac atgcagggcc tattgcacca ggccaaatga gagaaccaag gggaagtgac
       61 atagcaggaa ctacaagtac ccttcaggaa caagtagcat ggatgacagg taacccacct
      121 gttccagtgg gagaaatcta taaaagatgg ataattctgg gattaaataa aatagtaaga
      181 atgtatagcc ctgtcagcat tttggacata aaacaagggc caaaggaacc c
//
```

O resultado deveria ser:
```
AAB50165.1
```

Em alternativa, o resultado poderia ser:
```
https://www.ncbi.nlm.nih.gov/protein/AAB50165.1
```


In [100]:
# resposta
# para completar
import re

#fonte = open("../M8_avaliacao/L42022.1.gb",'r')
fonte = open("../M8_avaliacao/L42023.1.gb",'r')
locus = fonte.read()
fonte.close()
counter=1

#Como no documento L42023.1 existem múltiplas proteínas, o código identifica-as uma a uma e apresenta o seu link individual
pro = re.findall(r"\s+/protein_id.*", locus,)
if pro:
    for line in pro:
        m = re.match( r'\s+/protein_id="(.+)"', line)
        print('Protein {}:\n'.format(counter)+m.group(1)+'\nLink: https://www.ncbi.nlm.nih.gov/protein/{}'.format(m.group(1)))
        counter=counter+1
else:
    print('Error: No proteins found in the document')



Protein 1:
AAC21680.1
Link: https://www.ncbi.nlm.nih.gov/protein/AAC21680.1
Protein 2:
AAC21681.1
Link: https://www.ncbi.nlm.nih.gov/protein/AAC21681.1
Protein 3:
AAC21682.1
Link: https://www.ncbi.nlm.nih.gov/protein/AAC21682.1
Protein 4:
AAC21683.1
Link: https://www.ncbi.nlm.nih.gov/protein/AAC21683.1
Protein 5:
AAC21684.1
Link: https://www.ncbi.nlm.nih.gov/protein/AAC21684.1
Protein 6:
AAC21685.1
Link: https://www.ncbi.nlm.nih.gov/protein/AAC21685.1
Protein 7:
AAC21686.1
Link: https://www.ncbi.nlm.nih.gov/protein/AAC21686.1
Protein 8:
AAC21687.1
Link: https://www.ncbi.nlm.nih.gov/protein/AAC21687.1
Protein 9:
AAC21688.1
Link: https://www.ncbi.nlm.nih.gov/protein/AAC21688.1
Protein 10:
AAC21689.1
Link: https://www.ncbi.nlm.nih.gov/protein/AAC21689.1
Protein 11:
AAC21690.1
Link: https://www.ncbi.nlm.nih.gov/protein/AAC21690.1
Protein 12:
AAC21691.1
Link: https://www.ncbi.nlm.nih.gov/protein/AAC21691.1
Protein 13:
AAC21692.1
Link: https://www.ncbi.nlm.nih.gov/protein/AAC21692.1
Protein 