# Expressões regulares

As expressões regulares são usadas nas linguagens de programação e, em Linux, na generalidade das ferramentas que trabalham com ficheiros.

Nesta ficha vamos aprender coisas básicas de expressões regulares.

Se necessário, tem disponível a [documentação de expressões regulares em Python](https://docs.python.org/3/howto/regex.html).

### Escrita de expressões regulares

As expressões regulares usam uma sintaxe especial para escrever os padrões. Como usam muitas vezes o `\`, que também é usado nas strings para representar carateres especiais, como o newline `\n`, as expressões regulares não devem ser tratadas como uma string normal. Por isso, usa-se o prefiro `r` (de raw) antes de se escrever uma expressão regular.

In [1]:
# exemplo de um string normal
print("O céu\nestá azul")
# forçar a escrita de um \
print("O céu\\nestá azul") 
# usar o prefixo r, para raw, print ou assim
print(r"O céu\nestá azul")

O céu
está azul
O céu\nestá azul
O céu\nestá azul


Para se manter as expressões regulares legíveis, vamos escrevê-las sempre com o prefixo `r` de raw. Contudo, lembre-se que as seguintes expressões, por exemplo, são idênticas:
```
match = re.search(r'\d+', frase)
match = re.search('\\d+', frase)
```


## Células de texto e células de código

Não se esqueça que está usar um notebook, onde há células com texto apenas e células com código.

Na célula seguinte apresenta-se o código inicial que vamos usar nos primeiros exemplos. Tem que executar esta célula, antes de executar as posteriores.

In [2]:
import re
frase = "O João tem 18 anos e nasceu em 2004, 2 anos antes da Inês que agora tem 16, que nasceu em 2006"

As expressões regulares consistem em definir padrões e depois usar funções que vão à procura desses padrões num texto.

As duas funções mais simples são `search()` e `match()`.

A função `search()` procura o padrão em qualquer posição.

A função `match()` procura o padrão no início da frase.

Ambas retornam `None` se o padrão não for encontrado.

In [3]:
match = re.search(r'[0123456789]', frase)
print(match[0])


1


No exemplo anterior, usa-se o padrão `[0123456789]` para indicar que queremos ir à procura de um algarismo.

Os padrões seguintes são equivalentes a este:
- `[0-9]`
- `\d`

No exemplo, a função `search` dá um resultado diferente de None (quer dizer que encontrou o padrão) e o texto que satisfez o padrão foi o a primeira ocorrência do algarismo `1`.

#### Compilar versus não compilar

Ao consultar a documentação ou ao ver exemplos, pode verificar que as expressões regulares podem ser compiladas antes de serem usadas.

É exatamente a mesma coisa:

```
match = re.search(r'\d+', frase)
```

ou

```
p = re.compile(r'\d+')
p.search(frase)
```

No exemplo seguinte, usa-se o padrão `[0-9]+`. O `+` indica uma ou repetições do elemento anterior.


In [4]:
p = re.compile(r'[0-9]+')
p.search(frase)

<re.Match object; span=(11, 13), match='18'>

In [5]:
match = re.match(r'\d+', frase)
print(match)

None


Como se referiu, o `search` e o `match` têm comportamentos ligeiramente diferentes.

O `match` não encontra o padrão, a não ser no início.

In [6]:
import re 

pal1 = "1975, ano de boa produção"
pal2 = "Viva o 1 de dezembro"
match1 = re.match(r'\d+', pal1)
print(match1)
print(match1[0])
match2 = re.match(r'\d+', pal2)
print(match2)

<re.Match object; span=(0, 4), match='1975'>
1975
None


Quando se quer encontrar mais do que uma ocorrência, usa-se a função `findall()`.

In [7]:
# match = re.findall(r'\d+', frase)
match = re.findall(r'\d{4}', frase)

print(match)

['2004', '2006']


In [8]:
re.findall(r'\w+', frase)

['O',
 'João',
 'tem',
 '18',
 'anos',
 'e',
 'nasceu',
 'em',
 '2004',
 '2',
 'anos',
 'antes',
 'da',
 'Inês',
 'que',
 'agora',
 'tem',
 '16',
 'que',
 'nasceu',
 'em',
 '2006']

Se for importante saber a posição onde ocorre cada instância do padrão, pode-se usar a função `finditer()`

In [9]:
for m in re.finditer(r'\d+', frase):
    print('{}-{}: {}'.format(m.start(), m.end(), m.group(0)))


11-13: 18
31-35: 2004
37-38: 2
72-74: 16
90-94: 2006


Com a função `sub()` pode-se substituir cada match com o valor retornado pela função aplicada ao match.

In [10]:
def tohex(match):
    return(hex(int(match[0])))

re.sub(r"\d+", tohex, frase)

'O João tem 0x12 anos e nasceu em 0x7d4, 0x2 anos antes da Inês que agora tem 0x10, que nasceu em 0x7d6'

#### Grupos

A função match permite agrupar partes do padrão. Esses grupos podem ser usados para aceder a cada uma das partes da entrada que fez match com o grupo.

No exemplo seguinte, usam-se três grupos.

No primeiro grupo, temos o dia, no segundo o mês e no terceiro o ano.

In [11]:
nascimento = "14/10/1992"
# nascimento = "14-10-1992"

m = re.match(r"(\d\d)[/-](\d\d)[/-](\d\d\d\d)", nascimento)

if m:
    print( m.group(3), m.group(2), m.group(1) )

1992 10 14


A função `re.split()` é muito útil. É muito mais flexível que o método `split()` das strings.

In [12]:
"Pires, João Paulo    Alves Cabrita".split(' ')

['Pires,', 'João', 'Paulo', '', '', '', 'Alves', 'Cabrita']

In [13]:
# e = re.compile(r'[^0-9a-zA-Z]+')
e = re.compile(r'[ ,;]+')
e.split("Pires,,,,João Paulo           Alves;Cabrita, Corte Real") 

['Pires', 'João', 'Paulo', 'Alves', 'Cabrita', 'Corte', 'Real']

### Sequências

Nos exemplos seguintes, usam-se sequências guardas no [Genbank](https://www.ncbi.nlm.nih.gov/genbank/). Estas estão guardadas num formato próprio, exemplificado no registo seguinte: https://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

Para os exercícios, descarregámos duas entradas, a partir dos links:
- https://www.ncbi.nlm.nih.gov/nuccore/L42022
- https://www.ncbi.nlm.nih.gov/nuccore/L42023

Estão guardadas nos documentos `L42022.1.gb` e `L42023.1.gb`.

Para ler um registo inteiro e guardá-lo numa string `locus`, usa-se o código Python seguinte:



In [14]:
import re

fonte = open("L42022.1.gb",'r')
locus = fonte.read()
fonte.close()
print( locus )

LOCUS       HIVI5C                   231 bp    DNA     linear   VRL 24-MAR-1997
DEFINITION  Human immunodeficiency virus type 1 (isolate genotype C, I5) gag
            gene, partial cds.
ACCESSION   L42022
VERSION     L42022.1
KEYWORDS    gag gene; p24 protein.
SOURCE      Human immunodeficiency virus 1 (HIV-1)
  ORGANISM  Human immunodeficiency virus 1
            Viruses; Riboviria; Pararnavirae; Artverviricota; Revtraviricetes;
            Ortervirales; Retroviridae; Orthoretrovirinae; Lentivirus.
REFERENCE   1  (bases 1 to 231)
  AUTHORS   Voevodin,A., Crandall,K.A., Seth,P. and al Mufti,S.
  TITLE     HIV type 1 subtypes B and C from new regions of India and Indian
            and Ethiopian expatriates in Kuwait
  JOURNAL   AIDS Res. Hum. Retroviruses 12 (7), 641-643 (1996)
   PUBMED   8743090
FEATURES             Location/Qualifiers
     source          1..231
                     /organism="Human immunodeficiency virus 1"
                     /proviral
                     /mol

Tenha em atenção que a string contém `\n` (mudanças de linha). Pode-se ter que usar as flags `re.DOTALL` ou `re.MULTILINE`.

Sendo `locus` um string com o conteúdo do registo, pode-se verificar se existem determinados padrões com a função `search`.

In [15]:

re.search("VERSION\s+[\w.]+", locus)

<re.Match object; span=(207, 227), match='VERSION     L42022.1'>

Versão com a flag `re.MULTILINE`, para garantir que o padrão VERSION aparece no início de uma linha (usando o `^`):

In [16]:

re.search("^VERSION\s+[\w.]+", locus, re.MULTILINE)

<re.Match object; span=(207, 227), match='VERSION     L42022.1'>

Procurar as linhas onde aparece a sequência:

In [17]:
re.findall("^\s+\d+ [actg ]+", locus, re.MULTILINE)

['        1 catccagtac atgcagggcc tattgcacca ggccaaatga gagaaccaag gggaagtgac',
 '       61 atagcaggaa ctacaagtac ccttcaggaa caagtagcat ggatgacagg taacccacct',
 '      121 gttccagtgg gagaaatcta taaaagatgg ataattctgg gattaaataa aatagtaaga',
 '      181 atgtatagcc ctgtcagcat tttggacata aaacaagggc caaaggaacc c']

### Exercício (resolvido)

Dado uma entrada do genbank (como a do exemplo anterior), escreva um pequeno programa que, dado um registo, dá o link para o Genbank onde o mesmo aparece. 

Exemplo:

dados o seguinte registo em texto (abreviado):
```
LOCUS       L42023               1830138 bp    DNA     circular BCT 31-JAN-2014
DEFINITION  Haemophilus influenzae Rd KW20, complete genome.
ACCESSION   L42023 U32686-U32848
VERSION     L42023.1  GI:6626252
DBLINK      BioProject: PRJNA219
            BioSample: SAMN02603991
KEYWORDS    .
SOURCE      Haemophilus influenzae Rd KW20
  ORGANISM  Haemophilus influenzae Rd KW20
(...)
```

O resultado deveria ser:
```
https://www.ncbi.nlm.nih.gov/nuccore/L42022
```

In [18]:
import re

# fonte = open("L42022.1.gb",'r')
fonte = open("L42023.1.gb",'r')
locus = fonte.read()
fonte.close()

existe = re.search(r'ACCESSION\s+[^\s]+', locus)
if existe:
    # print( existe[0] )
    m = re.match(r'ACCESSION\s+([^\s]+)', existe[0] )
    if m:
        id = m.group(1)
        print( "https://www.ncbi.nlm.nih.gov/nuccore/{}".format( id ) )
else:
    print( "Padrão não encontrado" )

https://www.ncbi.nlm.nih.gov/nuccore/L42023


### Exercício

Dado uma entrada do genbank (como a do exemplo anterior), escreva um pequeno programa que, dado um registo, dá a respetiva definição.

Exemplo:

dados o seguinte registo em texto (abreviado):
```
LOCUS       HIVI5C                   231 bp    DNA     linear   VRL 24-MAR-1997
DEFINITION  Human immunodeficiency virus type 1 (isolate genotype C, I5) gag
            gene, partial cds.
ACCESSION   L42022
VERSION     L42022.1
KEYWORDS    gag gene; p24 protein.
SOURCE      Human immunodeficiency virus 1 (HIV-1)
  ORGANISM  Human immunodeficiency virus 1
            Viruses; Riboviria; Pararnavirae; Artverviricota; Revtraviricetes;
            Ortervirales; Retroviridae; Orthoretrovirinae; Lentivirus.
REFERENCE   1  (bases 1 to 231)
  AUTHORS   Voevodin,A., Crandall,K.A., Seth,P. and al Mufti,S.
  TITLE     HIV type 1 subtypes B and C from new regions of India and Indian
            and Ethiopian expatriates in Kuwait
  JOURNAL   AIDS Res. Hum. Retroviruses 12 (7), 641-643 (1996)
   PUBMED   8743090
(...)
```

O resultado deveria ser:
```
Human immunodeficiency virus type 1 (isolate genotype C, I5) gag gene, partial cds.
```

In [12]:
# resposta

### Exercício (resolvido)

Dado uma entrada do genbank (como a do exemplo anterior), escreva um pequeno programa que, dado um registo, dá todos os títulos das referências que aparecem no registo.

Exemplo:

dados o seguinte registo em texto (abreviado):
```
LOCUS       HIVI5C                   231 bp    DNA     linear   VRL 24-MAR-1997
DEFINITION  Human immunodeficiency virus type 1 (isolate genotype C, I5) gag
            gene, partial cds.
ACCESSION   L42022
VERSION     L42022.1
KEYWORDS    gag gene; p24 protein.
SOURCE      Human immunodeficiency virus 1 (HIV-1)
  ORGANISM  Human immunodeficiency virus 1
            Viruses; Riboviria; Pararnavirae; Artverviricota; Revtraviricetes;
            Ortervirales; Retroviridae; Orthoretrovirinae; Lentivirus.
REFERENCE   1  (bases 1 to 231)
  AUTHORS   Voevodin,A., Crandall,K.A., Seth,P. and al Mufti,S.
  TITLE     HIV type 1 subtypes B and C from new regions of India and Indian
            and Ethiopian expatriates in Kuwait
  JOURNAL   AIDS Res. Hum. Retroviruses 12 (7), 641-643 (1996)
   PUBMED   8743090
(...)
```

O resultado deveria ser:
```
HIV type 1 subtypes B and C from new regions of India and Indian and Ethiopian expatriates in Kuwait
```

In [20]:
import re

# fonte = open("L42022.1.gb",'r')
fonte = open("L42023.1.gb",'r')
locus = fonte.read()
fonte.close()

# ver https://docs.python.org/3/howto/regex.html#lookahead-assertions
# ver https://docs.python.org/3/howto/regex.html#greedy-versus-non-greedy
existe = re.findall(r'TITLE\s+.*?(?=JOURNAL)', locus, re.DOTALL)
if existe:
    for title in existe:
        m = re.match( r'TITLE\s+(.+)', title, re.DOTALL )
        # print( m.group(1) )
        print( re.sub(r'\s+', ' ', m.group(1) ) )

Whole-genome random sequencing and assembly of Haemophilus influenzae Rd 
Metabolism and evolution of Haemophilus influenzae deduced from a whole-genome comparison with Escherichia coli 
Direct Submission 
Direct Submission 
Direct Submission 


### Exercício

Dado uma entrada do genbank (como a do exemplo anterior), escreva um pequeno programa que, dado um registo, dá a sequência que aparece no final.

A sequência deve ser apresentada numa única linha, sem espaços e sem outras eltas, a não ser a, c, t e g.

Exemplo:

dados o seguinte registo em texto (abreviado):
```
LOCUS       HIVI5C                   231 bp    DNA     linear   VRL 24-MAR-1997
DEFINITION  Human immunodeficiency virus type 1 (isolate genotype C, I5) gag
            gene, partial cds.
ACCESSION   L42022
VERSION     L42022.1
KEYWORDS    gag gene; p24 protein.
SOURCE      Human immunodeficiency virus 1 (HIV-1)
  ORGANISM  Human immunodeficiency virus 1
            Viruses; Riboviria; Pararnavirae; Artverviricota; Revtraviricetes;
            Ortervirales; Retroviridae; Orthoretrovirinae; Lentivirus.
REFERENCE   1  (bases 1 to 231)
  AUTHORS   Voevodin,A., Crandall,K.A., Seth,P. and al Mufti,S.
  TITLE     HIV type 1 subtypes B and C from new regions of India and Indian
            and Ethiopian expatriates in Kuwait
  JOURNAL   AIDS Res. Hum. Retroviruses 12 (7), 641-643 (1996)
   PUBMED   8743090
(...)
                     EIYKRWIILGLNKIVRMYSPVSILDIKQGPKEP"
ORIGIN      
        1 catccagtac atgcagggcc tattgcacca ggccaaatga gagaaccaag gggaagtgac
       61 atagcaggaa ctacaagtac ccttcaggaa caagtagcat ggatgacagg taacccacct
      121 gttccagtgg gagaaatcta taaaagatgg ataattctgg gattaaataa aatagtaaga
      181 atgtatagcc ctgtcagcat tttggacata aaacaagggc caaaggaacc c
//
```

O resultado deveria ser:
```
catccagtacatgcagggcctattgcaccaggccaaatgagagaaccaaggggaagtgacatagcaggaactacaagtacccttcaggaacaagtagcatggatgacaggtaacccacctgttccagtgggagaaatctataaaagatggataattctgggattaaataaaatagtaagaatgtatagccctgtcagcattttggacataaaacaagggccaaaggaaccc
```

In [11]:
# resposta

### Exercício

Dado uma entrada do genbank (como a do exemplo anterior), escreva um pequeno programa que, dado um registo, dá a lista de proteínas (só o identificador) que são codificadas a partir de partes da sequência de DNA.

Opcionalmente, em vez de apresentar só o identificador da proteína, apresente o URL necessário para consultar mais informações sobre a mesma. O URL tem a seguinte forma: base + sufixo, em que a base é `https://www.ncbi.nlm.nih.gov/protein/` e o sufixo é o identificador da proteína.

Exemplo:

dados o seguinte registo em texto (abreviado):
```
LOCUS       HIVI5C                   231 bp    DNA     linear   VRL 24-MAR-1997
DEFINITION  Human immunodeficiency virus type 1 (isolate genotype C, I5) gag
            gene, partial cds.
ACCESSION   L42022
VERSION     L42022.1
(...)
FEATURES             Location/Qualifiers
     source          1..231
                     /organism="Human immunodeficiency virus 1"
                     /proviral
                     /mol_type="genomic DNA"
                     /isolate="genotype C, I5"
                     /db_xref="taxon:11676"
     gene            1..231
                     /gene="gag"
     CDS             <1..>231
                     /gene="gag"
                     /codon_start=1
                     /protein_id="AAB50165.1"
                     /translation="HPVHAGPIAPGQMREPRGSDIAGTTSTLQEQVAWMTGNPPVPVG
                     EIYKRWIILGLNKIVRMYSPVSILDIKQGPKEP"
ORIGIN      
        1 catccagtac atgcagggcc tattgcacca ggccaaatga gagaaccaag gggaagtgac
       61 atagcaggaa ctacaagtac ccttcaggaa caagtagcat ggatgacagg taacccacct
      121 gttccagtgg gagaaatcta taaaagatgg ataattctgg gattaaataa aatagtaaga
      181 atgtatagcc ctgtcagcat tttggacata aaacaagggc caaaggaacc c
//
```

O resultado deveria ser:
```
AAB50165.1
```

Em alternativa, o resultado poderia ser:
```
https://www.ncbi.nlm.nih.gov/protein/AAB50165.1
```


In [21]:
# resposta
# para completar
import re
fonte = open("L42022.1.gb",'r')
locus = fonte.read()
fonte.close()

# Print all file
#print(locus)

#Search by "protein_id"
existe = re.search(r'protein_id+[^\s]+', locus)

# Print all info or "none"
#print(existe[0])

#test if different "none"
if existe:
    m = re.split(r"[\"]", existe[0])
    #print(m)
    if m[1]:
        id = m[1]
        print (id)
        print( "https://www.ncbi.nlm.nih.gov/protein/{}".format( id ) )
    else:
        print("String is empty")
else:
    print( "Padrão não encontrado" )

AAB50165.1
https://www.ncbi.nlm.nih.gov/protein/AAB50165.1
