# Expressões regulares

As expressões regulares são usadas nas linguagens de programação e, em Linux, na generalidade das ferramentas que trabalham com ficheiros.

Nesta ficha vamos aprender coisas básicas de expressões regulares.

### Escrita de expressões regulares

As expressões regulares usam uma sintaxe especial para escrever os padrões. Como usam muitas vezes o `\`, que também é usado nas strings para representar carateres especiais, como o newline `\n`, as expressões regulares não devem ser tratadas como uma string normal. Por isso, usa-se o prefiro `r` (de raw) antes de se escrever uma expressão regular.

In [1]:
# exemplo de um string normal
print("O céu\nestá azul")
# forçar a escrita de um \
print("O céu\\nestá azul"), ou Print 
# usar o prefixo r, para raw, print ou assim
print(r"O céu\nestá azul")

SyntaxError: invalid syntax (83173223.py, line 4)

Para se manter as expressões regulares legíveis, vamos escrevê-las sempre com o prefixo `r` de raw. Contudo, lembre-se que as seguintes expressões, por exemplo, são idênticas:
```
match = re.search(r'\d+', frase)
match = re.search('\\d+', frase)
```


In [None]:
import re
frase = "O João tem 18 anos e nasceu em 2004, 2 anos antes da Inês que agora tem 16, que nasceu em 2006"

As duas funções mais simples são `search()` e `match()`.

A função `search()` procura o padrão em qualquer posição.

A função `match()` procura o padrão no início da frase.

Ambas retornam `None` se o padrão não for encontrado.

In [None]:
match = re.search(r'[0123456789]', frase)
print(match)


<re.Match object; span=(11, 12), match='1'>


Compilar versus não compilar

É exatamente a mesma coisa:

```
match = re.search(r'\d+', frase)
```

ou

```
p = re.compile(r'\d+')
p.search(frase)
```


In [None]:
p = re.compile(r'[0-9]+')
p.search(frase)

<re.Match object; span=(11, 13), match='18'>

In [None]:
match = re.match(r'\d+', frase)
print(match)

None


In [None]:
import re 

pal1 = "1975, ano de boa produção"
pal2 = "Viva o 1 de dezembro"
match1 = re.match(r'\d+', pal1)
print(match1)
print(match1[0])
match2 = re.match(r'\d+', pal2)
print(match2)

<re.Match object; span=(0, 4), match='1975'>
1975
None


Quando se quer encontrar mais do que uma ocorrência, usa-se a função `findall()`.

In [None]:
# match = re.findall(r'\d+', frase)
match = re.findall(r'\d{4}', frase)

print(match)

['2004', '2006']


In [None]:
re.findall(r'\w+', frase)

['O',
 'João',
 'tem',
 '18',
 'anos',
 'e',
 'nasceu',
 'em',
 '2004',
 '2',
 'anos',
 'antes',
 'da',
 'Inês',
 'que',
 'agora',
 'tem',
 '16']

Se for importante saber a posição onde ocorre cada instância do padrão, pode-se usar a função `finditer()`

In [None]:
for m in re.finditer(r'\d+', frase):
    print('{}-{}: {}'.format(m.start(), m.end(), m.group(0)))


11-13: 18
31-35: 2004
37-38: 2
72-74: 16


Com a função `sub()` pode-se substituir cada match com o valor retornado pela função aplicada ao match.

In [None]:
def tohex(match):
    return(hex(int(match[0])))

re.sub(r"\d+", tohex, frase)

'O João tem 0x12 anos e nasceu em 0x7d4, 0x2 anos antes da Inês que agora tem 0x10, que nasceu em 0x7d6'

In [None]:
nascimento = "14/10/1992"
# nascimento = "14-10-1992"

m = re.match(r"(\d\d)[/-](\d\d)[/-](\d\d\d\d)", nascimento)

if m:
    print( m.group(3) )

1992


A função `re.split()` é muito útil. É muito mais flexível que o método `split()` das strings.

In [None]:
"Pires, João Paulo    Alves Cabrita".split(' ')

['Pires,', 'João', 'Paulo', '', '', '', 'Alves', 'Cabrita']

In [None]:
# e = re.compile(r'[^0-9a-zA-Z]+')
e = re.compile(r'[ ,;]+')
e.split("Pires,,,,João Paulo           Alves;Cabrita, Corte Real") 

['Pires', 'João', 'Paulo', 'Alves', 'Cabrita', 'Corte', 'Real']

### Sequências

https://www.ncbi.nlm.nih.gov/genbank/

Exemplo e a explicação da estrutura

https://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

https://www.insdc.org/submitting-standards/feature-table/

http://biopython.org/DIST/docs/tutorial/Tutorial.html

http://www.genebio.ufba.br/genbank/

https://www.ncbi.nlm.nih.gov/nuccore/L42022
https://www.ncbi.nlm.nih.gov/nuccore/L42023
https://www.ncbi.nlm.nih.gov/nuccore/LC740868.1

https://www.ncbi.nlm.nih.gov/sviewer/viewer.cgi?tool=portal&save=file&log$=seqview&db=nuccore&report=genbank&id=804715&conwithfeat=on&hide-cdd=on&ncbi_phid=null


In [6]:
import re

flag = False
sequence = ""
source = ""
locusid = ""
keywords = ""
fonte = open("L42023.1.gb",'r')
# fonte = open("../genbank/L42023.1.gb",'r')
for linha in fonte:
    if re.search(r"^LOCUS", linha):
        s = re.match(r"LOCUS\s+([^ ]+)", linha)
        if s:
            # print( s.group(1) )
            locusid = s.group(1)    
    if re.search(r"^SOURCE", linha):
        s = re.match(r"SOURCE\s+(.+)", linha)
        if s:
            # print( s.group(1) )
            source = s.group(1)
    if re.search(r"^KEYWORDS", linha):
        s = re.match(r"KEYWORDS\s+(.+)", linha)
        if s:
            # print( s.group(1) )
            keywords = s.group(1)
    if re.search(r"//", linha):
        flag = False  
    if flag:
        # print(linha)
        s = re.match(r"\s+\d+ ([actg ]+)", linha)
        if s:
            # print( s.group(1) )
            sequence = sequence + s.group(1).replace(" ", "")
    if re.search(r"ORIGIN", linha):
        flag = True
fonte.close()
print( locusid, source, keywords, sequence )

L42023 Haemophilus influenzae Rd KW20 . tatggcaattaaaattggtatcaatggttttggtcgtatcggccgtatcgtattccgtgcagcacaacaccgtgatgacattgaagttgtaggtattaacgacttaatcgacgttgaatacatggcttatatgttgaaatatgattcaactcacggtcgtttcgacggcactgttgaagtgaaagatggtaacttagtggttaatggtaaaactatccgtgtaactgcagaacgtgatccagcaaacttaaactggggtgcaatcggtgttgatatcgctgttgaagcgactggtttattcttaactgatgaaactgctcgtaaacatatcactgcaggcgcaaaaaaagttgtattaactggcccatctaaagatgcaacccctatgttcgttcgtggtgtaaacttcaacgcatacgcaggtcaagatatcgtttctaacgcatcttgtacaacaaactgtttagctcctttagcacgtgttgttcatgaaactttcggtatcaaagatggtttaatgaccactgttcacgcaacgactgcaactcaaaaaactgtggatggtccatcagctaaagactggcgcggcggccgcggtgcatcacaaaacatcattccatcttcaacaggtgcagcgaaagcagtaggtaaagtattacctgcattaaacggtaaattaactggtatggctttccgtgttccaacgccaaacgtatctgttgttgatttaacagttaatcttgaaaaaccagcttcttatgatgcaatcaaacaagcaatcaaagatgcagcggaaggtaaaacgttcaatggcgaattaaaaggcgtattaggttacactgaagatgctgttgtttctactgacttcaacggttgtgctttaacttctgtatttgatgcagacgctggtatcgcattaactgattctttcgttaaattggtatcttggtacgataacga

In [5]:

import re

sequencia = ""

# [ a ler sequencia, a ler referências, ...]
estado = [ False, False ]

fonte = open("L42022.1.gb",'r')
for linha in fonte:
    if estado[0]:

        if re.match("//", linha):
            print("Off")
            estado[0] = False
            continue 
        else:
            m = re.match("\s+\d+([actg ]+)", linha)
            sequencia += m.group(1).replace(" ", "")    
    if estado[1]:
        if re.search("FEATURES", linha):
            estado[1] = False
        else:
            references += linha
    if not any(estado):
        if re.search("VERSION\s+[\w.]+", linha):
            v = re.match("VERSION\s+([\w.]+)", linha)
            version = v.group(1)# print( m.group(1).replace(" ", "") )
        if re.match("ORIGIN", linha):
            print("ORIGIN On")
            estado[0] = True
            continue
        if re.match("REFERENCE", linha):
            print("Title On")
            estado[1] = True
            # v = re.match("REFERENCE\s+(.+)", linha)
            references = linha # v.group(1)            
fonte.close()
print( version, references, sequencia )

Title On
ORIGIN On
Off
L42022.1 REFERENCE   1  (bases 1 to 231)
  AUTHORS   Voevodin,A., Crandall,K.A., Seth,P. and al Mufti,S.
  TITLE     HIV type 1 subtypes B and C from new regions of India and Indian
            and Ethiopian expatriates in Kuwait
  JOURNAL   AIDS Res. Hum. Retroviruses 12 (7), 641-643 (1996)
   PUBMED   8743090
 catccagtacatgcagggcctattgcaccaggccaaatgagagaaccaaggggaagtgacatagcaggaactacaagtacccttcaggaacaagtagcatggatgacaggtaacccacctgttccagtgggagaaatctataaaagatggataattctgggattaaataaaatagtaagaatgtatagccctgtcagcattttggacataaaacaagggccaaaggaaccc


In [6]:
# pip3 install Bio
from Bio.Seq import Seq

my_seq = Seq(sequencia)
print( my_seq )
print( my_seq.complement() )
print( my_seq.reverse_complement() )



catccagtacatgcagggcctattgcaccaggccaaatgagagaaccaaggggaagtgacatagcaggaactacaagtacccttcaggaacaagtagcatggatgacaggtaacccacctgttccagtgggagaaatctataaaagatggataattctgggattaaataaaatagtaagaatgtatagccctgtcagcattttggacataaaacaagggccaaaggaaccc
gtaggtcatgtacgtcccggataacgtggtccggtttactctcttggttccccttcactgtatcgtccttgatgttcatgggaagtccttgttcatcgtacctactgtccattgggtggacaaggtcaccctctttagatattttctacctattaagaccctaatttattttatcattcttacatatcgggacagtcgtaaaacctgtattttgttcccggtttccttggg
gggttcctttggcccttgttttatgtccaaaatgctgacagggctatacattcttactattttatttaatcccagaattatccatcttttatagatttctcccactggaacaggtgggttacctgtcatccatgctacttgttcctgaagggtacttgtagttcctgctatgtcacttccccttggttctctcatttggcctggtgcaataggccctgcatgtactggatg


In [8]:
from Bio import SeqIO
for seq_record in SeqIO.parse("L42022.1.gb", "genbank"):
    print(seq_record.id)
    print(repr(seq_record.seq))
    print(len(seq_record))


L42022.1
Seq('CATCCAGTACATGCAGGGCCTATTGCACCAGGCCAAATGAGAGAACCAAGGGGA...CCC')
231
