In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# Expressões Regulares
**MC102-2018s1-Aula19**

Uma expressão regular (também chamada *RE*, *regex*, ou *regex pattern*) é usada para identificar se um padrão ocorre ou não em uma determinada sequência de caracteres (*string*).

Expressões regulares implementam uma forma muito eficiente de manipulação de textos, permitindo o reconhecimento de padrões, a criação de variantes de uma dada *string* e o seu “fatiamento” de diversas maneiras.

Dadas as limitações das expressões regulares, elas não serão suficientes para resolver qualquer tarefa de processamento de textos, nem mesmo de expressar de forma simples algumas tarefas possíveis.   
Nesses casos, a melhor opção talvez seja desenvolver uma função em Python. Embora o código Python possa ser mais lento que uma expressão regular, ele provavelmente será mais inteligível.

Em Python, expressões regulares são implementadas pelos módulos ```re``` e ```regex```.   
Assim, para poder usá-las em nossos *scripts*, teremos que importar um desses módulos.   
Aqui vamos estudar apenas algumas das funcionalidades disponíveis no módulo ```re```.

In [2]:
import re

Para nossos primeiros testes, vamos adotar uma variante de um pangrama famoso...

In [3]:
t = '''Then, 80% of the quick brown foxes 
jumped over the lazy dog.'''

... que gera a seguinte cadeia:

`0........10........20........30........40........50........60`   
`Then, 80% of the quick brown foxes *jumped over the lazy dog.`

Em Python, a busca de uma expressão regular num dado texto é normalmente feita por...

In [4]:
re.search(r'the', t)

<_sre.SRE_Match object; span=(13, 16), match='the'>

ou

In [5]:
re.match(r'the', t)

Note que ```match``` aparentemente não produziu resultado algum.    
Na verdade, o resultado foi `None`, que não é exibido nesse formato.

In [6]:
print(re.match(r'berro', t))

None


A diferença entre essas duas funções é que ```match``` verifica se a expressão regular ocorre logo no início do texto, enquanto ```search``` procura a primeira ocorrência da expressão regular em qualquer ponto do texto dado.   
Por padrão, a busca diferencia maiúsculas de minúsculas.

Assim, ...

In [9]:
re.search(r'The', t)

<_sre.SRE_Match object; span=(0, 3), match='The'>

In [10]:
re.match(r'The', t)

<_sre.SRE_Match object; span=(0, 3), match='The'>

... produzem o mesmo resultado.

As funções `re.search()` e `re.match()` ignoram as diferenças entre maiúsculas e minúsculas quando acrescentamos `re.IGNORECASE` ou simplesmente `re.I` ao final da lista de argumentos.

In [138]:
re.search(r'the', t, re.IGNORECASE)

<_sre.SRE_Match object; span=(0, 3), match='The'>

In [137]:
re.match(r'the', t, re.I)

<_sre.SRE_Match object; span=(0, 3), match='The'>

Habitue-se a colocar um ```r``` antes da cadeia que será usada como padrão de busca.   
Assim essa cadeia será considerada “bruta” (*raw*) e não será interpretada por Python, o que faz com que barras invertidas (```'\'```) possam existir na cadeia sem que sejam tratadas como caracteres de escape.   
Isso permitirá que a gente escreva coisas como ```'\w'```, que serão frequentes em nossas expressões regulares, literalmente e não na forma ```'\\w'```.

## Padrões Básicos
Nos exemplos anteriores buscamos expressões fixas (```'the'``` e ```'The'```) no texto dado.   
No entanto, uma grande virtude de expressões regulares é que elas podem especificar padrões variáveis.   

Vamos examinar algunns padrões básicos que estabelecem correspondência com caracteres únicos.

-   **```a```**, **```X```**, **```9```**   
    Caracteres comuns, que devem ser correspondidos exatamente.   
    Maiúsculas são consideradas diferentes de minúsculas.   

In [11]:
re.search(r'quick', t)

<_sre.SRE_Match object; span=(17, 22), match='quick'>

-   **```.```** (ponto)   
    Corresponde a qualquer caractere único, exceto “nova linha” (```'\n'```).    

In [12]:
re.search(r'.', t)

<_sre.SRE_Match object; span=(0, 1), match='T'>

-   **```\w```** (w minúsculo)   
    Corresponde a qualquer caractere que possa aparecer numa “palavra”: uma letra maiúscula ou minúscula, um dígito decimal ou um “sublinhado”.    
    Note que, embora o ```w``` nos remeta a “word”, a correspondência será feita com um único caractere, não com uma uma palavra inteira.   
    **```\W```** (W maiúsculo) corresponde a qualquer caractere não pertencente ao grupo “palavra”.

In [13]:
re.search(r'\w', t)

<_sre.SRE_Match object; span=(0, 1), match='T'>

In [14]:
re.search(r'\W', t)

<_sre.SRE_Match object; span=(4, 5), match=','>

-   \b
    limite entre palavra e não palavra

In [15]:
re.search(r'\b', t)

<_sre.SRE_Match object; span=(0, 0), match=''>

-   **```\s```** (s minúsculo)   
Corresponde a um único caractere de espaço em branco: espaço, nova linha (```\n```), retorno (```\r```) ou  tabulação (```\t```).    
**```\S```** (S maiúsculo) corresponde a qualquer caractere que não seja considerado espaço em branco.

In [16]:
re.search(r'\s', t)

<_sre.SRE_Match object; span=(5, 6), match=' '>

-   **```\t, \n, \r```** (tabulação, nova linha, retorno)   
Correspondem exatamente a esses caracteres.

In [17]:
re.search(r'\n', t)

<_sre.SRE_Match object; span=(35, 36), match='\n'>

-   **```\d```** (d minúsculo)   
Corresponde a qualquer dígito decimal.   
**\D** (D maiúsculo) corresponde a qualquer caractere que não seja um dígito decimal.

In [18]:
re.search(r'\d', t)

<_sre.SRE_Match object; span=(6, 7), match='8'>

-   **```^```** e **```$```**   
    Correspondem, respectivamente, ao início e fim do texto.

In [19]:
re.search(r'^', t)

<_sre.SRE_Match object; span=(0, 0), match=''>

In [20]:
re.search(r'$', t)

<_sre.SRE_Match object; span=(61, 61), match=''>

Para fazer com que um *metacaractere* se comporte como um caractere normal, insira uma barra invertida na frente dele.   
Assim, **```\.```** corresponde a um “ponto final”,  **```\\```** corresponde a uma “barra invertida”, **```\^```** corresponde a um “circunflexo” e **```\$```** corresponde a um “cifrão”.

Se você ficar em dúvida sobre algum caractere ser ou não um metacaractere, por segurança, coloque uma barra invertida na frente dele.   
Assim, por exemplo, **```\%```** será tratado como **```%```**, seja **```%```** um metacaractere ou não.

In [22]:
re.search(r'\%', t)

<_sre.SRE_Match object; span=(8, 9), match='%'>

In [23]:
re.search(r'%', t)

<_sre.SRE_Match object; span=(8, 9), match='%'>

## Regras Básicas

A satisfação de um critério (definido por uma expressão regular) por uma cadeia de caracteres é verificada de acordo com as seguintes regras básicas:

1.   A cadeia de caracteres é examinada da esquerda para a direita.
1.   O processo é interrompido assim que a expressão regular bater com um segmento da cadeia de caracteres.
1.   Para que o critério seja considerado satisfeito, a expressão regular precisa ter sido inteiramente mapeada sobre a cadeia, mas a cadeia não precisa ter sido totalmente usada.
1.   Se na execução de `res = re.search(pad, cad)`, não for encontrada uma correspondência entre a expressão regular `pad` e um trecho da cadeia `cad`, o valor associado a `res` será `None`. 
Caso contrário, `res != None`, `res.span()` retornará uma tupla com a “*range*” correspondente e`res.group()` retornará o texto encontrado.

### Ex 1. Dada a lista de cadeias de caracteres $cads$, definir um padrão que bata com os dígitos decimais de cada uma delas.

In [27]:
cads = ['abc123xyz', '123abcxyz', 'abcxyz123']

pad = r'123'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + cad + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'abc123xyz' (3, 6) '123'
'123abcxyz' (0, 3) '123'
'abcxyz123' (6, 9) '123'


In [28]:
cads = ['abc123xyz', '456abcxyz', 'abcxyz789']

pad = r'\d\d\d'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + cad + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'abc123xyz' (3, 6) '123'
'456abcxyz' (0, 3) '456'
'abcxyz789' (6, 9) '789'


### Ex 2. A lista $cads$ contém cadeias de caracteres variadas mas de mesmo comprimento. Defina um padrão que seja satisfeito pelas três primeiras mas não pela última.

In [None]:
strs = ['abc.', '123.', '-.-.', 'wxyz']

pad = r'\.$'

for str in strs:
    res = re.search(pad, str)
    if res:
        print("'" + str + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + str + "'")

## Correspondência com conjuntos de caracteres

É possível estabelecer correspondência com qualquer caracter de um dado conjunto, especificando este último entre colchetes(**`[`** e **`]`**).   

Por exemplo, ...

In [26]:
cads = ['cofre', 'hoje', 'água', 'aposta']

pad = r'[fgh]'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + str + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'aposta' (2, 3) 'f'
'aposta' (0, 1) 'h'
'aposta' (1, 2) 'g'
a expressão regular '[fgh]' não foi encontrada em 'aposta'


### Ex 3. Dada a lista de cadeias $cads$, criar um padrão que bata com as três primeiras mas não com as três últimas.

In [33]:
cads = ['tapa', 'capa', 'papa', 'lapa', 'mapa', 'rapa']

pad = r'[tcp]apa'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + str + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'aposta' (0, 4) 'tapa'
'aposta' (0, 4) 'capa'
'aposta' (0, 4) 'papa'
a expressão regular '[tcp]apa' não foi encontrada em 'lapa'
a expressão regular '[tcp]apa' não foi encontrada em 'mapa'
a expressão regular '[tcp]apa' não foi encontrada em 'rapa'


## Ignorar caracteres de um conjunto

É possível ignorar os caracteres de um dado conjunto colocando-se um **`^`** logo após o colchete que abra o conjunto.

### Ex 4. Dada a lista de cadeias $cads$, criar um padrão que bata apenas com os nomes de animais.

In [31]:
cads = ['gato', 'fato', 'mato', 'rato', 'tato', 'pato']

pad = r'[grp]ato'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + str + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'aposta' (0, 4) 'gato'
a expressão regular '[grp]ato' não foi encontrada em 'fato'
a expressão regular '[grp]ato' não foi encontrada em 'mato'
'aposta' (0, 4) 'rato'
a expressão regular '[grp]ato' não foi encontrada em 'tato'
'aposta' (0, 4) 'pato'


In [32]:
cads = ['gato', 'fato', 'mato', 'rato', 'tato', 'pato']

pad = r'[^fmt]ato'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + str + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'aposta' (0, 4) 'gato'
a expressão regular '[^fmt]ato' não foi encontrada em 'fato'
a expressão regular '[^fmt]ato' não foi encontrada em 'mato'
'aposta' (0, 4) 'rato'
a expressão regular '[^fmt]ato' não foi encontrada em 'tato'
'aposta' (0, 4) 'pato'


## Usar faixas de caracteres para especificar conjuntos
Ao especificar um conjunto é possível indicar uma sequência contínua de caracteres dando o primeiro e o último elementos separados por um hífen (**`-`**).   
Os metacaracteres `\w`, `\d` e `\W` também podem ser usados normalmente neste contexto.

### Ex 5. Dada a lista de cadeias $cads$, criar um padrão $pad$ que bata com as três primeiras mas não com as três últimas.

In [42]:
cads = ['Ala', 'Boa', 'Cal', 'Mas', 'oba', 'zip']

pad = r'[A-C][alo][al]'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + cad + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'Ala' (0, 3) 'Ala'
'Boa' (0, 3) 'Boa'
'Cal' (0, 3) 'Cal'
a expressão regular '[A-C][alo][al]' não foi encontrada em 'Mas'
a expressão regular '[A-C][alo][al]' não foi encontrada em 'oba'
a expressão regular '[A-C][alo][al]' não foi encontrada em 'zip'


## Repetições

Os padrões que estudamos até aqui batem com caracteres únicos.

Para criar um padrão que possa corresponder a um número variável de caracteres, usam-se os metacaracteres **`+`**, **`*`** e **`?`**.
-   **`+`** bate com 1 ou mais ocorrências do padrão à sua esquerda
-   **`*`** bate com 0 ou mais ocorrências do padrão à sua esquerda
-   **`?`** bate com 0 ou 1 ocorrência do padrão à sua esquerda

**`+`** e **`*`** buscam na cadeia de caracteres a primeira ocorrência do padrão (isto é, o mais à esquerda possível) e a partir daí tentam usar o maior número possível de caracteres da cadeia.   
Esse tipo de correspondência é dito “guloso”.

Vamos estudar alguns exemplos...

In [139]:
## ã+ bate com o máximo número de “ã”s começando o mais à esquerda possível
re.search(r'ã+', 'Nãão me diga nããããão!')

<_sre.SRE_Match object; span=(1, 3), match='ãã'>

Note que foi encontrado o conjunto de `ã`s mais à esquerda, que depois foi estendido ao máximo.   
Embora mais longo, o segundo grupo de `ã`s não foi considerado.

In [140]:
cads = ['no mínimo', 'não me diga', 'agora nãão']

pad = r'nã?o'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + cad + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'no mínimo' (0, 2) 'no'
'não me diga' (0, 3) 'não'
a expressão regular 'nã?o' não foi encontrada em 'agora nãão'


Neste caso, o padrão especificava um “$\textit{n}$”, seguido por 0 ou 1 “$\textit{ã}$”, seguido por um “$\textit{o}$”.    
Nas duas primeiras cadeias o padrão foi encontrado, mas na terceira não.

### Ex 6. Dada a lista de cadeias $cads$, criar um padrão $pad$ que bata com as três primeiras mas não com a última.

In [141]:
cads = ['11133', '112', '112223', '1']

pad = r'11+2*3*'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + cad + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'11133' (0, 5) '11133'
'112' (0, 3) '112'
'112223' (0, 6) '112223'
a expressão regular '11+2*3*' não foi encontrada em '1'


## Limitando o número de repetições

É possível especificar o número de repetições desejadas de um padrão.
-   {$m$} bate com exatamente $m$ repetições do padrão à sua esquerda
-   {$m$, $n$} bate com $m$ a $n$ repetições do padrão à sua esquerda

### Ex 7. Dada a lista de cadeias $cads$, criar um padrão $pad$ que bata com as duas primeiras mas não com a última.

In [142]:
cads = ['1233345', '123345', '12345']

pad = r'123{2,3}45'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + cad + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'1233345' (0, 7) '1233345'
'123345' (0, 6) '123345'
a expressão regular '123{2,3}45' não foi encontrada em '12345'


### Ex 8. Dada a lista de cadeias $cads$, criar um padrão $pad$ que bata com as três primeiras mas não com as duas últimas.

In [143]:
cads = ['112233', '11122233', '111222333', '1223', '1233']

pad = r'1{2,3}2{2,3}3{2,3}'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + cad + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'112233' (0, 6) '112233'
'11122233' (0, 8) '11122233'
'111222333' (0, 9) '111222333'
a expressão regular '1{2,3}2{2,3}3{2,3}' não foi encontrada em '1223'
a expressão regular '1{2,3}2{2,3}3{2,3}' não foi encontrada em '1233'


In [144]:
cads = ['112233', '11122233', '111222333', '1223', '1233']

pad = r'1{2,3}2{2,3}3{2,3}'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + cad + "' == '" + res.group() + "':", cad == res.group())
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'112233' == '112233': True
'11122233' == '11122233': True
'111222333' == '111222333': True
a expressão regular '1{2,3}2{2,3}3{2,3}' não foi encontrada em '1223'
a expressão regular '1{2,3}2{2,3}3{2,3}' não foi encontrada em '1233'


### Ex 9. Dada a lista de cadeias $cads$, criar um padrão $pad$ que extraia o endereço de e-mail contido em cada uma delas

In [145]:
cads = ['blá blá blá alice@themail.com', 
        'abc xyz maria@themail.com.br etc etc', 
        'abc xyz maria.123@mymail.com blá blá', 
        'jose-silva@mymail.com.br'
       ]

pad = r'[\w.-]+@\w+(\.\w+)+'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print(res.group())
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

alice@themail.com
maria@themail.com.br
maria.123@mymail.com
jose-silva@mymail.com.br


## Extração de Grupos
Em uma expressão regular, “grupos” permitem separar algumas partes do texto correspondente.   

Suponha que, no exemplo anterior, queiramos extrair o nome do usuário e do serviço hospedeiro separadamente.   
Para isso, colocamos o nome de usuário e o do hospedeiro entre parênteses, como mostrado abaixo.

In [146]:
pad = r'([\w.-]+)@(\w+(\.\w+)+)'

Os parênteses não alteram a funcionalidade do padrão, mas estabelecem “grupos lógicos” dentro do texto de correspondência.   
Se a busca for bem-sucedida, `res.group(1)` restornará o texto correspondente ao primeiro par de parênteses e `res.group(2)` retornará o texto correspondente ao segundo par.    
A chamada `res.group()` continuará retornando todo o texto mapeado como de costume.

In [147]:
for cad in cads:
    res = re.search(pad, cad)
    if res:
        print(f"{res.group(1):12} {res.group(2):18} {res.group():30}")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

alice        themail.com        alice@themail.com             
maria        themail.com.br     maria@themail.com.br          
maria.123    mymail.com         maria.123@mymail.com          
jose-silva   mymail.com.br      jose-silva@mymail.com.br      


## Encontrando múltiplas ocorrências de um padrão
A função `re.findall()` é semelhante a `re.search()` mas retorna uma lista com todas as sub-cadeias que satisfazem o padrão na cadeia dada.   
Por exemplo, ...

In [148]:
cad = ''' blá blá blá alice@themail.com     abc xyz maria@themail.com.br etc etc 
          abc xyz maria.123@mymail.com blá blá jose-silva@mymail.com.br
      '''

pad =  r'[\w\.-]+@[\w\.-]+'

res = re.findall(pad, cad)
if res:
    for r in res:
        print(r)
else:
    print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")


alice@themail.com
maria@themail.com.br
maria.123@mymail.com
jose-silva@mymail.com.br


Se usarmos grupos na definição do padrão, `re.findall()` retornará uma lista de tuplas, cujos elementos corresponderão aos grupos do padrão.
Por exemplo, podemos separar o nome do usuário e o nome do hospedeiro, como num exemplo anterior.

In [149]:
cad = ''' blá blá blá alice@themail.com     abc xyz maria@themail.com.br etc etc 
          abc xyz maria.123@mymail.com blá blá jose-silva@mymail.com.br
      '''

pad =  r'([\w\.-]+)@([\w\.-]+)'

res = re.findall(pad, cad)
if res:
    for r in res:
        print(f'{r[0]:12} {r[1]:18} {r}')
else:
    print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")


alice        themail.com        ('alice', 'themail.com')
maria        themail.com.br     ('maria', 'themail.com.br')
maria.123    mymail.com         ('maria.123', 'mymail.com')
jose-silva   mymail.com.br      ('jose-silva', 'mymail.com.br')


## Encontrando múltiplas ocorrências de um padrão com um iterador
Quando o texto a ser examinado é muito grande, como um arquivo, por exemplo, pode não ser interessante localizar todas as ocorrências de um padrão  antes de começar a processá-las.   
Um *iterador* produz o mesmo efeito mas gera seus elementos um a um, na medida do necessário.   
Isto pode ser muito vantajoso em termos de tempo e espaço.

No exemplo abaixo, usamos `re.finditer()` para localizar e separar os nomes dos usuários e dos hospedeiros do exemplo anterior.   
Note a diferença na posição dos elementos nas tuplas resultantes.

In [150]:
cad = ''' blá blá blá alice@themail.com     abc xyz maria@themail.com.br etc etc 
          abc xyz maria.123@mymail.com blá blá jose-silva@mymail.com.br
      '''

pad =  r'([\w\.-]+)@([\w\.-]+)'

res = re.finditer(pad, cad)
for r in res:
    print(f'{r[0]:30} {r[1]:12} {r[2]:18}')


alice@themail.com              alice        themail.com       
maria@themail.com.br           maria        themail.com.br    
maria.123@mymail.com           maria.123    mymail.com        
jose-silva@mymail.com.br       jose-silva   mymail.com.br     


## Substituição do padrão nas ocorrências localizadas
A função `re.sub()` permite substituir todas as ocorrências do padrão localizadas no texto original por uma nova cadeia.   
A cadeia de substituição pode incluir `\1`, `\2`,... para se referir a `group(1)`, `group(2)`,... do padrão.

Por exemplo, vamos substituir o hospedeiro por `newmail.com` em todos os endereços de e-mail localizados no exemplo anterior.

In [151]:
cad = ''' blá blá blá alice@themail.com     abc xyz maria@themail.com.br etc etc 
          abc xyz maria.123@mymail.com blá blá jose-silva@mymail.com.br
      '''

pad =  r'([\w\.-]+)@([\w\.-]+)'
scad = r'\1@newmail.com'

res = re.sub(pad, scad, cad)
print(res)

 blá blá blá alice@newmail.com     abc xyz maria@newmail.com etc etc 
          abc xyz maria.123@newmail.com blá blá jose-silva@newmail.com
      


### Greedy and lazy matching
Let's try to get the "day" portion of each date. It is the first and only captured group in this pattern.

In [None]:

fi = finditer(r'(?x) / (.* ) /', t)

[m.group(1) for m in fi]


What went wrong? By default, **\*** is greedy.  We can make it lazy by adding **?**.

In [None]:

fi = finditer(r'(?x) / (.*? ) /', t)

[m.group(1) for m in fi]


This works for the other quantifiers as well.  (**+, ?, {m,n}**)

This one is eager and has an internal **e** in the first match and an internal **o** in the second match.

In [None]:

fi = finditer(r'(?x) ([aeiou]) .* \1', t)

[m.group(0) for m in fi]


This one is lazy.

In [None]:

fi = finditer(r'(?x) ([aeiou]) .*? \1', t)

[m.group(0) for m in fi]


### split
**split** works differently in **regex**.  Let's start with **re**.
This is a familiar split on whitespace.

In [None]:

split(r'\s+', t)


And this splits on the letter **o**:

In [None]:

split(r'o', t)


Here's a gotcha:

In [None]:

split(r'o', t, IGNORECASE)


The third argument to **split** does not give options.  It gives the maximum number of splits.  We unknowingly specified 2:

In [None]:

IGNORECASE


For split, it is better to use **(?i)** for case-insensitivity.

In [None]:

split(r'(?i)the', t)


Or you can use the **flags** keyword argument.

In [None]:

split(r'the', t, flags=IGNORECASE)


### Capturing in the pattern for **split**

This one splits on words with an internal **u**:

In [None]:

split(r'\w+u\w+', t)


But what if we wanted to save the **u**-words?  We can use parentheses to capture things inside the splitting pattern!

In [None]:

split(r'(\w+u\w+)', t)


In [None]:

split(r'\w*o\w*', t)


In [None]:

split(r'(\w*o\w*)', t)


Here we split on 4-letter words.  Then we do it again and capture the 4-letter words.

In [None]:

split(r'\b\w{4}\b', t)


In [None]:

split(r'\b(\w{4})\b', t)


### **split** and zero-width assertions.
Here we split on word boundaries.  **\\b** is a zero-width assertion.  It requires that certain characters be present, but it doesn't "consume" them.

In [None]:

split(r'\b',t)


So what went wrong?  Unlike **split** in Perl, the split function in **re** will not split on zero-width assertions. The new **regex** module gets this right.

In [None]:

from regex import *
split(r'\b',t)


Oops. To get the new behavior, we must add the "Version 1" option to the regular expression.  "Version 0" emulates **re**.

In [None]:
split(r'(?V1)\b',t)

We can make life a little easier by setting the version globally.

In [None]:
import regex
regex.DEFAULT_VERSION = VERSION1
split(r'\b',t)

**\\m** and **\\M** are zero-width assertions that are true at the beginnings and ends of words.

In [None]:

split(r'\M',t)


In [None]:

split(r'\m',t)


### Look-arounds
We can split on any 4-letter word.

In [None]:

split(r'(?x) \b \w{4} \b', t)


But what if we want to split on any 4-letter word but **born**? We can use a look-ahead assertion.  Look-aheads and look-behinds come in two flavors: positive and negative.  All four are zero-width assertions.  They required certain characters to be present or absent, but don't consume the characters.  In this case, we need a negative assertion.  We could do a look-ahead:

In [None]:

split(r'(?x) \b (?!born) \w{4} \b', t)


or a look-behind:

In [None]:

split(r'(?x) \b \w{4} (?<!born) \b', t)


or, if we are feeling perverse, both:

In [None]:

split(r'(?x) \b (?!bor) \w{4} (?<!orn) \b', t)


This one splits on any 4-letter word that doesn't contain **o**:

In [None]:

split(r'(?x) \b (?!\w*o) \w{4} \b', t)


This one splits on the letter **o**.  The **o** is consumed and lost.

In [None]:

split(r'(?x) o', t)


This one has a positive look-ahead assertion.  It splits before every **o**.

In [None]:

split(r'(?x) (?=o)', t)


This one has a positive look-behind assertion.  It splits after evey **o**.

In [None]:

split(r'(?x) (?<=o)', t)


This one splits between  **o** and **r**:

In [None]:

split(r'(?x) (?<=o) (?=r)', t)


The assertions could appear in either order.

In [None]:

split(r'(?x) (?=r) (?<=o)', t)


This one splits between any two consecutive vowels.

In [None]:

split(r'(?x) (?<=[aeiou]) (?=[aeiou])', t)


### Fun with DNA: Open reading frames
DNA is a sequence of bases, A, C, G, or T.  They are translated into proteins 3 bases at a time.  Each 3-base sequence is called a **codon**.  There is a special **start codon** ATG, and three **stop codons**, TGA, TAG, and TAA.  The start and stop codons are highlighted below.

In [None]:

dna = 'cgcgcATGcgcgcgTGAcgcgcgTAGcgcgcgcgc'

dna = dna.lower()


An **opening reading frame** or **ORF** consists of a start codon, followed by some more codons, and ending with a stop codon.  (In real life, "some more" is usually hundreds or thousands.)

In [None]:

orfpat = r'(?x) atg (...)* (tga|tag|taa)'

search(orfpat,dna)


Actually, that's not quite right.  The internal codons should not be stop codons. We can handle that with a negative lookahead assertion.  (Can you think of another way?)

In [None]:

orfpat = r'(?x) atg  ( (?!tga|tag|taa) ... )*  (tga|tag|taa)'

search(orfpat,dna)


We don't really want to capture the "some more codons" separately.  In a minute that will get in the way.  So we can use **(?:...)** to group without capturing:

In [None]:

orfpat = r'(?x) ( atg  (?: (?!tga|tag|taa) ... )*  (?:tga|tag|taa) )'

findall(orfpat,dna)


Here is another DNA sequence.  Note that this one has overlapping ORFs.  We would like a list of **all** orfs, specifically **ATGcATGcgTGA** and **ATGcgTGAcTAA**.  Our last pattern only finds the first ORF. Since it consumes the first ORF, it also consumes the beginning of the second ORF.

In [None]:

dna = 'cgcgcATGcATGcgTGAcTAAcgTAGcgcgcgcgc'

dna = dna.lower()

findall(orfpat,dna)


Since we want to find something without consuming it, we can use a positive lookahead assertion.  We put the whole ORF pattern inside the lookahead.  We need to capture what is matched by the lookahead without consuming it.

In [None]:

orfpat = r'(?x) (?= ( atg  (?: (?!tga|tag|taa) ... )*  (?:tga|tag|taa) ))'

findall(orfpat,dna)


Notice the position of the capturing parentheses.  This doesn't work:

In [None]:

orfpat = r'(?x) ( (?= atg  (?: (?!tga|tag|taa) ... )*  (?:tga|tag|taa) ))'

findall(orfpat,dna)


Why? Because the look-ahead assertion has width 0.

### More fun with DNA: Restriction Digest Assays
To perform certain assays, molecular biologists subject DNA sequences to enzymes known as restriction enzymes. There are several types; this is about Type II restriction endonucleases, to be precise. They are usually named with three letters, for the species of origin, and a Roman numeral; e.g., AfeI comes from Alcaligenes faecalis.  These enzymes typically recognize a specific sequence of 6-10 letters, and cut the DNA somewhere in the middle of that sequence.  For example, BgIII recognizes **AGATCT** and cuts between the first **A** and the **G**.

For a typical assay, the DNA will be digested by a "cocktail" of 3-6 enzymes. The lengths of the resulting pieces will be measured by gel electrophoresis.  The lengths should match up with the lengths predicted by an in silico digestion. If not, something is wrong.
Our task is to do the in silico digestion.

For development, here is a dictionary of 4 enzymes, a DNA sequence to digest, and the string we would like to get out of the process. In real life, the DNA sequence would be thousands to ten-thousands of letters long. The researcher could be interested in knowing the cut-points for dozens of enzymes, even though a typical assay uses just a few.

In [None]:

enzymes = {'A-GATCT': 'BgIII',
           'AGC-GCT': 'AfeI',
           'AGG-CCT': 'StuI',
           'AT-CGAT': 'ClaI'}

dna = 'AAAAGCGCTAAAATCGATAAAAAAGATCTAAAAAGCGCT'

goal = 'AAAAGC <AfeI> GCTAAAAT <ClaI> CGATAAAAAA <BgIII> GATCTAAAAAGC <AfeI> GCT'


We are going to use positive look-aheads and look-behinds.  We will build a look ahead-look behind combination for each enzyme.

In [None]:

pats = ['(?<=' + fore + ')(?=' + aft + ')' 
        
        for (fore,aft) in [split(r'-',s) for s in enzymes.keys()]]

pats


In [None]:

pats = ' | '.join(pats)
pats


In [None]:

pat = "(?x) ( " + pats + " )"
pat


In [None]:
print(goal)

split(pat,dna)


It's a good start.  We split in the right places, but we didn't capture the recognition sequences, so we can't retrieve the name of the enzyme from the dictionary. In fact, we captured empty strings.  That's because we captured a zero-width assertion. So we will add some parentheses to capture the look-aheads and look-behinds.

In [None]:

pats = ['(?<=(' + fore + ')) (?=(' + aft + '))' 
        
        for (fore,aft) in [split(r'-',s) for s in enzymes.keys()]]

pats = '  |  '.join(pats)
pat = '(?x) (?: ' + pats + ' )'
pat


In [None]:

split(pat,dna)


What happened?  The pattern has eight sets of capturing parentheses. So, the match also returns eight groups when it's executed.  Only the parentheses from the successful alternative will capture anything.  The other six groups are set to **None**.

Happily, **regex** provides a new "branch reset" feature. Briefly, it means that capturing occurs only on the successful branch.

In [None]:

pat = '(?x) (?| ' + pats + ' )'
pat


In [None]:

split(pat,dna)


Hooray!  Now all we have to do it to map the recognition sequences into enzyme names:

In [None]:

L = split(pat,dna)

LL = [ ' <' + enzymes[L[i]+'-'+L[i+1]] + '> '+ L[i+2] 
      
                  for i in range(1,len(L),3) ]

L[0] + ''.join(LL)


Then we can pull it all together into a nice class:

In [None]:

import regex as re

class EndonucleaseDigestor:
    
    def __init__(this,enzymeDict):
        pats = ['(?<=(' + fore + '))(?=(' + aft + '))' 
                for (fore,aft) in [re.split(r'-',s) for s in enzymeDict.keys()]]
        pat = ' | '.join(pats)
        pat = '(?x) (?| ' + pat + ' )'
        this.pat = re.compile(pat)
        this.enzymes = enzymeDict
        
    def digest(this,dna):
        L = this.pat.split(dna)
        LL = [ ' <' + enzymes[L[i]+'-'+L[i+1]] + '> '+ L[i+2] for i in range(1,len(L),3) ]
        return L[0] + ''.join(LL)
        

enzymes = {'A-GATCT': 'BgIII',
           'AGC-GCT': 'AfeI',
           'AGG-CCT': 'StuI',
           'AT-CGAT': 'ClaI'}
dna = 'AAAAGCGCTAAAATCGATAAAAAAGATCTAAAAAGCGCT'
goal = 'AAAAGC <AfeI> GCTAAAAT <ClaI> CGATAAAAAA <BgIII> GATCTAAAAAGC <AfeI> GCT'

digestor = EndonucleaseDigestor(enzymes)
if digestor.digest(dna) == goal: print("passed")


### TMTOWTDT: **sub** with a function
There's another way to solve the restriction digest problem. This time let's start by building a dictionary that maps the recognition sequences into versions with the enzyme name interposed:

In [None]:

d = { sub('-','',k) : sub('-'," <"+v+"> ", k) for k,v in enzymes.items()}
d


And let's build a pattern that matches all the recognition sequences:

In [None]:

p = ' | '.join( [ sub('-','',k) for k in enzymes.keys()])
p = '(?x) (' + p + ')'
p


The second argument to **sub** can be a function rather than a string.  If so, the function is called with a **match** object as its argument.  We are interested in the first (and only) thing captured in the match and we want to get the corresponding string out of dictionary **d**.  So we define a function to do that.  Then we call sub with that function.

In [None]:

def subber (m):
    print(m)
    return d[m.group(1)]

sub(p, subber, dna)


So we can make a class like this:

In [None]:

import regex as re

class AnotherEndonucleaseDigestor:
    
    def __init__(this,enzymeDict):
        this.d = { re.sub('-','',k) : re.sub('-'," <"+v+"> ", k) for k,v in enzymes.items()}
        p = ' | '.join( [ re.sub('-','',k) for k in enzymes.keys()])
        p = '(?x) (' + p + ')'
        this.pat = re.compile(p)
        this.enzymes = enzymeDict
        
    def digest(this,dna):
        return this.pat.sub( lambda m: this.d[m.group(1)]  , dna)

enzymes = {'A-GATCT': 'BgIII',
           'AGC-GCT': 'AfeI',
           'AGG-CCT': 'StuI',
           'AT-CGAT': 'ClaI'}
dna = 'AAAAGCGCTAAAATCGATAAAAAAGATCTAAAAAGCGCT'
goal = 'AAAAGC <AfeI> GCTAAAAT <ClaI> CGATAAAAAA <BgIII> GATCTAAAAAGC <AfeI> GCT'

digestor = AnotherEndonucleaseDigestor(enzymes)
if digestor.digest(dna) == goal: print("passed")


That probably seems a lot simpler, but there is one problem.  What if two recognition sites are overlapping?  For the in silico simulation of a real digest, it doesn't much matter, because the resolution of gel electrophoresis is much less than the 5-10 bases that might be overlapping.  On the other hand, if the scientist actually wants a complete inventory of all the restriction sites for a large set of enzymes, overlaps matter, and this solution won't work.

### Nested sets
We have seen some character sets such as **[aeiou]** for all (lower-case) vowels.  Suppose we want all lower-case consonants.  One obvious way is to list them all.  We might also be tempted to use set negation:

In [None]:

findall(r'[^aeiou]+',t)


The problem is that we get not just consonants, but spaces, digits, etc.
The new **regex** module allows us to do arithmetic on sets:


In [None]:

findall(r'(?x) [[a-z]--[aeiou]]+', t)


### Fuzzy matching
With **regex**, you can specify that patterns need only be satisfied approximately.  You can specify the number of insertions (**i**), number of deletions (**d**), and number of substitutions (**s**) as well as total number of errors (**e**).
This example allows at most one insertion and at most one deletion for each pattern.

In [None]:

list(finditer(r'(brown|lazy){i<=1,d<=1} (dog|fox){i<=1,d<=1}',
              
              'The quick crown fax barn on Monday jumped over the sleazy hog bran on Tuesday.'))


You can see that the match object reports the number of insertions, deletions, and substitutions as **fuzzy_counts**. 

You can even **require** a minimum number of errors:

In [None]:

list(finditer(r'(brown|lazy){1<=e<=3} (dog|fox){1<=e<=2}',
                            
              'The quick crown fax barn on Monday jumped over the sleazy hog bran on Tuesday.'))


What matched what?  We can find out by doing some more capturing.

In [None]:

findall(r'(?:(brown)|(lazy)){1<=e<=3} (?:(dog)|(fox)){1<=e<=2}',
        
        'The quick crown fax barn on Monday jumped over the sleazy hog bran on Tuesday.')
        

What if we try our orginal correct string? We should get back no matches, because there are no errors, right?  Maybe not.

In [None]:

findall(r'(?:(brown)|(lazy)){1<=e<=3} (?:(dog)|(fox)){1<=e<=2}',
        
        'The quick brown fox born on 1/23/2013 jumped over the lazy dog born on 10/6/10.')
 

Maybe it will work if we try the **BESTMATCH** option:

In [None]:

findall(r'(brown|lazy){1<=e<=3} (dog|fox){1<=e<=2}',
        'The quick brown fox born on 1/23/2013 jumped over the lazy dog born on 10/6/10.',
        BESTMATCH)


Hmm.  Maybe we need the **ENHANCEMATCH** option.

In [None]:

findall(r'(brown|lazy){1<=e<=3} (dog|fox){1<=e<=2}',
        'The quick brown fox born on 1/23/2013 jumped over the lazy dog born on 10/6/10.',
         ENHANCEMATCH)


Maybe we should use both....

In [None]:

findall(r'(brown|lazy){1<=e<=3} (dog|fox){1<=e<=2}',
        'The quick brown fox born on 1/23/2013 jumped over the lazy dog born on 10/6/10.',
         ENHANCEMATCH | BESTMATCH)


OK, now let's try a spelling corrector.  Here's a list of words.

In [None]:
f = open('words.txt')

f.readline()


In [None]:
words = f.readlines()
words[:10]

In [None]:
words =  ' '.join( [sub('\n', '', w) for w in words] )
words[-60:]

Now let's make a string with some misspelled (and correct) words. It might seem counterintuitive, but we will take the misspelled words and turn them into a pattern, and use the dictionary as the target sequence.

In [None]:

misspelt = 'abrogatting baandoned abreviat astracted absinthe abussed abus zoan'

misspelt = split('\W+', misspelt)

misspelt = [r"(" + s + r"){e<=2}" for s in misspelt]

misspelt = r"(?x) \m (?: " + " | ".join(misspelt) + r" ) \M"

misspelt


Note that this time we did not use the brach reset feature.  That's because the captured empty strings are going to tell us which misspelled word was matched.

In [None]:

lis = findall(misspelt,words, ENHANCEMATCH)

lis


Now we will transpose the matrix.  Every column will contain matches for a single misspelled word.  Most of the entries will be empty strings.

In [None]:

z = list(zip(*lis))

z


And now we can filter out the empty strings.

In [None]:

z = [ list(filter(lambda s: s!= '', L)) for L in z]

z


It's not entirely satisfactory, but it might work well for correcting the spelling of small sets of words, for example, state names.

### Multiple captures
It's now possible to obtain information on all the successful matches of a repeated capture group, not just the last one.  Use **captures** instead of **group**.

In [None]:

dna = 'cgcgcATGcgcattcgggcgTGAcgcgcgTAGcgcgcgcgc'
dna = dna.lower()

orfpat = r'(?x) (?= ( atg  ( (?!tga|tag|taa) ... )*  (?:tga|tag|taa) ))'

search(orfpat,dna).captures(2)


In [None]:

search(orfpat,dna).captures(1)


We can also capture things by name.  The string **s** is an excerpt of a long file describing a gene network.  Each line contains two gene names, and the strength of the connection between them.  In this example, we are only interested in gathering the gene names.

In [None]:

s = """AT1G01280	AT1G01450	5.1E-3
AT1G01480	AT1G01560	2.3E-2
AT1G01600	AT1G01610	1.6E-2
AT1G01430	AT1G01630	2.1E-2
AT1G01150	AT1G01700	1.1E-2
"""

m = match(
    r'(?x) (?: (?P<geneA>\w+) \s+ (?P<geneB>\w+) \s+ \S+ \n )*',
    s)

m.capturesdict()


We can even reuse a name;

In [None]:

m = match(
    r'(?x) (?: (?P<gene>\w+) \s+ (?P<gene>\w+) \s+ \S+ \n )*',
    s)

m.capturesdict()


In [None]:
sorted(set(m.capturesdict()['gene']))

### Reverse searching

Searches can now work backwards:

Note: the result of a reverse search is not necessarily the reverse of a forward search:

In [None]:

findall(r"(?r)..", "abcde")


Who cares?  I thought of an example.

In [None]:
sub(r'(?rx) (\d\d\d)',
    r',\1',
    '1 mile = 1760 yards = 5280 ft = 63360 in = 1609344 mm = 160934.4 cm, more or less.  Pi = 3.14159')

In [None]:
sub(r'(?rx)  (?<=\d) (\d\d\d)',
    r',\1',
    '1 mile = 1760 yards = 5280 ft = 63360 in = 1609344 mm = 160934.4 cm, more or less.  Pi = 3.14159')

In [None]:
sub(r'(?rx)  (?<! [.] \d*) (?<=\d) (\d\d\d)',
    r',\1',
    '1 mile = 1760 yards = 5280 ft = 63360 in = 1609344 mm = 160934.4 cm, more or less.  Pi = 3.14159')

### POSIX Matching (Leftmost Longest)

The default matching method for alternations is to match the first alternative that will match. The POSIX standard is to find the leftmost longest match. This can be turned on using the POSIX flag **(?p)**.

In [None]:

list(finditer( r'(dog|doge|doggerel)', 'The doge wrote nothing but doggerel.'))


In [None]:

list(finditer( r'(?p)(dog|doge|doggerel)', 'The doge wrote nothing but doggerel.'))



### **fullmatch**
The pattern must match the entire string.

In [None]:

match(r'The doge', 'The doge wrote nothing but doggerel.')


In [None]:

fullmatch(r'The doge', 'The doge wrote nothing but doggerel.')


Nope, that one didn't match.

### Partial matching
Can the target string be extended to match the pattern?  The optional **partial** argument to **match**, **search**, and **fullmatch** can answer this question. This could be useful if you are validating input from the terminal, for example.

This one is true, because the target can be extended to 'The doge wrote nothing but doggerel.' to match the pattern.  But, if you think about it, you will see that this one is true for any target string.  (It can be extended with 'dogdog'.)

In [None]:

fullmatch(r'.*dog.*dog.*', 'The doge wrote nothing', partial=True)


This one is more interesting: Can the string be extended to be a Social Security Number?

In [None]:

fullmatch(r'\d\d\d-\d\d-\d\d\d\d',  "999-89-7", partial=True)


In [None]:

match(r'\d\d\d-\d\d-\d\d\d\d',  "999-89-7", partial=True)


In [None]:

fullmatch(r'\d\d\d-\d\d-\d\d\d\d',  "My SSN is 999-89-7", partial=True)


In [None]:

match(r'\d\d\d-\d\d-\d\d\d\d',  "My SSN is 999-89-7", partial=True)


In [None]:

search(r'\d\d\d-\d\d-\d\d\d\d',  "My SSN is 999-89-7", partial=True)


Notice that this one is a complete match, so the **partial** field is missing from the match object:

In [None]:

search(r'\d\d\d-\d\d-\d\d\d\d',  "My SSN is 999-89-7654, but don't tell.", partial=True)


In [None]:

search(r'\d\d\d-\d\d-\d\d\d\d',  "My SSN is 999-89-76, but don't tell.", partial=True)


### Some functional programming fun

In [None]:

def twice(f):
    return lambda x: f(f(x))

def prepender(s):
    return lambda t: s + t

twice(twice)(twice(prepender('spam ')))('eggs and spam')


In [None]:

twice(twice)(twice(prepender(len('spam '))))(len('eggs and spam'))


### Mark's puzzle
Which character is most frequent in a string?

In [None]:
def most(s, care_about=r'\w'):
    t=''.join(sorted(s))
    p = r'((' + care_about + r')\2*)'
    L = [ m.group(1) for m in finditer(p, t) ]
    m = max(L, key=len)
    return (m[0], len(m))

most('123462232340997092')

In [None]:
most('123462232340997092', care_about='[13579]')

In [None]:
most(twice(twice)(twice(prepender('spam ')))('eggs and spam'))

In [None]:
most(twice(twice)(twice(prepender('spam ')))('eggs and spam'), r'[^aeiou\s]')