In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# Expressões Regulares
**MC102-2018s1-Aula19**

Uma expressão regular (também chamada *RE*, *regex*, ou *regex pattern*) é usada para identificar se um padrão ocorre ou não em uma determinada sequência de caracteres (*string*).

Expressões regulares implementam uma forma muito eficiente de manipulação de textos, permitindo o reconhecimento de padrões, a criação de variantes de uma dada *string* e o seu “fatiamento” de diversas maneiras.

Dadas as limitações das expressões regulares, elas não serão suficientes para resolver qualquer tarefa de processamento de textos, nem mesmo de expressar de forma simples algumas tarefas possíveis.   
Nesses casos, a melhor opção talvez seja desenvolver uma função em Python. Embora o código Python possa ser mais lento que uma expressão regular, ele provavelmente será mais inteligível.

Em Python, expressões regulares são implementadas pelos módulos ```re``` e ```regex```.   
Assim, para poder usá-las em nossos *scripts*, teremos que importar um desses módulos.   
Aqui vamos estudar apenas algumas das funcionalidades disponíveis no módulo ```re```.

In [2]:
import re

Para nossos primeiros testes, vamos adotar uma variante de um pangrama famoso...

In [3]:
t = '''Then, 80% of the quick brown foxes 
jumped over the lazy dog.'''

... que gera a seguinte cadeia:

`0........10........20........30........40........50........60`   
`Then, 80% of the quick brown foxes *jumped over the lazy dog.`

Em Python, a busca de uma expressão regular num dado texto é normalmente feita por...

In [4]:
re.search(r'the', t)

<_sre.SRE_Match object; span=(13, 16), match='the'>

ou

In [5]:
re.match(r'the', t)

Note que ```match``` aparentemente não produziu resultado algum.    
Na verdade, o resultado foi `None`, que não é exibido nesse formato.

In [6]:
print(re.match(r'berro', t))

None


A diferença entre essas duas funções é que ```match``` verifica se a expressão regular ocorre logo no início do texto, enquanto ```search``` procura a primeira ocorrência da expressão regular em qualquer ponto do texto dado.   
Por padrão, a busca diferencia maiúsculas de minúsculas.

Assim, ...

In [7]:
re.search(r'The', t)

<_sre.SRE_Match object; span=(0, 3), match='The'>

In [8]:
re.match(r'The', t)

<_sre.SRE_Match object; span=(0, 3), match='The'>

... produzem o mesmo resultado.

As funções `re.search()` e `re.match()` ignoram as diferenças entre maiúsculas e minúsculas quando acrescentamos `re.IGNORECASE` ou simplesmente `re.I` ao final da lista de argumentos.

In [9]:
re.search(r'the', t, re.IGNORECASE)

<_sre.SRE_Match object; span=(0, 3), match='The'>

In [10]:
re.match(r'the', t, re.I)

<_sre.SRE_Match object; span=(0, 3), match='The'>

Habitue-se a colocar um ```r``` antes da cadeia que será usada como padrão de busca.   
Assim essa cadeia será considerada “bruta” (*raw*) e não será interpretada por Python, o que faz com que barras invertidas (```'\'```) possam existir na cadeia sem que sejam tratadas como caracteres de escape.   
Isso permitirá que a gente escreva coisas como ```'\w'```, que serão frequentes em nossas expressões regulares, literalmente e não na forma ```'\\w'```.

## Padrões Básicos
Nos exemplos anteriores buscamos expressões fixas (```'the'``` e ```'The'```) no texto dado.   
No entanto, uma grande virtude de expressões regulares é que elas podem especificar padrões variáveis.   

Vamos examinar algunns padrões básicos que estabelecem correspondência com caracteres únicos.

-   **```a```**, **```X```**, **```9```**   
    Caracteres comuns, que devem ser correspondidos exatamente.   
    Maiúsculas são consideradas diferentes de minúsculas.   

In [11]:
re.search(r'quick', t)

<_sre.SRE_Match object; span=(17, 22), match='quick'>

-   **```.```** (ponto)   
    Corresponde a qualquer caractere único, exceto “nova linha” (```'\n'```).    

In [12]:
re.search(r'.', t)

<_sre.SRE_Match object; span=(0, 1), match='T'>

-   **```\w```** (w minúsculo)   
    Corresponde a qualquer caractere que possa aparecer numa “palavra”: uma letra maiúscula ou minúscula, um dígito decimal ou um “sublinhado”.    
    Note que, embora o ```w``` nos remeta a “word”, a correspondência será feita com um único caractere, não com uma uma palavra inteira.   
    **```\W```** (W maiúsculo) corresponde a qualquer caractere não pertencente ao grupo “palavra”.

In [13]:
re.search(r'\w', t)

<_sre.SRE_Match object; span=(0, 1), match='T'>

In [14]:
re.search(r'\W', t)

<_sre.SRE_Match object; span=(4, 5), match=','>

-   \b
    limite entre palavra e não palavra

In [15]:
re.search(r'\b', t)

<_sre.SRE_Match object; span=(0, 0), match=''>

-   **```\s```** (s minúsculo)   
Corresponde a um único caractere de espaço em branco: espaço, nova linha (```\n```), retorno (```\r```) ou  tabulação (```\t```).    
**```\S```** (S maiúsculo) corresponde a qualquer caractere que não seja considerado espaço em branco.

In [16]:
re.search(r'\s', t)

<_sre.SRE_Match object; span=(5, 6), match=' '>

-   **```\t, \n, \r```** (tabulação, nova linha, retorno)   
Correspondem exatamente a esses caracteres.

In [17]:
re.search(r'\n', t)

<_sre.SRE_Match object; span=(35, 36), match='\n'>

-   **```\d```** (d minúsculo)   
Corresponde a qualquer dígito decimal.   
**\D** (D maiúsculo) corresponde a qualquer caractere que não seja um dígito decimal.

In [18]:
re.search(r'\d', t)

<_sre.SRE_Match object; span=(6, 7), match='8'>

-   **```^```** e **```$```**   
    Correspondem, respectivamente, ao início e fim do texto.

In [19]:
re.search(r'^', t)

<_sre.SRE_Match object; span=(0, 0), match=''>

In [20]:
re.search(r'$', t)

<_sre.SRE_Match object; span=(61, 61), match=''>

Para fazer com que um *metacaractere* se comporte como um caractere normal, insira uma barra invertida na frente dele.   
Assim, **```\.```** corresponde a um “ponto final”,  **```\\```** corresponde a uma “barra invertida”, **```\^```** corresponde a um “circunflexo” e **```\$```** corresponde a um “cifrão”.

Se você ficar em dúvida sobre algum caractere ser ou não um metacaractere, por segurança, coloque uma barra invertida na frente dele.   
Assim, por exemplo, **```\%```** será tratado como **```%```**, seja **```%```** um metacaractere ou não.

In [21]:
re.search(r'\%', t)

<_sre.SRE_Match object; span=(8, 9), match='%'>

In [22]:
re.search(r'%', t)

<_sre.SRE_Match object; span=(8, 9), match='%'>

## Regras Básicas

A satisfação de um critério (definido por uma expressão regular) por uma cadeia de caracteres é verificada de acordo com as seguintes regras básicas:

1.   A cadeia de caracteres é examinada da esquerda para a direita.
1.   O processo é interrompido assim que a expressão regular bater com um segmento da cadeia de caracteres.
1.   Para que o critério seja considerado satisfeito, a expressão regular precisa ter sido inteiramente mapeada sobre a cadeia, mas a cadeia não precisa ter sido totalmente usada.
1.   Se na execução de `res = re.search(pad, cad)`, não for encontrada uma correspondência entre a expressão regular `pad` e um trecho da cadeia `cad`, o valor associado a `res` será `None`. 
Caso contrário, `res != None`, `res.span()` retornará uma tupla com a “*range*” correspondente e `res.group()` retornará o texto encontrado.

### Ex 1. Dada a lista de cadeias de caracteres $cads$, definir um padrão que bata com os dígitos decimais de cada uma delas.

In [23]:
cads = ['abc123xyz', '123abcxyz', 'abcxyz123']

pad = r'123'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + cad + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'abc123xyz' (3, 6) '123'
'123abcxyz' (0, 3) '123'
'abcxyz123' (6, 9) '123'


In [24]:
cads = ['abc123xyz', '456abcxyz', 'abcxyz789']

pad = r'\d\d\d'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + cad + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'abc123xyz' (3, 6) '123'
'456abcxyz' (0, 3) '456'
'abcxyz789' (6, 9) '789'


### Ex 2. A lista $cads$ contém cadeias de caracteres variadas mas de mesmo comprimento. Defina um padrão que seja satisfeito pelas três primeiras mas não pela última.

In [25]:
strs = ['abc.', '123.', '-.-.', 'wxyz']

pad = r'\.$'

for str in strs:
    res = re.search(pad, str)
    if res:
        print("'" + str + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + str + "'")

'abc.' (3, 4) '.'
'123.' (3, 4) '.'
'-.-.' (3, 4) '.'
a expressão regular '\.$' não foi encontrada em 'wxyz'


## Correspondência com conjuntos de caracteres

É possível estabelecer correspondência com qualquer caracter de um dado conjunto, especificando este último entre colchetes(**`[`** e **`]`**).   

Por exemplo, ...

In [26]:
cads = ['cofre', 'hoje', 'água', 'aposta']

pad = r'[fgh]'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + str + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'wxyz' (2, 3) 'f'
'wxyz' (0, 1) 'h'
'wxyz' (1, 2) 'g'
a expressão regular '[fgh]' não foi encontrada em 'aposta'


### Ex 3. Dada a lista de cadeias $cads$, criar um padrão que bata com as três primeiras mas não com as três últimas.

In [27]:
cads = ['tapa', 'capa', 'papa', 'lapa', 'mapa', 'rapa']

pad = r'[tcp]apa'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + str + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'wxyz' (0, 4) 'tapa'
'wxyz' (0, 4) 'capa'
'wxyz' (0, 4) 'papa'
a expressão regular '[tcp]apa' não foi encontrada em 'lapa'
a expressão regular '[tcp]apa' não foi encontrada em 'mapa'
a expressão regular '[tcp]apa' não foi encontrada em 'rapa'


## Ignorar caracteres de um conjunto

É possível ignorar os caracteres de um dado conjunto colocando-se um **`^`** logo após o colchete esquerdo.

### Ex 4. Dada a lista de cadeias $cads$, criar um padrão que bata apenas com os nomes de animais.

In [28]:
cads = ['gato', 'fato', 'mato', 'rato', 'tato', 'pato']

pad = r'[grp]ato'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + str + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'wxyz' (0, 4) 'gato'
a expressão regular '[grp]ato' não foi encontrada em 'fato'
a expressão regular '[grp]ato' não foi encontrada em 'mato'
'wxyz' (0, 4) 'rato'
a expressão regular '[grp]ato' não foi encontrada em 'tato'
'wxyz' (0, 4) 'pato'


In [29]:
cads = ['gato', 'fato', 'mato', 'rato', 'tato', 'pato']

pad = r'[^fmt]ato'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + str + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'wxyz' (0, 4) 'gato'
a expressão regular '[^fmt]ato' não foi encontrada em 'fato'
a expressão regular '[^fmt]ato' não foi encontrada em 'mato'
'wxyz' (0, 4) 'rato'
a expressão regular '[^fmt]ato' não foi encontrada em 'tato'
'wxyz' (0, 4) 'pato'


## Usar faixas de caracteres para especificar conjuntos
Ao definir um conjunto é possível indicar uma sequência contínua de caracteres especificando o primeiro e o último elementos separados por um hífen (**`-`**).   
Os metacaracteres `\w`, `\d` e `\W` também podem ser usados normalmente neste contexto.

### Ex 5. Dada a lista de cadeias $cads$, criar um padrão $pad$ que bata com as três primeiras mas não com as três últimas.

In [30]:
cads = ['Ala', 'Boa', 'Cal', 'Mas', 'oba', 'zip']

pad = r'[A-C][alo][al]'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + cad + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'Ala' (0, 3) 'Ala'
'Boa' (0, 3) 'Boa'
'Cal' (0, 3) 'Cal'
a expressão regular '[A-C][alo][al]' não foi encontrada em 'Mas'
a expressão regular '[A-C][alo][al]' não foi encontrada em 'oba'
a expressão regular '[A-C][alo][al]' não foi encontrada em 'zip'


## Repetições

Os padrões que estudamos até aqui batem com caracteres únicos.

Para criar um padrão que possa corresponder a um número variável de caracteres, usam-se os metacaracteres **`+`**, **`*`** e **`?`**.
-   **`+`** bate com 1 ou mais ocorrências do padrão à sua esquerda
-   **`*`** bate com 0 ou mais ocorrências do padrão à sua esquerda
-   **`?`** bate com 0 ou 1 ocorrência do padrão à sua esquerda

**`+`** e **`*`** buscam na cadeia de caracteres a primeira ocorrência do padrão (isto é, o mais à esquerda possível) e a partir daí tentam usar o maior número possível de caracteres da cadeia.   
Esse tipo de correspondência é dito “guloso”.

Vamos estudar alguns exemplos...

In [31]:
## ã+ bate com o máximo número de “ã”s começando o mais à esquerda possível
re.search(r'ã+', 'Nãão me diga nããããão!')

<_sre.SRE_Match object; span=(1, 3), match='ãã'>

Note que foi encontrado o conjunto de `ã`s mais à esquerda, que depois foi estendido ao máximo.   
Embora mais longo, o segundo grupo de `ã`s não foi considerado.

In [32]:
cads = ['no mínimo', 'não me diga', 'agora nãão']

pad = r'nã?o'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + cad + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'no mínimo' (0, 2) 'no'
'não me diga' (0, 3) 'não'
a expressão regular 'nã?o' não foi encontrada em 'agora nãão'


Neste caso, o padrão especificava um “$\textit{n}$”, seguido por 0 ou 1 “$\textit{ã}$”, seguido por um “$\textit{o}$”.    
Nas duas primeiras cadeias o padrão foi encontrado, mas na terceira não.

### Ex 6. Dada a lista de cadeias $cads$, criar um padrão $pad$ que bata com as três primeiras mas não com a última.

In [33]:
cads = ['11133', '112', '112223', '1']

pad = r'11+2*3*'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + cad + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'11133' (0, 5) '11133'
'112' (0, 3) '112'
'112223' (0, 6) '112223'
a expressão regular '11+2*3*' não foi encontrada em '1'


## Limitando o número de repetições

É possível especificar o número de repetições desejadas de um padrão.
-   {$m$} bate com exatamente $m$ repetições do padrão à sua esquerda
-   {$m$, $n$} bate com $m$ a $n$ repetições do padrão à sua esquerda

### Ex 7. Dada a lista de cadeias $cads$, criar um padrão $pad$ que bata com as duas primeiras mas não com a última.

In [34]:
cads = ['1233345', '123345', '12345']

pad = r'123{2,3}45'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + cad + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'1233345' (0, 7) '1233345'
'123345' (0, 6) '123345'
a expressão regular '123{2,3}45' não foi encontrada em '12345'


### Ex 8. Dada a lista de cadeias $cads$, criar um padrão $pad$ que bata com as três primeiras mas não com as duas últimas.

In [35]:
cads = ['112233', '11122233', '111222333', '1223', '1233']

pad = r'1{2,3}2{2,3}3{2,3}'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + cad + "'", res.span(), "'" + res.group() + "'")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'112233' (0, 6) '112233'
'11122233' (0, 8) '11122233'
'111222333' (0, 9) '111222333'
a expressão regular '1{2,3}2{2,3}3{2,3}' não foi encontrada em '1223'
a expressão regular '1{2,3}2{2,3}3{2,3}' não foi encontrada em '1233'


In [36]:
cads = ['112233', '11122233', '111222333', '1223', '1233']

pad = r'1{2,3}2{2,3}3{2,3}'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print("'" + cad + "' == '" + res.group() + "':", cad == res.group())
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

'112233' == '112233': True
'11122233' == '11122233': True
'111222333' == '111222333': True
a expressão regular '1{2,3}2{2,3}3{2,3}' não foi encontrada em '1223'
a expressão regular '1{2,3}2{2,3}3{2,3}' não foi encontrada em '1233'


### Ex 9. Dada a lista de cadeias $cads$, criar um padrão $pad$ que extraia o endereço de e-mail contido em cada uma delas

In [37]:
cads = ['blá blá blá alice@themail.com', 
        'abc xyz maria@themail.com.br etc etc', 
        'abc xyz maria.123@mymail.com blá blá', 
        'jose-silva@mymail.com.br'
       ]

pad = r'[\w.-]+@\w+(\.\w+)+'

for cad in cads:
    res = re.search(pad, cad)
    if res:
        print(res.group())
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

alice@themail.com
maria@themail.com.br
maria.123@mymail.com
jose-silva@mymail.com.br


## Extração de Grupos
Em uma expressão regular, “grupos” permitem separar algumas partes do texto correspondente.   

Suponha que, no exemplo anterior, queiramos extrair o nome do usuário e do serviço hospedeiro separadamente.   
Para isso, colocamos o nome de usuário e o do hospedeiro entre parênteses, como mostrado abaixo.

In [38]:
pad = r'([\w.-]+)@(\w+(\.\w+)+)'

Os parênteses não alteram a funcionalidade do padrão, mas estabelecem “grupos lógicos” dentro do texto de correspondência.   
Se a busca for bem-sucedida, `res.group(1)` restornará o texto correspondente ao primeiro par de parênteses e `res.group(2)` retornará o texto correspondente ao segundo par.    
A chamada `res.group()` continuará retornando todo o texto mapeado como de costume.

In [39]:
for cad in cads:
    res = re.search(pad, cad)
    if res:
        print(f"{res.group(1):12} {res.group(2):18} {res.group():30}")
    else:
        print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")

alice        themail.com        alice@themail.com             
maria        themail.com.br     maria@themail.com.br          
maria.123    mymail.com         maria.123@mymail.com          
jose-silva   mymail.com.br      jose-silva@mymail.com.br      


## Encontrando múltiplas ocorrências de um padrão
A função `re.findall()` é semelhante a `re.search()` mas retorna uma lista com todas as sub-cadeias que satisfazem o padrão na cadeia dada.   
Por exemplo, ...

In [40]:
cad = ''' blá blá blá alice@themail.com     abc xyz maria@themail.com.br etc etc 
          abc xyz maria.123@mymail.com blá blá jose-silva@mymail.com.br
      '''

pad =  r'[\w\.-]+@[\w\.-]+'

res = re.findall(pad, cad)
if res:
    for r in res:
        print(r)
else:
    print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")


alice@themail.com
maria@themail.com.br
maria.123@mymail.com
jose-silva@mymail.com.br


Se usarmos grupos na definição do padrão, `re.findall()` retornará uma lista de tuplas, cujos elementos corresponderão aos grupos do padrão.
Por exemplo, podemos separar o nome do usuário e o nome do hospedeiro, como num exemplo anterior.

In [41]:
cad = ''' blá blá blá alice@themail.com     abc xyz maria@themail.com.br etc etc 
          abc xyz maria.123@mymail.com blá blá jose-silva@mymail.com.br
      '''

pad =  r'([\w\.-]+)@([\w\.-]+)'

res = re.findall(pad, cad)
if res:
    for r in res:
        print(f'{r[0]:12} {r[1]:18} {r}')
else:
    print('a expressão regular', "'" + pad + "'", 'não foi encontrada em', "'" + cad + "'")


alice        themail.com        ('alice', 'themail.com')
maria        themail.com.br     ('maria', 'themail.com.br')
maria.123    mymail.com         ('maria.123', 'mymail.com')
jose-silva   mymail.com.br      ('jose-silva', 'mymail.com.br')


## Encontrando múltiplas ocorrências de um padrão com um iterador
Quando o texto a ser examinado é muito grande, como um arquivo, por exemplo, pode não ser interessante localizar todas as ocorrências de um padrão  antes de começar a processá-las.   
Um *iterador* produz o mesmo efeito mas gera seus elementos um a um, na medida do necessário.   
Isto pode ser muito vantajoso em termos de tempo e espaço.

No exemplo abaixo, usamos `re.finditer()` para localizar e separar os nomes dos usuários e dos hospedeiros do exemplo anterior.   
Note a diferença na posição dos elementos nas tuplas resultantes.

In [42]:
cad = ''' blá blá blá alice@themail.com     abc xyz maria@themail.com.br etc etc 
          abc xyz maria.123@mymail.com blá blá jose-silva@mymail.com.br
      '''

pad =  r'([\w\.-]+)@([\w\.-]+)'

res = re.finditer(pad, cad)
for r in res:
    print(f'{r[0]:30} {r[1]:12} {r[2]:18}')


alice@themail.com              alice        themail.com       
maria@themail.com.br           maria        themail.com.br    
maria.123@mymail.com           maria.123    mymail.com        
jose-silva@mymail.com.br       jose-silva   mymail.com.br     


## Substituição do padrão nas ocorrências localizadas
A função `re.sub()` permite substituir todas as ocorrências do padrão localizadas no texto original por uma nova cadeia.   
A cadeia de substituição pode incluir `\1`, `\2`,... para se referir a `group(1)`, `group(2)`,... do padrão.

Por exemplo, vamos substituir o hospedeiro por `newmail.com` em todos os endereços de e-mail localizados no exemplo anterior.

In [43]:
cad = ''' blá blá blá alice@themail.com     abc xyz maria@themail.com.br etc etc 
          abc xyz maria.123@mymail.com blá blá jose-silva@mymail.com.br
      '''

pad =  r'([\w\.-]+)@([\w\.-]+)'
scad = r'\1@newmail.com'

res = re.sub(pad, scad, cad)
print(res)

 blá blá blá alice@newmail.com     abc xyz maria@newmail.com etc etc 
          abc xyz maria.123@newmail.com blá blá jose-silva@newmail.com
      
