# <font color = "blue" style="background-color: #E9F7E1;"> Expressões Regulares</font>

<ul><li><b>Introdução:</b></li>
    <li><b><a href="#2">Correspondências</a></b></li>
    <li><b><a href="#3">Pesquisa (Busca)</a></b></li>

### Preâmbulo: Caracteres Especiais
Na Ling. Python os caracteres especiais são indicados com o auxílio do caracter contra-barra, ou barra para esquerda: '\'.  
Exemplos:
> `'\n'` - nova linha (*linefeed*)  
> `'\t'` - tabulação (*tab*)  

In [65]:
print('.\\n.')

.\n.


## 1. Introdução

Uma **expressão regular**, **regex** ou **regexp** é uma sequência de caracteres (*string*) que define um padrão de pesquisa (busca) em uma outra sequência de caracteres. Normalmente, esses padrões são usados em algoritmos de busca de *string* nas operações de **'localizar'** ou **'localizar e substituir'** em *strings* ou para validação de entrada(s). É uma técnica desenvolvida na teoria da Ciência da Computação, mais especificamente, na teoria de linguagens formais.

Existe um módulo de suporte às **regex** chamado `re` (*regular expressions*), o qual faz parte da **biblioteca padrão do Python** (coleção de módulos que simplifica o processo de programação e elimina a necessidade de se reescrever comandos comumente usados).

Uma Expressão Regular é definida como uma **string de texto especial** que descreve um padrão de pesquisa. É extremamente útil para extrair informações de texto como código, arquivos, log, planilhas ou até mesmo documentos.

In [1]:
import re

Vamos definir algumas variáveis strings que serviram de suporte aos exemplos que serão mostrados a seguir:

In [20]:
alfabeto_minusc = 'abcdefghijklmnopqrstuvwxyz'
alfabeto_maiusc = alfabeto_minusc.upper()
digitos   = '1234567890'
sentenca  = 'The Quick Brown Fox Jumps Over The Lazy Dog'
website   = 'www.ifg.edu.br'
fones     = """123-456-7890
                    987.654.321
                    234-567-8901
                    654.321.987
                    345-678-9012
                    321.654.978
                    456-789-0123
                """
caracteres_esp = '[\^$.|?*+()'

## <a id="2">2. Correspondências</a>

### 2.1 Correspondência de Caracteres Explícitos
Para combinar caracteres explicitamente, basta colocar o que se deseja encontrar como primeiro argumento do método `findall()` e como segundo parâmetro a string na qual será feita a busca. Semelhante à operação de busca, `ctrl + f`, na maioria dos aplicativos.

In [5]:
print(re.findall("abc", alfabeto_minusc),
      re.findall("ABC", alfabeto_maiusc),
      re.findall("ABC", alfabeto_minusc),)

['abc'] ['ABC'] []


### 2.2 Correspondência de um Caracter Literal
Para combinar com qualquer caracter literal (qualquer caracter exceto `[ ] ( ) . ? | $ * +`), introduza uma barra invertida `\` seguida do caracter que se deseja selecionar.


In [8]:
print(re.findall("\.edu", website),
      re.findall("\$", caracteres_esp),
      re.findall("\|", caracteres_esp),)

['.edu'] ['$'] ['|']


### 2.3 Correspondência por Padrão
Existem várias maneiras de busca combinações de um padrão. **Regex** tem sua própria sintaxe para que possamos escolher que nossos padrões se pareçam.

#### 2.3.1 Classes de Caracter   
|Classe |  Descrição |
|:--:|:--|
    |.|qualquer caracter, exceto <i>newline</i> |
    |\w \d \s|palavra, dígito, espaço em branco |
    |\W \D \S|não palavra, não dígito, não espaço em branco |
    |[abc]|qq. uma das letras: a, b ou c|
    |[^abc]|nenhuma das letras: a, b ou c|
    |[a-e]|qq. uma das letras: a, b, c, d, e|

Obs.: 
1. `\w` combina com caracteres alfanuméricos: `[a-zA-Z0-9_]`, ou seja: letras, dígitos e sublinhado.
1. `\W` não combina com caracteres alfanuméricos: caracteres não inclusos em `[a-zA-Z0-9_]`, ou seja: caracteres que não sejam letras, nem dígitos e nem sublinhado.
1. `\d` combina com dígitos decimais: `[0-9]`.
1. `\D` não combina com dígitos decimais, ou seja: ~\d, caracteres não inclusos em `[0-9]`.
1. `\s` combina com espaço em branco: `' '`.
1. `\S` não combina com espaço em branco, ou seja: ~\s, caracteres não inclusos em `' '`.

In [104]:
print(re.findall('\w\w\w','teste de busca'), re.findall('\w\w\w','12.FIM abcd#$#@'))
print(re.findall('\W\W\W','...FIM   34VERD'), re.findall('\w\w\W','12.FIM 555abcd#$#@'))
print(re.findall('\d+','...FIM   34VERD'), re.findall('\D+','12.FIM 555abcd#$#@'))
print(re.findall('\s+','...FIM   34VERD'), re.findall('\S*','12.FIM 555abcd#$#@'))

['tes', 'bus'] ['FIM', 'abc']
['...', '   '] ['12.', 'IM ', 'cd#']
['34'] ['.FIM ', 'abcd#$#@']
['   '] ['12.FIM', '', '555abcd#$#@', '']


#### 2.3.2 Âncoras
|Classe |  Descrição |
|:--:|:--|
    |^abc\$ | ^ indica início e $ indica fim da string |
    |\b \B |limite de palavra, de não palavra |

#### 2.3.3 Caracteres de Escape
|Classe |  Descrição |
|:--:|:--|
    |\\. \\* \\\ | caracteres especiais de escape |
    |\\t \\n \\r | tabulação, alimentação de linha, retorno de carro |

#### 2.3.4 Grupos e Olhar em Volta
|Classe |  Descrição |
|:--:|:--|
    |(abc)| grupo de captura |
    |\\1  | retroreferência ao grupo \#1 |
    |(?:abc)| grupo de não captura |
    |(?=abc)| olhar pra frente positiva |
    |(?!abc)| olhar pra frente negativa |

#### 2.3.5 Quantificadores e Alternância
|Classe |  Descrição |
|:--:|:--|
    |a* a+ a?| zero ou mais, um ou mais, zero ou um |
    |a{5} a{2,} | exatamente cinco, dois ou mais |
    |a{1,3}| entre um e três |
    |a+? a{2,}?| combina tão pouco quanto possível |
    |ab\|cd| combina ab ou cd|
    
Obs.:
1. Quantificadores: `+`= 1 ou mais; `*`= 0 ou mais; `?`= 0 ou 1; `{n,m}`= 'n' a 'm' repetições.

In [99]:
rap = "A raposa castanha."
print('\w\w\w   --> ', re.findall('\w\w\w',rap))     # 3 alfanuméricos
print('\w{3}    --> ', re.findall('\w{3}',rap))      # 3 alfanuméricos
print('\w{2,3}  --> ', re.findall('\w{2,3}',rap))    # prioridade para buscas das strings maiores
print('\w*      --> ', re.findall('\w*',rap))        # 0 ou mais alfanumérico
print('\w+      --> ', re.findall('\w+',rap))        # 1 ou mais alfanumérico
print('\w+\W?   --> ', re.findall('\w+\W?',rap))     # 0 ou mais alfanumérico, seguido de 0 ou 1 não alfanumérico
print('\w+\W{,1} -> ', re.findall('\w+\W{,1}',rap))  # 0 ou mais alfanumérico, seguido de 0 ou 1 não alfanumérico

\w\w\w   -->  ['rap', 'osa', 'cas', 'tan']
\w{3}    -->  ['rap', 'osa', 'cas', 'tan']
\w{2,3}  -->  ['rap', 'osa', 'cas', 'tan', 'ha']
\w*      -->  ['A', '', 'raposa', '', 'castanha', '', '']
\w+      -->  ['A', 'raposa', 'castanha']
\w+\W?   -->  ['A ', 'raposa ', 'castanha.']
\w+\W{,1} ->  ['A ', 'raposa ', 'castanha.']


#### Exemplos
Queremos combinar cada palavra da frase e colocá-la em uma lista: `The Quick Brown Fox Jumps Over The Lazy Dog`:

In [10]:
print(re.findall("\w{1,}", sentenca))      # \w - qualquer palavra com uma ou mais caracteres

['T', 'h', 'e', 'Q', 'u', 'i', 'c', 'k', 'B', 'r', 'o', 'w', 'n', 'F', 'o', 'x', 'J', 'u', 'm', 'p', 's', 'O', 'v', 'e', 'r', 'T', 'h', 'e', 'L', 'a', 'z', 'y', 'D', 'o', 'g'] ['$'] ['|']


>Traduzindo: `\w{1,}` = combine qualquer palavra com 1 ou mais caracteres, e coloque cada palavra combinada em uma lista.

Que tal se quisermos selecionar só números de telefone que estão no formato: `xxx-xxx-xxxx`?

In [23]:
print(re.findall("\d{3}-\d{3}\-\d{4}", fones))      # \w - qualquer palavra com uma ou mais caracteres

['123-456-7890', '234-567-8901', '345-678-9012', '456-789-0123']


> Decifrando o Padrão:  
`\d` = qualquer dígito  
`{3}` = exatamente três  
`\-` = selecionar hífen  
`\d` = qualquer dígito  
`{3}` = exatamente três  
`\-` = selecionar hífen  
`\d` = qualquer dígito  
`{4}` = exatamente quatro  
**Traduzindo**: `\d{3}\-\d\{3}\-\d{4}` casa com qualquer dígito com exatamente três caracteres, seguido por hífen, casa com qualquer dígito com exatamente três caracteres, seguido por hífen, casa com qualquer dígito com exatamente quatro caracteres.

## <a id="3">3. Pesquisa (Busca)</a>
Vamos usar o método `search()` (pesquisar, buscar) do módulo `re` para fazer buscas em qualquer posição da *string*. Ele retorna os índices de início/fim da ocorrência do 'padrão'  na 'string'.
**Sintaxe**:
```python
search(padrao, string, flags)     # busca 'padrao' da regex em qualquer posicao da 'string'
                                  # 'flags' permitem opções especiais
```

E o método `match()` (casar, combinar) do módulo `re` para fazer buscas somente a partir do início da *string*.  
**Sintaxe**:
```python
match(padrao, string, flags)      # busca 'padrao' da regex em qualquer posicao da 'string'
                                  # 'flags' permitem opções especiais
```
Exemplos Simples:

In [25]:
print(re.match("c","abcdef"))     # retorna 'None' pois busca apenas a partir do início da 'string'

None


In [26]:
print(re.search("c","abcdef"))    # busca em qualquer posição na 'string'

<re.Match object; span=(2, 3), match='c'>


Verificando se houve casamento do padrão na string, podemos forçar o retorno de uma constante booleana:

In [30]:
print(bool(re.match("c","abcdef")), bool(re.match("a","abcdef")))

False True


Ambos métodos só retornam o casamento para a primeira ocorrência do padrão na string:

In [35]:
print(re.match("a","abcdeaf")) 
print(re.search("c","abd\necf\ndcba")) 

<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(5, 6), match='c'>


In [54]:
pad = "abc"
seq = "abcdef"
re.search(pad,seq).group()
print(re.search(pad,seq).group(), re.search(pad,seq).start(), re.search(pad,seq).end()) 

abc 0 3


Busca pela ocorrência de mais de um caracter, por exemplo, ocorrênicia do caracter 'a' e 'd' na string:

In [58]:
print(re.search("bc","abd\necf\ndcba"))       # pesquisa o padrão 'bc' que não existe na string
print(re.search("b|c","abd\necf\ndcba"))      # pesquisa a existência de qq. um dos car.s na string
print(re.search("c|b","abd\necf\ndcba"))      # retorna sempre a primeira ocorrência, nesse caso, do 'b'

None
<re.Match object; span=(1, 2), match='b'>
<re.Match object; span=(1, 2), match='b'>


Para as situações onde se deseja verificar todas as ocorrências do padrão na string, usa-se o método `findall()`:
**Sintaxe**:
```python
findall(padrao, string, flags)    # busca 'padrao' da regex em qualquer posicao da 'string'
                                  # e retorna todas as ocorrências
```

In [60]:
print(re.findall("c|b","abd\necf\ndcba"))     # retorna uma lista de ocorrências dos caracteres 'c' e 'b'

['b', 'c', 'c', 'b']


In [62]:
print(re.findall("abcd","abcd\necnabcdefg"))  # retorna uma lista de ocorrências do padrão 'abcd'
                                              # sem informação do(s) local(is) de ocorrência(s)

['abcd', 'abcd']


### Exercício
Crie uma função para remover caracteres especiais (acentos, trema, cedilha, til etc) e substitui-los por letras básicas.

In [72]:
""" A remoção de acentos: baseada em resposta no Stack Overflow.
    http://stackoverflow.com/a/517974/3464573
"""
import unicodedata
import re

def removerAcentosECaracteresEspeciais(palavra):
    # O método 'normalize' transforma um caracter em seu equivalente latino.
    # Mais sobre formas de normalização - https://docs.python.org/3/library/unicodedata.html
    #   forma NFKD: substitui caracteres de compatibilidade por seus equivalentes
    normal = unicodedata.normalize('NFKD', palavra)   
    palavraSeca = u"".join([c for c in normal if not unicodedata.combining(c)])

    # Usa 'regex' para retornar palavra apenas com números, letras e espaços em branco
    return re.sub('[^a-zA-Z0-9 \\\]', '', palavraSeca)

print(removerAcentosECaracteresEspeciais("#Análise ambigüa... O cão, e a águia, eram só cansaço!"))

Analise ambigua O cao e a aguia eram so cansaco


### Exemplo: RE para retirar caracteres estranhos em strings

TODO: traduzir...
Remove ALL spaces in a string, even between words:

import re
sentence = re.sub(r"\s+", "", sentence, flags=re.UNICODE)
Remove spaces in the BEGINNING of a string:

import re
sentence = re.sub(r"^\s+", "", sentence, flags=re.UNICODE)
Remove spaces in the END of a string:

import re
sentence = re.sub(r"\s+$", "", sentence, flags=re.UNICODE)
Remove spaces both in the BEGINNING and in the END of a string:

import re
sentence = re.sub("^\s+|\s+$", "", sentence, flags=re.UNICODE)
Remove ONLY DUPLICATE spaces:

import re
sentence = " ".join(re.split("\s+", sentence, flags=re.UNICODE))

## Fim.
<p style="text-align:right;"><a href='../Índice.ipynb' target="_self">Volta ao Índice</a></p>

Fontes:   
1. [Regex](https://medium.com/@kennymiyasato/regular-expressions-tutorial-with-jupyter-notebooks-6d7df2429695)
2. [Unicode e UTF-8](https://www.ime.usp.br/~pf/algoritmos/apend/unicode.html)