# O que são Expressões Regulares?

Regex é um conjunto de caracteres que define um padrão a ser procurado (correspondido, casado) dentro de uma string ou um texto. É uma técnica para procurar, de forma específica, um padrão. Praticamente toda linguagem de programação atual oferece manipulação de Expressões Regulares.
<br>
Cada caractere no REGEX pode ser um caractere especial (*metacaractere*), com um determinado significado, ou um caractere regular que representa um caractere literal. Por exemplo, no padrão **```a.```**, **`a`** é um caractere literal que corresponde à letra 'a', enquanto **`.`** é um *metacaractere* que corresponde a qualquer caractere, exceto uma nova linha.
<br>



### Caracteres especiais:
No REGEX, os caracteres especiais são:

```[ ] . ^ $ * + ? { } \ | ( )```

#### Definições:
- Classes de caracteres

`[ ]` - Corresponde à uma classe de caracteres, podendo também ser uma sequência.  
Ex.: ```[a-z]``` corresponde à qualquer letra minúscula do alfabeto.  
Observação: Metacaracteres não têm significado especial dentro de uma classe, ou seja, ```[abe.$]``` vai corresponder à 'a',  'b', 'e', '.' ou '$' em uma determinada string.  
  
`^` - Possui dois significados, dependendo da posição em que é utilizado. Quando utilizado na primeira posição de uma classe,   representa uma "negação".  
Ex.: `[^5]` representa qualquer caractere, exceto '5'.   
Quando utilizado em outra posição, não possui significado especial.  
Ex.: `[5^]` representa '5' ou '^'.  
Este caractere, quando fora de uma classe, também representa o início de uma string.

`.` - Representa qualquer caractere, exceto uma nova linha.

`\` - É, talvez, o mais importante. Pode ser seguido de vários caracteres para representar diferentes sequências especias. Também pode ser usado para "escapar" qualquer metacracter, para que possam ser representados de forma literal.  


`\d` - Representa qualquer número decimal.  
`\D` - Representa qualquer caractere diferente de um número decimal.  
`\w` - Representa qualquer caractere alfanumérico e _.  
`\W` - Representa qualquer caractere diferente de alfanumérico e _.  
`\s` - Representa qualquer espaço vazio.  
`\S` - Representa qualquer caractere diferente de espaço vazio.  
`\b` - Representa a borda de um padrão.
    

- Qualificadores:

`*` - Corresponde à 0 ou mais repetições do padrão que o antecede, o tanto quanto possível. 
Ex.: `ab*`

`+` - Corresponde à 1 ou mais repetições do padrão que o antecede. 
Ex.: `ab+`

`?` - Corresponde à 0 ou mais repetições do padrão que o antecede. 
Ex.: `ab?`

`{m}` - Corresponde à exatamente 'm' repetições do padrão que o antecede.

`{m,n}` - Corresponde de 'm' à 'n' repetições, procurando o máximo de repetições possíveis.

`|` - Corresponde à expressão anterior ou posterior a este caractere. Caso a primeira expressão seja encontrada, a segunda não será avaliada. Ex.: `a|b` 
- Grupos:
 
`( )` - Representam o início e fim de um grupo, correspondendo qualquer expressão dentro dos parênteses.

## MÓDULO PYTHON PARA REGEX (Expressões Regulares)


O módulo do Python que usamos para trabalhar com as Expressões Regulares é o __re__. Sua documentação oficial fica em: https://docs.python.org/3/library/re.html. Ele vem pré instalado com o Python.<br>
Existe também um outro módulo, criado pela comunidade Python (Matthew Barnett), chamado __regex__, que apesar de sua documentação acusar que o mesmo oferece funcionalidades adicionais, não é o oficial. A documentação do módulo __regex__ fica em: https://pypi.org/project/regex/.
<br>
<br>
Neste documento vamos ver como usar o módulo padrão do Python: __re__.
<br>
<br>

## Métodos do módulo __re__.

### re.search
O método $search$ retorna a primeira correspondência encontrada.<br>

Os argumentos do método search são:<br>
- pattern: padrão a ser procurado;<br>
- string: onde deve ser procurado;<br>
- flags: são os modificadores, que veremos mais a frente.<br>
 
A sintaxe é:   foo = re.search($pattern, string, flags$).<br>

O retorno do método search é um objeto do tipo match. Esse objeto terá o valor booleano igual __True__ caso o padrão seja encontrado (correspondido, casado). Caso a correspôndencia não seja satisfeita, retorna __None__. Com isso podemos testar o objeto e fazer o tratamento desejado.

In [1]:
#buscando a string 'carro'
import re

txt = "O carro é azul."
padrao = "carro"
x = re.search(padrao, txt) 

if (x):
    print("O padrão " + padrao + " foi encontrado.")
else:
    print("O padrão procurado não foi encontrado.")

O padrão carro foi encontrado.


In [2]:
import re

txt = "Otorrinolaringologia é uma especialidade médica."
x = re.search(r"\s", txt) # \s retorna uma correspondência onde a string contém um espaço

print("O primeiro espaço está localizado na posição:", x.start())

O primeiro espaço está localizado na posição: 20


<br>
<br>
 
### re.findall 
O método $findall$ retorna uma lista contendo todas as correspondências. Caso não exista correspondência, a lista retornada é vazia.<br>

Os argumentos do método findall são:

- pattern: padrão a ser procurado;
- string: onde deve ser procurado;
- flags: são os modificadores, que veremos mais a frente.

A sintaxe é: foo = re.findall($𝑝𝑎𝑡𝑡𝑒𝑟𝑛,𝑠𝑡𝑟𝑖𝑛𝑔,𝑓𝑙𝑎𝑔𝑠$).

In [7]:
import re
x = []
with open('texto1.txt', 'r', encoding='latin') as arq:
    linhas = arq.readlines()

for linha in linhas:
    #retorna uma lista contendo as palavras "para" e "de"
    x = x + re.findall('para|de', linha)

print("Numero de palavras \"de\": %d " % x.count('de'))
print("Numero de palavras \"para\": %d" % x.count('para'))
x = []

Numero de palavras "de": 19 
Numero de palavras "para": 4


In [8]:
#buscando a string 'carro'
import re

txt = "A frase contém: CaRrO car carr carroo acarro carro."

#monta uma lista com a palavra carro na string.
#a sequencia especial \b significa a delimitacao da palavra carro
#A flag r.IGNORECASE (ou r.I) liga o case insensitive, ou seja, não importa se as letras forem maiúsculas ou minúsculas.
x = re.findall(r"carro", txt, re.IGNORECASE) 
x

['CaRrO', 'carro', 'carro', 'carro']

In [11]:
#buscando a string 'benção' e os erros ortográficos mais comuns
import re

txt = "A frase contém: benção bencão bensão benssão bençao bencao bensao benssao "

#monta uma lista com as variantes incorretas da palavra benção
#a sequencia especial \b significa a delimitacao da palavra carro
#a sequencia especial \w: qualquer caracter ou dígito
#o caracter especial +: uma ou mais letras (\w)
#a montagem do string fica \b + ben + \w + o + \b
#A flag r.IGNORECASE (ou r.I) liga o case insensitive, ou seja, não importa se as letras forem maiúsculas ou minúsculas.
x = re.findall(r"\bben\w+o\b", txt, re.IGNORECASE) 
print(x)

['benção', 'bencão', 'bensão', 'benssão', 'bençao', 'bencao', 'bensao', 'benssao']


<br>
<br>

### re.sub
O método $sub$ substitui as correspondências com o padrão desejado.

Os argumentos do método sub são:

- pattern: padrão a ser procurado;<br>
- string: onde deve ser procurado;<br>
- flags: são os modificadores, que veremos mais a frente.<br>

A sintaxe é: bar = re.sub(𝑝𝑎𝑡𝑡𝑒𝑟𝑛,𝑠𝑡𝑟𝑖𝑛𝑔,𝑓𝑙𝑎𝑔𝑠).

In [12]:
import re

str = "The rain in Spain"
#substitui todas as vogais por X
x = re.sub("[aeiou]", "X", str)
print(x)

ThX rXXn Xn SpXXn


In [13]:
import re

str = "The rain in Spain"
#substitui todas as não vogais (consoantes) por 0.
x = re.sub("[^aeiou\s]", "0", str)
print(x)

00e 0ai0 i0 00ai0


In [14]:
import re

str = "The rain in Spain"
#substitui todas as vogais por 1 e todas as não vogais (consoantes) por 0
x = re.sub("[aeiou]", "1", re.sub("[^aeiou\s]", "0", str))
print(x)

001 0110 10 00110


<br>
<br>

### re.split
O método $split$ divide a string (texto) pela ocorrência do padrão.

Os argumentos do método split são:

- pattern: padrão a ser procurado;<br>
- string: onde deve ser procurado;<br>
- flags: são os modificadores, que veremos mais a frente.<br>

A sintaxe é: bar = re.split($𝑝𝑎𝑡𝑡𝑒𝑟𝑛,𝑠𝑡𝑟𝑖𝑛𝑔,𝑓𝑙𝑎𝑔𝑠$).

In [15]:
import re

str = "The rain in Spain"
#separa a frase em uma lista usando como delimitador o espaço (\s) entre as palavras
x = re.split(r"\s", str)
print(x)

['The', 'rain', 'in', 'Spain']


In [16]:
#validação de número cde telefone com REGEX
import re

txt = "(99) 91111-1234"

x = re.findall(r"^\([1-9]{2}\) (?:[2-8]|9[1-9])[0-9]{3}\-[0-9]{4}$|^\([1-9]{2}\)(?:[2-8]|9[1-9])[0-9]{3}\-[0-9]{4}$", txt)
if (len(x)!=0):
    print("O telefone " + x[0] + " é válido")
else:
    print("O número não é válido.")


O telefone (99) 91111-1234 é válido


<br>
<br>

### Referências

http://www.devfuria.com.br/python/regex/<br>
http://www.devfuria.com.br/regex/metacaracteres/<br>
https://docs.python.org/3/library/re.html<br>
https://www.w3schools.com/python/python_regex.asp<br>

### Sites úteis
https://www.debuggex.com/<br>
https://regexr.com/<br>
https://regex101.com/