# Aula 16 #

### 16.1: Expressões regulares ###

*Expressões regulares* são formas concisas de descrever um conjunto de strings que satisfazem um determinado padrão.


Podemos ter, por exemplo, uma string na forma dd/dd/dddd, onde d é um dígito qualquer, representando data).


Além disso, podemos ter diferentes formatos de números de telefones. Dessa maneira como interpretar essas diferentes maneiras de se escrever um número de telefone? Isto é, como reconhecer um número de telefone dado que existem diversas maneiras de escrevê-lo?

#### 16.1.1: Exemplo de RE ####

Um exemplo de expressão regular (RE) é '\d+', que representa uma sequência de 1 ou mais dígidos de números inteiros.

Como, ao utilizar expressões regulares, o caracter '\' acaba aparecendo para que ele não seja interpretado como um comando (como pular uma linha) colocamos um 'r' na frente das REs para que seja especificado uma raw string.

Portanto, a RE do exemplo fica sendo: r'\d+'

#### 16.1.2: Biblioteca re ####

Para utilizar expressões regulares, precisaremos da biblioteca **re**. Por isso iremos importá-la.




**re.search**

Uma importante função da biblioteca é a *re.search*, que basicamente busca a primeira ocorrência de uma substring especificada pela expressão regular, numa string qualquer.

Seu uso é dado da seguinte maneira:

re.search(< expressão regular >, < string >)


A saída dessa função nos dá a substring encontrada (o match) e onde ela foi encontrada (o span). Caso não haja match, a função retorna 'None'.


IMPORTANTE: re.search encontra apenas a primeira aparição da RE na string.

In [7]:
#EXEMPLO 16.1: Usando a função re.search

import re
str='Ouviram do Ipir723anga 45'
b=r'\d+'

print('str =', str)
print('b =', b)

c=re.search(b, str)
print('c = re.search(b, str) =', c)
print('c.span() =', c.span())
print('c.group() =', c.group())

str = Ouviram do Ipir723anga 45
b = \d+
c = re.search(b, str) = <re.Match object; span=(15, 18), match='723'>
c.span() = (15, 18)
c.group() = 723


**re.match**

A função re.match funciona de maneira similar a re.search, porém ela só encontra expressões regulares no começo da string.

re.match(< expressão regular >, < string >)



**re.sub**

A função re.sub substitui todas as expressões regulares por uma nova string.

re.sub( < expressão regular >, < nova string >, < string >)

In [15]:
#EXEMPLO 16.2: re.match e re.sub

import re

print("re.match")

print()
str='Ouviram do Ipir723anga 45'
b=r'\d+'
print('str =', str)
print('b =', b)

c=re.match(b, str)
print('c = re.match(b, str) =', c)

print()
str2='123456Ouviram do Ipir723anga 45'
b=r'\d+'

print()
print('str2 =', str2)
print('b =', b)

c=re.match(b, str2)
print('c = re.match(b, str2) =', c)
##################################################################
print()
print('#################################################################')
print('re.sub')

print()
str='Ouviram do Ipir723anga 45'
b=r'\d+'

print('str =', str)
print('b =', b)

c=re.sub(b, 'MU', str)
print('c = re.sub(b, "MU", str) =', c)


re.match

str = Ouviram do Ipir723anga 45
b = \d+
c = re.match(b, str) = None


str2 = 123456Ouviram do Ipir723anga 45
b = \d+
c = re.match(b, str2) = <re.Match object; span=(0, 6), match='123456'>

#################################################################
re.sub

str = Ouviram do Ipir723anga 45
b = \d+
c = re.sub(b, "MU", str) = Ouviram do IpirMUanga MU


**re.findall**

A função  re.findall retorna uma lista com todas as ocorrências da RE.


re.findall(< expressão regular >, < string >)


**re.split**

Utiliza as expressões regulares como separador.

re.split(< expressão regular >, < string >)

In [17]:
#EXEMPLO 16.3: re.findall e re.split

print('re.findall')
print()
str='Ouviram do Ipir723anga 45'
b=r'\d+'

print('str =', str)
print('b =', b)

c=re.findall(b, str)
print('c = re.findall(b, str) =', c)
print()

print('#########################################################')
print()

print('re.split')
print('str =', str)
print('b =', b)

c=re.split(b, str)
print('c = re.split(b, str) =', c)
print()

re.findall

str = Ouviram do Ipir723anga 45
b = \d+
c = re.findall(b, str) = ['723', '45']

#########################################################

re.split
str = Ouviram do Ipir723anga 45
b = \d+
c = re.split(b, str) = ['Ouviram do Ipir', 'anga ', '']



### 16.2: Compliando REs ###

É possível compilar uma RE através da função re.compile para que a procura por ela seja feita mais rapidamente. Além disso, ao compilar uma RE, através do método search podemos dizer a partir de qual posição na string queremos procurar a RE.

In [3]:
#EXEMPLO 16.4: Compilando REs

import re
str='Ouviram do Ipir723anga 45'
c=re.compile(r'\d+')

print("str =", str)
print('c=re.comile(r"\d+")')
print()

print('c.search(str) =', c.search(str))
print('c.search(str, 19)', c.search(str, 19))

str = Ouviram do Ipir723anga 45
c=re.comile(r"\d+")

c.search(str) = <re.Match object; span=(15, 18), match='723'>
c.search(str, 19) <re.Match object; span=(23, 25), match='45'>


### 16.3: Escrita de uma RE ###

Quando escrevemos uma RE, devemos saber que as letras e os números representam a si próprios.



Dessa maneira, quando usamos, por exemplo a RE *r'robertinho26'*, ela representara a substring *'robertinho26'*.



Além disso há caracteres especiais, que são usados para representar um determinado comando, assumindo uma função dentro da RE. Esses caracteres especiais estão listados abaixo.



**.**: representa qualquer caracter;

**[]**: representam uma classe de caracteres - quando utilizados o programa entende os caracteres dentro deles como possíveis alternativas para a busca da RE (por exemplo, para r'p[aã]o', há duas possibilidades de RE para a busca: pao e pão).
Além disso, se utilizarmos dentro de [] um traço, ele pode identificar um intervalo de alternativas, como por exemplo [2-6] ou [g-l];


**^**: quando utilizado no início da expressão dentro de *[]*, ele representa uma negação;


**?**: indica que o caracter que o precede pode um não aparecer;


**()**: serve para agrupar um conjunto de caracteres, podendo ser combinados com o caracter *?* por exemplo;


**+**: representa uma ou mais repetições do caractere ou grupo de caracteres imediatamente anterior;

*****: representa 0 ou mais repetições do caractere ou grupo de caracteres imediatamente anterior;


**|**: representa um *OU* de diferentes REs;

**\b**: representa um separador de palavras (espaço em branco, fim da string, pontuação, etc)

In [7]:
#EXEMPLO 16.5: Usando os caracteres especiais

#A)
print("O caracter .")
print()

r=re.compile(r'.ao')
print("r=re.compile(r'.ao')")
print("r.search("'O cao'") =", r.search('O cao'))
print("r.search("'O pao'") =", r.search('O pao'))
print("r.search("'O 9ao'") =", r.search('O 9ao'))
print("r.search("'O ao'") =", r.search('O ao'))

O caracter .

r=re.compile(r'.ao')
r.search(O cao) = <re.Match object; span=(2, 5), match='cao'>
r.search(O pao) = <re.Match object; span=(2, 5), match='pao'>
r.search(O 9ao) = <re.Match object; span=(2, 5), match='9ao'>
r.search(O ao) = <re.Match object; span=(1, 4), match=' ao'>


In [9]:
#B)
print("Os caracteres []")
print()

r=re.compile(r'p[aâã]o')
print("r=re.compile(r'p[aâã]0')")
print("r.search('O pão') =", r.search('O pão'))
print("r.search('O pâo') =", r.search('O pâo'))
print("r.search('O pao') =", r.search('O pao'))
print("r.search('O pio') =", r.search('O pio'))

Os caracteres []

r=re.compile(r'p[aâã]0')
r.search('O pão') = <re.Match object; span=(2, 5), match='pão'>
r.search('O pâo') = <re.Match object; span=(2, 5), match='pâo'>
r.search('O pao') = <re.Match object; span=(2, 5), match='pao'>
r.search('O pio') = None


In [12]:
#C)
print("O caracter ^")
print()

r=re.compile(r'ab[^1-6]')
print("r=re.compile(r'ab[^1-6]')")
print("r.search('oab89') =", r.search('oab89'))
print("r.search('oab25') =", r.search('oab25'))
print("r.search('oabCDEF') =", r.search('oabCDEF'))

O caracter ^

r=re.compile(r'ab[^1-6]')
r.search('oab89') = <re.Match object; span=(1, 4), match='ab8'>
r.search('oab25') = None
r.search('oabCDEF') = <re.Match object; span=(1, 4), match='abC'>


In [18]:
#D)
print("O caracter '?'")
print()

r=re.compile(r'ab?c')
print("r=re.compile(r'ab?c')")
print("r.search('abc') =", r.search('abc'))
print("r.search('ac') =", r.search('ac'))

O caracter '?'

r=re.compile(r'ab?c')
r.search('abc') = <re.Match object; span=(0, 3), match='abc'>
r.search('ac') = <re.Match object; span=(0, 2), match='ac'>


In [23]:
#E)
print("Os caracteres ()")
print()

r=re.compile(r'Fev(ereiro)? (de)? ?2016')
print("r=re.compile(r'Fev(ereiro)? (de)? ?2016')")
print("r.search('Fevereiro 2016') =", r.search('Fevereiro 2016'))
print("r.search('Fev 2016') =", r.search('Fev 2016'))
print("r.search('Fevereiro de 2016') =", r.search('Fevereiro de 2016'))

Os caracteres ()

r=re.compile(r'Fev(ereiro)? (de)? ?2016')
r.search('Fevereiro 2016') = <re.Match object; span=(0, 14), match='Fevereiro 2016'>
r.search('Fev 2016') = <re.Match object; span=(0, 8), match='Fev 2016'>
r.search('Fevereiro de 2016') = <re.Match object; span=(0, 17), match='Fevereiro de 2016'>


In [28]:
#F)
print("Os caracteres + e *")
print()

r=re.compile(r'abc(de)+')
print("r=re.compile(r'abc(de)+')")
print("r.search('abc') =", r.search('abc'))
print("r.search('abcdede') =", r.search('abcde'))
print()

r=re.compile(r'abc(de)*')
print("r=re.comile(r'abc(de)*')")
print("r.search('abc') =", r.search('abc'))
print("r.search('abcdedede') =", r.search('abcdede'))

Os caracteres + e *

r=re.compile(r'abc(de)+')
r.search('abc') = None
r.search('abcdede') = <re.Match object; span=(0, 5), match='abcde'>

r=re.comile(r'abc(de)*')
r.search('abc') = <re.Match object; span=(0, 3), match='abc'>
r.search('abcdedede') = <re.Match object; span=(0, 7), match='abcdede'>


In [37]:
#G)
print("O caracter "+r'\b')
print()

r=re.compile(r'casa')
print("r=re.compile(r'casa')")
print("r.search('a casa') =", r.search('a casa'))
print("r.search('casamento') =", r.search('casamento'))
print()

r=re.compile(r'\bcasa\b')
print("r=re.compile(" + r'\bcasa\b)')
print("r.search('a casa') =", r.search('a casa'))
print("r.search('casamento') =", r.search('casamento'))

O caracter \b

r=re.compile(r'casa')
r.search('a casa') = <re.Match object; span=(2, 6), match='casa'>
r.search('casamento') = <re.Match object; span=(0, 4), match='casa'>

r=re.compile(\bcasa\b)
r.search('a casa') = <re.Match object; span=(2, 6), match='casa'>
r.search('casamento') = None


In [8]:
#EXEMPLO 16.6: Buscando um email
import re

print("Buscando um email")
#email: sequência de caracteres alfanuméricos '\w+' separados por @
print()

r=re.compile(r'\w+@\w+')
print("r=re.compile(r'\w+@\w+')")
print("r.search('blablabla bla abc@gmail.com blablabla') = ", r.search('blablabla bla abc@gmail.com blablabla'))
print("note que faltou o '.com'")
print()

r=re.compile(r'\w+@\w+\.\w+')
print("r=re.compile(r'\w+@\w+\.\w+')")
print('o caracter '+ r'"\." representa o ponto mesmo e não o caracter especial .' )
print("r.search('blablabla bla abc@gmail.com blablabla') = ", r.search('blablabla bla abc@gmail.com blablabla'))
print()

print("r.search('blablabla bla abc@gmail.com.br blablabla') = ", r.search('blablabla bla abc@gmail.com.br blablabla'))
print("note que o '.br' não foi reconhecido")
print()

r=re.compile(r'\w+@\w+\.\w+(\.\w+)?')
print("r=re.compile(r'\w+@\w+\.\w+(\.\w+)?')")
print("r.search('blablabla bla abc@gmail.com.br blablabla') = ", r.search('blablabla bla abc@gmail.com.br blablabla'))

Buscando um email

r=re.compile(r'\w+@\w+')
r.search('blablabla bla abc@gmail.com blablabla') =  <re.Match object; span=(14, 23), match='abc@gmail'>
note que faltou o '.com'

r=re.compile(r'\w+@\w+\.\w+')
o caracter "\." representa o ponto mesmo e não o caracter especial .
r.search('blablabla bla abc@gmail.com blablabla') =  <re.Match object; span=(14, 27), match='abc@gmail.com'>

r.search('blablabla bla abc@gmail.com.br blablabla') =  <re.Match object; span=(14, 27), match='abc@gmail.com'>
note que o '.br' não foi reconhecido

r=re.compile(r'\w+@\w+\.\w+(\.\w+)?')
r.search('blablabla bla abc@gmail.com.br blablabla') =  <re.Match object; span=(14, 30), match='abc@gmail.com.br'>
