# Usando Expressões regulares

Para usar as expressões regulares, é preciso primeiro importar o módulo `re`.

In [3]:
import re

In [4]:
def print_x(x):
    """Função acessória, usada nesse notebook, para demonstrar o resultado das pesquisas"""

    if x:
        print("Correspondência encontrada")
        print(f"x = {x}")
    else:
        print("Correspondência não encontrada")

# Meta caracteres

`[]` - indica um conjunto de caracteres, ou seja, qualquer um dos caracteres indicados dentro do colchete.

In [5]:
# Encontre todos o caracteres minúsculos entre "a" e "m".
txt = "The rain in Spain"
x = re.findall("[a-m]", txt)
print_x(x)


Correspondência encontrada
x = ['h', 'e', 'a', 'i', 'i', 'a', 'i']


In [6]:
# Encontre todos os caracteres 'ghijklmn' existentes no texto. Qualquer um dos 
# caracteres.
txt = "The rain in Spain"
x = re.findall("[pqrstuvxz]", txt)
print_x(x)

Correspondência encontrada
x = ['r', 'p']


`\` - indica uma sequência especial.

In [65]:
# Encontra todos os caracteres numéricos.
txt = "That will be 59 dollars"
x = re.findall("\d", txt)
print_x(x)

Correspondência encontrada
x = ['5', '9']


`.` - indica qualquer caracter (exceto caracter de nova linha)

In [80]:
# Busca uma sequência que começa com "he", seguida de 2 caracteres e um "o". Cada 
# ponto representa apenas UM caractere naquela posição
txt = "hello world, my little hacko friends 2loan4 and 4s7zy5 helllll7llllo ho h_o h-o!"
x = re.findall("h...o", txt)
y = re.findall("h\w*o", txt)
print_x(x)
print_x(y)

Correspondência encontrada
x = ['hello', 'hacko']
Correspondência encontrada
x = ['hello', 'hacko', 'helllll7llllo', 'ho', 'h_o']


In [9]:
# Busca uma sequência que começa com um número, tem 4 caracteres e termina com 
# um número
txt = "hello world, my little friends 2loan4 and 4s7zy5!"
x = re.findall("\d....\d", txt)
print_x(x)

Correspondência encontrada
x = ['2loan4', '4s7zy5']


`^` - verifica o início da string

In [70]:
# Verifica se a string começa com 'hello'
txt = "hello world hello bananas!"
x = re.findall(r"^hello", txt)
print_x(x)

Correspondência encontrada
x = ['hello']


`$` - verifica o fim da string

In [71]:
# Verifica se a string termina com o texto 'world'
txt = "hello world"

x = re.findall("world$", txt)
print_x(x)

Correspondência encontrada
x = ['world']


`*` - indica zero ou mais ocorrências

In [72]:
# Verifica se a string contém "ai" seguido de ZERO ou mais ocorrências do 
# caracter "x". 
txt = "The rain in Spain falls mainly in the plain!"
x = re.findall("aix*", txt)
print_x(x)

Correspondência encontrada
x = ['ai', 'ai', 'ai', 'ai']


In [13]:
# Verifica se a string contém "ai" seguido de ZERO ou mais ocorrências do 
# caracter "x". 
txt = "The rain in Spaixxn falls maixxxxxnly in the plaixxx!"
x = re.findall("aix*", txt)
print_x(x)

Correspondência encontrada
x = ['ai', 'aixx', 'aixxxxx', 'aixxx']


`+` - indica UMA ou mais ocorrências

In [14]:
# Verifica se a string contém "ai" seguido de UMA ou mais ocorrências do 
# caracter "x". 
txt = "The rain in Spain falls mainly in the plain!"
x = re.findall("aix+", txt)
print_x(x)

Correspondência não encontrada


In [15]:
# Verifica se a string contém "ai" seguido de UMA ou mais ocorrências do 
# caracter "x".
txt = "The rain in Spaixxn falls maixxxxxnly in the plaixxx!"
x = re.findall("aix+", txt)
print_x(x)

Correspondência encontrada
x = ['aixx', 'aixxxxx', 'aixxx']


`{}` - indica um número exato de ocorrências

In [16]:
# Verifica se a string contém a letra "a", seguida por EXATAMENTE 2 caracteres "l"
txt = "The rain in Spain falls mainly in the plain!"
x = re.findall("al{2}", txt)
print_x(x)

Correspondência encontrada
x = ['all']


`|` - indica uma condição 'ou", ou seja, qualquer uma das opções satisfaz a condição

In [17]:
# Verifica se a string contém ou a string "falls", ou a string "stays"
txt = "The rain in Spain falls mainly in the plain!"
x = re.findall("falls|stays", txt)
print_x(x)

Correspondência encontrada
x = ['falls']


`()` - captura um grupo, ou seja, uma parte da string

In [18]:
txt = "34-99183-0215"

x = re.findall('(\d{2})-(\d{4,5})-(\d{4})', txt)
print(x)

y = re.findall('\d{2}-\d{4,5}-\d{4}', txt)
print(y)

z = re.search('(\d{2})-(\d{4,5})-(\d{4})', txt)
print(z)

[('34', '99183', '0215')]
['34-99183-0215']
<re.Match object; span=(0, 13), match='34-99183-0215'>


# Sequências especiais

`\A` - Retorna uma correspondência se os caracteres especificados estiverem no início da string

In [19]:
# Verifica se a string começa com "The".
txt = "The rain in Spain"
x = re.findall("\AThe", txt)
print_x(x)

Correspondência encontrada
x = ['The']


`\b` - Retorna uma correspondência onde os caracteres especificados estão no início ou no final de uma palavra

In [20]:
# Verifica se "ain" está presente no começo de uma PALAVRA.
txt = "The rain in Spain"
x = re.findall(r"\bain", txt)
print_x(x)

Correspondência não encontrada


In [21]:
# Verifica se "hell" está presente no começo de uma PALAVRA.
txt = "hello world, hello universe"
x = re.findall(r"\bhell", txt)
print_x(x)

Correspondência encontrada
x = ['hell', 'hell']


In [22]:
# Verifica se "ain" está presente no fim de uma PALAVRA.
txt = "The rain in Spain"
x = re.findall(r"ain\b", txt)
print_x(x)

Correspondência encontrada
x = ['ain', 'ain']


`\B` - Retorna uma correspondência onde os caracteres especificados estão presentes, mas NÃO no início (ou no final) de uma palavra

In [23]:
# Verifique se "ain" está presente, mas NÃO no início de uma palavra.
txt = "The rain in Spain ain't não sei o que por aqui."
x = re.findall(r"\Bain", txt)
print_x(x)

Correspondência encontrada
x = ['ain', 'ain']


In [24]:
# Verifique se "ain" está presente, mas NÃO no fim de uma palavra.
txt = "The rain in Spain"
x = re.findall(r"ain\B", txt)
print_x(x)

Correspondência não encontrada


`\d` - Retorna uma correspondência em que a string contém dígitos (números de 0 a 9)

In [25]:
# Verifique se a string contém algum dígito (números de 0 a 9).
txt = "The rain in Spain"
x = re.findall("\d", txt)
print_x(x)

Correspondência não encontrada


In [26]:
# Verifique se a string contém algum dígito (números de 0 a 9).
txt = "The 44 rain in 33"
x = re.findall("\d", txt)
print_x(x)

Correspondência encontrada
x = ['4', '4', '3', '3']


In [27]:
# Verifique se a string contém alguma sequência com ZERO ou mais dígitos
# (números de 0 a 9). Observe que cada caracter não numérico aparece no
# resultado como um caracter vazio.
txt = "1 abcs 22 333 b4444 55555"
x = re.findall("\d*", txt)
print_x(x)

Correspondência encontrada
x = ['1', '', '', '', '', '', '', '22', '', '333', '', '', '4444', '', '55555', '']


In [28]:
# Verifique se a string contém alguma sequência com UM ou mais dígitos
# (números de 0 a 9).
txt = "1 abcs 22 333 b4444 55555"
x = re.findall("\d+", txt)
print_x(x)

Correspondência encontrada
x = ['1', '22', '333', '4444', '55555']


`\D` - Retorna uma correspondência em que a string NÃO contém dígitos

In [29]:
# Retornma uma correspondência em cada caracter não numérico.
txt = "The rain in Spain"
x = re.findall("\D", txt)
print_x(x)

Correspondência encontrada
x = ['T', 'h', 'e', ' ', 'r', 'a', 'i', 'n', ' ', 'i', 'n', ' ', 'S', 'p', 'a', 'i', 'n']


In [30]:
# Retornma uma correspondência em cada caracter não numérico.
txt = "1 abcs 22 333 b4444 55555"
x = re.findall("\D", txt)
print_x(x)

Correspondência encontrada
x = [' ', 'a', 'b', 'c', 's', ' ', ' ', ' ', 'b', ' ']


`\s` - Retorna uma correspondência onde a string contém um caractere de espaço em branco

In [31]:
# Retorna uma correspondência a cada caracter de espaço encontrado.
txt = "The rain in Spain"
x = re.findall("\s", txt)
print_x(x)

Correspondência encontrada
x = [' ', ' ', ' ']


In [32]:
# Retorna uma correspondência a cada caracter de espaço encontrado.
# Caracteres como "\r", "\t" e "\n" também são considerados como
# caracteres de espaço.
txt="\r\tThe rain\ninSpan"
x = re.findall("\s", txt)
print_x(x)

Correspondência encontrada
x = ['\r', '\t', ' ', '\n']


`\S` - Retorna uma correspondência onde a string NÃO contém um caractere de espaço em branco

In [33]:
# Retorna uma correspondência a cada caracter DIFERENTE de 
# espaço(' ', '\t', '\r','\n', etc).
txt = "The rain in Spain"
x = re.findall("\S", txt)
print_x(x)

Correspondência encontrada
x = ['T', 'h', 'e', 'r', 'a', 'i', 'n', 'i', 'n', 'S', 'p', 'a', 'i', 'n']


`\w` - Retorna uma correspondência em que a string contém quaisquer caracteres alfanuméricos. Caracteres alfanuméricos são os caracteres de 'a' a 'Z', dígitos de 0-9 e o caractere sublinhado '_'.


In [34]:
# Retorne uma correspondência para cada caractere alfanumérico. 
txt = "_The rain in Spain_"
x = re.findall("\w", txt)
print_x(x)

Correspondência encontrada
x = ['_', 'T', 'h', 'e', 'r', 'a', 'i', 'n', 'i', 'n', 'S', 'p', 'a', 'i', 'n', '_']


`\W` - Retorna uma correspondência em que a string NÃO contém nenhum caractere de palavra

Return a match at every NON word character (characters NOT between a and Z. Like "!", "?" white-space etc.):

In [35]:
# Retorne uma correspondência para cada caractere de NÃO alfanuméricos, 
# como "!", "?", espaço em branco, etc.
txt = "The rain in Spain 33"
x = re.findall("\W", txt)
print_x(x)

Correspondência encontrada
x = [' ', ' ', ' ', ' ']


`\Z` - Retorna uma correspondência se os caracteres especificados estiverem no final da string

In [36]:
# Verifica se a string termina com "Spain".
txt = "The rain in Spain"
x = re.findall("Spain\Z", txt)
print_x(x)

Correspondência encontrada
x = ['Spain']


# Conjuntos

Um conjunto (set) é um conjunto de caracteres dentro de um par de colchetes `[]`, o que pode ter um significado especial:    

`[arn]` - Retorna uma correspondência onde um dos caracteres especificados ('a','r' ou 'n') está presente.


In [37]:
# Verifica se a string tem qualquer um dos 3 caracteres especificados, ou seja, 
# a, r, ou n.
txt = "The rain in Spain"
x = re.findall("[arn]", txt)
print_x(x)

Correspondência encontrada
x = ['r', 'a', 'n', 'n', 'a', 'n']


`[a-n]` - Retorna uma correspondência para qualquer caractere minúsculo entre 'a' e 'n'.

In [38]:
# Verifica se a string tem qualquer um dos caracteres entre as letras a e n.
txt = "The rain in Spain"
x = re.findall("[a-n]", txt)
print_x(x)

Correspondência encontrada
x = ['h', 'e', 'a', 'i', 'n', 'i', 'n', 'a', 'i', 'n']


`[^ arn]` - Retorna uma correspondência para qualquer caractere EXCETO 'a', 'r' e 'n'

In [39]:
# Verifica se a string tem qualquer caracter que não seja a, r ou n.
txt = "The rain in Spain"
x = re.findall("[^arn]", txt)
print_x(x)

Correspondência encontrada
x = ['T', 'h', 'e', ' ', 'i', ' ', 'i', ' ', 'S', 'p', 'i']


`[0123]` - Retorna uma correspondência onde qualquer um dos dígitos especificados (0, 1, 2 ou 3) estão presentes

In [40]:
# Verifica se a string tem qualquer um dos dígitos 0, 1, 2, ou 3.
txt = "The rain in Spain"
x = re.findall("[0123]", txt)
print_x(x)

Correspondência não encontrada


In [41]:
# Verifica se a string tem qualquer um dos dígitos 0, 1, 2, ou 3.
txt = "The 25rain in 34Spain"
x = re.findall("[0123]", txt)
print_x(x)

Correspondência encontrada
x = ['2', '3']


`[0-9]` - Retorna uma correspondência para qualquer dígito entre 0 e 9

In [42]:
# Verifique se a string tem algum dígito.
txt = "8 times before 11:45 AM"
x = re.findall("[0-9]", txt)
print_x(x)

Correspondência encontrada
x = ['8', '1', '1', '4', '5']


`[0-5][0-9]` Retorna uma correspondência para qualquer número de dois dígitos de 00 e 59

In [43]:
# Verifica se a string tem algum número de dois dígitos, de 00 a 59.
txt = "8 times before 11:45 AM"
x = re.findall("[0-5][0-9]", txt)
print_x(x)

Correspondência encontrada
x = ['11', '45']


`[a-zA-Z]` - Retorna uma correspondência para qualquer caractere alfabeticamente entre a e z, minúsculas OU maiúsculas

In [44]:
# Verifica se a string tem qualquer um dos caracteres entre a e z 
# (letras minúsculas), ou entre A e Z (letras maiúsculas).
txt = "8 times before 11:45 AM"
x = re.findall("[a-zA-Z]", txt)
print_x(x)

Correspondência encontrada
x = ['t', 'i', 'm', 'e', 's', 'b', 'e', 'f', 'o', 'r', 'e', 'A', 'M']


`[+]` - Em conjuntos, `+`, `*`, `.`, `|`, `()`, `$`, `{}` não tem nenhum significado especial, então `[+]` significa: retorna uma correspondência para qualquer caractere `+` na string

In [45]:
# Verifica se a string tem qualquer caracter +
txt = "8 times before 11:45 AM"
x = re.findall("[+]", txt)
print_x(x)

Correspondência não encontrada


In [46]:
# Verifica se a string tem qualquer caracter +
txt = "8 times before +11:45+ AM"
x = re.findall("[+]", txt)
print_x(x)

Correspondência encontrada
x = ['+', '+']


# Funções

## findall()

A função `findall()` retorna uma lista contendo todas as correspondências. 

In [47]:
txt = "The rain in Spain"
x = re.findall("ai", txt)
print_x(x)

Correspondência encontrada
x = ['ai', 'ai']


A lista contém as correspondências na ordem em que são encontradas. Se nenhuma correspondência for encontrada, uma lista vazia será retornada:

In [48]:
txt = "The rain in Spain"
x = re.findall("Portugal", txt)
print_x(x)

Correspondência não encontrada


## split()

A função `split()` retorna uma lista onde a string foi dividida em cada correspondência:

In [49]:
txt = "The rain in Spain"
x = re.split("\s", txt)
print_x(x)

Correspondência encontrada
x = ['The', 'rain', 'in', 'Spain']


Você pode controlar o número de ocorrências especificando o parâmetro `maxsplit`:

In [50]:
txt = "The rain in Spain"
x = re.split("\s", txt, 1)
print_x(x)

Correspondência encontrada
x = ['The', 'rain in Spain']


## sub()

A função `sub()` substitui as correspondências pelo texto de sua escolha:

In [51]:
txt = "The rain in Spain"
x = re.sub("\s", "9", txt)
print_x(x)

Correspondência encontrada
x = The9rain9in9Spain


In [52]:
txt = "The rain in Spain"
x = re.sub("ain", "ão", txt)
print_x(x)

Correspondência encontrada
x = The rão in Spão


Você pode controlar o número de substituições, especificando o parâmetro  `count`:


In [53]:
# Substitui apenas as 2 primeiras ocorrências
txt = "The rain in Spain"
x = re.sub("\s", "9", txt, 2)
print(x)

The9rain9in Spain


## search()

A função `search()` pesquisa a string por uma correspondência e retorna um objeto `Match` se houver uma correspondência.

Se houver mais de uma correspondência, apenas a primeira ocorrência da correspondência será retornada.

In [54]:
txt = "The rain in Spain"
x = re.search("\s", txt)
print("O primeiro caracter de espaço está localizado na posição:", x.start())

O primeiro caracter de espaço está localizado na posição: 3


Se nenhuma correspondência for encontrada, o valor `None` será retornado:

In [55]:
txt = "The rain in Spain"
x = re.search("Portugal", txt)
print(x)

None


Objeto Match

Um objeto `Match` é um objeto que contém informações sobre a pesquisa e o resultado. Lembrando que se não houver correspondência, o valor `None` será retornado, em vez do objeto `Match`.

In [56]:
txt = "The rain in Spain"
x = re.search("ai", txt)
print(x)

<re.Match object; span=(5, 7), match='ai'>


O objeto Match possui propriedades e métodos usados ​​para recuperar informações sobre a pesquisa e o resultado:

- `.span()` - retorna uma tupla contendo as posições inicial e final da correspondência.
- `.string` - retorna a string passada para a função
- `.group()` - retorna a parte da string onde havia uma correspondência




In [57]:
# Imprime a posição (inicial e final) da primeira ocorrência de 
# correspondência. A expressão regular procura por qualquer palavra 
# que comece com um "S" maiúsculo.
txt = "The rain in Spain"
x = re.search(r"\bS\w+", txt)
print(x.span())

(12, 17)


In [58]:
# Imprima a string passada para a função.
txt = "The rain in Spain"
x = re.search(r"\bS\w+", txt)
print(x.string)

The rain in Spain


In [59]:
# Imprima a parte da string onde houve uma correspondência.
# A expressão regular procura por qualquer palavra que comece com um "S" maiúsculo.
txt = "The rain in Spain"
x = re.search(r"\bS\w+", txt)
print(x.group())

Spain
