Sistema de Busca: Encontrando padrões de texto sem usar expressões regulares:

Para exemplificar: busca de número de telefone


In [78]:
def isPhoneNumber(text):
    if len(text) != 11:
        return False
    for i in range(0,1):
        if not text[i].isdecimal():
            return False 
    if text[2] != ' ':
        return False
    for i in range(3, 10):
        if not text[i].isdecimal():
            return False
    return True
def IsANumber(message):
    for i in range(len(message)):
        Number = message[i:i+11]
        if isPhoneNumber(Number):
            return 'Number is ' + Number
    return 'No Number'
print(IsANumber('Me liga amanhã, gata, 16 33783213'))

Number is 16 33783213


O problema deste tipo de busca é a excessiva quantidade de linhas para um padrão limitado.
Se o número buscao for um número de celular, haveria 1 dígito a mais e não seria encontrado.

Sistema de Busca: Encontrando padrões de texto com expressões regulares (regex)

Com as regex, pode-se encontrar números de telefones especificando o padrão dos números pelos marcadores.

Exemplo: \d\d\d\d-\d\d\d\d

Com a biblioteca re, o objeto regex é criado pela função re.compiler()

In [79]:
import re 

PhonePattern = re.compile(r"\d\d \d\d\d\d-\d\d\d\d")

A biblioteca re fornece, também, o método de busca do objeto regex criado.

Para isto, utiliza-se a função search() com a mensagem no parâmetro.

In [80]:
Busca = PhonePattern.search('Me liga, gata, 16 3378-3213')
print('Número encontrado: ' + Busca.group())

Número encontrado: 16 3378-3213


O status da busca é obtido com .group().
Caso seja encontrado, Busca.group() retornará a string com o número de telefone
Caso não seja, será retornado um erro, tal que o 
.group() retornará none, o qual não será exibido na tela.

Exemplo de erro:

In [81]:
Busca = PhonePattern.search('16 33783213')
print('Número encontrado ' + Busca.group())

AttributeError: 'NoneType' object has no attribute 'group'

Agrupamento com parênteses:

O objeto regex pode ser separado com parênteses.

In [None]:
PhonePattern = re.compile(r'(\d\d) (\d\d\d\d-\d\d\d\d)')
Busca = PhonePattern.search('16 3378-3213')
print('Grupo 0: ' + Busca.group(0), '\nGrupo 1: ' + Busca.group(1), '\nGrupo 2: ' + Busca.group(2))

Grupo 0: 16 3378-3213 
Grupo 1: 16 
Grupo 2: 3378-3213


A utilização de parâmetro dividirá a saída nos termos do grupo, fazendo com que partes do número seja tomada separadamente.

Outra formea de armazenar os sub-grupos:

In [None]:
PhonePattern = re.compile(r'(\d\d) (\d\d\d\d-\d\d\d\d)')
Busca = PhonePattern.search('16 3378-3213')
DDD, Telefone = Busca.groups()
print(DDD + ' e ' + Telefone)

16 e 3378-3213


Caso os parênteses façam parte do padrão do número, adicionar \ antes dos parêntes.

Pipe:

Quando há necessidade de pesquisar por mais de uma string, usar o | pipe. Com isto, o search retornará a primeira correspondência.

In [None]:
import re

palavra = re.compile(r'Luiz|Gustavo')
teste = palavra.search('Luiz Gustavo')
print(teste.group())

teste2 = palavra.search('Gustavo|Luiz')
print(teste2.group())

Luiz
Gustavo


Pipe pode ser usado para encontrar parte de uma string

In [None]:
import re 

palavra = re.compile(r'Luiz( Gustavo| Vendrasco| Tacin)')
teste = palavra.search('Luiz Gustavo Vendrasco Tacin')
print(teste.group())

Luiz Gustavo


Correspondência a zero ou mais:

O operador asterisco pode ser usado para criar uma ou mais correspondência a strings

In [None]:
import re 

palavra = re.compile(r'Bat(wo)*man')
teste1 = palavra.search('Batman')
teste2 = palavra.search('Batwoman')
teste3 = palavra.search('Batwowowowowowoman')

print(teste1.group(),teste2.group(),teste3.group())

Batman Batwoman Batwowowowowowoman


Correspondência a um ou mais:

Semelhante ao operador * porém o texto entre () tem que aparecer 1 vez. Usa-se o operador +

In [None]:
import re 

palavra = re.compile(r'Tes(te)+')
teste1 = palavra.search('Testetetete')
teste2 = palavra.search('Teste')

print(teste1.group(),teste2.group())

Testetetete Teste


Correspondência a textos opcionais:

O operador ? fará busca por strings com textos presentes ou não

In [None]:
import re 

palavra = re.compile(r'Bat(wo)?man')
teste1 = palavra.search('Batman')
teste2 = palavra.search('Batwoman')
print(teste1.group(),teste2.group())

Batman Batwoman


Inserir várias repetições:

Para adicionar várias repetições, usar {}

In [None]:
import re 

palavra = re.compile(r'(Ha){3}')
teste1 = palavra.search('HaHaHa')
print(teste1.group())

HaHaHa


Correspondências greedy e nongreedy:

Por padrão, os métodos de pesquisas retornarão a string mais longas.

Isto pode ser alterado usando, na sintaxe search, greedy e nongreedy para escolher entre a string mais longa ou mais curta

In [None]:
import re 

greedyPalavra = re.compile(r'(Ha){3,5}')
teste1 = greedyPalavra.search('HaHaHaHaHa')
nongreedypalavra = re.compile(r'(Ha){3,5}?')
teste2 = nongreedypalavra.search('HaHaHaHaHa')
print(teste1.group(), teste2.group())


HaHaHaHaHa HaHaHa


Método findall():

Método search retornará 1 correspondência, enquanto findall retornará todas

In [None]:
import re 

phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
phoneNumRegex.findall('Cell: 415-555-9999 Work: 212-555-0000')

['415-555-9999', '212-555-0000']

Classes de caracteres:

Todas as abreviações possíveis para criar strings de busca

In [None]:
import pandas as pd

df = {'\d':'Qualquer dígito de 0 a 9', '\D':'Qualquer caractere que não seja um dígito de 0 a 9', '\w':'Qualquer letra, dígito ou caractere underscore','\W':'Qualquer caractere que não seja letra, dígito ou caractere underscore','s':'Qualquer espaço, tabulação ou caractere de quebra de linha','\W':'Qualuer caractere que não seja um espaço, tabulação ou quebra de linha'}
df1 = pd.DataFrame(df.items(), columns=['Regex','Descrição'])
print(df1)

  Regex                                          Descrição
0    \d                           Qualquer dígito de 0 a 9
1    \D  Qualquer caractere que não seja um dígito de 0...
2    \w     Qualquer letra, dígito ou caractere underscore
3    \W  Qualuer caractere que não seja um espaço, tabu...
4     s  Qualquer espaço, tabulação ou caractere de que...


In [None]:
import re 

palavra = re.compile(r'\d+\s\w+')
teste1 = palavra.findall('12 drummers, 11 pipers, 10 lords, 9 ladies, 8 maids, 7 swans, 6 geese, 5 rings, 4 birds, 3 hens, 2 doves, 1 partridge')
print(teste1)

['12 drummers', '11 pipers', '10 lords', '9 ladies', '8 maids', '7 swans', '6 geese', '5 rings', '4 birds', '3 hens', '2 doves', '1 partridge']


No código acima, \d+ buscará dígitos, seguidos de espaço em branco (\s), seguidos de caracteres que sejam letra,dígito ou underscore(\w+).

Criando classes de caracteres:

Para criar caracteres, deve-se inserir os tipos de caracteres dentro de [].

No código abaixo, cria-se uma classe caracteres que incluem vogais minúsculas e maiúsculas.

In [None]:
import re

classe = re.compile(r'[aeiouAEIOU]')
classe1 = re.compile(r'[a-zA-Z0-9]')
teste1 = classe.findall('TestE')
teste2 = classe1.findall('Hahua38hf8e')
print(teste1,teste2)


['e', 'E'] ['H', 'a', 'h', 'u', 'a', '3', '8', 'h', 'f', '8', 'e']


Também é possível criar ima classe de caracteres que não são incluídas. Para isto, basta adicionar ^ dentro de []

In [None]:
import re 

palavra = re.compile(r'[^aeiouAEIOU]')
teste1 = palavra.findall('TestE')
print(teste1)

['T', 's', 't']


Correspondência no fim ou início:

Para indicar correspondência que deve ocorer no início do texto, usar ^.

Para indicar correspondência que deve ocorrer no início do texto, usar $.

In [None]:
import re

palavra = re.compile(r'^Hello')
palavra2 = re.compile(r'^\d+$')

teste1 = palavra.findall('Hello World')
teste2 = palavra2.findall('42151174')

print(teste1, teste2)

['Hello'] ['42151174']


Caractere-curinga

O . corresponde a qualquer caractere, com a exceção da quebra de linha

In [None]:
import re 

palavra = re.compile(r'.at')
teste = palavra.findall('hat, sat, cat, flat, mat')
print(teste)

['hat', 'sat', 'cat', 'lat', 'mat']


Correspondendo a tudo

Quando há necessidade de buscar qualquer texto antes ou depois de outros textos. 

Este tipo de correspondência pode usar greedy e nongreedy

In [None]:
import re 

palavra = re.compile(r'Nome: (.*) Sobrenome: (.*)')
teste = palavra.search('Nome: Luiz Sobrenome: Tacin')
print(teste.group())

Nome: Luiz Sobrenome: Tacin


Correspondendo a quebra de linha com ponto:

Para corresponder a quebra de linha, adicionar re.DOTALL como segundo argumento de re.compile()

In [None]:
import re 

palavra = re.compile('.*', re.DOTALL)
teste = palavra.search('Teste1\n Teste2\n Teste3')
print(teste.group())

Teste1
 Teste2
 Teste3


Correspondências sem diferenciar letras maiúsculas e minúsculas:

Para fazer este tipo de correspondência, adicionar      
re.IGNORECASE ou re.I

In [None]:
import re

palavra = re.compile(r'TestE', re.I)
teste1 = palavra.search('tESTe')
print(teste1.group())


tESTe


Substituindo strings com sub():

A função sub() recebe a string de substituição e a expressão em que se deve fazer a substituição

In [None]:
import re 

palavra = re.compile(r'um')
teste1 = palavra.sub('UM', 'um, dois')
print(teste1)

UM, dois


Para substituir parte do texto, adicionar (w).

In [None]:
import re 

agentNamesRegex = re.compile(r'Agent (\w)\w*')
agentNamesRegex.sub(r'\1****', 'Agent Alice told Agent Carol that Agent Eve knew Agent Bob was a double agent.')

'A**** told C**** that E**** knew B**** was a double agent.'

Em strings complexas é comveniente ignorar espaços em branco e comentários usando re.VERBOSE dentro de re.compile().

In [None]:
import re

phoneRegex = re.compile(r'''(
(\d{3}|\(\d{3}\))?
# código de área
(\s|-|\.)?
# separador
\d{3}
# primeiros 3 dígitos
(\s|-|\.)
# separador
\d{4}
# últimos 4 dígitos
(\s*(ext|x|ext.)\s*\d{2,5})? # extensão
)''', re.VERBOSE)

Para usar mais de um comando, como re.I, re.DOTALL e re.VERBOSE, usar pipe |