Vamos aprender um pouco sobre correspondencia de padroes em strings usando Regex. Regex sao escritas em um formato condensado. Em geral, podemos pensar em um regex como um padrao que fornecemos a um processador regex com algum tipo de dado. Entao, o processador passa esse dado usando um padrao, e retorna algum texto para manipulacao.
Algumas razoes para utilizarmos regex:
- Checar se um padrao existe em uma fonte de dado;
- Para obter as instancias de um padrao complexo de alguns dados;
- Limpar alguns dados usando o padrao, a partir de string splitting.<br>
<br>Regex eh fundamental para limpeza de dados

In [1]:
# Importando o re
import re

In [2]:
# match() verifica se uma correspondencia de padrao esta no inicio da string e retorna um booleano.
# search() verifica se uma correspondencia de padrao esta em qualquer lugar na string e retorna um booleano.
text = 'Hoje esta chovendo em Porto Alegre'

# Verificar se eh um dia chuvoso.
if re.search('chov', text): # primeiro parametro
    print('Fique em casa.')
else:
    print('Faca um passeio.')

Fique em casa.


In [3]:
# Eh possivel realizar tockenizacao, ou seja, quebrar uma string em pedacos.
text = 'Diogo dorme cedo. Diogo estuda. Diogo le livros. Diogo bebe chimarrao.'

# Vamos quebrar essa sentenca em framentos usando a funcao "split()".
print(re.split('Diogo', text))

# Se quisermos contar quantas vezes o nome "Diogo" foi citado, podemos usar a funcao "findall()"
re.findall('Diogo', text)

['', ' dorme cedo. ', ' estuda. ', ' le livros. ', ' bebe chimarrao.']


['Diogo', 'Diogo', 'Diogo', 'Diogo']

In [4]:
# Ate agora vimos o basico sobre regex. Vamos avancar um pouco agora para padroes mais complexos.
# Existem algumas especificacoes padrao no regex, como os Anchors.
# Anchors especificam o inicio e/ou final de uma string que estamos tentando encontrar a correspondencia.
# O caracter "^" significa inicio, enquanto o caracter "$" significa o fim. Se colocarmos "^" depois de uma string, significa
# que o texto que sera retornado pelo processador regex precisa COMECAR com a string que especificamos.
# Para o final, precisamos colocar o sinal de "$", que significa que o texto retornado pelo processador regex precisa
# TERMINAR com a string que especificamos.

# Ex:
text = 'Diogo dorme cedo. Diogo le livros. Diogo bebe chimarrao. Para aprimorar suas habilidades, Diogo estuda.'

# Verificar se comeca com Diogo.
if re.search('^Diogo', text):
    print('Comeca')
else:
    print('Nao comeca')

# Verificar se termina com "Diogo"
if re.search('Diogo$', text):
    print('Termina')
else:
    print('Nao termina')

Comeca
Nao termina


In [5]:
# Vamos a outro exemplo
# Quantos carros fabricados pela volkswagen possui esse dataset?
import pandas as pd

cars = pd.read_csv('mpg.csv')

contador = 0
for car in cars['manufacturer']:
    car = str(car)
    if re.search('volkswagen', car):
        contador += 1
print(contador)

27


### Padroes e Classes de caracter.

In [6]:
# Vamos criar uma string com algumas notas.
grades = 'AABCCCAABBBBCCAAB'

# Quantos B's existem nessa lista?
re.findall('B', grades)

# Se quisermos contar os A's e B's em uma lista, nao podemos passas "AB" para fazer a correspondencia.
# Para fazer a busca de forma correta, precisamos passar A e B em colchetes.
re.findall('[AB]', grades)

['A', 'A', 'B', 'A', 'A', 'B', 'B', 'B', 'B', 'A', 'A', 'B']

In [7]:
# Podemos tambem definir um range de caracteres, que serao ordenados de forma alfanumerica. Por exemplo, se quisermos
# nos referir a todos os caracteres alfabeticos minusculos, poderiamo usar "[a-z]"

# Vamos verificar onde o aluno recebeu um A seguido de um B ou C.
print(re.findall("[A][B-C]", grades))

# Podemos fazer a mesma operacao com operador pipe (OR).
print(re.findall("AB|AC", grades))

['AB', 'AB', 'AB']
['AB', 'AB', 'AB']


In [8]:
# Podemos usar o sinal "^" para negar o resultado. Por exemplo, se quisermos apenas notas que nao foram A's.
re.findall("[^A]", grades)

['B', 'C', 'C', 'C', 'B', 'B', 'B', 'B', 'C', 'C', 'B']

### Quantifiers

In [9]:
# Quantificadores sao o numero de vezes que queremos que um padrao seja correspondido para corresponder.
# O quantificador mais basico segue o formato "e{m,n}", onde e eh a expressao ou caracter que estamos buscando, m eh o
# numero minimo de vezes que queremos, e n eh o numero maximo de vezes que o item pode ser correspondido.

# Vamos ao exemplo das notas.
print(len(grades)) # Possuimos 17 notas na variavel
print(re.findall("A{2,17}", grades)) # 2 para indicar que eh onde comeca uma sequencia, e 17 pois eh o numero maximo de notas.

17
['AA', 'AA', 'AA']


- " * " Para encontrar 0 ou mais vezes
- " ? " Para encontrar 0 ou 1
- " + " Para encontrar 1 ou mais vezes

In [10]:
with open('ferpa.txt') as file:
    wiki = file.read()

wiki

'Overview[edit]\nFERPA gives parents access to their child\'s education records, an opportunity to seek to have the records amended, and some control over the disclosure of information from the records. With several exceptions, schools must have a student\'s consent prior to the disclosure of education records after that student is 18 years old. The law applies only to educational agencies and institutions that receive funds under a program administered by the U.S. Department of Education.\n\nOther regulations under this act, effective starting January 3, 2012, allow for greater disclosures of personal and directory student identifying information and regulate student IDs and e-mail addresses.[2] For example, schools may provide external companies with a student\'s personally identifiable information without the student\'s consent.[2]\n\nExamples of situations affected by FERPA include school employees divulging information to anyone other than the student about the student\'s grades o

In [11]:
# Vamos encontrar os cabecalhos deste texto.
# Os cabecalhos comecam com seu respectivo nome, seguido da sentenca "[edit]"

# O codigo abaixo, no entanto, vai retornar a ultima palavra do titulo.
re.findall('\w*\[edit\]', wiki)

['Overview[edit]', 'records[edit]', 'records[edit]']

In [15]:
# Ao inves de utilizar a sentenca abaixo para percorrer por um numero determinado de aparicoes:
print(re.findall('[\w]{1,100}\[edit\]', wiki))

print()

# Podemos utilizar o seguinte codigo, de forma reduzida.
print(re.findall('[\w]*\[edit\]', wiki))

['Overview[edit]', 'records[edit]', 'records[edit]']

['Overview[edit]', 'records[edit]', 'records[edit]']


In [16]:
# Agora que reduzimos o codigo, podemos aprimora-lo um pouco. Eh possivel adicionar espacoes usando a barra de espaco.
# Dessa forma, conseguimos pegar os titulos.
re.findall('[\w ]*\[edit\]', wiki)

['Overview[edit]',
 'Access to public records[edit]',
 'Student medical records[edit]']

In [18]:
# Podemos criar uma lista de titulos atraves do uso de iteracao
for title in re.findall('[\w ]*\[edit\]', wiki):
    print(re.split('[\[]', title)[0])

Overview
Access to public records
Student medical records


### Agrupando

In [20]:
# Podemos melhorar ainda mais essa busca usando Grupos. Grupos buscam diferentes tipos de padroes ao mesmo tempo
# Para agrupar padroes precisamos trabalhar da seguinte forma:
re.findall('([\w ]*)(\[edit\])', wiki) # repare o uso do parentese.


[('Overview', '[edit]'),
 ('Access to public records', '[edit]'),
 ('Student medical records', '[edit]')]

In [21]:
# Podemos tambem iterar sobre os padros que buscamos encontrar.
# Esse codigo retorna uma tupla do grupo.
for item in re.finditer('([\w ]*)(\[edit\])',wiki):
    print(item.groups())

('Overview', '[edit]')
('Access to public records', '[edit]')
('Student medical records', '[edit]')


In [26]:
# Se quisermos obter um grupo especifico, podemos utilizar "group(numero)", onde "group(0)" eh a correspondencia completa
# e qualquer outro numero eh a porcao de interesse.
for item in re.finditer('([\w ]*)(\[edit\])', wiki):
    print(item.group(1))

Overview
Access to public records
Student medical records


In [27]:
# Pode ser criado tambem um dicionario para verificar os padroes. A sintaxe utilizada eh:
# (?P<nome>), onde o parentese representa o inicio do grupo, o "?P" representa a extensao, e <nome> representa
# o dicionario.
for item in re.finditer('(?P<title>[\w ]*)(?P<edit_link>\[edit\])', wiki):
    print(item.groupdict()['title'])

Overview
Access to public records
Student medical records


### Look-ahead e Look-behind

In [40]:
with open('buddhist.txt','r', encoding='utf-8') as file:
    wiki = file.read()
wiki

'Buddhist universities and colleges in the United States\nFrom Wikipedia, the free encyclopedia\nJump to navigationJump to search\n\nThis article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.\nFind sources: "Buddhist universities and colleges in the United States" – news · newspapers · books · scholar · JSTOR (December 2009) (Learn how and when to remove this template message)\nThere are several Buddhist universities in the United States. Some of these have existed for decades and are accredited. Others are relatively new and are either in the process of being accredited or else have no formal accreditation. The list includes:\n\nDhammakaya Open University – located in Azusa, California, part of the Thai Wat Phra Dhammakaya[1]\nDharmakirti College – located in Tucson, Arizona Now called Awam Tibetan Buddhist Institute (http://awaminstitute.org/)\nDharma Realm Buddh

In [41]:
pattern="""
(?P<title>.*)
(–\ located\ in\ )
(?P<city>\w*) #igoiwen
(,\ ) #oisenioew
(?P<state>\w*)
"""


for item in re.finditer(pattern, wiki, re.VERBOSE):
    print(item.groupdict())

{'title': 'Dhammakaya Open University ', 'city': 'Azusa', 'state': 'California'}
{'title': 'Dharmakirti College ', 'city': 'Tucson', 'state': 'Arizona'}
{'title': 'Dharma Realm Buddhist University ', 'city': 'Ukiah', 'state': 'California'}
{'title': 'Ewam Buddhist Institute ', 'city': 'Arlee', 'state': 'Montana'}
{'title': 'Institute of Buddhist Studies ', 'city': 'Berkeley', 'state': 'California'}
{'title': 'Maitripa College ', 'city': 'Portland', 'state': 'Oregon'}
{'title': 'University of the West ', 'city': 'Rosemead', 'state': 'California'}
{'title': 'Won Institute of Graduate Studies ', 'city': 'Glenside', 'state': 'Pennsylvania'}
