In [2]:
import re

In [9]:
# match() procura por correspondências do seu padrão no começo da string e retorna um valor booleano.
# search() procura por correspondência em todo o texto e retorna um valor booleano.

s = 'Hoje é terça-feira'
pattern = 'terça'

if re.match(pattern, s): # Não há 'terça no início da string'.
    print('Good 1')
    
if re.search(pattern, s): # Há 'terça' em um trecho da string.
    print('Good 2')

Good 2


In [19]:
# Podemos também realizar o processo de tokenizing, responsável por quebrar uma string em fragmentos.

s = 'Felipe acorda; Felipe estuda; Felipe come; Felipe dorme'
pattern = 'Felipe'

# Note que split nos dará fragmentos de nossa string original em que o objeto pattern é removido
print(re.split(pattern, s)) 

# findall nos dá uma lista com as ocorrências de nosso pattern
print(re.findall(pattern, s)) 

# Poderíamos pedir ao Python o número de tais ocorrências
print(len(re.findall(pattern, s))) 

['', ' acorda; ', ' estuda; ', ' come; ', ' dorme']
['Felipe', 'Felipe', 'Felipe', 'Felipe']
4


In [27]:
# Vamos aprender alguns sinais bastante úteis em regular expressions

# ^ indica que o que procuramos deve estar no início da string (isso inutiliza o método match)
# $ indica que o padrão deve estar no final da string


supermercado = 'Spagetti, Frango, Arroz, Batata, Alface, Feijão'

# O primeiro item da lista é batata?
if re.search('^Batata', supermercado):
    print('sim 1')
else:
    print('não 1')
    
# Nossa lista termina com Feijão?
if re.search('Feijão$', supermercado):
    print('sim 2')
    
else:
    print('não 2')

não 1
sim 2


In [44]:
# Vamos fazer algo mais complexo: Quantas lojas a Starbucks tem em São Paulo?
import pandas as pd
starbucks = pd.read_csv('directory.csv')

count = 0
for city in starbucks['City']:
    city = str(city)
    if re.search('Sao Paulo', city):
        count += 1
        
print(count)

48


In [73]:
import re
grades = 'ABACBACBABCCA'

# Procurando um A seguido imediatamente de um B em 'grades'
print(re.findall('AB', grades)) 

# Procurando um A ou um B em grades
print(re.findall('[AB]', grades)) 

# Note,os colchetes indicam um agrupamento de caracteres; estamos querendo procurar qualquer caractere dentro do grupo

['AB', 'AB']
['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B', 'A']


In [120]:
# Você sabia que todos os DDD's do estado de São Paulo estão no intervalo [10, 19]?
# Poderíamos utilizar esse padrão para identificar os números de celular do estado de SP

telefones = ''' 11-99801-2131
                21-99871-1231
                17-98121-3287
                34-21319-5673
                57-65490-0909
                21-89105-7591
                19-91908-2134
                24-28542-9090'''

# Vamos selecionar apenas os números de telefone pertencentes a SP
print(re.findall('1[0-9]-[0-9]{5}-[1-9]{4}', telefones))

# Os DDD's do Rio de Janeiro começam com 2: vamos procurá-los também!
print(re.findall('[12][0-9]-[0-9]{5}-[0-9]{4}', telefones)) 

# Agora temos os números de SP e do Rio!

['11-99801-2131', '17-98121-3287', '19-91908-2134']
['11-99801-2131', '21-99871-1231', '17-98121-3287', '21-89105-7591', '19-91908-2134', '24-28542-9090']
['11', '21-99871-1231', '21-89105-7591']


In [103]:
# Vamos procurar apenas os nomes João e Luís em 'clientes'
# Vamos utilizar o pipe (|), equivalente a um OR nas linguagens de programação

clientes = 'João Santos, Cléber Ferreira,  João Amoreira, Luís Ulian, Lúcio Igor, Heleno Augusto,'
re.findall(r'João|Luís', clientes)

['João', 'João', 'Luís']

In [127]:
# Nós já chegamos a mencionar o uso do circunflexo. Ele é responsável por indicar que o padrão procurado está
# no início da string.

# No entanto, caso esteja dentro de um agrupamento [], ele indicará a negação da string padrão
grades = 'AABABACBAAABCC'

# Poderíamos procurar todas as notas que não são C
print(re.findall('[^C]', grades)) 

# Os diferentes usos de ^ podem ser um tanto confusos
# Aqui, queremos verificar se o primeiro item de 'grades' é qualquer nota diferente de A

# Isso é evidentemente falso pela lista vazia...
re.findall('ˆ[^A]', grades)

['A', 'A', 'B', 'A', 'B', 'A', 'B', 'A', 'A', 'A', 'B']


['AA', 'AA']

In [126]:
# Vamos pegar os casos em que nosso estudante tirou A's consecutivos
# Como o comprimento de 'grades' é 14, vamos colocar esse número como limite do range
print(len(grades))
re.findall('A{2,14}', grades)


14


['AA', 'AAA']

### Símbolos Quantitativos
\* (zero ou mais)  

\+ (um ou mais)

\? (zero ou 1)

In [67]:
with open('ferpa.txt', 'r') as wiki_file:
    wiki = wiki_file.read()
    
# Vamos escanear os títulos e subtítulos desse arquivo
# Eles são compostos pelo nome do título seguido de '[edit]'

# Usando o contrabarra pois os brackets são símbolos utilizados em regex, e queremos que o Python os interprete 
                                                                                            # de maneira literal.

# Note, no entanto, que nosso código nos retorna apenas a última palavra do título!   
re.findall('\w*\[edit\]', wiki)

['Overview[edit]', 'records[edit]', 'records[edit]']

In [22]:
# Vamos utilizar as special sequences
re.findall(r'[\w ]*\[edit\]', wiki)

['Overview[edit]',
 'Access to public records[edit]',
 'Student medical records[edit]']

In [66]:
# Conseguimos o que queríamos. Mas poderíamos refinar a nossa busca com o processo de agrupamento ()
# Podemos definir categorias de outputs desejados dentro da definição de nosso padrão buscado

# O Python agrupará os resultados conforme o seu respectivo grupo

# Para a nossa busca pelos títulos do artigo, definimos dois padrões desejados. Um para termos que tiverem 
# vários caracteres ou espaços; outro para os casos do [edit]
re.findall('([\w ]*)(\[edit\])', wiki)

# Portanto, pode-se enxergar que conseguimos filtrar as informações necessárias daquela desnecessária

# Iterando sobre o nosso novo findall e printando apenas os nomes dos títulos:
for title in re.findall('([\w ]*)(\[edit\])', wiki):
    print(title[0])

References
External links


In [32]:
# Podemos tabmém criar um objeto iterador sobre os padrões desejados

for item in re.finditer('([\w ]*)(\[edit\])', wiki):
    print(item.group(1))

Overview
Access to public records
Student medical records


In [71]:
# Podemos também criar um dicionário para cada padrão encontrado

pattern = '(?P<title>[\w ]+)(?P<edit>\[edit\])'
for item in re.finditer(pattern, wiki):
    print(item.groupdict()['title'])

Overview
Access to public records
Student medical records


In [98]:
# Vamos pegar um documento que discute sobre as universidades budistas nos EUA
# Podemos verificar que o nome das universidades é seguido por um dash e o nome da sua cidade e estado
with open('buddhist.txt', 'r') as file:
    wiki = file.read()
    
pattern="""
(?P<title>.*) #ofwe
(-\ located\ in\ ) #osnfwe
(?P<city>\w*) #igoiwen
(,\ ) #oisenioew
(?P<state>\w*) #sgnioenge """

pattern="""
(?P<title>.*)        #the university title
(–\ located\ in\ )   #an indicator of the location
(?P<city>\w*)        #city the university is in
(,\ )                #separator for the state
(?P<state>\w*)       #the state the city is located in"""

for item in re.finditer(pattern, wiki, re.VERBOSE):
    print(item.groupdict())

In [110]:
with open('buddhist.txt', 'r') as file:
    wiki = file.read()
    
pattern="""
(?P<title>.*)
(–\ located\ in\ )
(?P<city>\w*) #igoiwen
(,\ ) #oisenioew
(?P<state>\w*)
"""


for item in re.finditer(pattern, wiki, re.VERBOSE):
    print(item.groupdict())

{'title': 'Dhammakaya Open University ', 'city': 'Azusa', 'state': 'California'}
{'title': 'Dharmakirti College ', 'city': 'Tucson', 'state': 'Arizona'}
{'title': 'Dharma Realm Buddhist University ', 'city': 'Ukiah', 'state': 'California'}
{'title': 'Ewam Buddhist Institute ', 'city': 'Arlee', 'state': 'Montana'}
{'title': 'Institute of Buddhist Studies ', 'city': 'Berkeley', 'state': 'California'}
{'title': 'Maitripa College ', 'city': 'Portland', 'state': 'Oregon'}
{'title': 'University of the West ', 'city': 'Rosemead', 'state': 'California'}
{'title': 'Won Institute of Graduate Studies ', 'city': 'Glenside', 'state': 'Pennsylvania'}


In [91]:
with open('nytimeshealth.txt', 'r') as file:
    wiki = file.read()
    
pattern = '\#\w* '
re.findall(pattern, wiki)

['#askwell ',
 '#pregnancy ',
 '#VegetarianThanksgiving ',
 '#FallPrevention ',
 '#Ebola ',
 '#ebola ',
 '#Ebola ',
 '#Ebola ',
 '#EbolaHysteria ',
 '#AskNYT ',
 '#Ebola ',
 '#Ebola ',
 '#Liberia ',
 '#Excalibur ',
 '#ebola ',
 '#Ebola ',
 '#dallas ',
 '#nobelprize2014 ',
 '#ebola ',
 '#ebola ',
 '#monrovia ',
 '#ebola ',
 '#nobelprize2014 ',
 '#ebola ',
 '#nobelprize2014 ',
 '#Medicine ',
 '#Ebola ',
 '#Monrovia ',
 '#Ebola ',
 '#smell ',
 '#Ebola ',
 '#Ebola ',
 '#Ebola ',
 '#Monrovia ',
 '#Ebola ',
 '#ebola ',
 '#monrovia ',
 '#liberia ',
 '#benzos ',
 '#ClimateChange ',
 '#Whole ',
 '#Wheat ',
 '#Focaccia ',
 '#Tomatoes ',
 '#Olives ',
 '#Recipes ',
 '#Ebola ',
 '#Monrovia ',
 '#Liberia ',
 '#Ebola ',
 '#Ebola ',
 '#Liberia ',
 '#Ebola ',
 '#blood ',
 '#Ebola ',
 '#EbolaOutbreak ',
 '#SierraLeone ',
 '#Freetown ',
 '#SierraLeone ',
 '#ebolaoutbreak ',
 '#kenema ',
 '#ebola ',
 '#Ebola ',
 '#ebola ',
 '#ebola ',
 '#Ebola ',
 '#AIDS2014 ',
 '#AIDS ',
 '#MH17 ',
 '#benzos ']

In [129]:
import re
www = '''www.aBC.com, abc.com, ab_c.de8f.com'''
pattern = 'w*\.?[\w_.]+\.com'
re.findall(pattern,www)

['www.aBC.com', 'abc.com', 'ab_c.de8f.com']

In [130]:
w = 'abcbacbabbabcabcabccaacb'
pattern = 'abc'
re.findall(pattern, w)

['abc', 'abc', 'abc', 'abc']

In [151]:
ok1 = 'unicorn'
ok2 = 'element'
not_ok1 = 'banana'
not_ok2 = 'apple'

pattern = '^[a|e|i|o|u]\w*[^a|e|i|o|u]$'

re.findall(pattern, not_ok1)

[]

In [157]:
pattern = '0[o|x][0-7|0-9|a-f]+'
ok1 = '0o117'
ok2 = '0xf3'

ok3 = '0xf3, 0x1d, 0x072'
not1 = '1233'
not2 = '0o12f'

re.findall(pattern,ok3)

['0xf3', '0x1d', '0x072']

In [217]:
pattern = '^[A-Z][a-z]* [A-Z][a-z]*'
ok1 = 'Jane Doe is eating breakfast.'
ok2 = 'Zhang is a great Broadway actor.'
ok3 = 'Issac Newton'
ok4 = 'L Zhang'
re.findall(pattern, ok4)

['L Zhang']