In [1]:
import re

In [9]:
# match() procura por correspondências do seu padrão no começo da string e retorna um valor booleano.
# search() procura por correspondência em todo o texto e retorna um valor booleano.

s = 'Hoje é terça-feira'
pattern = 'terça'

if re.match(pattern, s): # Não há 'terça no início da string'.
    print('Good 1')
    
if re.search(pattern, s): # Há 'terça' em um trecho da string.
    print('Good 2')

Good 2


In [19]:
# Podemos também realizar o processo de tokenizing, responsável por quebrar uma string em fragmentos.

s = 'Felipe acorda; Felipe estuda; Felipe come; Felipe dorme'
pattern = 'Felipe'

# Note que split nos dará fragmentos de nossa string original em que o objeto pattern é removido
print(re.split(pattern, s)) 

# findall nos dá uma lista com as ocorrências de nosso pattern
print(re.findall(pattern, s)) 

# Poderíamos pedir ao Python o número de tais ocorrências
print(len(re.findall(pattern, s))) 

['', ' acorda; ', ' estuda; ', ' come; ', ' dorme']
['Felipe', 'Felipe', 'Felipe', 'Felipe']
4


In [27]:
# Vamos aprender alguns sinais bastante úteis em regular expressions

# ^ indica que o que procuramos deve estar no início da string (isso inutiliza o método match)
# $ indica que o padrão deve estar no final da string


supermercado = 'Spagetti, Frango, Arroz, Batata, Alface, Feijão'

# O primeiro item da lista é batata?
if re.search('^Batata', supermercado):
    print('sim 1')
else:
    print('não 1')
    
# Nossa lista termina com Feijão?
if re.search('Feijão$', supermercado):
    print('sim 2')
    
else:
    print('não 2')

não 1
sim 2


In [44]:
# Vamos fazer algo mais complexo: Quantas lojas a Starbucks tem em São Paulo?
import pandas as pd
starbucks = pd.read_csv('directory.csv')

count = 0
for city in starbucks['City']:
    city = str(city)
    if re.search('Sao Paulo', city):
        count += 1
        
print(count)

48


In [73]:
import re
grades = 'ABACBACBABCCA'

# Procurando um A seguido imediatamente de um B em 'grades'
print(re.findall('AB', grades)) 

# Procurando um A ou um B em grades
print(re.findall('[AB]', grades)) 

# Note,os colchetes indicam um agrupamento de caracteres; estamos querendo procurar qualquer caractere dentro do grupo

['AB', 'AB']
['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B', 'A']


In [120]:
# Você sabia que todos os DDD's do estado de São Paulo estão no intervalo [10, 19]?
# Poderíamos utilizar esse padrão para identificar os números de celular do estado de SP

telefones = ''' 11-99801-2131
                21-99871-1231
                17-98121-3287
                34-21319-5673
                57-65490-0909
                21-89105-7591
                19-91908-2134
                24-28542-9090'''

# Vamos selecionar apenas os números de telefone pertencentes a SP
print(re.findall('1[0-9]-[0-9]{5}-[1-9]{4}', telefones))

# Os DDD's do Rio de Janeiro começam com 2: vamos procurá-los também!
print(re.findall('[12][0-9]-[0-9]{5}-[0-9]{4}', telefones)) 

# Agora temos os números de SP e do Rio!

['11-99801-2131', '17-98121-3287', '19-91908-2134']
['11-99801-2131', '21-99871-1231', '17-98121-3287', '21-89105-7591', '19-91908-2134', '24-28542-9090']
['11', '21-99871-1231', '21-89105-7591']


In [103]:
# Vamos procurar apenas os nomes João e Luís em 'clientes'
# Vamos utilizar o pipe (|), equivalente a um OR nas linguagens de programação

clientes = 'João Santos, Cléber Ferreira,  João Amoreira, Luís Ulian, Lúcio Igor, Heleno Augusto,'
re.findall(r'João|Luís', clientes)

['João', 'João', 'Luís']

In [127]:
# Nós já chegamos a mencionar o uso do circunflexo. Ele é responsável por indicar que o padrão procurado está
# no início da string.

# No entanto, caso esteja dentro de um agrupamento [], ele indicará a negação da string padrão
grades = 'AABABACBAAABCC'

# Poderíamos procurar todas as notas que não são C
print(re.findall('[^C]', grades)) 

# Os diferentes usos de ^ podem ser um tanto confusos
# Aqui, queremos verificar se o primeiro item de 'grades' é qualquer nota diferente de A

# Isso é evidentemente falso pela lista vazia...
re.findall('ˆ[^A]', grades)

['A', 'A', 'B', 'A', 'B', 'A', 'B', 'A', 'A', 'A', 'B']


['AA', 'AA']

In [126]:
# Vamos pegar os casos em que nosso estudante tirou A's consecutivos
# Como o comprimento de 'grades' é 14, vamos colocar esse número como limite do range
print(len(grades))
re.findall('A{2,14}', grades)


14


['AA', 'AAA']

### Símbolos Quantitativos
\* (zero ou mais)  

\+ (um ou mais)

\? (zero ou 1)

In [147]:
with open('ferpa.txt', 'r') as wiki_file:
    wiki = wiki_file.read()
    
# Vamos escanear os títulos e subtítulos desse arquivo
# Eles são compostos pelo nome do título seguido de '[edit]'

# Usando o contrabarra pois os brackets são símbolos utilizados em regex, e queremos que o Python os interprete 
                                                                                            # de maneira literal.

# Note, no entanto, que nosso código nos retorna apenas a última palavra do título!   
re.findall('[a-zA-z]*\[edit\]', wiki)

['Overview[edit]', 'records[edit]', 'records[edit]']

In [None]:
# Parei em 14:00
# Ele vai mencionar as Special Sequences de regex
# https://www.w3schools.com/python/gloss_python_regex_sequences.asp (esse link vai ser bastante útil)