In [1]:
#primeiro vamos importa o modulo da nossa biblioteca 
import re


In [2]:
#existem varias funções que podemos usar para tentar encontrar alguma correspondencia match(), similary(), search()

#vamos ver um exemplo 
text = "This is a good day."

# vamos ver se e um bom dia ou nao
if re.search("good", text): # o primeiro parametro aqui e o padrão que estamos buscando
    print("Wonderful!")
else:
    print("Alas :(")

Wonderful!


In [4]:
# podemos também segmentar uma string para pegar pedaçoes delas atraves de padrões 
#para isso iremos usar findall() e split()
text = "Amy works diligently. Amy gets good grades. Our student Amy is succesful."

# vamos cortar o texto sempre que aparecer o nome Amy
re.split("Amy", text)

['',
 ' works diligently. ',
 ' gets good grades. Our student ',
 ' is succesful.']

In [5]:
#caso queiramos contar o numero de vezes que a palavra Amy aparece podemos usar o findall()
re.findall("Amy", text)

['Amy', 'Amy', 'Amy']

In [6]:

# Ok, então vimos que .search() procura algum padrão e retorna um booleano, que .split() usará um
# padrão para criar uma lista de substrings, e que .findall() irá procurar um padrão e extrair todos
#ocorrências.



In [7]:

# Agora que sabemos como funciona a API regex python, vamos falar sobre padrões mais complexos. A expressão regular
# especificação padrão define uma linguagem de marcação para descrever padrões em texto. Vamos começar com âncoras.
# Âncoras especificam o início e/ou o fim da string que você está tentando corresponder. O caractere de acento circunflexo ^
# significa início e o caractere de cifrão $ significa fim. Se você colocar ^ antes de uma string, significa que o texto
# que o processador regex recupera deve começar com a string especificada. Para finalizar, você tem que colocar o $
# caractere após a string, significa que o texto que o Regex recupera deve terminar com a string que você especificar.

# Aqui está um exemplo
text = "Amy works diligently. Amy gets good grades. Our student Amy is succesful."

# vamos ver se isso começa com Amy
re.search("^Amy",text)


<re.Match object; span=(0, 3), match='Amy'>

In [None]:
# Observe que re.search() na verdade nos retornou um novo objeto, chamado objeto re.Match. Um objeto re.Match
# sempre tem um valor booleano de True, pois algo foi encontrado, então você sempre pode avaliá-lo em uma instrução if
# como fizemos anteriormente. A renderização do objeto de correspondência também informa qual padrão foi correspondido, neste caso
# a palavra Amy e o local em que a partida estava, como o intervalo.



# Padrões e classe de caracteries 


In [8]:
# Vamos falar mais sobre padrões e começar com as classes de personagens. Vamos criar uma string de um único aluno
# notas ao longo de um semestre em um curso em todas as suas tarefas
grades="ACAAAABCBCBAA"

# se vc quiser saber quantos B aparecem na grade basta fazer 
re.findall("B",grades)

['B', 'B', 'B']

In [9]:
# Se quisermos contar o número de A's ou B's na lista, não podemos usar "AB", pois isso é usado para corresponder
# todos os A's seguidos imediatamente por um B. Em vez disso, colocamos os caracteres A e B entre colchetes
re.findall("[AB]",grades)


['A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'A', 'A']

In [10]:
# Isso é chamado de operador de conjunto. Você também pode incluir um intervalo de caracteres, que são ordenados
# alfanumericamente. Por exemplo, se quisermos fazer referência a todas as letras minúsculas, podemos usar [a-z] Vamos construir
# um regex simples para analisar todas as instâncias em que este aluno recebe um A seguido por um B ou um C
re.findall("[A][B-C]",grades)


['AC', 'AB']

In [11]:
# Observe como o padrão [AB] descreve um conjunto de caracteres possíveis que podem ser (A OU B), enquanto o
# O padrão [A][B-C] denota dois conjuntos de caracteres que devem ter sido correspondidos de trás para frente. Você pode escrever
# este padrão usando o operador pipe, o que significa OR

re.findall("AB|AC",grades)

['AC', 'AB']

In [12]:
# Podemos usar o acento circunflexo com o operador set para negar nossos resultados. Por exemplo, se quisermos analisar apenas
# as notas que não eram A
re.findall("[^A]",grades)

['C', 'B', 'C', 'B', 'C', 'B']

In [13]:
# Observe isso com cuidado - o acento circunflexo foi previamente combinado com o início de uma string como um ponto de ancoragem, mas
# dentro do operador set o acento circunflexo, e os outros caracteres especiais sobre os quais falaremos, perdem seus
# significado. Isso pode ser um pouco confuso. Qual você acha que seria o resultado disso?
re.findall("^[^A]",grades)

[]

In [14]:
# É uma lista vazia, porque a regex diz que queremos corresponder a qualquer valor no início da string
# que não é um A. Nossa string começa com um A, então não há correspondência encontrada. E lembre-se quando você estiver
# usando o operador set você está fazendo a correspondência baseada em caracteres. Então você está combinando caracteres individuais em
# um método OR.

# quantificadores 

In [15]:
# Quantificadores são o número de vezes que você deseja que um padrão seja correspondido para corresponder. O mais básico
# quantificador é expresso como e{m,n}, onde e é a expressão ou caractere que estamos combinando, m é o mínimo
# número de vezes que você deseja que ele corresponda e n é o número máximo de vezes que o item pode ser correspondido.

# Vamos usar essas notas como exemplo. Quantas vezes este aluno esteve em uma sequência A consecutiva?
re.findall("A{2,10}",grades) #usaremos 2 como nosso mínimo, mas dez como nosso máximo



['AAAA', 'AA']

In [17]:
# Então vemos que havia duas faixas, uma onde o aluno tinha quatro A's, e outra onde eles tinham apenas dois
# Como

# Podemos tentar fazer isso usando valores únicos e apenas repetindo o padrão
re.findall("A{1,1}A{1,1}",grades)

['AA', 'AA', 'AA']

In [18]:
# Como você pode ver, isso é diferente do primeiro exemplo. O primeiro padrão está procurando qualquer combinação
# de dois A's até dez A's seguidos. Então ele vê quatro A's como uma única sequência. O segundo padrão está procurando
# dois A's de costas um para o outro, então ele vê dois A's seguidos imediatamente por mais dois A's. Dizemos que o regex
# o processador começa no início da string e consome variáveis ​​que combinam com os padrões.

# É importante notar que a sintaxe do quantificador regex não permite que você se desvie do {m,n}
# padronizar. Em particular, se você tiver um espaço extra entre as chaves, obterá um resultado vazio
re.findall("A{2, 2}",grades)

[]

In [20]:
# E como já vimos, se não incluirmos um quantificador então o padrão é {1,1}
re.findall("AA",grades)

['AA', 'AA', 'AA']

In [21]:
#e se você tiver apenas um número entre chaves, é considerado tanto m quanto n
re.findall("A{2}",grades)

['AA', 'AA', 'AA']

In [22]:
# Usando isso, podemos encontrar uma tendência decrescente nas notas de um aluno
re.findall("A{1,10}B{1,10}C{1,10}",grades)

['AAAABC']

In [24]:
# Agora, isso é um pouco complicado, porque incluímos um máximo que era apenas arbitrariamente grande. Há três
# outros quantificadores que são usados ​​como mão curta, um asterisco * para corresponder 0 ou mais vezes, um ponto de interrogação ? para
# corresponde uma ou mais vezes, ou um sinal + mais para corresponder uma ou mais vezes. Vejamos um exemplo mais complexo,
# e carregue alguns dados extraídos da wikipedia
with open("/content/ferpa.txt","r") as file:
    # we'll read that into a variable called wiki
    wiki=file.read()
# and lets print that variable out to the screen
wiki

'\'Overview[edit]\\nFERPA gives parents access to their child\\\'s education records, an opportunity to seek to have the records amended, and some control over the disclosure of information from the records. With several exceptions, schools must have a student\\\'s consent prior to the disclosure of education records after that student is 18 years old. The law applies only to educational agencies and institutions that receive funds under a program administered by the U.S. Department of Education.\\n\\nOther regulations under this act, effective starting January 3, 2012, allow for greater disclosures of personal and directory student identifying information and regulate student IDs and e-mail addresses.[2] For example, schools may provide external companies with a student\\\'s personally identifiable information without the student\\\'s consent.[2]\\n\\nExamples of situations affected by FERPA include school employees divulging information to anyone other than the student about the stud

In [25]:
# Escaneando este documento, uma das coisas que notamos é que todos os cabeçalhos têm as palavras [editar]
# atrás deles, seguido por um caractere de nova linha. Então, se quisermos obter uma lista de todos os cabeçalhos neste
# artigo podemos fazer isso usando re.findall
re.findall("[a-zA-Z]{1,100}\[edit\]",wiki)

['Overview[edit]', 'records[edit]', 'records[edit]']

In [27]:
# Ok, isso não funcionou muito bem. Ele tem todos os cabeçalhos, mas apenas a última palavra do cabeçalho, e realmente
# foi bastante desajeitado. Vamos melhorar isso iterativamente. Primeiro, podemos usar \w para corresponder a qualquer letra, incluindo dígitos
# e números.
re.findall("[\w]{1,100}\[edit\]",wiki)

['Overview[edit]', 'records[edit]', 'records[edit]']

In [28]:
# Isso é algo novo. \w é um metacaractere e indica um padrão especial de qualquer letra ou dígito. Lá
# são na verdade vários metacaracteres diferentes listados na documentação. Por exemplo, \s corresponde a qualquer
# caractere de espaço em branco.

# Em seguida, existem três outros quantificadores que podemos usar que encurtam a sintaxe das chaves. Podemos usar um
# asterix * para corresponder 0 ou mais vezes, então vamos tentar isso
re.findall("[\w]*\[edit\]",wiki)

['Overview[edit]', 'records[edit]', 'records[edit]']

In [29]:
# Agora que encurtamos a regex, vamos melhorá-la um pouco. Podemos adicionar espaços usando o espaço
# personagem
re.findall("[\w ]*\[edit\]",wiki)

['Overview[edit]',
 'nAccess to public records[edit]',
 'nStudent medical records[edit]']

In [30]:
# Ok, isso nos dá a lista de títulos de seções na página da wikipedia! Agora você pode criar uma lista de títulos
# iterando por isso e aplicando outro regex
for title in re.findall("[\w ]*\[edit\]",wiki):
    # Agora vamos pegar esse resultado intermediário e dividir no colchete [ apenas pegando o primeiro resultado
    print(re.split("[\[]",title)[0])


Overview
nAccess to public records
nStudent medical records


# Grupos

In [31]:
# Ok, isso funciona, mas é um pouco doloroso. Até este ponto, temos falado sobre uma regex como uma única
# padrão que é correspondido. Mas, na verdade, você pode combinar diferentes padrões, chamados grupos, ao mesmo tempo,
# e, em seguida, consulte os grupos desejados. Para agrupar padrões, você usa parênteses, o que na verdade é
# bastante natural. Vamos reescrever nosso findall usando grupos
re.findall("([\w ]*)(\[edit\])",wiki)

[('Overview', '[edit]'),
 ('nAccess to public records', '[edit]'),
 ('nStudent medical records', '[edit]')]

In [32]:
# Legal - vemos que o módulo python re divide o resultado por grupo. Na verdade, podemos nos referir a grupos por
# number também com os objetos de correspondência que são retornados. Mas, como podemos obter de volta uma lista de objetos de correspondência?
# Até agora vimos que findall() retorna strings, e search() e match() retornam Match individual
#objetos. Mas o que fazemos se queremos uma lista de objetos Match? Neste caso, usamos a função finditer()
for item in re.finditer("([\w ]*)(\[edit\])",wiki):
    print(item.groups())

('Overview', '[edit]')
('nAccess to public records', '[edit]')
('nStudent medical records', '[edit]')


In [33]:
# Vemos aqui que o método groups() retorna uma tupla do grupo. Podemos obter um grupo individual usando
# group(number), onde group(0) é a correspondência inteira, e cada outro número é a parte da correspondência que somos
# interessado. Neste caso, queremos group(1)
for item in re.finditer("([\w ]*)(\[edit\])",wiki):
    print(item.group(1))

Overview
nAccess to public records
nStudent medical records


In [34]:
# Mais uma peça para grupos de regex que raramente uso, mas é uma boa ideia rotular ou nomear grupos. No
# exemplo anterior Mostrei como você pode usar a posição do grupo. Mas dando-lhes um rótulo e olhando
# nos resultados como um dicionário é bastante útil. Para isso usamos a sintaxe (?P<nome>), onde os parênteses
# inicia o grupo, o ?P indica que esta é uma extensão para regexes básicos, e <nome> é o dicionário
# chave que queremos usar dentro de <>.
for item in re.finditer("(?P<title>[\w ]*)(?P<edit_link>\[edit\])",wiki):
    
    # Podemos obter o dicionário retornado para o item com .groupdict()
    print(item.groupdict()['title'])

Overview
nAccess to public records
nStudent medical records


In [35]:
# Claro, podemos imprimir o dicionário inteiro para o item também, e ver que a string [edit] ainda está
# lá. Aqui está o dicionário guardado para a última partida
print(item.groupdict())

{'title': 'nStudent medical records', 'edit_link': '[edit]'}
