# Regex

Neste notebook vamos estudar sobre correspondências de padrões utilizando expressões regulares.
Podemos pensar em expressões regulares como sendo padrões que passamos para um processo regex com 
algum dado,como um texto. O processo, então, analisa o texto utilizando esse padrão e retorna pedaços
do texto para manipulação.
https://www.w3schools.com/python/python_regex.asp

Principais razões para se fazer isso:

-Checar se um padrão existe nos dados.

-Pegar todas as ocorrências de um padrão complexo nos dados.

-Limpar os dados.



## Metacharacters 
**Character -- Description -- Example**


In [None]:

# [] -- Um conjunto de caracteres -- [a-m]

# \ -- Sequência/Caracteres especiais -- \d

# . -- Qualquer caractere(exceto caractere 'newline') -- he..o

# ^ -- Começa com  -- ^hello
 
# $ -- Termina com  -- planet$

# * -- Nenhuma ou mais ocorrências  -- he.*o

# + -- Uma ou mais ocorrências -- he.+o

# ? -- Nenhuma ou apenas uma ocorrência -- he?.o

# {} -- Especifica exatamente o número de caracteres -- he.{2}o

# | -- Ou -- falls|stays

# () -- Captura e agrupa



## Special Sequences
**Character -- Description -- Example**
O "r" no começo de alguns exemplos, é para garantir que a string esteja sendo tratada como uma "raw string"

\A -- Retorna a correspondência se o caractere especificado está na começo da string -- \AThe

\b -- Retorna a correspondência onde os caracteres especificados estão no começo ou no fim da palavra -- r"\bain" ou r"ain\b

\B -- retorna a correspondência onde os caracteres especificados estão presentes, mas não estão no começo ou no fim da palavra -- r"\Bain" ou r"ain\B

\d -- retorna a correspondência onde a string contém digitos(0-9) -- \d

\D -- retorna a correspondência onde a string não contém digitos -- \D

\s -- retorna a correspondência onde a string contém um espaço em branco -- \s

\S -- retorna a correspondência onde a string não contém um espaço em branco -- \S

\w -- retorna a correspondência onde a string contém qualquer caractere de 'a' até 'z', dígitos de 0 a 9 e o caractere '_' -- \w

\W -- retorna a correspondência onde a string não contém qualquer caractere ou dígito -- \W

\Z -- retorna a correspondência se o caractere especificado está no final da string -- Spain\Z


## Sets 
**Character -- Description**

[arn] -- retorna a correspondência onde um dos caracteres especificados (a,r ou n) estão presentes

[a-n] -- retorna a correspondência para qualquer letra minúscula entre 'a' e 'n'

[^arn] -- retorna a correspondência para qualquer caractere exceto 'a','r' e 'n' minúsculo

[0123] -- retorna a correspondência onde qualquer um dos digitos especificados(0,1,2 ou 3) estão presentes

[0-9] -- retorna a correspondência para qualquer digito 0 até 9

[0-5][0-9] -- retorna a correspondência para qualquer digito de 00 até 59, ou seja, que começa de 0 a 5 e termina de 0 a 9

[a-zA-Z] -- retorna a correspondência para qualquer caractere alfabetico entre 'a' e 'z' minusculo OU maiusculo

[+] -- retorna a correspondência para qualquer '+' caractere na string

In [2]:
import re


In [None]:
# Existem muitas funções do módulo 're'.
# Função findall(): retorna uma lista contendo todas as correspondências da pesquisa.
# Função search(): retorna um objeto Match se ocorre a correspondência em qualquer lugar da string
# Função split(): retorna uma lista contendo strings entre as ocorrências da pesquisa           
# Função sub(): substitui um ou mais correspondências

# Match Object é um objeto contendo informações sobre a pesquisa e os resultados
# Se não houver correspondência, o valor None será retornado.
# Match Object possui propriedades e métodos usado para retornar informações sobre a pesquisa e o resultado

# -> Propriedade string: retorna a string passada na função.
# -> Método span(): retorna uma tupla contendo o inicio e o final da correspondência no texto.
# -> Método group() : retorna a parte da string onde ocorreu a correspondência


### search()
retorna um Math Object

In [19]:
text = "This is a good day."

match=re.search("good", text)
print(match.string)
print(match.span())
print(match.group())

# match

This is a good day.
(10, 14)
good


In [14]:
print(re.search("good",text))

<re.Match object; span=(10, 14), match='good'>


### split()
Split segmenta uma string. Isso é chamado de 'tokenizing', onde a string é separada em substrings baseado no padrão escolhido.


In [20]:
text = "Amy works diligently. Amy gets good grades. Our student Amy is succesful.Amy"
re.split("Amy",text)

['',
 ' works diligently. ',
 ' gets good grades. Our student ',
 ' is succesful.',
 '']

### findall()
retorna as ocorrências da pesquisa

In [21]:
re.findall("Amy",text)

['Amy', 'Amy', 'Amy', 'Amy']

### sub()
substitui uma ocorrência

In [22]:
re.sub("Amy","Marcos",text)

'Marcos works diligently. Marcos gets good grades. Our student Marcos is succesful.Marcos'

## Patterns and Character Classes

In [24]:
# Vamos supor uma string contendo as notas de um estudante
grades="ACAAAABCBCBAA"

In [25]:
# Se a gente quiser contar quantas notas B's o estudante tirou, utilizanto o findall()
B=re.findall("B",grades)
len(B)

3

In [26]:
# Se queremos contar o número de notas A ou B.
# Não podemos utilizar simplesmente 'AB', assim estaria pesquisando notas A seguidas de notas B.

# Para isso, utilizamos '[]' que explicita um conjunto de caracteres
print(re.findall("AB",grades))
print(re.findall("[AB]",grades))
print(re.findall("A|B",grades))

['AB']
['A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'A', 'A']
['A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'A', 'A']


In [29]:
# Se quisermos contar o número de notas A seguida de notas B ou C
print(re.findall("[A][B-C]",grades))
print(re.findall("AB|AC",grades))

['AC', 'AB']
['AC', 'AB']


In [33]:
# Podemos utilizar o caractere ^ para negar resultados
# Se quisermos conta o número de notas que não sejam A
re.findall("[^A]",grades)

['C', 'B', 'C', 'B', 'C', 'B']

## Quantifiers 

In [None]:
# Quantificadores são o número de vezes que queremos que o padrão ocorra.
# O quantificador padrão é expresso como e{m,n} , onde 'e' é a expressão ou o caractere a ser buscado, 'm' é o mínimos de ocorrências
# que queremos que ocorra e 'n' é o número máximo que queremos que ocorra
# Por padrão temos {1,1}


In [None]:
grades

In [34]:
# Quantas vezes o estudante tirou A seguidos?
re.findall("A{2,10}",grades)

['AAAA', 'AA']

In [35]:
# Se só passarmos um único número nos "{}", esse número é considerado como sendo os 2 valores
re.findall("A{2}",grades)

['AA', 'AA', 'AA']

In [38]:
#Podemos buscar por uma sequência de notas decrescente
re.findall("A{1,10}B{1,10}C{1,10}",grades)

['AAAABC']

### Wikipedia text

In [39]:
with open("datasets/ferpa.txt","r") as file:
    # we'll read that into a variable called wiki
    wiki=file.read()
# and lets print that variable out to the screen
wiki

'Overview[edit]\nFERPA gives parents access to their child\'s education records, an opportunity to seek to have the records amended, and some control over the disclosure of information from the records. With several exceptions, schools must have a student\'s consent prior to the disclosure of education records after that student is 18 years old. The law applies only to educational agencies and institutions that receive funds under a program administered by the U.S. Department of Education.\n\nOther regulations under this act, effective starting January 3, 2012, allow for greater disclosures of personal and directory student identifying information and regulate student IDs and e-mail addresses.[2] For example, schools may provide external companies with a student\'s personally identifiable information without the student\'s consent.[2]\n\nExamples of situations affected by FERPA include school employees divulging information to anyone other than the student about the student\'s grades o

In [40]:
#Todos os headers tem a palavra [edit] depois deles, seguido por uma quebra de linha '\n'
#Então, se quisermos pegar todos os headers nesse artigo, podemos fazer da seguinte forma:
re.findall("[a-zA-Z]{1,100}\[edit\]",wiki)

['Overview[edit]', 'records[edit]', 'records[edit]']

In [None]:
#Isso não funcionou, pois só temos a última palavra de cada header

In [41]:
# Ao invés de[a-zA-Z], podemos utilizar '\w' para encurtar o regex
re.findall("[\w]{1,100}\[edit\]",wiki)

['Overview[edit]', 'records[edit]', 'records[edit]']

In [42]:
# Ao invés de {1,100}, podemos utilizar '*' que significa "zero ou nenhuma ocorrência" para encurtar o regex
re.findall("[\w]*\[edit\]",wiki)

['Overview[edit]', 'records[edit]', 'records[edit]']

In [43]:
re.findall("[\w ]*\[edit\]",wiki)


['Overview[edit]',
 'Access to public records[edit]',
 'Student medical records[edit]']

## Groups

In [52]:
# Podemos corresponder diferentes padrões, que são chamados de grupos e representados por '()'
a=re.findall("([\w ]*)(\[edit\])",wiki)
a

[('Overview', '[edit]'),
 ('Access to public records', '[edit]'),
 ('Student medical records', '[edit]')]

In [65]:
# métodos de grupo () retorna uma tupla de um grupo.
# Podemos pegar um grupo individual usando grupo(numero), onde grupo(0) retorna a correspondência inteira, e cada outro número é
# uma parte da correspondência.

# re.finditer() gera um Match Object, e podemos usar a função group()
import re
for item in re.finditer("([\w ]*)(\[edit\])",wiki):     # re.search iterável
    print(item.group())
    print(item.group(0))
    print(item.group(1))
    print(item.group(2))

Overview[edit]
Overview[edit]
Overview
[edit]
Access to public records[edit]
Access to public records[edit]
Access to public records
[edit]
Student medical records[edit]
Student medical records[edit]
Student medical records
[edit]


In [68]:
#Podemos nomear os grupos.
# Para isso, usamos a sintaxe (?P<name>), onde os parênteses iniciam o grupo e <name> é o a chava do dicionário que queremos.
for item in re.finditer("(?P<title>[\w ]*)(?P<edit_link>\[edit\])",wiki):
    # Podemos pegar o dicionário retornado com .groupdict()
    print(item.groupdict(0))

{'title': 'Overview', 'edit_link': '[edit]'}
{'title': 'Access to public records', 'edit_link': '[edit]'}
{'title': 'Student medical records', 'edit_link': '[edit]'}


In [69]:
for item in re.finditer("(?P<title>[\w ]*)(?P<edit_link>\[edit\])",wiki):
    print(item.groupdict())
    break

{'title': 'Overview', 'edit_link': '[edit]'}


## Look-ahead and Look-behind 

In [72]:
# Correspondência "look ahead" e "look behind".
# Nesse caso,o padrão dado é para texto antes ou depois do texto que queremos isolar.
# Por exemplo, queremos isolar o [edit]
# Podemos então,podemos capturar o [edit] e usar 'look ahead' com a sintaxr ?=
for item in re.finditer("(?P<title>[\w ]+)(?=\[edit\])",wiki):
    # Aqui, estamos procurando 2 grupos, o primeiro será nomeado 'title' que terá qualquer quantidade de espaços em brancos ou 
    # caracteres , o segundo grupo será o caractere [edit] mas não queremos armazenar no nosso Match Object
    print(item.groupdict())

{'title': 'Overview'}
{'title': 'Access to public records'}
{'title': 'Student medical records'}


### Example: Wikipedia Data

In [73]:
with open("datasets/buddhist.txt","r", encoding="utf8") as file:    
    wiki=file.read()
wiki

'Buddhist universities and colleges in the United States\nFrom Wikipedia, the free encyclopedia\nJump to navigationJump to search\n\nThis article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.\nFind sources: "Buddhist universities and colleges in the United States" – news · newspapers · books · scholar · JSTOR (December 2009) (Learn how and when to remove this template message)\nThere are several Buddhist universities in the United States. Some of these have existed for decades and are accredited. Others are relatively new and are either in the process of being accredited or else have no formal accreditation. The list includes:\n\nDhammakaya Open University – located in Azusa, California, part of the Thai Wat Phra Dhammakaya[1]\nDharmakirti College – located in Tucson, Arizona Now called Awam Tibetan Buddhist Institute (http://awaminstitute.org/)\nDharma Realm Buddh

In [74]:
# Podemos ver que cada Universidade segue um padrão similar, com o nome seguido por um '-' e as palavras 'located in' seguido
# pela cidade e pelo estado.

# O modo verbose nos permite escrever váris linhas.
# Nesse modo precisamos explicitar todos os caracteres em branco utilizando '\ ' ou '\s'
pattern="""
(?P<title>.*)        #the university title
(–\ located\ in\ )   #an indicator of the location
(?P<city>\w*)        #city the university is in
(,\ )                #separator for the state
(?P<state>\w*)       #the state the city is located in
"""

# Agora utilizamos o finditer() e passamos 're.VERBOSE' como último parâmetro
for item in re.finditer(pattern,wiki,re.VERBOSE):   
    print(item.groupdict())



{'title': 'Dhammakaya Open University ', 'city': 'Azusa', 'state': 'California'}
{'title': 'Dharmakirti College ', 'city': 'Tucson', 'state': 'Arizona'}
{'title': 'Dharma Realm Buddhist University ', 'city': 'Ukiah', 'state': 'California'}
{'title': 'Ewam Buddhist Institute ', 'city': 'Arlee', 'state': 'Montana'}
{'title': 'Institute of Buddhist Studies ', 'city': 'Berkeley', 'state': 'California'}
{'title': 'Maitripa College ', 'city': 'Portland', 'state': 'Oregon'}
{'title': 'University of the West ', 'city': 'Rosemead', 'state': 'California'}
{'title': 'Won Institute of Graduate Studies ', 'city': 'Glenside', 'state': 'Pennsylvania'}


### Example: New York Times and Hashtags

In [None]:
with open("datasets/nytimeshealth.txt","r",encoding="utf8") as file:    
    health=file.read()
health

In [None]:
# Aqui, temos tweets com campos separados por '|'.
# Vamos tentar pegar uma lista com todas as hashtags nesses dados
# Uma hashtag começa com '#'e continua até um espaço em branco

pattern2 = '#[\w\d]*\s'
pattern3 = '#[\w\d]*(\s)'
pattern4 = '#[\w\d]*(?=\s)'

b=re.findall(pattern2, health)
c=re.findall(pattern3, health)
d=re.findall(pattern4, health)

print(len(b))
print(len(c))
print(len(d))