#**Manipulação de textos com expressões comuns**

In [None]:
#Falaremos agora da busca de padrões, ou expressões frequentes em uma string/texto. Regular expression (Regex).
#Essa busca por padrões é muito importante para checagem e limpeza de dados.

#O modulo que armazena as bibliotecas de regex se chama 're', vamos importa-la:
import re 

In [None]:
#Vamos inicialmente, conhecer algumas funções principais de processamento que pode ser uteis. A primeira é a função 'match()' que busca por palavras que
#combinam com a palavra chave de busca, vamos criar um exemplo:

text = 'Hoje é um bom dia de Natal.'
if re.search('bom',text): #O primeiro argumento é o padrão
  print('Feliz Natal!')
else:
  print('microbio do krl')

Feliz Natal!


In [None]:
#Em adição as buscas condicionais, podemos segmentar uma string. Esse trabalho feito pelo regex se chama de 'tokenizer', onde strings são separadas em sub-strings
#baseadas em um padrão. Tokenizer é chave para o processamento de linguagem.

#A função 'findall()'  e 'split()' vão analisar a string e retornar pedaços, por exemplo:
text = 'Amy trabalha feito doida. Amy tem boas notas. A estudante Amy é bem sucedida'

#Vamos separar todas as orações com amy
re.split('Amy',text)

['',
 ' trabalha feito doida. ',
 ' tem boas notas. A estudante ',
 ' é bem sucedida']

In [None]:
#Perceba que esse split retornou uma string vazia, seguida por um número de afirmações sobre ela. Se quisermos saber quantas vezes falamos sobre Amy
#podemos contar usando a função'findall()'
re.findall('Amy', text)

['Amy', 'Amy', 'Amy']

In [None]:
#Revisando, a função 're.search()' procura por um padrão e retorna um valor booleano. '.split()' vai usar o padrão para criar uma string de substrings.
#E por fim, a função '.findall()' vai procurar por um padrão e retornar todas as ocorrências.

In [None]:
#Agora que sabemos como o python regex API funciona, vamos abordar padrões mais complexos. As especificações padrões do regex define uma linguagem para
#descrever padrões no texto. Começaremos pelos ancoras. Ancoras especificam o inicio e o final da string que estamos tentando padronizar.
#O caracter ^ define o inicio, e o cifrão ($) define o final. Ou seja, se você colocar '^' antes de uma string, significa que o processamento do regex
#deve iniciar a busca naquela string especificada. Se colocar '$' ao final, você especifica o término. 

#por exemplo:
text = "Amy trabalha fervorosamente. Amy tem boas notas. Nossa estudante Amy é sucedida."

#Vamos ver se começa com Amy
re.search("^Amy",text)

<_sre.SRE_Match object; span=(0, 3), match='Amy'>

In [None]:
#Note que 're.search()' nos retornou um novo objeto, chamado re.Match. Este objeto sempre tem um valor booleano de True conforme algo é encontrado.
#Então podemos sempre estimar em uma analise, como foi feito antes. Este objeto também nos retorna que padrão foi encontrado, no caso a palavra "Amy" 
#E o local está em span

##**Padrões e Classe de caracteres**

In [None]:
#Para continuar falando de padrões, vamos criar uma string com as notas de um único aluno durante o ano. (American Standard).
grades = "ACAAAABCBCBAA"

#Se quisermos saber quandos B's esse aluno tirou. Podemos simplesmente, como visto anteriormente:
re.findall("B", grades)

['B', 'B', 'B']

In [None]:
#Se quisermos saber a quantidade de notas A's ou B's na lista, nós não podemos simplesmente colocar como argumento "AB", uma vez que ele vai procurar por
#todos os A's seguidos de B's (vejamos). Ao invés disso, colocamos "AB" dentro de colchetes ("[AB]").
print(re.findall("AB", grades))
print(re.findall("[AB]",grades))


['AB']
['A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'A', 'A']


In [None]:
#Isso é chamado de operador de conjunto. Você também pode incluir o alcance dos caracteres, que estão organizados alfanumericamente. Por exemplo,
#Se quisermos referenciar todas as letras minusculas, nós podemos usar [a-z] como argumento. Vamos usar o Regex para analisar todas as vezes que o
#estudante recebeu um A seguido de B ou C.
re.findall("[A][B-C]", grades)

['AC', 'AB']

In [None]:
#Note que o argumento [AB] retornou um conjunto de possiveis caracteres, que podem ser A ou B, enquanto o argumento [A][B-C] denota dois conjuntos de caracteres
#que podem ser combinados. Esse argumento também pode ser escrito pelo notação usando "|"(pipe) operador. que significa "OU".

re.findall("AB|AC", grades)

['AC', 'AB']

In [None]:
#Podemos usar ^ para negar o resultado (padrão) que entramos como argumento. por exemplo, se quisermos só as notas diferente de A.
re.findall("[^A]", grades)

['C', 'B', 'C', 'B', 'C', 'B']

In [None]:
#Note que usamos circunflexo antes para definir ponto de ancoragem da string. Mas agora que o usamos dentro dos colchetes da função de busca, ele trocou o sentido
#(assim como outro caracter que logo veremos). Tendo percebido isso, ainda que um pouco confuso, que tipo de resultado o comando a seguir nos daria?
re.findall("^[^A]", grades)

[]

In [None]:
#Nos retornou uma lista vazia pois entramos como argumento, para buscar do no inicio, uma nota que não seja A. Como a string começa com A,
#a função nos retornou um valor vazio.
print(grades)

ACAAAABCBCBAA


##**Quantificadores**

In [None]:
#Agora que já falamos sobre ancoras e combinando no inicio e fim de padrões, e falamos sobre caracteres usando a notação em []. Também falamos sobre negação
#de caracteres e como o caracter |(pipe) nos permite fazer operações do tipo 'or'. Agora veremos os quantificadores.

In [None]:
#Quantificadores são o número de vezes você deseja que um padrão seja correspondido. O quantificador mais básico é expressado como e{m,n},
#Onde 'e' é a expressão ou caracter que estamos combinando, m é o número minimo de vezes que você quer ser correspondido, e n é o máximo.

#Ainda usando as notas como exemplo:
re.findall("A{2,10}", grades) # vemos que tivemos duas sequencias como saída, uma de dois ases, outra de quatro ases.

NameError: ignored

In [None]:
# Podemos ainda tentar fazer isso usando valores separados e repetindo o padrão
re.findall("A{1,1}A{1,1}", grades)

['AA', 'AA', 'AA']

In [None]:
#É importante perceber como um exemplo é diferente do outro, no primeiro padrão, estamos procurando por qualquer sequencia de "A's" de dois a 10 en sequência.
#já no padrão do segundo exemplo estamos procurando por um A seguindo imediatamente por outro (Perceba que obtivemos os 4 A's do primeiro exemplo, divididos).
#Dizemos que o Regex processa o inicio da string, e procura pelos valores testando variaveis.

#É importante perceber que a syntaxe do do quantificador não permite desviar da do padrão de maximo e minimo ({m,n}), inclusive, se você tiver um espaço entre as chaves
#irá ser retornado um resultado vazio.
re.findall("A{2, 2}", grades)

[]

In [None]:
#Como foi visto, se nenhum quantificador é inserido, padrão é {1,1}
print(re.findall("AA",grades))

['AA', 'AA', 'AA']


In [None]:
#Se colocarmos apenas um número entre as chaves, teremos como padrão do quantificador {x,x} (Onde x é valor max e min).
print(re.findall("A{2}", grades))

['AA', 'AA', 'AA']


In [None]:
#Usando isso, podemos encontrar uma tendencia decrescente nas notas de um aluno
re.findall("A{1,10}B{1,10}C{1,10}",grades)


['AAAABC']

In [None]:
#Agora, isso é um pouco de hack porque nós incluimos um maximo que era abitrariamente grande. Temos mais três outros quantificadores que podem ser usados.
#Um '*' para combinar 0 ou mais vezes, um '?' para combinar uma ou mais vezes, ou um '+' para combinar uma ou mais vezes. Vamos olhar um exemplo mais complexo
#E para isso vamos usar alguns dados do Wikipedia.
with open("ferpa.txt",'r') as file:
  wiki = file.read()

#Vamos ver o documento.
wiki

'Overview[edit]\nFERPA gives parents access to their child\'s education records, an opportunity to seek to have the records amended, and some control over the disclosure of information from the records. With several exceptions, schools must have a student\'s consent prior to the disclosure of education records after that student is 18 years old. The law applies only to educational agencies and institutions that receive funds under a program administered by the U.S. Department of Education.[2]\n\nOther regulations under this act, effective starting January 3, 2012, allow for greater disclosures of personal and directory student identifying information and regulate student IDs and e-mail addresses.[3] For example, schools may provide external companies a student\'s personally identifiable information without the student\'s consent.[3] Conversely, tying student directory information[4] to other information may result in a violation, as the combination creates an education record.[5][6]\n\

In [None]:
 #Scaneando esse documento, notamos que temos cabeçalhos seguidos por '[edit]', seguidos por um caracter de nova linha "/n".
 #Então, se quisermos pegar uma lista de todos os cabeçalhos neste artigo podemos usando o comando 'findall'.
 re.findall("[a-zA-Z]{1,100}\[edit\]", wiki) #Buscamos todas as letras maiusculas ou minusculas, seguidas por "Edit"

['Overview[edit]', 'records[edit]', 'records[edit]']

In [None]:
#Okay, isso não deu certo pois obtivemos apenas a ultima palavra do cabeçalho seguido pelas chaves. Vamos melhorar
#isso, podemos usar o 'metacaractere' \w encontrar qualquer letra, incluindo digitos e números
re.findall("[\w]{1,100}\[edit\]", wiki)

In [None]:
#Os metacaracteres indicam padrões especiais de letras e digitos. Para consultar mais metacaracteres, visite a documentação
#Por enquanto, \s procura por espaços.

#Vamos agora ver os outros 3 quantificadores, que são usados pra facilitar a syntaxe dos colchetes. Primeiramente '*'
#é usado para combinar 0 ou mais vezes.
re.findall("[\w]*\[edit\]", wiki)

['Overview[edit]', 'records[edit]', 'records[edit]']

In [None]:
#Agora que encurtamos o código, vamos inserir os espaços na busca.
re.findall("[\w ]*\[edit]", wiki)


['Overview[edit]',
 'Access to public records[edit]',
 'Student medical records[edit]']

In [None]:
# Ok, isso nos retornou uma LISTA de titulos, podemos iterar está lista para encontrarmos o resultado conforme nos interessa
#Vamos iterar isto e aplicar regex novamente
for title in re.findall("[\w ]*\[edit\]", wiki):
  #Agora vamos imprimir os dados sem a notação das chaves que tem quando imprime a lista.
  print(re.split("[\[]", title)[0])
#Observe que a variavel 'title' permanece com o ultimo valor da iteração.
print(title)

Overview
Access to public records
Student medical records
Student medical records[edit]


## Grupos

In [None]:
#Certo, isso funcionou mas é um pouco trabalhoso. Até este ponto falamos do regex como um único padrão que é combinado.
#Mas na verdade, podemos combinar com diferentes padrões ao mesmo tempo, chamados grupos. e entãos e referir ao grupo que quer
#Para agrupar padrões é usado parenteses.
re.findall("([\w ]*)(\[edit\])", wiki)

[('Overview', '[edit]'),
 ('Access to public records', '[edit]'),
 ('Student medical records', '[edit]')]

In [None]:
#Bom, vimos que o modulo 're' do python saí por grupo, podemos referenciar grupos por numeros, tão bem como combinar objetos
#que são retornado. Mas, como retornamos uma lista de objetos combinados? Até agora vimos que o comando 'findall()'
#retorna strings, e 'search()' e 'match()' retornam combinações individuais de objetos. Mas, oq fazemos se quisermos uma
#lista de objetos combinados? Neste caso, usamos a função 'finditer()'.
for item in re.finditer('([\w ]*)([edit\])', wiki):
  print(item.groups())

('Overview', '[edit]')
('Access to public records', '[edit]')
('Student medical records', '[edit]')


In [None]:
#Perceba que o método dos grupos ('groups()') retorna uma tupla de grupos, se quisermos selecionar um grupo individualmente
#usamos "group(x)", onde se x == 0, será retornado todas as combinações, e cada número é uma porção da combinação.
#Que estamos interessado, por exemplo, queremos o grupo 1.
for item in re.finditer("([\w ]*)(\[edit\])", wiki):
  print(item.group(1))

Overview
Access to public records
Student medical records


In [None]:
#Uma ferramenta do regex que é raramente usada, no entanto é uma boa ideía é nomear ou marcar grupos. 
#No exemplo anterior, mostramos que podemos usar a posição do grupo para. Mas da-los um nome e procutar pelos resultados
#como um dicionário é bem útil. Para isso usamos a sintaxe '(?P<name>)', onde o parenteses inicia o grupo, o '?P' indica
#que é uma extensão do regex básico, e o '<name>' é a chave do dicionário que queremos usar.

for item in re.finditer("(?P<title>[\w ]*)(?P<edit_link>\[edit\])", wiki):
  #Podemos imprimir o dicionário do item usando '.groupdict()['title']
  print(item.groupdict()["title"])

Overview
Access to public records
Student medical records


In [None]:
#Também podemos imprimir todo o dicionário do item, e vemos que a string '[edit]' permanece lá. Aqui o cionário mantém o ultimo item.
print(item.groupdict())

{'title': 'Student medical records', 'edit_link': '[edit]'}


In [None]:
#Ok,a té então vimos que podemos combinar caracteres individuais com [], como nós podemos agrupar combinações usando ()
#E agora como podemos usar quantificadores como *,?, ou m{n} para descrever os padrões. Foi exemplificado nos exemplos
# anteriores que '\w', que combina com qualquer letra. Tem outros comandos no regex como este para outros tipos
#diferentes de caracteres que não são uma nova linha.
# um '.' para qualquer caracter simples que não é uma linha
# um '\d' para qualquer digito
# um '\s' para qualquer espaço em branco (Space and tabs).
# Tem mais em uma lista completa que pode ser encontrada na documentação python do regex.

##Look-ahead and Look-behind

In [None]:
#Mais um conceito a se familiarizar é chamado de 'look ahead(Olhar a frente)' e 'look behind(Olhar o anterior)'.
#Neste caso, o padrão que está sendo dado ao motor regex é para o texto ou antes, ou depois do texto que estamos
#tentando isolar. Por exemplo, nos nossos cabeçalhos queremos isolar o texto que vem antes de '[edit]'.
#Mas nós atualmente não nos importamos com o texto '[edit]'. Até então estavamos tentando tirar ele fora.
#Agora, se quisermos usa-lo para combinar, mas não queremos captura-lo então podemos coloca-los em um grupo
#que usa "look ahead" com a sintaxe "?="

for item in re.finditer("(?P<title>[\w ]+)(?=\[edit\])", wiki):
  #O que este regex está dizendo é para combinar dois grupos, o primeiro será nomeado como 'title' e terá qualquer valor
  #de espaços em branco ou caracteres regulares. O segundo será a string '[edit]', mas não iremos querer o '[edit]'
  #Na saída dos objetos encontrados.
  print(item) #tente verificar a saída quando não tem a parte '?=' no comando.

<_sre.SRE_Match object; span=(0, 8), match='Overview'>
<_sre.SRE_Match object; span=(3088, 3112), match='Access to public records'>
<_sre.SRE_Match object; span=(4289, 4312), match='Student medical records'>


###Exemplo: Wikipedia Data

In [None]:
#Vamos dar uma olhada em mais dados da wikipédia. Aqui temos dados de algumas universidades nos US que são Budistas
with open("buddhist.txt", 'r') as file:
  wiki = file.read()

wiki

'\ufeffBuddhist universities and colleges in the United States\nFrom Wikipedia, the free encyclopedia\nJump to navigationJump to search\n\nThis article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.\nFind sources: "Buddhist universities and colleges in the United States" – news · newspapers · books · scholar · JSTOR (December 2009) (Learn how and when to remove this template message)\nThere are several Buddhist universities in the United States. Some of these have existed for decades and are accredited. Others are relatively new and are either in the process of being accredited or else have no formal accreditation. The list includes:\n\nDhammakaya Open University – located in Azusa, California, part of the Thai Wat Phra Dhammakaya[1]\nDharmakirti College – located in Tucson, Arizona Now called Awam Tibetan Buddhist Institute (http://awaminstitute.org/)\nDharma Realm

In [None]:
#Podemos perceber que cada universidade é seguida por um padrão bem similar, com o nome seguindo por um '-'
#E então seguidos por 'Located in' seguidos pelo nome da cidade e estado.

#Vou usar esse exemplo para mostrar como o modo prolixo funciona (Verbose). Obs: Do dicionário, prolixo significa demasiadas palavras do que o necesssaio.
#Este modo prolixo permite escrever multiplas linhas e aumentar a legibilidade do texto. Para este modo, precisamos
#explicitamente indicar todos os espaços, ou antecedendo com um '\' ou usando '\s'. Contudo, isso signifca que
#podemos escrever nosso regex um pouco mais como um código e até mesmo acrescentar comentários com '#'.

pattern="""
(?P<title>.*)           #O nome da universidade
(–\ located\ in\ )      #O indicador do local. (Use hifén '–' ao invés de menos '-')
(?P<city>\w*)           #A cidade em que se encontra a universidade
(,\ )                   #Separador do estado
(?P<state>\w*)          #O estado em que a cidade está localizada"""

#Agora, quando chamarmos a função 'finditer()' nós apenas passaremos re.VERBOSE como ultimo parametro. isto torna
#Muito mais simples de entender grandes regexes.
for item in re.finditer(pattern, wiki, re.VERBOSE):
  #Podemos pegar o dicionário que é retornado para o item com 'groupdict()'
  print(item.groupdict())

{'title': 'Dhammakaya Open University ', 'city': 'Azusa', 'state': 'California'}
{'title': 'Dharmakirti College ', 'city': 'Tucson', 'state': 'Arizona'}
{'title': 'Dharma Realm Buddhist University ', 'city': 'Ukiah', 'state': 'California'}
{'title': 'Ewam Buddhist Institute ', 'city': 'Arlee', 'state': 'Montana'}
{'title': 'Institute of Buddhist Studies ', 'city': 'Berkeley', 'state': 'California'}
{'title': 'Maitripa College ', 'city': 'Portland', 'state': 'Oregon'}
{'title': 'University of the West ', 'city': 'Rosemead', 'state': 'California'}
{'title': 'Won Institute of Graduate Studies ', 'city': 'Glenside', 'state': 'Pennsylvania'}


###Exemplo: New York Times e Hashtags

In [None]:
###Exemplo dos dados retirados do tweeter (Procurar pelos dados depois)

# Encerramento

In [None]:
"""Neste momento vimos apenas uma visão geral de expressões regulares (regex), e de verdade, foi apenas um esboço
do que pode ser feito. Eu achei particularmente frustrante, são incrivelmente poderosos, mas se você não usa-los e práticalos
por um tempo, você pode esquecer de alguns detalhes, especialmente grupos nomeados, e procurar antecedentes ou procedentes.
Mas, existem umonte de guias referenciados na internet, incluindo a documentação do python para regex, e com isso em mãos
você deve ser capaz de escrever um código conciso, legivel e funcional. Ter o essencial da literatura do regex é uma habilidade
essencial para aplicação da ciencia de dados"""

Em [Python](https://python.org), está a documentação da
[Operação de expressões regulares](https://docs.python.org/3/library/re.html).

Quando estiver trabalhando em tarefas ou outros problemas de expressões regulares, é útil usar [regex debug tools](https://regex101.com) disponivel na internet, que permite modificar o formato do regex no python.