# Análise de texto de fontes desestruturadas e Web

## Aula 08

Nesta aula iremos trabalhar com **Expressões Regulares**, termo comumente abreviado para **RegEx**. Regex provê uma forma eficiente de encontrar padrões regulares em corpus textuais. 

A biblioteca utilizada será a **re**.

Para conhecer mais sobre ela, acesse https://docs.python.org/3/library/re.html

## Importando as bibliotecas necessárias

Agora, vamos importar as bibliotecas necessárias:

In [None]:
# para trabalhar com diretórios / sistema operacional
import os

# para trabalhar com expressões regulares
import re

# utilizada para nos indicar o caminho do executável do Python
import sys

import re

Caso obtenha algum erro, utilize o **!pip install** para instalar a biblioteca ausente!

Vamos conferir com qual versão da biblioteca **re** estamos trabalhando?

In [None]:
print(re.__version__)

Você também pode conferir de onde está executando o Python e qual a versão

In [None]:
print('Executável:')
print(sys.executable)

print('\nVersão do Python:')
print(sys.version)

Vamos conferir em qual diretório iremos trabalhar (é o diretório do notebook)

In [None]:
print('O seu notebook está na pasta:')
print(os.getcwd())

# Praticando!

Vamos ver como utilizar expressões regulares para encontrar padrões em textos.

Primeiro, vamos procurar por uma palavra em uma mensagem:

In [None]:
msg = 'Do total de 18 produtos em estoque, apenas 3 tiveram vendas na última semana!'

Agora que temos a mensagem, vamos procurar pela palavra **vendas**. Para isto, vamos utilizar a função `re.search`. Veja mais em https://docs.python.org/3/library/re.html#re.search

In [None]:
exp = r'vendas'
resultado = re.search(exp, msg)
resultado

será que podemos verificar se algo foi encontrado?

In [None]:
if resultado:
    print('Encontrou!')
else:
    print('Nao encontrou!')

## Utilizando ReGex para substituição

Quando realizamos a extração de dados (Web, PDF), é quase mandatório a necessidade da realização de um processo de limpeza e preparação dos dados. A remoção ou alteração da escrita de palavras pode ser realizada por substituições.

**Vamos ver como substituir ocorrências?**

Suponha que exista um erro em um texto ou você queira substituir uma palavra por outra equivalente:

In [None]:
txt = 'Lyft vende unidade de carros automonos para a Toyota. Carros automonos serão a próxima moda!'

Vamos substituir `automonos` por `autônomos`. Veja mais em https://docs.python.org/3/library/re.html#re.sub

In [None]:
re.sub(r'automonos', 'autônomos', txt)

perceba que a variável não foi alterada, caso queira você precisa fazer uma atribuição *txt = re.sub...*.

In [None]:
txt

In [None]:
txt_corrigido = re.sub(r'automonos', 'autônomos', txt)

Em algumas situações, é necessário realizar a substituição apenas das primeiras **k** ocorrências. Podemos realizar esta alteração utilizando o parâmetro **count**.

In [None]:
re.sub(r'automonos', 'autônomos', txt, count=1)

In [None]:
exp = r'autônomos'
resultado = re.search(exp, txt_corrigido)
resultado

## Procurando múltiplas ocorrências

Para encontrar múltiplas ocorrências, podemos utilizar a função **findall**.

In [None]:
noticia = '''
A Lyft, rival da Uber nos Estados Unidos,
vai vender sua unidade de tecnologia de carros autônomos para
a Toyota em um acordo de 550 milhões de dólares, anunciaram as
empresas nesta segunda-feira. A venda vai ajudar a lyft a se
concentrar em parcerias com a ajuda de companhias de direção autônoma que
querem disponibilizar tecnologia na plataforma da empresa, em vez
da companhia ter de investir pesaaaaaadas somas em desenvolvimento de
tecnologia que ainda não foi colocada em uso amplo.
'''

Vamos procurar por todas as ocorrências de Lyft? Veja mais em https://docs.python.org/3/library/re.html#re.findall

In [None]:
re.findall(r'Lyft', noticia)

Perceba que apenas ocorrências em maiúsculo foram encontrados. Por padrão, a busca será **case sensitive**

Vamos ver como alterar para que a busca seja feita **ignorando o case**:

In [None]:
re.findall(r'lyft', noticia, flags=re.IGNORECASE)

E se quiséssemos procurar por *Lyft* **OU** *Uber*?

In [None]:
re.findall(r'Lyft|Uber', noticia)

In [None]:
re.findall(r'Lyft|Uber|Toyota|Mazda', noticia)

E se quiséssemos procurar pela palavra milhões?

In [None]:
print(noticia)

In [None]:
re.findall(r'milhões', noticia)

Como é uma palavra acentuada, podemos procurar também pela variante sem acento, ou utilizar uma alternativa. com o uso de **`.`**, podemos representar "qualquer caractere".

In [None]:
re.findall(r'milh.es', noticia)

Consigo fazer match com qualquer caractere em um conjunto?

In [None]:
print(noticia)

Agora, vamos conferir os quantificadores.

Uma ou mais ocorrências de uma letra:

In [None]:
re.findall(r'pesada', 'pesda pesada pesaada pesaaada pesaaaaaada')

In [None]:
re.findall(r'ba+\w*', 'babaneira basquete belisco gelo baaanco')

zero ou uma ocorrências

In [None]:
re.findall(r'ajudar?', noticia)

Um número específico de vezes

In [None]:
re.findall(r'pesa{,10}das', noticia)

Podemos também procurar números nos textos:

In [None]:
re.findall(r'5', noticia)

In [None]:
re.findall(r'[0-9]', noticia)

In [None]:
re.findall(r'[0-9]+', noticia)

In [None]:
re.findall(r'\d+', noticia)

Podemos fazer o mesmo com as letras!

In [None]:
print(re.findall(r'[A-Z]', noticia))

In [None]:
print(re.findall(r'[a-z]+', noticia))

In [None]:
print(re.findall(r'[a-zA-Z]+', noticia))

In [None]:
print(re.findall(r'[a-zA-Z0-9]+', noticia))

In [None]:
print(re.findall(r'[a-zA-ZÀ-ú0-9]+', noticia))

In [None]:
print(re.findall(r'\w', noticia))

In [None]:
print(re.findall(r'\w+', noticia))

In [None]:
print(re.findall(r'\s+', noticia))

In [None]:
print(re.findall(r'\S+', noticia))

Procurando textos entre parênteses:

In [None]:
texto = 'Foi a Bia (mas não a sua irmã)'

re.findall(r'\(.*\)', texto)

In [None]:
re.findall(r'[^a-c]+', 'este ano foi o ano 1988')

# Resumindo

**|** ⟶ OU

**.** ⟶ Qualquer caractere, exceto quebra de linha

**[az]** ⟶ O caractere "a" OU "z". Pode ser qualquer caractere do conjunto

**[a-z]** ⟶ Qualquer caractere de "a" até "z" minúsculo

**[A-Z]** ⟶ Qualquer caractere de "A" até "Z" maiúsculo

**[0-9]** ⟶ Dígitos numéricos de "0" até "9"

**[^a-c]** ⟶ Qualquer caractere, exceto de "a" até "c"

**^[a-z]** ⟶ Qualquer caractere de "a" até "z". String deve começar com o padrão.

**[a-z]*** ⟶ Zero ou mais letras de "a" até "z"

**[A-Z]+** ⟶ Uma ou mais letras de "A" até "Z"

**a{5}** ⟶ Cinco **a**'s

**a{2,5}** ⟶ De dois a cinco **a**'s

**[a-z]{,3}** ⟶ Até três letras de "a" até "z"

**\w** ⟶ [a-zA-ZÀ-ú0-9], mas apenas um caractere destes

**\w+** ⟶ um ou mais [a-zA-ZÀ-ú0-9], formando uma palavra

**\s** ⟶ separadores



# RegEx tester

Uma ferramenta legal para conferir expressões regulares é o https://regex101.com ou https://www.regextester.com

Nele, você pode conferir se há, para alguma expressão regular, match com palavras de um texto.

## Atividade para entrega!

## Insper Autograding

Iremos utilizar uma ferramenta para correção automática. Ao responder os exercícios, será possível enviar a solução para um servidor, que dará feedback quase que instantâneo sobre a resposta.

Além de já ter uma boa ideia sobre seu desempenho na atividade, não será necessário fazer a entrega do notebook pelo Blackboard pois o corretor já armazena suas soluções.

Siga os passos deste notebook para realizar a instalação da biblioteca de correção de exercícios nos notebooks da disciplina!

## Instalação

Vamos instalar a biblioteca (este passo só precisa ser executado uma vez):

In [None]:
# !pip uninstall -y insperautograder
# !pip install git+https://github.com/macielcalebe/insperautograding.git

## Importando as bibliotecas

In [None]:
import os
import insperautograder.jupyter as ia

## Configurar ambiente

Execute a célula para configurar nosso ambiente de execução:

In [None]:
os.environ["IAG_OFFERING"] = "24-1"
os.environ["IAG_SUBJECT"] = "analisetxt"
os.environ["IAG_SERVER_URL"] = "https://bigdata.insper-comp.com.br/iag"

## Me diga quem você é

Utilize o **Token** enviado para seu e-mail para que você seja identificado pelo servidor de testes.

Substitua `iagtok_xxx...` pelo token enviado para seu e-mail.

In [None]:
os.environ["IAG_TOKEN"] = "iagtok_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

## Conferir atividades e notas

Conferindo quais atividades estão disponíveis!

In [None]:
ia.tasks()

Conferindo a nota por exercício na atividade:

In [None]:
ia.grades(task="regex")

Conferindo a nota geral nas atividades

In [None]:
ia.grades(by="TASK")

# Exercícios

**Exercício 1)** Considere a seguinte string:

In [None]:
msg = "Uber e Lyft fizeram aprox. 15 milhões de corridas, isso em 2020. Em ritmo de crescimento!"

a) Crie uma expressão regular para encontrar ocorrências dos termos **milhões** ou **crescimento** ou **investimento**

In [None]:
regex_exp_ex01a = r"" # Sua expressão regular!
re.findall(regex_exp_ex01a, msg)

Vamos testar sua resposta localmente antes de enviar ao servidor de correção automática:

In [None]:
assert re.findall(regex_exp_ex01a, msg) == ["milhões", "crescimento"], "Resposta diferente do esperado!"

Quando estiver confiante que sua resposta está correta, clique no botão abaixo para fazer o envio.

In [None]:
ia.sender(answer="regex_exp_ex01a", task="regex", question="ex01a", answer_type="pyvar")

b) Crie uma expressão regular para encontrar todos os números na mensagem.

In [None]:
regex_exp_ex01b = r"" # Sua expressão regular!
re.findall(regex_exp_ex01b, msg)

Vamos testar sua resposta localmente antes de enviar ao servidor de correção automática:

In [None]:
assert re.findall(regex_exp_ex01b, msg) == ["15", "2020"], "Resposta diferente do esperado!"

Quando estiver confiante que sua resposta está correta, clique no botão abaixo para fazer o envio.

In [None]:
ia.sender(answer="regex_exp_ex01b", task="regex", question="ex01b", answer_type="pyvar")

c) Crie uma expressão regular para alterar de **aprox.** para **aproximadamente**.

In [None]:
regex_exp_ex01c = r'' # Sua expressão regular!
re.sub(regex_exp_ex01c, 'aproximadamente', msg)

Vamos testar sua resposta localmente antes de enviar ao servidor de correção automática:

In [None]:
msg_esperada = "Uber e Lyft fizeram aproximadamente 15 milhões de corridas, isso em 2020. Em ritmo de crescimento!"
assert re.sub(regex_exp_ex01c, 'aproximadamente', msg) == msg_esperada, "Resposta diferente do esperado!"

Quando estiver confiante que sua resposta está correta, clique no botão abaixo para fazer o envio.

In [None]:
ia.sender(answer="regex_exp_ex01c", task="regex", question="ex01c", answer_type="pyvar")

d) Crie uma expressão regular para remover *ponto* e *exclamação* das mensagens.

In [None]:
regex_exp_ex01d = r'' # Sua expressão regular!
re.sub(regex_exp_ex01d, '', msg)

Vamos testar sua resposta localmente antes de enviar ao servidor de correção automática:

In [None]:
msg_esperada = "Uber e Lyft fizeram aprox 15 milhões de corridas, isso em 2020 Em ritmo de crescimento"
assert re.sub(regex_exp_ex01d, '', msg) == msg_esperada, "Resposta diferente do esperado!"

Quando estiver confiante que sua resposta está correta, clique no botão abaixo para fazer o envio.

In [None]:
ia.sender(answer="regex_exp_ex01d", task="regex", question="ex01d", answer_type="pyvar")

**Exercício 2)** Crie um programa para substituir todas as ocorrências de espaço, vírgula e interrogação por dois pontos :

In [None]:
regex_exp_ex02 = r"" # Sua expressão regular!

text = 'Eu? Aprendendo, expressões regulares.'

res = re.sub(regex_exp_ex02, ":", text)
print(f"Resultado: '{res}'")

Vamos testar sua resposta localmente antes de enviar ao servidor de correção automática:

In [None]:
msg_esperada = "Eu::Aprendendo::expressões:regulares."
assert re.sub(regex_exp_ex02, ":", text) == msg_esperada, "Resposta diferente do esperado!"

Quando estiver confiante que sua resposta está correta, clique no botão abaixo para fazer o envio.

In [None]:
ia.sender(answer="regex_exp_ex02", task="regex", question="ex02", answer_type="pyvar")

**Exercício 3)** Crie uma expressão regular para obter, utilizando `re.findall`, a lista das palavras no texto (incluindo números). As palavras devolvidas devem estar sem pontuação.

Dica: `\w`

In [None]:
msg = 'Uber e Lyft fizeram aprox. 860 milhões de corridas, isso em 2020'

regex_exp_ex03 = r"" # Sua expressão regular!

re.findall(regex_exp_ex03, msg)

Vamos testar sua resposta localmente antes de enviar ao servidor de correção automática:

In [None]:
esperado = ['Uber', 'e', 'Lyft', 'fizeram', 'aprox', '860', 'milhões', 'de', 'corridas', 'isso', 'em', '2020']
assert re.findall(regex_exp_ex03, msg) == esperado, "Resposta diferente do esperado!"

Quando estiver confiante que sua resposta está correta, clique no botão abaixo para fazer o envio.

In [None]:
ia.sender(answer="regex_exp_ex03", task="regex", question="ex03", answer_type="pyvar")

**Exercício 4)** Considere a seguinte mensagem:

In [None]:
msg_ex04 = 'João nasceu em 12/05/2016, e em 12/05/18 completou 2 anos de vida! Em 5/3/34, iniciou seu ensino superior!'

a) Crie uma expressão regular para encontrar todos os números na mensagem

In [None]:
# Seu código AQUI!

b) Crie uma expressão regular para encontrar **datas** na mensagem.

**Obs**:
- Utilize `re.findall`.
- Apenas datas separadas por barra, com dia, mês e ano.

In [None]:
regex_exp_ex04b = r"" # Sua expressão regular!

re.findall(regex_exp_ex04b, msg_ex04)

Vamos testar sua resposta localmente antes de enviar ao servidor de correção automática:

In [None]:
esperado = ['12/05/2016', '12/05/18', '5/3/34']
assert re.findall(regex_exp_ex04b, msg_ex04) == esperado, "Resposta diferente do esperado!"

Quando estiver confiante que sua resposta está correta, clique no botão abaixo para fazer o envio.

In [None]:
ia.sender(answer="regex_exp_ex04b", task="regex", question="ex04b", answer_type="pyvar")

**Exercício 5)** Crie um programa para encontrar URLs em uma string.

In [None]:
txt_ex05 = 'Embora você possa digitar https://oficinadanet.com.br para acessar nosso site, em segundo plano, o navegador primeiro envia uma solicitação aos servidores DNS para resolver o nome do site em um endereço IP. Quando o endereço é encontrado, ele retorna e, em seguida, o navegador faz o download do conteúdo e mostra a página. Utilize http://www.google.com/ para ir ao buscador.'

In [None]:
print(txt_ex05)

In [None]:
regex_exp_ex05 = r"" # Sua regex!
lista_url = re.findall(regex_exp_ex05, txt_ex05)
print(lista_url)

Vamos testar sua resposta localmente antes de enviar ao servidor de correção automática:

In [None]:
esperado = ['https://oficinadanet.com.br', 'http://www.google.com/']
assert re.findall(regex_exp_ex05, txt_ex05) == esperado, "Resposta diferente do esperado!"

Quando estiver confiante que sua resposta está correta, clique no botão abaixo para fazer o envio.

In [None]:
ia.sender(answer="regex_exp_ex05", task="regex", question="ex05", answer_type="pyvar")

**Exercício 6)** 

**a)** Crie uma expressão regular para identificar se um CPF está ou não formatado de acordo com o padrão 000.000.000-00. Exiba a mensagem *está correto* ou *está errado*

In [None]:
cpf = "012.345.678-90"

regex_exp_ex06a = r"" # Sua expressão regular!

if re.match(regex_exp_ex06a, cpf):
    print("Está correto!")
else:
    print("Fora do padrão!")

Vamos testar sua resposta localmente antes de enviar ao servidor de correção automática:

In [None]:
assert re.match(regex_exp_ex06a, "012.345.678-90"), "Resposta diferente do esperado!"
assert re.match(regex_exp_ex06a, "012.345.67890") is None, "Resposta diferente do esperado!"

Quando estiver confiante que sua resposta está correta, clique no botão abaixo para fazer o envio.

In [None]:
ia.sender(answer="regex_exp_ex06a", task="regex", question="ex06a", answer_type="pyvar")

b) Crie uma função para fazer esta validação.

In [None]:
def valid_cpf(cpf):
    # Seu código aqui!
    return

In [None]:
print(valid_cpf("089.988.355-19"))
print(valid_cpf("011.233.455-9"))
print(valid_cpf("23.578.399-54"))

**Exercício 7)** 

**a)** Crie uma expressão regular para validar se um telefone está no formato correto:

Ex: (11) 98765-4321

In [None]:
tel = "(11) 98765-4321"

regex_exp_ex07a = r"" # Sua Expressão Regular!

if re.match(regex_exp_ex07a, tel):
    print("Está correto!")
else:
    print("Fora do padrão!")

Vamos testar sua resposta localmente antes de enviar ao servidor de correção automática:

In [None]:
assert re.match(regex_exp_ex07a, "(11) 98765-4321"), "Resposta diferente do esperado!"
assert re.match(regex_exp_ex07a, "11987654321") is None, "Resposta diferente do esperado!"

Quando estiver confiante que sua resposta está correta, clique no botão abaixo para fazer o envio.

In [None]:
ia.sender(answer="regex_exp_ex07a", task="regex", question="ex07a", answer_type="pyvar")

**b)** Crie uma função para validar se um telefone está no formato correto:

In [None]:
def valid_tel(tel):
    # Seu código aqui!
    return

In [None]:
tel = '(11) 98765-4321'
print(valid_tel(tel))

tel = '(11) 987654321'
print(valid_tel(tel))

tel = '11 98765-4321'
print(valid_tel(tel))

tel = '(11) 98765-432'
print(valid_tel(tel))

**Exercício 8)** Crie uma função para encontrar todos os telefones em um texto

Ex: (11) 98765-4321

In [None]:
def find_all_tel(txt):
    # Seu código aqui!
    return

In [None]:
txt = 'liga neste (11) 98765-4321 ou neste (11) 98765-4321'

find_all_tel(txt)

In [None]:
tel = 'liga neste (11) 98765-4321 ou neste (11) 98765-4321'

re.findall(r'\(\d{2}\) \d{5}-\d{4}', tel)

**Exercício 9)** Encontre e teste um RegEx para validar email!


**Exercício 10)** Uma empresa deseja monitorar menções a ela em notícias. Crie uma função que recebe um texto (notícia) e o nome da `empresa`. Caso a notícia faça menção a empresa, devolva a quantas palavras negativas são encontradas na notícia.

In [None]:
def monitora_neg(notica, empresa):
    # Seu código aqui!
    return

In [None]:
noticia = 'A Microsoft fez um péssimo trabalho no desenvolvimento do Onedrive. Os clientes, irritados, '
print(monitora_neg(noticia, 'Microsoft'))

noticia = 'A Microsoft fez um péssimo trabalho no desenvolvimento do Onedrive. Os clientes, irritados, tentam se localizar'
print(monitora_neg(noticia, 'Apple'))

noticia = '''
Pânico e recessão globais. O Lehman Brothers entrou com pedido
de recuperação judicial em 15 de setembro de 2008, uma segunda-feira
e teve sua falência decretada. Com uma dívida de US$ 613 bilhões,
o banco, fundado em 1847, empregava cerca de
25 mil pessoas no mundo todo. Cliente irados não saem do telefone.
'''
print(monitora_neg(noticia, 'Lehman Brothers'))


## Conferir notas

In [None]:
ia.grades(task="regex")