# Análise de texto de fontes desestruturadas e Web

## Aula 08

Nesta aula iremos trabalhar com **Expressões Regulares**, termo comumente abreviado para **RegEx**. Regex provê uma forma eficiente de encontrar padrões regulares em corpus textuais. 

A biblioteca utilizada será a **re**.

Para conhecer mais sobre ela, acesse https://docs.python.org/3/library/re.html

## Importando as bibliotecas necessárias

Agora, vamos importar as bibliotecas necessárias:

In [2]:
# para trabalhar com diretórios / sistema operacional
import os

# para trabalhar com expressões regulares
import re

# utilizada para nos indicar o caminho do executável do Python
import sys

Caso obtenha algum erro, utilize o **!pip install** para instalar a biblioteca ausente!

Vamos conferir com qual versão da biblioteca **re** estamos trabalhando?

In [3]:
print(re.__version__)

2.2.1


Você também pode conferir de onde está executando o Python e qual a versão

In [4]:
print('Executável:')
print(sys.executable)

print('\nVersão do Python:')
print(sys.version)

Executável:
/home/calebe/anaconda3/envs/atd/bin/python

Versão do Python:
3.8.16 (default, Jan 17 2023, 23:13:24) 
[GCC 11.2.0]


Vamos conferir em qual diretório iremos trabalhar (é o diretório do notebook)

In [5]:
print('O seu notebook está na pasta:')
print(os.getcwd())

O seu notebook está na pasta:
/home/calebe/Dropbox/insper/23_1/atd/aulas/aula08/notebooks


# Praticando!

Vamos ver como utilizar expressões regulares para encontrar padrões em textos.

Primeiro, vamos procurar por uma palavra em uma mensagem:

In [6]:
msg = 'Do total de 18 produtos em estoque, apenas 3 tiveram vendas na última semana!'

Agora que temos a mensagem, vamos procurar pela palavra **vendas**. Para isto, vamos utilizar a função `re.search`. Veja mais em https://docs.python.org/3/library/re.html#re.search

In [11]:
exp = r'vendas'
resultado = re.search(exp, msg)
resultado

<re.Match object; span=(53, 59), match='vendas'>

será que podemos verificar se algo foi encontrado?

In [12]:
if resultado:
    print('Encontrou!')
else:
    print('Nao encontrou!')

Encontrou!


## Utilizando ReGex para substituição

Quando realizamos a extração de dados (Web, PDF), é quase mandatório a necessidade da realização de um processo de limpeza e preparação dos dados. A remoção ou alteração da escrita de palavras pode ser realizada por substituições.

**Vamos ver como substituir ocorrências?**

Suponha que exista um erro em um texto ou você queira substituir uma palavra por outra equivalente:

In [19]:
txt = 'Lyft vende unidade de carros automonos para a Toyota. Carros automonos serão a próxima moda!'

Vamos substituir `automonos` por `autônomos`. Veja mais em https://docs.python.org/3/library/re.html#re.sub

In [16]:
re.sub(r'automonos', 'autônomos', txt)

'Lyft vende unidade de carros autônomos para a Toyota. Carros autônomos serão a próxima moda!'

perceba que a variável não foi alterada, caso queira você precisa fazer uma atribuição *txt = re.sub...*.

In [17]:
txt

'Lyft vende unidade de carros automonos para a Toyota. Carros automonos serão a próxima moda!'

In [20]:
txt_limpo = re.sub(r'automonos', 'autônomos', txt)
txt_limpo

'Lyft vende unidade de carros autônomos para a Toyota. Carros autônomos serão a próxima moda!'

Em algumas situações, é necessário realizar a substituição apenas das primeiras **k** ocorrências. Podemos realizar esta alteração utilizando o parâmetro **count**.

In [21]:
re.sub(r'automonos', 'autônomos', txt, count=1)

'Lyft vende unidade de carros autônomos para a Toyota. Carros automonos serão a próxima moda!'

## Procurando múltiplas ocorrências

Para encontrar múltiplas ocorrências, podemos utilizar a função **findall**.

In [22]:
noticia = '''
A Lyft, rival da Uber nos Estados Unidos,
vai vender sua unidade de tecnologia de carros autônomos para
a Toyota em um acordo de 550 milhões de dólares, anunciaram as
empresas nesta segunda-feira. A venda vai ajudar a lyft a se
concentrar em parcerias com a ajuda de companhias de direção autônoma que
querem disponibilizar tecnologia na plataforma da empresa, em vez
da companhia ter de investir pesaaaaaadas somas em desenvolvimento de
tecnologia que ainda não foi colocada em uso amplo.
'''

Vamos procurar por todas as ocorrências de Lyft? Veja mais em https://docs.python.org/3/library/re.html#re.findall

In [23]:
re.findall(r'Lyft', noticia)

['Lyft']

Perceba que apenas ocorrências em maiúsculo foram encontrados. Por padrão, a busca será **case sensitive**

Vamos ver como alterar para que a busca seja feita **ignorando o case**:

In [24]:
re.findall(r'Lyft', noticia, flags=re.IGNORECASE)

['Lyft', 'lyft']

E se quiséssemos procurar por *Lyft* **OU** *Uber*?

In [25]:
re.findall(r'Lyft|uber', noticia, flags=re.IGNORECASE)

['Lyft', 'Uber', 'lyft']

In [27]:
re.findall(r'Lyft|uber|Toyota', noticia, flags=re.IGNORECASE)

['Lyft', 'Uber', 'Toyota', 'lyft']

E se quiséssemos procurar pela palavra milhões?

In [28]:
print(noticia)


A Lyft, rival da Uber nos Estados Unidos,
vai vender sua unidade de tecnologia de carros autônomos para
a Toyota em um acordo de 550 milhões de dólares, anunciaram as
empresas nesta segunda-feira. A venda vai ajudar a lyft a se
concentrar em parcerias com a ajuda de companhias de direção autônoma que
querem disponibilizar tecnologia na plataforma da empresa, em vez
da companhia ter de investir pesaaaaaadas somas em desenvolvimento de
tecnologia que ainda não foi colocada em uso amplo.



In [30]:
re.findall(r'milhões', noticia)

['milhões']

In [31]:
re.findall(r'milh.es', noticia)

['milhões']

Como é uma palavra acentuada, podemos procurar também pela variante sem acento, ou utilizar uma alternativa. com o uso de **`.`**, podemos representar "qualquer caractere".

Consigo fazer match com qualquer caractere em um conjunto?

In [32]:
print(noticia)


A Lyft, rival da Uber nos Estados Unidos,
vai vender sua unidade de tecnologia de carros autônomos para
a Toyota em um acordo de 550 milhões de dólares, anunciaram as
empresas nesta segunda-feira. A venda vai ajudar a lyft a se
concentrar em parcerias com a ajuda de companhias de direção autônoma que
querem disponibilizar tecnologia na plataforma da empresa, em vez
da companhia ter de investir pesaaaaaadas somas em desenvolvimento de
tecnologia que ainda não foi colocada em uso amplo.



In [34]:
re.findall(r'[Ll]yft|[Uu]ber|[Tt]oyota', noticia)

['Lyft', 'Uber', 'Toyota', 'lyft']

Agora, vamos conferir os quantificadores.

Uma ou mais ocorrências de uma letra:

In [36]:
re.findall(r'pesada', 'pesda pesada pesaada pesaaada pesaaaaaada')

['pesada']

In [37]:
re.findall(r'pesa+da', 'pesda pesada pesaada pesaaada pesaaaaaada')

['pesada', 'pesaada', 'pesaaada', 'pesaaaaaada']

zero ou uma ocorrências

In [38]:
re.findall(r'pesa*da', 'pesda pesada pesaada pesaaada pesaaaaaada')

['pesda', 'pesada', 'pesaada', 'pesaaada', 'pesaaaaaada']

Um número específico de vezes

In [39]:
re.findall(r'pesa{2}da', 'pesda pesada pesaada pesaaada pesaaaaaada')

['pesaada']

In [40]:
re.findall(r'pesa{,2}da', 'pesda pesada pesaada pesaaada pesaaaaaada')

['pesda', 'pesada', 'pesaada']

Podemos também procurar números nos textos:

In [41]:
print(noticia)


A Lyft, rival da Uber nos Estados Unidos,
vai vender sua unidade de tecnologia de carros autônomos para
a Toyota em um acordo de 550 milhões de dólares, anunciaram as
empresas nesta segunda-feira. A venda vai ajudar a lyft a se
concentrar em parcerias com a ajuda de companhias de direção autônoma que
querem disponibilizar tecnologia na plataforma da empresa, em vez
da companhia ter de investir pesaaaaaadas somas em desenvolvimento de
tecnologia que ainda não foi colocada em uso amplo.



In [42]:
re.findall(r'[0-9]', noticia)

['5', '5', '0']

In [43]:
re.findall(r'[0-9]+', noticia)

['550']

In [44]:
re.findall(r'[0-9]+', 'passaram 19 pessoas 350 vezes')

['19', '350']

In [45]:
re.findall(r'\d+', 'passaram 19 pessoas 350 vezes')

['19', '350']

Podemos fazer o mesmo com as letras!

In [47]:
print(re.findall(r'[a-z]', 'PassaraM 19 pessoas 350 vezes'))

['a', 's', 's', 'a', 'r', 'a', 'p', 'e', 's', 's', 'o', 'a', 's', 'v', 'e', 'z', 'e', 's']


In [48]:
print(re.findall(r'[a-zA-Z]', 'PassaraM 19 pessoas 350 vezes'))

['P', 'a', 's', 's', 'a', 'r', 'a', 'M', 'p', 'e', 's', 's', 'o', 'a', 's', 'v', 'e', 'z', 'e', 's']


In [49]:
print(re.findall(r'[a-zA-Z0-9]', 'PassaraM 19 pessoas 350 vezes'))

['P', 'a', 's', 's', 'a', 'r', 'a', 'M', '1', '9', 'p', 'e', 's', 's', 'o', 'a', 's', '3', '5', '0', 'v', 'e', 'z', 'e', 's']


In [51]:
print(re.findall(r'[a-zA-Z0-9]+', 'PassaraM 19 pessoas 350 vezes coração'))

['PassaraM', '19', 'pessoas', '350', 'vezes', 'cora', 'o']


In [52]:
print(re.findall(r'[a-zA-Zà-ú0-9]+', 'PassaraM 19 pessoas 350 vezes coração'))

['PassaraM', '19', 'pessoas', '350', 'vezes', 'coração']


In [59]:
print(re.findall(r'\w+', 'PassaraM 19 pessoas 350 vezes coração'))

['PassaraM', '19', 'pessoas', '350', 'vezes', 'coração']


Procurando textos entre parênteses:

In [62]:
print(re.findall(r'\(\w+\)', 'PassaraM 19 (pessoas) 350 vezes coração'))

['(pessoas)']


In [70]:
print(re.findall(r'\(\w+\s\w+\)', 'PassaraM 19 (pessoas espertas) 350 vezes coração'))

['(pessoas espertas)']


In [68]:
print(re.findall(r'\s', 'PassaraM 19 (pessoas espertas) 350 vezes coração'))

[' ', ' ', ' ', ' ', ' ', ' ']


# Resumindo

**|** ⟶ OU

**.** ⟶ Qualquer caractere, exceto quebra de linha

**[az]** ⟶ O caractere "a" OU "z". Pode ser qualquer caractere do conjunto

**[a-z]** ⟶ Qualquer caractere de "a" até "z" minúsculo

**[A-Z]** ⟶ Qualquer caractere de "A" até "Z" maiúsculo

**[0-9]** ⟶ Dígitos numéricos de "0" até "9"

**[^a-c]** ⟶ Qualquer caractere, exceto de "a" até "c"

**^[a-z]** ⟶ Qualquer caractere de "a" até "z". String deve começar com o padrão.

**[a-z]*** ⟶ Zero ou mais letras de "a" até "z"

**[A-Z]+** ⟶ Uma ou mais letras de "A" até "Z"

**a{5}** ⟶ Cinco **a**'s

**a{2,5}** ⟶ De dois a cinco **a**'s

**[a-z]{,3}** ⟶ Até três letras de "a" até "z"

**\w** ⟶ [a-zA-ZÀ-ú0-9], mas apenas um caractere destes

**\w+** ⟶ um ou mais [a-zA-ZÀ-ú0-9], formando uma palavra

**\s** ⟶ separadores



# RegEx tester

Uma ferramenta legal para conferir expressões regulares é o https://regex101.com ou https://www.regextester.com

Nele, você pode conferir se há, para alguma expressão regular, match com palavras de um texto.

# Exercícios

**Exercício 1)** Considere a seguinte string:

In [None]:
msg = 'Uber e Lyft fizeram aprox. 15 milhões de corridas, isso em 2020. Em ritmo de crescimento!'

a) Crie uma expressão regular para encontrar ocorrências dos termos **milhões** ou **crescimento** ou **investimento**

b) Crie uma expressão regular para encontrar todos os números na mensagem.

c) Crie uma expressão regular para alterar de **aprox.** para **aproximadamente**.

d) Crie uma expressão regular para remover *ponto* e *exclamação* das mensagens.

**Exercício 2)** Crie um programa para substituir todas as ocorrências de espaço, vírgula e interrogação por dois pontos :

In [None]:
text = 'Eu? Aprendendo, expressões regulares.'



**Exercício 3)** Crie um programa para obter uma lista das palavras no texto (incluindo números). As palavras devolvidas devem estar sem pontuação.

Dica: \w

In [None]:
msg = 'Uber e Lyft fizeram aprox. 860 milhões de corridas, isso em 2020'

**Exercício 4)** Considere a seguinte mensagem:

In [None]:
msg = 'João nasceu em 12/05/2016, e em 12/05/18 completou 2 anos de vida! Em 5/3/34, iniciou seu ensino superior!'

a) Crie uma expressão regular para encontrar todos os números na mensagem

b) Crie uma expressão regular para encontrar datas na mensagem.

**Exercício 5)** Crie um programa para encontrar URLs em uma string.

In [None]:
txt = 'Embora você possa digitar https://oficinadanet.com.br para acessar nosso site, em segundo plano, o navegador primeiro envia uma solicitação aos servidores DNS para resolver o nome do site em um endereço IP. Quando o endereço é encontrado, ele retorna e, em seguida, o navegador faz o download do conteúdo e mostra a página. Utilize http://www.google.com/ para ir ao buscador.'

In [None]:
print(txt)

**Exercício 6)** Crie um programa para identificar se um CPF está ou não formatado de acordo com o padrão 000.000.000-00. Exiba a mensagem *está correto* ou *está errado*

DICA: procure pela função `re.match`

In [None]:
cpf = '012.345.678-90'



b) Crie uma função para fazer esta validação.

In [None]:
def valid_cpf(cpf):
    # Seu código aqui!
    return

In [None]:
print(valid_cpf('089.988.355-19'))
print(valid_cpf('011.233.455-9'))
print(valid_cpf('23.578.399-54'))

**Exercício 7)** Crie uma função para validar se um telefone está no formato correto:

Ex: (11) 98765-4321

In [None]:
def valid_tel(tel):
    # Seu código aqui!
    return

In [None]:
tel = '(11) 98765-4321'
print(valid_tel(tel))

tel = '(11) 987654321'
print(valid_tel(tel))

tel = '11 98765-4321'
print(valid_tel(tel))

tel = '(11) 98765-432'
print(valid_tel(tel))

**Exercício 8)** Crie uma função para encontrar todos os telefones em um texto

Ex: (11) 98765-4321

In [None]:
def find_all_tel(txt):
    # Seu código aqui!
    return

In [None]:
txt = 'liga neste (11) 98765-4321 ou neste (11) 98765-4321'

find_all_tel(txt)

**Exercício 9)** Encontre e teste um RegEx para validar email!


**Exercício 10)** Uma empresa deseja monitorar menções a ela em notícias. Crie uma função que recebe um texto (notícia) e o nome da `empresa`. Caso a notícia faça menção a empresa, devolva a quantas palavras negativas são encontradas na notícia.

In [None]:
def monitora_neg(notica, empresa):
    # Seu código aqui!
    return

In [None]:
noticia = 'A Microsoft fez um péssimo trabalho no desenvolvimento do Onedrive. Os clientes, irritados, '
print(monitora_neg(noticia, 'Microsoft'))

noticia = 'A Microsoft fez um péssimo trabalho no desenvolvimento do Onedrive. Os clientes, irritados, tentam se localizar'
print(monitora_neg(noticia, 'Apple'))

noticia = '''
Pânico e recessão globais. O Lehman Brothers entrou com pedido
de recuperação judicial em 15 de setembro de 2008, uma segunda-feira
e teve sua falência decretada. Com uma dívida de US$ 613 bilhões,
o banco, fundado em 1847, empregava cerca de
25 mil pessoas no mundo todo. Cliente irados não saem do telefone.
'''
print(monitora_neg(noticia, 'Lehman Brothers'))
