# Análise de texto de fontes desestruturadas e Web

## Aula 08

Nesta aula iremos trabalhar com **Expressões Regulares**, termo comumente abreviado para **RegEx**. Regex provê uma forma eficiente de encontrar padrões regulares em corpus textuais. 

A biblioteca utilizada será a **re**.

Para conhecer mais sobre ela, acesse https://docs.python.org/3/library/re.html

## Importando as bibliotecas necessárias

Agora, vamos importar as bibliotecas necessárias:

In [20]:
# para trabalhar com diretórios / sistema operacional
import os

# para trabalhar com expressões regulares
import re

# utilizada para nos indicar o caminho do executável do Python
import sys

import re

Caso obtenha algum erro, utilize o **!pip install** para instalar a biblioteca ausente!

Vamos conferir com qual versão da biblioteca **re** estamos trabalhando?

In [2]:
print(re.__version__)

2.2.1


Você também pode conferir de onde está executando o Python e qual a versão

In [3]:
print('Executável:')
print(sys.executable)

print('\nVersão do Python:')
print(sys.version)

Executável:
/home/gabrielhso/Desktop/insper/2024.1/web-scraping/class-repo/env/bin/python

Versão do Python:
3.10.12 (main, Nov 20 2023, 15:14:05) [GCC 11.4.0]


Vamos conferir em qual diretório iremos trabalhar (é o diretório do notebook)

In [4]:
print('O seu notebook está na pasta:')
print(os.getcwd())

O seu notebook está na pasta:
/home/gabrielhso/Desktop/insper/2024.1/web-scraping/class-repo/aulas/08-regex


# Praticando!

Vamos ver como utilizar expressões regulares para encontrar padrões em textos.

Primeiro, vamos procurar por uma palavra em uma mensagem:

In [5]:
msg = 'Do total de 18 produtos em estoque, apenas 3 tiveram vendas na última semana!'

Agora que temos a mensagem, vamos procurar pela palavra **vendas**. Para isto, vamos utilizar a função `re.search`. Veja mais em https://docs.python.org/3/library/re.html#re.search

In [6]:
exp = r'vendas'
resultado = re.search(exp, msg)
resultado

<re.Match object; span=(53, 59), match='vendas'>

será que podemos verificar se algo foi encontrado?

In [8]:
if resultado:
    print('Encontrou!')
else:
    print('Nao encontrou!')

Encontrou!


## Utilizando ReGex para substituição

Quando realizamos a extração de dados (Web, PDF), é quase mandatório a necessidade da realização de um processo de limpeza e preparação dos dados. A remoção ou alteração da escrita de palavras pode ser realizada por substituições.

**Vamos ver como substituir ocorrências?**

Suponha que exista um erro em um texto ou você queira substituir uma palavra por outra equivalente:

In [9]:
txt = 'Lyft vende unidade de carros automonos para a Toyota. Carros automonos serão a próxima moda!'

Vamos substituir `automonos` por `autônomos`. Veja mais em https://docs.python.org/3/library/re.html#re.sub

In [10]:
re.sub(r'automonos', 'autônomos', txt)

'Lyft vende unidade de carros autônomos para a Toyota. Carros autônomos serão a próxima moda!'

In [14]:
txt.replace("automonos", "autônomos")

'Lyft vende unidade de carros autônomos para a Toyota. Carros autônomos serão a próxima moda!'

perceba que a variável não foi alterada, caso queira você precisa fazer uma atribuição *txt = re.sub...*.

In [15]:
txt

'Lyft vende unidade de carros automonos para a Toyota. Carros automonos serão a próxima moda!'

In [16]:
txt_corrigido = re.sub(r'automonos', 'autônomos', txt)

Em algumas situações, é necessário realizar a substituição apenas das primeiras **k** ocorrências. Podemos realizar esta alteração utilizando o parâmetro **count**.

In [17]:
re.sub(r'automonos', 'autônomos', txt, count=1)

'Lyft vende unidade de carros autônomos para a Toyota. Carros automonos serão a próxima moda!'

In [18]:
exp = r'autônomos'
resultado = re.search(exp, txt_corrigido)
resultado

<re.Match object; span=(29, 38), match='autônomos'>

## Procurando múltiplas ocorrências

Para encontrar múltiplas ocorrências, podemos utilizar a função **findall**.

In [30]:
noticia = '''
A Lyft, rival da Uber nos Estados Unidos,
vai vender sua unidade de tecnologia de carros autônomos para
a Toyota em um acordo de 550 milhões de dólares, anunciaram as
empresas nesta segunda-feira. A venda vai ajudar a lyft a se
concentrar em parcerias com a ajuda de companhias de direção autônoma que
querem disponibilizar tecnologia na plataforma da empresa, em vez
da companhia ter de investir pesaaaaaadas somas em desenvolvimento de
tecnologia que ainda não foi colocada em uso amplo.
'''

Vamos procurar por todas as ocorrências de Lyft? Veja mais em https://docs.python.org/3/library/re.html#re.findall

In [31]:
re.findall(r'Lyft', noticia)

['Lyft']

Perceba que apenas ocorrências em maiúsculo foram encontrados. Por padrão, a busca será **case sensitive**

Vamos ver como alterar para que a busca seja feita **ignorando o case**:

In [32]:
re.findall(r'lyft', noticia, flags=re.IGNORECASE)

['Lyft', 'lyft']

E se quiséssemos procurar por *Lyft* **OU** *Uber*?

In [33]:
re.findall(r'Lyft|Uber', noticia)

['Lyft', 'Uber']

In [34]:
re.findall(r'Lyft|Uber|Toyota|Mazda', noticia)

['Lyft', 'Uber', 'Toyota']

> Se tiver múltiplas ocorrências ele também retorna múltiplas vezes

In [36]:
re.findall(r'de', noticia)

['de', 'de', 'de', 'de', 'de', 'de', 'de', 'de', 'de', 'de', 'de']

In [39]:
noticia.count('de')

11

E se quiséssemos procurar pela palavra milhões?

In [24]:
print(noticia)


A Lyft, rival da Uber nos Estados Unidos,
vai vender sua unidade de tecnologia de carros autônomos para
a Toyota em um acordo de 550 milhões de dólares, anunciaram as
empresas nesta segunda-feira. A venda vai ajudar a lyft a se
concentrar em parcerias com a ajuda de companhias de direção autônoma que
querem disponibilizar tecnologia na plataforma da empresa, em vez
da companhia ter de investir pesaaaaaadas somas em desenvolvimento de
tecnologia que ainda não foi colocada em uso amplo.



In [25]:
re.findall(r'milhões', noticia)

['milhões']

Como é uma palavra acentuada, podemos procurar também pela variante sem acento, ou utilizar uma alternativa. com o uso de **`.`**, podemos representar "qualquer caractere".

In [26]:
re.findall(r'milh.es', noticia)

['milhões']

Consigo fazer match com qualquer caractere em um conjunto?

In [27]:
print(noticia)


A Lyft, rival da Uber nos Estados Unidos,
vai vender sua unidade de tecnologia de carros autônomos para
a Toyota em um acordo de 550 milhões de dólares, anunciaram as
empresas nesta segunda-feira. A venda vai ajudar a lyft a se
concentrar em parcerias com a ajuda de companhias de direção autônoma que
querem disponibilizar tecnologia na plataforma da empresa, em vez
da companhia ter de investir pesaaaaaadas somas em desenvolvimento de
tecnologia que ainda não foi colocada em uso amplo.



Agora, vamos conferir os quantificadores.

Uma ou mais ocorrências de uma letra:

In [40]:
re.findall(r'pesada', 'pesda pesada pesaada pesaaada pesaaaaaada')

['pesada']

In [43]:
re.findall(r'pesa+da', 'pesda pesada pesaada pesaaada pesaaaaaada')

['pesada', 'pesaada', 'pesaaada', 'pesaaaaaada']

In [44]:
re.findall(r'ba+\w*', 'babaneira basquete belisco gelo baaanco')

['babaneira', 'basquete', 'baaanco']

zero ou uma ocorrências

In [45]:
re.findall(r'ajudar?', noticia)

['ajudar', 'ajuda']

Um número específico de vezes

In [46]:
re.findall(r'pesa{,10}das', noticia)

['pesaaaaaadas']

Podemos também procurar números nos textos:

In [47]:
re.findall(r'5', noticia)

['5', '5']

In [48]:
re.findall(r'[0-9]', noticia)

['5', '5', '0']

In [49]:
re.findall(r'[0-9]+', noticia)

['550']

In [50]:
re.findall(r'\d+', noticia)

['550']

Podemos fazer o mesmo com as letras!

In [51]:
print(re.findall(r'[A-Z]', noticia))

['A', 'L', 'U', 'E', 'U', 'T', 'A']


In [52]:
print(re.findall(r'[a-z]+', noticia))

['yft', 'rival', 'da', 'ber', 'nos', 'stados', 'nidos', 'vai', 'vender', 'sua', 'unidade', 'de', 'tecnologia', 'de', 'carros', 'aut', 'nomos', 'para', 'a', 'oyota', 'em', 'um', 'acordo', 'de', 'milh', 'es', 'de', 'd', 'lares', 'anunciaram', 'as', 'empresas', 'nesta', 'segunda', 'feira', 'venda', 'vai', 'ajudar', 'a', 'lyft', 'a', 'se', 'concentrar', 'em', 'parcerias', 'com', 'a', 'ajuda', 'de', 'companhias', 'de', 'dire', 'o', 'aut', 'noma', 'que', 'querem', 'disponibilizar', 'tecnologia', 'na', 'plataforma', 'da', 'empresa', 'em', 'vez', 'da', 'companhia', 'ter', 'de', 'investir', 'pesaaaaaadas', 'somas', 'em', 'desenvolvimento', 'de', 'tecnologia', 'que', 'ainda', 'n', 'o', 'foi', 'colocada', 'em', 'uso', 'amplo']


In [53]:
print(re.findall(r'[a-zA-Z]+', noticia))

['A', 'Lyft', 'rival', 'da', 'Uber', 'nos', 'Estados', 'Unidos', 'vai', 'vender', 'sua', 'unidade', 'de', 'tecnologia', 'de', 'carros', 'aut', 'nomos', 'para', 'a', 'Toyota', 'em', 'um', 'acordo', 'de', 'milh', 'es', 'de', 'd', 'lares', 'anunciaram', 'as', 'empresas', 'nesta', 'segunda', 'feira', 'A', 'venda', 'vai', 'ajudar', 'a', 'lyft', 'a', 'se', 'concentrar', 'em', 'parcerias', 'com', 'a', 'ajuda', 'de', 'companhias', 'de', 'dire', 'o', 'aut', 'noma', 'que', 'querem', 'disponibilizar', 'tecnologia', 'na', 'plataforma', 'da', 'empresa', 'em', 'vez', 'da', 'companhia', 'ter', 'de', 'investir', 'pesaaaaaadas', 'somas', 'em', 'desenvolvimento', 'de', 'tecnologia', 'que', 'ainda', 'n', 'o', 'foi', 'colocada', 'em', 'uso', 'amplo']


In [54]:
print(re.findall(r'[a-zA-Z0-9]+', noticia))

['A', 'Lyft', 'rival', 'da', 'Uber', 'nos', 'Estados', 'Unidos', 'vai', 'vender', 'sua', 'unidade', 'de', 'tecnologia', 'de', 'carros', 'aut', 'nomos', 'para', 'a', 'Toyota', 'em', 'um', 'acordo', 'de', '550', 'milh', 'es', 'de', 'd', 'lares', 'anunciaram', 'as', 'empresas', 'nesta', 'segunda', 'feira', 'A', 'venda', 'vai', 'ajudar', 'a', 'lyft', 'a', 'se', 'concentrar', 'em', 'parcerias', 'com', 'a', 'ajuda', 'de', 'companhias', 'de', 'dire', 'o', 'aut', 'noma', 'que', 'querem', 'disponibilizar', 'tecnologia', 'na', 'plataforma', 'da', 'empresa', 'em', 'vez', 'da', 'companhia', 'ter', 'de', 'investir', 'pesaaaaaadas', 'somas', 'em', 'desenvolvimento', 'de', 'tecnologia', 'que', 'ainda', 'n', 'o', 'foi', 'colocada', 'em', 'uso', 'amplo']


In [55]:
print(re.findall(r'[a-zA-ZÀ-ú0-9]+', noticia))

['A', 'Lyft', 'rival', 'da', 'Uber', 'nos', 'Estados', 'Unidos', 'vai', 'vender', 'sua', 'unidade', 'de', 'tecnologia', 'de', 'carros', 'autônomos', 'para', 'a', 'Toyota', 'em', 'um', 'acordo', 'de', '550', 'milhões', 'de', 'dólares', 'anunciaram', 'as', 'empresas', 'nesta', 'segunda', 'feira', 'A', 'venda', 'vai', 'ajudar', 'a', 'lyft', 'a', 'se', 'concentrar', 'em', 'parcerias', 'com', 'a', 'ajuda', 'de', 'companhias', 'de', 'direção', 'autônoma', 'que', 'querem', 'disponibilizar', 'tecnologia', 'na', 'plataforma', 'da', 'empresa', 'em', 'vez', 'da', 'companhia', 'ter', 'de', 'investir', 'pesaaaaaadas', 'somas', 'em', 'desenvolvimento', 'de', 'tecnologia', 'que', 'ainda', 'não', 'foi', 'colocada', 'em', 'uso', 'amplo']


In [56]:
print(re.findall(r'\w', noticia))

['A', 'L', 'y', 'f', 't', 'r', 'i', 'v', 'a', 'l', 'd', 'a', 'U', 'b', 'e', 'r', 'n', 'o', 's', 'E', 's', 't', 'a', 'd', 'o', 's', 'U', 'n', 'i', 'd', 'o', 's', 'v', 'a', 'i', 'v', 'e', 'n', 'd', 'e', 'r', 's', 'u', 'a', 'u', 'n', 'i', 'd', 'a', 'd', 'e', 'd', 'e', 't', 'e', 'c', 'n', 'o', 'l', 'o', 'g', 'i', 'a', 'd', 'e', 'c', 'a', 'r', 'r', 'o', 's', 'a', 'u', 't', 'ô', 'n', 'o', 'm', 'o', 's', 'p', 'a', 'r', 'a', 'a', 'T', 'o', 'y', 'o', 't', 'a', 'e', 'm', 'u', 'm', 'a', 'c', 'o', 'r', 'd', 'o', 'd', 'e', '5', '5', '0', 'm', 'i', 'l', 'h', 'õ', 'e', 's', 'd', 'e', 'd', 'ó', 'l', 'a', 'r', 'e', 's', 'a', 'n', 'u', 'n', 'c', 'i', 'a', 'r', 'a', 'm', 'a', 's', 'e', 'm', 'p', 'r', 'e', 's', 'a', 's', 'n', 'e', 's', 't', 'a', 's', 'e', 'g', 'u', 'n', 'd', 'a', 'f', 'e', 'i', 'r', 'a', 'A', 'v', 'e', 'n', 'd', 'a', 'v', 'a', 'i', 'a', 'j', 'u', 'd', 'a', 'r', 'a', 'l', 'y', 'f', 't', 'a', 's', 'e', 'c', 'o', 'n', 'c', 'e', 'n', 't', 'r', 'a', 'r', 'e', 'm', 'p', 'a', 'r', 'c', 'e', 'r',

In [57]:
print(re.findall(r'\w+', noticia))

['A', 'Lyft', 'rival', 'da', 'Uber', 'nos', 'Estados', 'Unidos', 'vai', 'vender', 'sua', 'unidade', 'de', 'tecnologia', 'de', 'carros', 'autônomos', 'para', 'a', 'Toyota', 'em', 'um', 'acordo', 'de', '550', 'milhões', 'de', 'dólares', 'anunciaram', 'as', 'empresas', 'nesta', 'segunda', 'feira', 'A', 'venda', 'vai', 'ajudar', 'a', 'lyft', 'a', 'se', 'concentrar', 'em', 'parcerias', 'com', 'a', 'ajuda', 'de', 'companhias', 'de', 'direção', 'autônoma', 'que', 'querem', 'disponibilizar', 'tecnologia', 'na', 'plataforma', 'da', 'empresa', 'em', 'vez', 'da', 'companhia', 'ter', 'de', 'investir', 'pesaaaaaadas', 'somas', 'em', 'desenvolvimento', 'de', 'tecnologia', 'que', 'ainda', 'não', 'foi', 'colocada', 'em', 'uso', 'amplo']


In [58]:
print(re.findall(r'\s+', noticia))

['\n', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '\n', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '\n', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '\n', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '\n', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '\n', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '\n', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '\n', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '\n']


In [59]:
print(re.findall(r'\S+', noticia))

['A', 'Lyft,', 'rival', 'da', 'Uber', 'nos', 'Estados', 'Unidos,', 'vai', 'vender', 'sua', 'unidade', 'de', 'tecnologia', 'de', 'carros', 'autônomos', 'para', 'a', 'Toyota', 'em', 'um', 'acordo', 'de', '550', 'milhões', 'de', 'dólares,', 'anunciaram', 'as', 'empresas', 'nesta', 'segunda-feira.', 'A', 'venda', 'vai', 'ajudar', 'a', 'lyft', 'a', 'se', 'concentrar', 'em', 'parcerias', 'com', 'a', 'ajuda', 'de', 'companhias', 'de', 'direção', 'autônoma', 'que', 'querem', 'disponibilizar', 'tecnologia', 'na', 'plataforma', 'da', 'empresa,', 'em', 'vez', 'da', 'companhia', 'ter', 'de', 'investir', 'pesaaaaaadas', 'somas', 'em', 'desenvolvimento', 'de', 'tecnologia', 'que', 'ainda', 'não', 'foi', 'colocada', 'em', 'uso', 'amplo.']


Procurando textos entre parênteses:

In [60]:
texto = 'Foi a Bia (mas não a sua irmã)'

re.findall(r'\(.*\)', texto)

['(mas não a sua irmã)']

In [61]:
re.findall(r'[^a-c]+', 'este ano foi o ano 1988')

['este ', 'no foi o ', 'no 1988']

# Resumindo

**|** ⟶ OU

**.** ⟶ Qualquer caractere, exceto quebra de linha

**[az]** ⟶ O caractere "a" OU "z". Pode ser qualquer caractere do conjunto

**[a-z]** ⟶ Qualquer caractere de "a" até "z" minúsculo

**[A-Z]** ⟶ Qualquer caractere de "A" até "Z" maiúsculo

**[0-9]** ⟶ Dígitos numéricos de "0" até "9"

**[^a-c]** ⟶ Qualquer caractere, exceto de "a" até "c"

**^[a-z]** ⟶ Qualquer caractere de "a" até "z". String deve começar com o padrão.

**[a-z]*** ⟶ Zero ou mais letras de "a" até "z"

**[A-Z]+** ⟶ Uma ou mais letras de "A" até "Z"

**a{5}** ⟶ Cinco **a**'s

**a{2,5}** ⟶ De dois a cinco **a**'s

**[a-z]{,3}** ⟶ Até três letras de "a" até "z"

**\w** ⟶ [a-zA-ZÀ-ú0-9], mas apenas um caractere destes

**\w+** ⟶ um ou mais [a-zA-ZÀ-ú0-9], formando uma palavra

**\s** ⟶ separadores



# RegEx tester

Uma ferramenta legal para conferir expressões regulares é o https://regex101.com ou https://www.regextester.com

Nele, você pode conferir se há, para alguma expressão regular, match com palavras de um texto.

## Atividade para entrega!

## Insper Autograding

Iremos utilizar uma ferramenta para correção automática. Ao responder os exercícios, será possível enviar a solução para um servidor, que dará feedback quase que instantâneo sobre a resposta.

Além de já ter uma boa ideia sobre seu desempenho na atividade, não será necessário fazer a entrega do notebook pelo Blackboard pois o corretor já armazena suas soluções.

Siga os passos deste notebook para realizar a instalação da biblioteca de correção de exercícios nos notebooks da disciplina!

## Instalação

Vamos instalar a biblioteca (este passo só precisa ser executado uma vez):

In [62]:
!pip uninstall -y insperautograder
!pip install git+https://github.com/macielcalebe/insperautograding.git

[0mCollecting git+https://github.com/macielcalebe/insperautograding.git
  Cloning https://github.com/macielcalebe/insperautograding.git to /tmp/pip-req-build-x836n1tx
  Running command git clone --filter=blob:none --quiet https://github.com/macielcalebe/insperautograding.git /tmp/pip-req-build-x836n1tx
  Resolved https://github.com/macielcalebe/insperautograding.git to commit acdda51152774d9e1a979b426e41daa7a8a7793c
  Preparing metadata (setup.py) ... [?25ldone
Collecting ipywidgets
  Using cached ipywidgets-8.1.2-py3-none-any.whl (139 kB)
Collecting widgetsnbextension~=4.0.10
  Using cached widgetsnbextension-4.0.10-py3-none-any.whl (2.3 MB)
Collecting jupyterlab-widgets~=3.0.10
  Using cached jupyterlab_widgets-3.0.10-py3-none-any.whl (215 kB)
Using legacy 'setup.py install' for insperautograder, since package 'wheel' is not installed.
Installing collected packages: widgetsnbextension, jupyterlab-widgets, ipywidgets, insperautograder
  Running setup.py install for insperautograder 

## Importando as bibliotecas

In [12]:
import os
import insperautograder.jupyter as ia

## Configurar ambiente

Execute a célula para configurar nosso ambiente de execução:

In [13]:
os.environ["IAG_OFFERING"] = "24-1"
os.environ["IAG_SUBJECT"] = "analisetxt"
os.environ["IAG_SERVER_URL"] = "https://bigdata.insper-comp.com.br/iag"

## Me diga quem você é

Utilize o **Token** enviado para seu e-mail para que você seja identificado pelo servidor de testes.

Substitua `iagtok_xxx...` pelo token enviado para seu e-mail.

In [14]:
from dotenv import load_dotenv
import os

dotenv_path = '../../.env'
load_dotenv(dotenv_path)
IAG_TOKEN = os.getenv("IAG_TOKEN")

## Conferir atividades e notas

Conferindo quais atividades estão disponíveis!

In [15]:
ia.tasks()

|    | Atividade   | De                        | Até                       |
|---:|:------------|:--------------------------|:--------------------------|
|  0 | pdf         | 2024-02-17 03:00:00+00:00 | 2024-03-05 02:59:59+00:00 |
|  1 | regex       | 2024-04-11 03:00:00+00:00 | 2024-05-07 02:59:59+00:00 |

Conferindo a nota por exercício na atividade:

In [16]:
ia.grades(task="regex")

|    | Atividade   | Exercício   |   Peso |   Nota |
|---:|:------------|:------------|-------:|-------:|
|  0 | regex       | ex01a       |      1 |      0 |
|  1 | regex       | ex01b       |      1 |      0 |
|  2 | regex       | ex01c       |      1 |      0 |
|  3 | regex       | ex01d       |      1 |      0 |
|  4 | regex       | ex02        |      1 |      0 |
|  5 | regex       | ex03        |      1 |      0 |
|  6 | regex       | ex04b       |      1 |      0 |
|  7 | regex       | ex05        |      1 |      0 |
|  8 | regex       | ex06a       |      1 |      0 |
|  9 | regex       | ex07a       |      1 |      0 |

Conferindo a nota geral nas atividades

In [17]:
ia.grades(by="TASK")

|    | Tarefa   |   Nota |
|---:|:---------|-------:|
|  0 | pdf      |     10 |
|  1 | regex    |      0 |

# Exercícios

**Exercício 1)** Considere a seguinte string:

In [18]:
msg = "Uber e Lyft fizeram aprox. 15 milhões de corridas, isso em 2020. Em ritmo de crescimento!"

a) Crie uma expressão regular para encontrar ocorrências dos termos **milhões** ou **crescimento** ou **investimento**

In [25]:
regex_exp_ex01a = r"milh.es|crescimento|investimento" # Sua expressão regular!
re.findall(regex_exp_ex01a, msg)

['milhões', 'crescimento']

Vamos testar sua resposta localmente antes de enviar ao servidor de correção automática:

In [26]:
assert re.findall(regex_exp_ex01a, msg) == ["milhões", "crescimento"], "Resposta diferente do esperado!"

Quando estiver confiante que sua resposta está correta, clique no botão abaixo para fazer o envio.

In [27]:
ia.sender(answer="regex_exp_ex01a", task="regex", question="ex01a", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex01a', style=ButtonStyle()), Output()), _dom_classes=('widge…

b) Crie uma expressão regular para encontrar todos os números na mensagem.

In [32]:
regex_exp_ex01b = r"\d+" # Sua expressão regular!
re.findall(regex_exp_ex01b, msg)

['15', '2020']

Vamos testar sua resposta localmente antes de enviar ao servidor de correção automática:

In [33]:
assert re.findall(regex_exp_ex01b, msg) == ["15", "2020"], "Resposta diferente do esperado!"

Quando estiver confiante que sua resposta está correta, clique no botão abaixo para fazer o envio.

In [34]:
ia.sender(answer="regex_exp_ex01b", task="regex", question="ex01b", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex01b', style=ButtonStyle()), Output()), _dom_classes=('widge…

c) Crie uma expressão regular para alterar de **aprox.** para **aproximadamente**.

In [39]:
regex_exp_ex01c = r'aprox\.' # Sua expressão regular!
re.sub(regex_exp_ex01c, 'aproximadamente', msg)

'Uber e Lyft fizeram aproximadamente 15 milhões de corridas, isso em 2020. Em ritmo de crescimento!'

Vamos testar sua resposta localmente antes de enviar ao servidor de correção automática:

In [40]:
msg_esperada = "Uber e Lyft fizeram aproximadamente 15 milhões de corridas, isso em 2020. Em ritmo de crescimento!"
assert re.sub(regex_exp_ex01c, 'aproximadamente', msg) == msg_esperada, "Resposta diferente do esperado!"

Quando estiver confiante que sua resposta está correta, clique no botão abaixo para fazer o envio.

In [41]:
ia.sender(answer="regex_exp_ex01c", task="regex", question="ex01c", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex01c', style=ButtonStyle()), Output()), _dom_classes=('widge…

d) Crie uma expressão regular para remover *ponto* e *exclamação* das mensagens.

In [45]:
regex_exp_ex01d = r'\.|\!' # Sua expressão regular!
re.sub(regex_exp_ex01d, '', msg)

'Uber e Lyft fizeram aprox 15 milhões de corridas, isso em 2020 Em ritmo de crescimento'

Vamos testar sua resposta localmente antes de enviar ao servidor de correção automática:

In [46]:
msg_esperada = "Uber e Lyft fizeram aprox 15 milhões de corridas, isso em 2020 Em ritmo de crescimento"
assert re.sub(regex_exp_ex01d, '', msg) == msg_esperada, "Resposta diferente do esperado!"

Quando estiver confiante que sua resposta está correta, clique no botão abaixo para fazer o envio.

In [47]:
ia.sender(answer="regex_exp_ex01d", task="regex", question="ex01d", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex01d', style=ButtonStyle()), Output()), _dom_classes=('widge…

**Exercício 2)** Crie um programa para substituir todas as ocorrências de espaço, vírgula e interrogação por dois pontos :

In [51]:
regex_exp_ex02 = r"\ |\,|\?" # Sua expressão regular!

text = 'Eu? Aprendendo, expressões regulares.'

res = re.sub(regex_exp_ex02, ":", text)
print(f"Resultado: '{res}'")

Resultado: 'Eu::Aprendendo::expressões:regulares.'


Vamos testar sua resposta localmente antes de enviar ao servidor de correção automática:

In [52]:
msg_esperada = "Eu::Aprendendo::expressões:regulares."
assert re.sub(regex_exp_ex02, ":", text) == msg_esperada, "Resposta diferente do esperado!"

Quando estiver confiante que sua resposta está correta, clique no botão abaixo para fazer o envio.

In [53]:
ia.sender(answer="regex_exp_ex02", task="regex", question="ex02", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex02', style=ButtonStyle()), Output()), _dom_classes=('widget…

**Exercício 3)** Crie uma expressão regular para obter, utilizando `re.findall`, a lista das palavras no texto (incluindo números). As palavras devolvidas devem estar sem pontuação.

Dica: `\w`

In [54]:
msg = 'Uber e Lyft fizeram aprox. 860 milhões de corridas, isso em 2020'

regex_exp_ex03 = r"\w+" # Sua expressão regular!

re.findall(regex_exp_ex03, msg)

['Uber',
 'e',
 'Lyft',
 'fizeram',
 'aprox',
 '860',
 'milhões',
 'de',
 'corridas',
 'isso',
 'em',
 '2020']

Vamos testar sua resposta localmente antes de enviar ao servidor de correção automática:

In [55]:
esperado = ['Uber', 'e', 'Lyft', 'fizeram', 'aprox', '860', 'milhões', 'de', 'corridas', 'isso', 'em', '2020']
assert re.findall(regex_exp_ex03, msg) == esperado, "Resposta diferente do esperado!"

Quando estiver confiante que sua resposta está correta, clique no botão abaixo para fazer o envio.

In [56]:
ia.sender(answer="regex_exp_ex03", task="regex", question="ex03", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex03', style=ButtonStyle()), Output()), _dom_classes=('widget…

**Exercício 4)** Considere a seguinte mensagem:

In [57]:
msg_ex04 = 'João nasceu em 12/05/2016, e em 12/05/18 completou 2 anos de vida! Em 5/3/34, iniciou seu ensino superior!'

a) Crie uma expressão regular para encontrar todos os números na mensagem

In [59]:
re.findall(r'\d+', msg_ex04)

['12', '05', '2016', '12', '05', '18', '2', '5', '3', '34']

b) Crie uma expressão regular para encontrar **datas** na mensagem.

**Obs**:
- Utilize `re.findall`.
- Apenas datas separadas por barra, com dia, mês e ano.

In [66]:
regex_exp_ex04b = r"\d{1,2}/\d{1,2}/\d{1,4}" # Sua expressão regular!

re.findall(regex_exp_ex04b, msg_ex04)

['12/05/2016', '12/05/18', '5/3/34']

Vamos testar sua resposta localmente antes de enviar ao servidor de correção automática:

In [67]:
esperado = ['12/05/2016', '12/05/18', '5/3/34']
assert re.findall(regex_exp_ex04b, msg_ex04) == esperado, "Resposta diferente do esperado!"

Quando estiver confiante que sua resposta está correta, clique no botão abaixo para fazer o envio.

In [68]:
ia.sender(answer="regex_exp_ex04b", task="regex", question="ex04b", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex04b', style=ButtonStyle()), Output()), _dom_classes=('widge…

**Exercício 5)** Crie um programa para encontrar URLs em uma string.

In [69]:
txt_ex05 = 'Embora você possa digitar https://oficinadanet.com.br para acessar nosso site, em segundo plano, o navegador primeiro envia uma solicitação aos servidores DNS para resolver o nome do site em um endereço IP. Quando o endereço é encontrado, ele retorna e, em seguida, o navegador faz o download do conteúdo e mostra a página. Utilize http://www.google.com/ para ir ao buscador.'

In [70]:
print(txt_ex05)

Embora você possa digitar https://oficinadanet.com.br para acessar nosso site, em segundo plano, o navegador primeiro envia uma solicitação aos servidores DNS para resolver o nome do site em um endereço IP. Quando o endereço é encontrado, ele retorna e, em seguida, o navegador faz o download do conteúdo e mostra a página. Utilize http://www.google.com/ para ir ao buscador.


In [118]:
regex_exp_ex05 = r"https?://[^\s]+" # Sua regex!
lista_url = re.findall(regex_exp_ex05, txt_ex05)
print(lista_url)

['https://oficinadanet.com.br', 'http://www.google.com/']


Vamos testar sua resposta localmente antes de enviar ao servidor de correção automática:

In [119]:
esperado = ['https://oficinadanet.com.br', 'http://www.google.com/']
assert re.findall(regex_exp_ex05, txt_ex05) == esperado, "Resposta diferente do esperado!"

Quando estiver confiante que sua resposta está correta, clique no botão abaixo para fazer o envio.

In [120]:
ia.sender(answer="regex_exp_ex05", task="regex", question="ex05", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex05', style=ButtonStyle()), Output()), _dom_classes=('widget…

**Exercício 6)** 

**a)** Crie uma expressão regular para identificar se um CPF está ou não formatado de acordo com o padrão 000.000.000-00. Exiba a mensagem *está correto* ou *está errado*

In [121]:
cpf = "012.345.678-90"

regex_exp_ex06a = r"\d{3}\.\d{3}.\d{3}-\d{2}" # Sua expressão regular!

if re.match(regex_exp_ex06a, cpf):
    print("Está correto!")
else:
    print("Fora do padrão!")

Está correto!


Vamos testar sua resposta localmente antes de enviar ao servidor de correção automática:

In [122]:
assert re.match(regex_exp_ex06a, "012.345.678-90"), "Resposta diferente do esperado!"
assert re.match(regex_exp_ex06a, "012.345.67890") is None, "Resposta diferente do esperado!"

Quando estiver confiante que sua resposta está correta, clique no botão abaixo para fazer o envio.

In [123]:
ia.sender(answer="regex_exp_ex06a", task="regex", question="ex06a", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex06a', style=ButtonStyle()), Output()), _dom_classes=('widge…

b) Crie uma função para fazer esta validação.

In [124]:
def valid_cpf(cpf):
    regex_exp_ex06a = r"\d{3}\.\d{3}.\d{3}-\d{2}" # Sua expressão regular!

    if re.match(regex_exp_ex06a, cpf):
        return True
    return False


In [125]:
print(valid_cpf("089.988.355-19"))
print(valid_cpf("011.233.455-9"))
print(valid_cpf("23.578.399-54"))

True
False
False


**Exercício 7)** 

**a)** Crie uma expressão regular para validar se um telefone está no formato correto:

Ex: (11) 98765-4321

In [138]:
tel = "(11) 98765-4321"

regex_exp_ex07a = r"\(\d{2}\)\s\d{5}-\d{4}" # Sua Expressão Regular!

if re.match(regex_exp_ex07a, tel):
    print("Está correto!")
else:
    print("Fora do padrão!")

Está correto!


Vamos testar sua resposta localmente antes de enviar ao servidor de correção automática:

In [139]:
assert re.match(regex_exp_ex07a, "(11) 98765-4321"), "Resposta diferente do esperado!"
assert re.match(regex_exp_ex07a, "11987654321") is None, "Resposta diferente do esperado!"

Quando estiver confiante que sua resposta está correta, clique no botão abaixo para fazer o envio.

In [140]:
ia.sender(answer="regex_exp_ex07a", task="regex", question="ex07a", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex07a', style=ButtonStyle()), Output()), _dom_classes=('widge…

**b)** Crie uma função para validar se um telefone está no formato correto:

In [None]:
def valid_tel(tel):
    # Seu código aqui!
    return

In [None]:
tel = '(11) 98765-4321'
print(valid_tel(tel))

tel = '(11) 987654321'
print(valid_tel(tel))

tel = '11 98765-4321'
print(valid_tel(tel))

tel = '(11) 98765-432'
print(valid_tel(tel))

**Exercício 8)** Crie uma função para encontrar todos os telefones em um texto

Ex: (11) 98765-4321

In [None]:
def find_all_tel(txt):
    # Seu código aqui!
    return

In [None]:
txt = 'liga neste (11) 98765-4321 ou neste (11) 98765-4321'

find_all_tel(txt)

In [141]:
tel = 'liga neste (11) 98765-4321 ou neste (11) 98765-4321'

re.findall(r'\(\d{2}\) \d{5}-\d{4}', tel)

['(11) 98765-4321', '(11) 98765-4321']

**Exercício 9)** Encontre e teste um RegEx para validar email!


**Exercício 10)** Uma empresa deseja monitorar menções a ela em notícias. Crie uma função que recebe um texto (notícia) e o nome da `empresa`. Caso a notícia faça menção a empresa, devolva a quantas palavras negativas são encontradas na notícia.

In [None]:
def monitora_neg(notica, empresa):
    # Seu código aqui!
    return

In [None]:
noticia = 'A Microsoft fez um péssimo trabalho no desenvolvimento do Onedrive. Os clientes, irritados, '
print(monitora_neg(noticia, 'Microsoft'))

noticia = 'A Microsoft fez um péssimo trabalho no desenvolvimento do Onedrive. Os clientes, irritados, tentam se localizar'
print(monitora_neg(noticia, 'Apple'))

noticia = '''
Pânico e recessão globais. O Lehman Brothers entrou com pedido
de recuperação judicial em 15 de setembro de 2008, uma segunda-feira
e teve sua falência decretada. Com uma dívida de US$ 613 bilhões,
o banco, fundado em 1847, empregava cerca de
25 mil pessoas no mundo todo. Cliente irados não saem do telefone.
'''
print(monitora_neg(noticia, 'Lehman Brothers'))


## Conferir notas

In [142]:
ia.grades(task="regex")

|    | Atividade   | Exercício   |   Peso |   Nota |
|---:|:------------|:------------|-------:|-------:|
|  0 | regex       | ex01a       |      1 |     10 |
|  1 | regex       | ex01b       |      1 |     10 |
|  2 | regex       | ex01c       |      1 |     10 |
|  3 | regex       | ex01d       |      1 |     10 |
|  4 | regex       | ex02        |      1 |     10 |
|  5 | regex       | ex03        |      1 |     10 |
|  6 | regex       | ex04b       |      1 |     10 |
|  7 | regex       | ex05        |      1 |     10 |
|  8 | regex       | ex06a       |      1 |     10 |
|  9 | regex       | ex07a       |      1 |     10 |