># <b>Expressões Regulares em Python</b>
> Instituição: PUCPR  
> Curso: Tecnologia em Inteligência Artificial Aplicada  
> Disciplina: Processamento de Linguagem Natural  
> Professor: Lucas Emanuel Silva e Olveira  
> Estudante: Carla Edila Silveira  

> <p align='justify'> Objetivo: Nesta atividade, você entrará em contato com <b>Expressões Regulares (RegEx)</b>, talvez a mais importante ferramenta de PLN para descrever/encontrar/substituir padrões de texto. Após esta atividade você será capaz de ler uma expressão regular como essa <i>^[0-9]{1,3}(\.[0-9]{1,3}){1,3}$</i>, como você lê um texto em português.</p>

##**Expressões Regulares - RegEx**  

<p align='justify'> Você poderá fazer uso de expressões regulares nas mais diversas situações em que precise localizar ou extrair padrões em meio ao texto (e.g., <i>encontrar CEPs de endereço no texto, obter os preços de produtos de uma listagem</i>). Você pode usar expressões regulares em linguagens de programação e editores de texto por exemplo.</p>

### **Por onde começar?**


#### 1) Importar a biblioteca de RegEx do Python

In [None]:
import re

#### 2) Escrever uma expressão regular para capturar um padrão desejado


In [None]:
# Você deve colocar a letra "r" antes do texto para estabelecer que a variável guarda uma RegEx
padrao = r"clássico"

####3) Definir para qual funcionalidade o padrão RegEx será utilizado
Você pode usar um padrão para:
*   Buscar padrões/valores no texto (i.e., `search`, `match`, `findall`)
*   Quebrar texto em sub-textos (i.e., `split`)
*   Substituir dados no texto (i.e., `sub`)



In [None]:
# Texto de exemplo para verificar se o padrão definido acima é encontrado
texto = "clássico é clássico e vice-versa"

# A função search() retorna um objeto, caso encontre o padrão no texto
if re.search(padrao, texto):
  print("Encontrou")
else:
  print("Não encontrou")

# Faça alterações no texto e no padrão. Reexecute o código.

Encontrou


### **Quais funções da biblioteca `re` posso utilizar?**
*   `re.match(padrao, texto)`
*   `re.search(padrao, texto)`
*   `re.findall(padrao, texto)`
*   `re.split(padrao, texto)`
*   `re.sub(padrao, texto)`



#### **`re.match()`**
Encontra o padrão desejado se ele ocorrer no **início do texto**

In [None]:
match = re.match(r"clássico", "clássico é clássico e vice-versa")
# Mostra o objeto/match da busca, caso não encontre o padrão retorna None
match

# Caso queira mostrar o trecho de texto encontrado, usar a função group()
# match.group()

# Caso queira obter a posição de início e fim do texto encontrado
# match.start()
# match.end()

<re.Match object; span=(0, 8), match='clássico'>

#### **`re.search()`**
Similar ao `match()`, porém busca pelo padrão em qualquer parte do texto, não se restringindo ao início do mesmo.

In [None]:
match = re.search(r"clássico", "clássico é clássico e vice-versa")
# Mostra o objeto/match da busca, caso não encontre o padrão retorna None
match

<re.Match object; span=(0, 8), match='clássico'>

> *Mas porque a saída é igual ao código anterior?*

<p align='justify'>Apesar da função <b>search( )</b> procurar o padrão em qualquer parte do texto, ela retorna apenas a primeira ocorrência. A seguir uma comparação de <b>match( )</b> e <b>search( )</b>.</p>

In [None]:
m = re.match(r"teste", "Este é um teste de regex.")
print(m)

None


In [None]:
s = re.search(r"teste", "Este é um teste de regex.")
print(s)

<re.Match object; span=(10, 15), match='teste'>


#### **`re.findall()`**
Funcionamento similar ao `search()`, porém retorna TODAS as ocorrências encontradas.

In [None]:
match = re.findall(r"clássico", "clássico é clássico e vice-versa")
match

['clássico', 'clássico']

In [None]:
m = re.findall(r"teste", "Este não é apenas mais um teste de regex. Este teste mostra como funciona o findall()")
m

['teste', 'teste']

#### **`re.split()`**
Divide o texto toda vez que encontrar a ocorrência do padrão dado

In [None]:
partes = re.split(r"/", "10/05/1999")
partes

['10', '05', '1999']

In [None]:
partes = re.split(r"a", "a história das expressões regulares")
partes

['', ' históri', ' d', 's expressões regul', 'res']

#### **`re.sub()`**
Busca pelo padrão desejado e o substitui por um texto desejado

In [None]:
r = re.sub(r"nossa universidade", "PUCPR", "A nossa universidade lhe dá as boas-vindas!")
r

'A PUCPR lhe dá as boas-vindas!'

In [None]:
r = re.sub(r"gato", "cachorro", "Este é meu gato Thomas. Eu adoro ter um gato em casa.")
r

'Este é meu cachorro Thomas. Eu adoro ter um cachorro em casa.'

###**Como escrever padrões mais complexos?**  

<p align='justify'> Agora que você sabe utilizar as principais funções da biblioteca <b>re</b>, podemos criar padrões de busca mais complexos e poderosos. Existe uma série de caracteres especiais que podem lhe ajudar a construir os padrões de texto desejados. Não é preciso decorá-los, apenas saber como utilizá-los. A seguir uma tabela de referência com vários destes caracteres. </p>  
</br>

![Caracteres especiais das Expressões Regulares](https://docs.google.com/uc?export=download&id=1wK1aO8y_J7q79Mh4bQ_gzczDkEj4pLCQ)

> <p align='justify'> <b>DICA IMPORTANTE</b>: Você também pode testar as expressões regulares a seguir no site [Pythex](https://pythex.org/), que tem uma interface bem interessante para visualizar e testar suas expressões regulares.</p>

#### Groups & Ranges
Os **colchetes** indicam um **RANGE** de caracteres que podem fazer parte do padrão.
> Por exemplo, para encontrar todas vogais no texto: `[aeiou]`

In [None]:
re.findall(r"[aeiou]", "Sentença para obter vogais.")

['e', 'e', 'a', 'a', 'a', 'o', 'e', 'o', 'a', 'i']

**`[0-9]`** - Obtém todos números

In [None]:
re.findall(r"[0-9]", "Hoje, dia 26/11/2019 o dólar alcançou o valor de R$ 4,20 perante o real.")

['2', '6', '1', '1', '2', '0', '1', '9', '4', '2', '0']

**`[a-z]`** - Obtém todos números


In [None]:
re.findall(r"[A-Z]", "AFV-5631")

['A', 'F', 'V']

Os **parênteses** indicam um **GRUPO** de caracteres que podem fazer parte do padrão. Podemos juntar a eles outros caracteres especiais.

**`|`** - Indica o operador lógico OU

In [None]:
# Busca Lucas OU Rodrigo
re.findall(r"(Lucas|Rodrigo)", "Lucas Oliveira\nMurilo Silva\nDiego Prudêncio\nRodrigo Rezende")

['Lucas', 'Rodrigo']

**`^`** - Indica operador lógico NÃO

In [None]:
# Busca tudo, exceto letras minúsculas
re.findall(r"[^a-z]", "Lucas Oliveira\nMurilo Silva\nDiego Prudêncio\nRodrigo Rezende")

['L',
 ' ',
 'O',
 '\n',
 'M',
 ' ',
 'S',
 '\n',
 'D',
 ' ',
 'P',
 'ê',
 '\n',
 'R',
 ' ',
 'R']

**`.`** - Indica QUALQUER caracter, exceto quebra de linha (`\n`)

In [None]:
# Busca toda ocorrencia de "ato" e o caracter anterior
re.findall(r".ato", "O rato é amigo do pato que presenciou o ato no meio do mato.")

['rato', 'pato', ' ato', 'mato']

#### Classes de caracteres

**`\s`** - Obtém todos espaços (white-space)

**`\S`** - Obtém todos NÃO espaços (white-space)

In [None]:
re.findall(r"\s", "Conseguimos pegar o que não é espaço?")

[' ', ' ', ' ', ' ', ' ', ' ']

In [None]:
re.findall(r"\S", "Conseguimos pegar o que não é espaço?")

['C',
 'o',
 'n',
 's',
 'e',
 'g',
 'u',
 'i',
 'm',
 'o',
 's',
 'p',
 'e',
 'g',
 'a',
 'r',
 'o',
 'q',
 'u',
 'e',
 'n',
 'ã',
 'o',
 'é',
 'e',
 's',
 'p',
 'a',
 'ç',
 'o',
 '?']

#### Âncoras

**`^`** - Indica início de texto

In [None]:
# Faz match apenas se a palavra clássico estiver no início do texto
match = re.findall(r"^clássico", "clássico é clássico e vice-versa")
match

['clássico']

In [None]:
# Faz match apenas se a palavra clássico estiver no início do texto
match = re.findall(r"^clássico", "Este jogo é um clássico")
match

[]

**`$`** - Indica fim de texto

In [None]:
# Faz match apenas se a palavra clássico estiver no fim do texto
match = re.findall(r"clássico$", "Este jogo é um clássico")
match

['clássico']

In [None]:
# Faz match apenas se a palavra clássico estiver no fim do texto
match = re.findall(r"clássico$", "clássico é clássico e vice-versa")
match

[]

#### Quantificadores
Em alguns momentos pode ser preciso quantificar a quantidade de vezes que um determinado padrão aparece.

In [None]:
# Padrão que encontra dois números em sequencia ou par de dígitos consecutivos
match = re.findall(r"[0-9]{2}", "João tem 5 laranjas, enquanto Maria tem 25.")
match

['25']

In [None]:
# Padrão que encontra de um a cinco números em sequencia
match = re.findall(r"[0-9]{1,5}", "João tem 5 laranjas, enquanto Maria tem 25. Já Henrique possui 10000.")
match

['5', '25', '10000']

In [None]:
# Padrão que encontra um ou mais numeros em sequencia
match = re.findall(r"[0-9]{1,}", "João tem 5 laranjas, enquanto Maria tem 25. Já Henrique possui 10000.")
match

['5', '25', '10000']

**`*`** - Zero ou mais ocorrências

In [None]:
# Padrão que encontra sequência de letras, seguida por zero ou mais caracteres 'x', e então outra sequência de letras
match = re.findall(r"[a-zA-Z]{1,} x* [a-zA-Z]{1,}", "Vasco x Palmeiras - Corinthians x Santos - Portuguesa xxx Guarani")
match

['Vasco x Palmeiras', 'Corinthians x Santos', 'Portuguesa xxx Guarani']

**`+`** - Uma ou mais ocorrências

In [None]:
# Padrão que encontra um ou mais numeros em sequencia
match = re.findall(r"[0-9]+", "João tem 5 laranjas, enquanto Maria tem 25. Já Henrique possui 10000.")
match

['5', '25', '10000']

**`?`** - Zero ou uma ocorrência

In [None]:
# Padrão que encontra 9 numeros, seguidos ou não por um hífen, seguidos de dois números
match = re.findall(r"[0-9]{9}-?[0-9]{2}", "RG: 8122691-8 CPF: 064555874-90 / RG: 81623338 CPF: 06454357320 ")
match

['064555874-90', '06454357320']

### **Exemplo do e-mail**
Vamos fazer uma expressão regular para obter endereços de e-mail no texto

In [None]:
texto = "Lucas Oliveira: lucas.oliveira@pucpr.br \n maria-silva@gmail.com \n jobs@apple.com "
texto

'Lucas Oliveira: lucas.oliveira@pucpr.br \n maria-silva@gmail.com \n jobs@apple.com '

In [None]:
re.findall(r"[a-z]+", texto)

['ucas',
 'liveira',
 'lucas',
 'oliveira',
 'pucpr',
 'br',
 'maria',
 'silva',
 'gmail',
 'com',
 'jobs',
 'apple',
 'com']

In [None]:
re.findall(r"[a-z]+@[a-z]+", texto)

['oliveira@pucpr', 'silva@gmail', 'jobs@apple']

O padrão acima obtém as letras, porém, ignora o hífen e o ponto final. Para resolver podemos criar um RANGE adicionando estes caracteres.

In [None]:
re.findall(r"[a-z-]+@[a-z-]+", texto)

['oliveira@pucpr', 'maria-silva@gmail', 'jobs@apple']

In [None]:
re.findall(r"[a-z-.]+@[a-z-.]+", texto)

['lucas.oliveira@pucpr.br', 'maria-silva@gmail.com', 'jobs@apple.com']

> <p align='justify'> <b>DICA</b>: Você pode realizar o que chamamos de <b>EXTRAÇÃO DE GRUPO</b> usando as expressões regulares. Basta agrupar os sub-padrões que deseja extrair separadamente com os parênteses.</p>

In [None]:
re.findall(r"([a-z-.]+)@([a-z-.]+)", texto)

[('lucas.oliveira', 'pucpr.br'),
 ('maria-silva', 'gmail.com'),
 ('jobs', 'apple.com')]

Digamos que você queira remover todos os e-mails do texto por questões de privacidade.

In [None]:
re.sub(r"[a-z-.]+@[a-z-.]+", "-CONFIDENCIAL-", texto)

'Lucas Oliveira: -CONFIDENCIAL- \n -CONFIDENCIAL- \n -CONFIDENCIAL- '

É possível ainda utilizar os agrupamentos para efetuar substituições mais complexas.

Por exemplo, imagine que queiramos apenas substituir o servidor de e-mail, mas mantendo o nome de usuário.

In [None]:
# Nesse caso podemos usar os agrupamentos da expressão regular
# \1 indica a informação obtida no primeiro agrupamento - neste caso o nome do usuário
# \2 indica a informação obtida no segundo agrupamento - neste caso o servidor do e-mail
re.sub(r"([a-z-.]+)@([a-z-.]+)", r"\1@regex.com", texto)

'Lucas Oliveira: lucas.oliveira@regex.com \n maria-silva@regex.com \n jobs@regex.com '

>  <p align='justify'> <b>IMPORTANTE</b>: E quando eu quero procurar algum caractere que já representa algo em expressões regulares? (e.g., ponto final, interrogação)</b>

Nesse caso, podemos usar o que chamamos de **CARACTER DE ESCAPE**, representado pelo caracter **`\`**

Exemplo: Quero obter todas perguntas presentes em um texto

In [None]:
texto = """Este é um texto de exemplo.
Mas será que ele é confiável?
Além dos questionamentos acima há outras questões a serem levantadas.
Você está gostando de aprender expressões regulares?
PLN é uma área de seu interesse?"""

In [None]:
# Obtém qualquer sequencia de caracteres (exceto quebra de linha)
re.findall(r".+", texto)

['Este é um texto de exemplo.',
 'Mas será que ele é confiável?',
 'Além dos questionamentos acima há outras questões a serem levantadas.',
 'Você está gostando de aprender expressões regulares?',
 'PLN é uma área de seu interesse?']

In [None]:
# Gostaríamos de pegar toda sequencia, seguida de uma ponto de interrogação
re.findall(r".+?", texto)

['E',
 's',
 't',
 'e',
 ' ',
 'é',
 ' ',
 'u',
 'm',
 ' ',
 't',
 'e',
 'x',
 't',
 'o',
 ' ',
 'd',
 'e',
 ' ',
 'e',
 'x',
 'e',
 'm',
 'p',
 'l',
 'o',
 '.',
 'M',
 'a',
 's',
 ' ',
 's',
 'e',
 'r',
 'á',
 ' ',
 'q',
 'u',
 'e',
 ' ',
 'e',
 'l',
 'e',
 ' ',
 'é',
 ' ',
 'c',
 'o',
 'n',
 'f',
 'i',
 'á',
 'v',
 'e',
 'l',
 '?',
 'A',
 'l',
 'é',
 'm',
 ' ',
 'd',
 'o',
 's',
 ' ',
 'q',
 'u',
 'e',
 's',
 't',
 'i',
 'o',
 'n',
 'a',
 'm',
 'e',
 'n',
 't',
 'o',
 's',
 ' ',
 'a',
 'c',
 'i',
 'm',
 'a',
 ' ',
 'h',
 'á',
 ' ',
 'o',
 'u',
 't',
 'r',
 'a',
 's',
 ' ',
 'q',
 'u',
 'e',
 's',
 't',
 'õ',
 'e',
 's',
 ' ',
 'a',
 ' ',
 's',
 'e',
 'r',
 'e',
 'm',
 ' ',
 'l',
 'e',
 'v',
 'a',
 'n',
 't',
 'a',
 'd',
 'a',
 's',
 '.',
 'V',
 'o',
 'c',
 'ê',
 ' ',
 'e',
 's',
 't',
 'á',
 ' ',
 'g',
 'o',
 's',
 't',
 'a',
 'n',
 'd',
 'o',
 ' ',
 'd',
 'e',
 ' ',
 'a',
 'p',
 'r',
 'e',
 'n',
 'd',
 'e',
 'r',
 ' ',
 'e',
 'x',
 'p',
 'r',
 'e',
 's',
 's',
 'õ',
 'e',
 's',
 ' '

 <p align='justify'> Neste caso, o ponto de interrogação é considerado um quantificador de Expressão Regular, portanto, é interpretado como tal. Para fazermos com que ele seja interpretado como um caracter comum, usamos o escape `\`</p>

In [None]:
re.findall(r".+\?", texto)

['Mas será que ele é confiável?',
 'Você está gostando de aprender expressões regulares?',
 'PLN é uma área de seu interesse?']

##**ATIVIDADE PRÁTICA**
Atividades de fixação no uso de Expressões Regulares

### 1) Obtenha todas palavras do texto

In [None]:
texto = "Um texto qualquer sem qualquer valor semântico."
palavras = re.findall(r'\b\w+\b', texto)

print(palavras)

['Um', 'texto', 'qualquer', 'sem', 'qualquer', 'valor', 'semântico']


### 2) Obtenha a primeira palavra do texto

In [None]:
texto = "Um texto qualquer sem qualquer valor semântico."
primeira_palavra = re.findall(r'\b\w+\b', texto)[0]

print(primeira_palavra)

Um


### 3) Obtenha a posição de início do primeiro espaço (white-space) encontrado no texto a seguir

In [None]:
texto = "Um texto qualquer sem qualquer valor semântico."
match = re.search(r'\s', texto)

if match:
    posicao_primeiro_espaco = match.start()
    print(posicao_primeiro_espaco)

2


### 4) Obtenha os dois primeiros caracteres de cada palavra
Dica: Pesquise sobre o caracter de word boundary `\b`, que encontra as delimitações de cada palavra

In [None]:
import re

texto = "Um texto qualquer sem qualquer valor semântico."
dois_primeiros_caracteres = re.findall(r'\b\w{1,2}\b', texto)

print(dois_primeiros_caracteres)

['Um']


### 5) Obtenha datas no formato brasileiro (dd/mm/aaaa) e americano (aaaa-mm-dd)

In [None]:
texto = "Data: 27/02/1987. Date: 1987-02-27."

# Busca datas no formato brasileiro (dd/mm/aaaa)
datas_brasileiras = re.findall(r'\b(\d{2})/(\d{2})/(\d{4})\b', texto)

# Busca datas no formato americano (aaaa-mm-dd)
datas_americanas = re.findall(r'\b(\d{4})-(\d{2})-(\d{2})\b', texto)

print("Datas no formato brasileiro:", datas_brasileiras)
print("Datas no formato americano:", datas_americanas)

Datas no formato brasileiro: [('27', '02', '1987')]
Datas no formato americano: [('1987', '02', '27')]


In [None]:
texto = "Data: 27/02/1987. Date: 1987-02-27."
re.findall(r"([0-9]{2}/[0-9]{2}/[0-9]{4})|([0-9]{4}-[0-9]{2}-[0-9]{2})", texto)

[('27/02/1987', ''), ('', '1987-02-27')]

### 6) Obtenha todas palavras que terminem com vogal

In [None]:
texto = "Um texto qualquer sem qualquer valor semântico."
palavras_terminadas_com_vogal = re.findall(r'\b\w*[aeiouAEIOU]\b', texto)

print(palavras_terminadas_com_vogal)

['texto', 'semântico']


### 7) Substitua toda ocorrência da palavra "Avenida" por "Av."


In [None]:
texto = "Endereço: Avenida Getúlio Vargas, 1811\nEndereço: avenida visconde de guarapuava, 1533"

novo_texto = re.sub(r'\bAvenida\b', 'Av.', texto)

print(novo_texto)

Endereço: Av. Getúlio Vargas, 1811
Endereço: avenida visconde de guarapuava, 1533


###8) Obtenha os endereços sem a numeração

In [None]:
texto = "Endereço: Avenida Getúlio Vargas, 1811\nEndereço: avenida visconde de guarapuava, 1533"
# Remover números e vírgula após a vírgula
enderecos_sem_numeracao = re.sub(r',\s*\d+', '', texto)

print(enderecos_sem_numeracao)

Endereço: Avenida Getúlio Vargas
Endereço: avenida visconde de guarapuava


### 9) Substitua todas ocorrências de espaços, vírgulas e pontos pelo underline

In [None]:
text = 'Python Exercises, PHP exercises.'

text_substituted = re.sub(r'[ ,.]', '_', text)

print(text_substituted)

Python_Exercises__PHP_exercises_


O gabarito das atividades pode ser encontrado [aqui](https://colab.research.google.com/drive/1zsWPZyAPuXscBjbd2yu12zg4-tG0eHR8).

## Referências e Material complementar


*   [RegEx Cheat Sheet](https://www.rexegg.com/regex-quickstart.html)
*   [Tutorial sobre expressões regulares para iniciantes em Python](https://www.vooo.pro/insights/tutorial-sobre-expressoes-regulares-para-iniciantes-em-python/)
*   [Python Regular Expressions by Google](https://developers.google.com/edu/python/regular-expressions)
*   [Python ReGex Exercises](https://www.w3resource.com/python-exercises/re/)



Este notebook foi produzido por Prof. [Lucas Oliveira](http://lattes.cnpq.br/3611246009892500) e revisado por Carla Silveira.