<a href="https://colab.research.google.com/github/viniciusrpb/cic0269_natural_language_processing/blob/main/cap03_regex.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Capítulo 3 - Expressões Regulares (Regular Expressions - RegEx)

## 3.1. Expressões regulares em Python

Primeiramente, deve-se importar o pacote [re](https://docs.python.org/3/library/re.html)

In [26]:
import re

Vamos definir um texto de exemplo:

In [27]:
s = "Eu nasci em 1956, assisti de camarote o descobrimento do Brasil há 500 anos. Tenho <p>5 marmotas</p> de estimação e odeio ponto de exclamação!"

Métodos importantes para elaboração de expressões regulares em Python:

### search

Percorre o texto procurando pela primeira ocorrência da expressão regular correspondente e retorna a posição da string buscada:

In [28]:
print(re.search(r'de', s))

<re.Match object; span=(26, 28), match='de'>


### match

Determina se a expressão regular combina com o início da string e retorna a posição da string buscada:

In [29]:
print(re.match(r'Eu nasci', s))

<re.Match object; span=(0, 8), match='Eu nasci'>


In [30]:
print(re.match(r'camarote', s))

None


### findall

Encontra **todas as substrings** correspondentes com a expressão regular:

In [31]:
print(re.findall(r'de', s))

['de', 'de', 'de', 'de', 'de']


### split

Quebra o texto de acordo com as ocorrências encontradas do padrão da RegEx

In [32]:
'''re.split('de', string, maxsplit=0, flags=0)'''
print(re.split(r'de', s))

['Eu nasci em 1956, assisti ', ' camarote o ', 'scobrimento do Brasil há 500 anos. Tenho <p>5 marmotas</p> ', ' estimação e o', 'io ponto ', ' exclamação!']


### finditer

Encontra **todas as substrings** correspondentes com a expressão regular no texto de entrada e retorna como um iterador (endereço da primeira ocorrência da esquerda para a direita):

In [33]:
print(re.finditer(r'de', s))

<callable_iterator object at 0x7fb7329a1b50>


In [34]:
for it in re.finditer(r'de', s):
    print(it)

<re.Match object; span=(26, 28), match='de'>
<re.Match object; span=(40, 42), match='de'>
<re.Match object; span=(101, 103), match='de'>
<re.Match object; span=(117, 119), match='de'>
<re.Match object; span=(128, 130), match='de'>


**findall()** retorna objetos do tipo *str*, enquanto que **finditer()** retorna objetos do tipo *Match*

### sub

Encontra o padrão no texto definido pela expressão regular e efetua **todas** as substituições. Retorna a string de entrada processada:

In [35]:
print(re.sub(r'<p>|</p>', '', s))

Eu nasci em 1956, assisti de camarote o descobrimento do Brasil há 500 anos. Tenho 5 marmotas de estimação e odeio ponto de exclamação!


## 3.2. Operadores

In [36]:
text = "Woodchuck"
text2 = "woodchuck"

regra incorreta

In [37]:
result =re.findall(r'Woodchuck',text)
print(result)

['Woodchuck']


In [38]:
result =re.findall(r'woodchuck',text)
print(result)

[]


### Disjunção: operador "[ ]"

Regra correta para pegar "w" minúsculo ou maiúsculo:

In [39]:
result =re.findall(r'[Ww]oodchuck',text2)
print(result)

['woodchuck']


pegar apenas dígitos

In [40]:
result =re.findall(r'[0123456789]',"478")
print(result)

['4', '7', '8']


Utilizando o meta caractere '-' para se pegar intervalos dentro do operador de disjunção "$[ \quad ]$"

In [41]:
result =re.findall(r'[0-9]',"478")
print(result)

['4', '7', '8']


Alfabeto (palavras)

In [42]:
result =re.findall(r'[A-Z]',text2)
print(result)

[]


várias ocorrências de dígitos

In [43]:
result =re.findall(r'[0-9]',"Capítulo 1: Seção 2")
print(result)

['1', '2']


Negação

In [44]:
result =re.findall(r'[^0-9]',"Capítulo 1: Seção 2")
print(result)

['C', 'a', 'p', 'í', 't', 'u', 'l', 'o', ' ', ':', ' ', 'S', 'e', 'ç', 'ã', 'o', ' ']


In [45]:
result =re.findall(r'[^A-Za-z]',"Capítulo 1: Seção 2")
print(result)

['í', ' ', '1', ':', ' ', 'ç', 'ã', ' ', '2']


Meta-caractere ponto

In [46]:
result =re.findall(r'beg.n',"begun")
print(result)

['begun']


In [47]:
result =re.findall(r'beg.n',"bexun")
print(result)

[]


Disjunção: "|"

Esse operador pega dois ou mais tipos de termos do padrão na string de entrada:

In [48]:
texto = 'Groundhog and woodstock'
result =re.findall(r'[Gg]roundhog|[Ww]oodstock',texto)
print(result)

['Groundhog', 'woodstock']


O meta caractere ?

In [49]:
texto = 'color and colour'
result =re.findall(r'colou?r',texto)
print(result)

['color', 'colour']


### Meta-caractere '*':

Repete o mínimo possível a expressão regular precedente quantas vezes forem necessárias para corresponder o padrão na RegEx:

In [50]:
result = re.findall(r'[0-9]*',s)
print(result)

['', '', '', '', '', '', '', '', '', '', '', '', '1956', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '500', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '5', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '']


O meta caractere +:



In [51]:
result = re.findall(r'[0-9]+',s)
print(result)

['1956', '500', '5']


O meta caractere $

In [52]:
texto = 'aardvark'
result =re.findall(r'r.$',texto)
print(result)

['rk']


Pegar o último ponto da string

In [53]:
texto = 'Como fazer.'
result =re.findall(r'\.$',texto)
print(result)

['.']


Criando grupos

In [54]:
texto = "the faster they ran, the faster we ran"
result =re.findall(r'the (.*)er they (.*), the \1er we \2',texto)
print(result)

[('fast', 'ran')]


In [55]:
texto = "Capitulo 35"
result =re.sub(r'([0-9]+)',r'<\1>',texto)
print(result)

Capitulo <35>


## Exercício 1

Elaborar um regex que faz o match com todos os "the"


In [56]:
thetext = "The main feature is that the other oracle wants to be the theoretical leader."


Primeiro passo

In [57]:
result =re.findall(r'the',thetext)
print(result)

['the', 'the', 'the', 'the']


Uma melhora...

In [58]:
result =re.findall(r'[Tt]he',thetext)
print(result)

['The', 'the', 'the', 'the', 'the']


Mais uma melhora...

In [74]:
result =re.findall(r'[^A-Za-z][Tt]he[^A-Za-z]',thetext)
print(result)

[' the ', ' the ']


Por fim

In [60]:
result =re.findall(r'[^A-Za-z][Tt]he[^A-Za-z]',thetext)
print(result)

[' the ', ' the ']


## 3.4. Exercício

In [61]:
dosp_input = '((TITULO))CONTRAÇÃO DE NATUREZA ARTÍSTICA\n((TEXTO))((NG)) Publicado por omissão no D.O.C de 23.01.2016 (CL))\n((NG)) Processo SEI 6025.2016/0000154-0((CL))\nÀ vista dos elementos constantes do presente, em especial o Parecer da Comissão de Atividades Artísticas e Culturais, na competência a mim delegada pela Portaria nº 19/2006 – SMC.G, ((NG))AUTORIZO,((CL)) com fundamento no artigo 25, inciso III, da Lei Federal nº 8.666/1993 e alterações posteriores, artigo 1º da Lei Municipal 13.278/2002, nos termos dos artigos 16 e 17 do Decreto Municipal nº 44.279/2003, a contratação dos serviços de natureza artística nas condições abaixo estipuladas, observada a legislação vigente e demais cautelas legais: ((NG))CONTRATADO: ((CL))Tatiana Weberman (CPF nº 280.704.688-66), nome artístico “Tatiana Weberman”, conforme a Declaração de Exclusividade, por intermédio de DFJV PRODUÇÕES ARTÍSTICAS E CULTURAIS LTDA – ME, inscrita no CNPJ sob o nº 22.130.863/0001-16. ((NG))OBJETO:((CL)) Apresentação da intervenção artística intitulada “Slow Kids”, conforme proposta e programação oficial do evento, a ser realizada em 24 e 25 de janeiro de 2016.\n((NG))VALOR GLOBAL: ((CL))R$ 117.650,00 (cento e dezessete mil, seiscentos e cinquenta reais), a serem pagos em parcela única, após a confirmação da execução dos serviços pela unidade requisitante.\n((NG))DOTAÇÃO ORÇAMENTÁRIA:((CL)) 25.10 13.392.3001.6.354 3.3.90.39.00 00, conforme anotação de reserva de recursos.Nos termos do art. 6º do Decreto Municipal nº 54.873/2014, designo Ana Carollina Correa, RF 812.640.2, como fiscal do contrato e Luciana Schwinden, RF 791.181.5, como suplente.'

In [62]:
print(dosp_input)

((TITULO))CONTRAÇÃO DE NATUREZA ARTÍSTICA
((TEXTO))((NG)) Publicado por omissão no D.O.C de 23.01.2016 (CL))
((NG)) Processo SEI 6025.2016/0000154-0((CL))
À vista dos elementos constantes do presente, em especial o Parecer da Comissão de Atividades Artísticas e Culturais, na competência a mim delegada pela Portaria nº 19/2006 – SMC.G, ((NG))AUTORIZO,((CL)) com fundamento no artigo 25, inciso III, da Lei Federal nº 8.666/1993 e alterações posteriores, artigo 1º da Lei Municipal 13.278/2002, nos termos dos artigos 16 e 17 do Decreto Municipal nº 44.279/2003, a contratação dos serviços de natureza artística nas condições abaixo estipuladas, observada a legislação vigente e demais cautelas legais: ((NG))CONTRATADO: ((CL))Tatiana Weberman (CPF nº 280.704.688-66), nome artístico “Tatiana Weberman”, conforme a Declaração de Exclusividade, por intermédio de DFJV PRODUÇÕES ARTÍSTICAS E CULTURAIS LTDA – ME, inscrita no CNPJ sob o nº 22.130.863/0001-16. ((NG))OBJETO:((CL)) Apresentação da interve

Um RegEx para pegar os números da dotação orçamentária

In [94]:
do = re.findall(r"^DOTAÇÃO.*.$",dosp_input)
print(do)

[]


In [91]:
do = re.findall(r'.*^DOTAÇÃO.*\.$',dosp_input)
print(do)


[]
