# Pré-Processamento Textual 
## Expressões Regulares

<p>As expressões regulares são sequências de caracteres que definem um padrão de busca em texto. Elas são amplamente utilizadas para realizar operações de busca, substituição e validação de padrões em strings. As expressões regulares são compostas por metacaracteres, que representam classes de caracteres, quantificadores, âncoras e outros elementos que permitem definir padrões complexos. Elas são uma ferramenta poderosa para manipulação e análise de texto em diversas áreas, como processamento de linguagem natural, extração de informações e validação de dados.</p>

<p>
Podemos usar expressões regulares para retirar URLs, endereços de e-mail, nomes que aparecem em todos ou quase todos os textos da coleção e prejudicam a classificação automática (nomes como: réu, promotor, juiz) que aparecem em toda à coleção jurídica.
– Localizar marcas de tempo (semana, mês, hora) que podem está escritas de diversas maneiras (3 horas, três horas, 3:00Hs, 3h, 3:00:00)
– Localizar palavras que se iniciam ou terminam com determinado padrão, por exemplo, crim* (criminoso, criminalística, crime, etc.)
– Entre várias outras aplicações

Logo, se estivermos localizando agendamento de audiências em meio a vários documentos, poderíamos usar expressões regulares para localizar datas (escritas de diversas maneiras) para pré-seleção dos documentos, e posteriormente encontrar outros padrões que o caracterizem os documentos referentes à audiência jurídica por exemplo: ganharíamos tempo com esse preprocessamento por data e padrões de texto.
</p>

## Atividade de expressão regulares


| Pergunta | Expressão Regular |
| --- | --- |
| <span style="color: yellow;">1. Qual é a expressão regular que busca todas as vogais minúsculas?</span> | <span style="color: yellow;">`[aeiou]`</span> |
| <span style="color: yellow;">2. Qual é a expressão regular (ou regex, em inglês) que busca a substring 'Casa'?</span> | <span style="color: yellow;">`Casa`</span> |
| <span style="color: yellow;">3. Qual é a expressão regular que busca as vogais minúsculas ou dígitos?</span> | <span style="color: yellow;">`[aeiou]\|[0-9]`</span> |
| <span style="color: yellow;">4. Qual é a expressão regular que busca letra minúscula ou dígito no fim da string?</span> | <span style="color: yellow;">`[a-z]\|[0-9]$`</span> |
| <span style="color: yellow;">5. Qual é a expressão regular que busca vogais minúsculas precedidas de 'c' ou 's'?</span> | <span style="color: yellow;">`(c\|s)[aeiou]`</span> |
| <span style="color: yellow;">6. Qual é a expressão regular que busca substrings que começam com 'c', têm um caractere qualquer e terminam com um 's'?</span> | <span style="color: yellow;">`c.s`</span> |
| <span style="color: yellow;">7. Qual é a expressão regular que busca substrings que começam com 'c', têm sequência de uma ou mais vogais minúsculas e não seguem com um dígito?</span> | <span style="color: yellow;">`c[aeiou]+[^0-9]`</span> |


> Functions for re
> public symbols
    - "match", 
    - "fullmatch", 
    - "search", 
    - "sub", 
    - "subn", 
    - "split",
    - "findall", 
    - "finditer", 
    - "compile", 
    - "purge", 
    - "template", 
    - "escape",
    - "error", 
    - "Pattern", 
    - "Match", 
    - "A", "I", "L", "M", "S", "X", "U",
    - "ASCII", 
    - "IGNORECASE", 
    - "LOCALE", 
    - "MULTILINE", 
    - "DOTALL", 
    - "VERBOSE",
    - "UNICODE", 
    - "NOFLAG", 
    - "RegexFlag",


![image-re.png](./assets/table-re.png)

In [127]:
# Libraries and imports
import re

frase = "casamento 25"

In [128]:
# Funções

# FUNCTION FINDALL
def findAll(regex, frase):
  p = re.compile(regex)
  mm = p.finditer(frase)
  if mm:
      for m in mm:
          print('Casou!', m.group())
          print(m.start())
          print(m.end())
          print('Posição na string:', m.span())
  else:
      print("Não encontrado")

# FUNCTION FINDITER
def findIter(regex, frase):
  p = re.compile(regex)
  mm = p.finditer(frase)
  if mm:
    for m in mm:
        print('Casou!', m.group())
        print('Posição na string:', m.span())
  else:
      print("Palavra não encontrada")

# FUNCTION SEARCH
def search(regex, frase):
    p = re.compile(regex)
    m = p.search(frase)
    if m:
      print('Casou!', m.group())
      print(m.start())
      print(m.end())
      print('Posição na string:', m.span())
    else:
      print("Palavra não encontrada")

In [130]:
# QUESTÃO 1
findAll(regex='[aeiou]', frase=frase)

Casou! a
1
2
Posição na string: (1, 2)
Casou! a
3
4
Posição na string: (3, 4)
Casou! e
5
6
Posição na string: (5, 6)
Casou! o
8
9
Posição na string: (8, 9)


In [108]:
# QUESTÃO 2
findIter(regex=r'[aeiou]|[0-9]', frase=frase)

Casou! a
Posição na string: (1, 2)
Casou! a
Posição na string: (3, 4)
Casou! e
Posição na string: (5, 6)
Casou! o
Posição na string: (8, 9)
Casou! 2
Posição na string: (10, 11)
Casou! 5
Posição na string: (11, 12)


In [101]:
# QUESTÃO 3
search(regex='[Cc]asa', frase=frase)

Casou! casa
0
4
Posição na string: (0, 4)


In [102]:
# QUESTÃO 4
findAll(regex=r'[aeiou]|[0-9]', frase=frase)

Casou! a
1
2
Posição na string: (1, 2)
Casou! a
3
4
Posição na string: (3, 4)
Casou! e
5
6
Posição na string: (5, 6)
Casou! o
8
9
Posição na string: (8, 9)
Casou! 2
10
11
Posição na string: (10, 11)
Casou! 5
11
12
Posição na string: (11, 12)


In [104]:
# QUESTÃO 5
findIter(regex=r'[a-z]|[0-9]$', frase=frase)

Casou! c
Posição na string: (0, 1)
Casou! a
Posição na string: (1, 2)
Casou! s
Posição na string: (2, 3)
Casou! a
Posição na string: (3, 4)
Casou! m
Posição na string: (4, 5)
Casou! e
Posição na string: (5, 6)
Casou! n
Posição na string: (6, 7)
Casou! t
Posição na string: (7, 8)
Casou! o
Posição na string: (8, 9)
Casou! 5
Posição na string: (11, 12)


In [112]:
# QUESTÃO 6
search(regex='c.s', frase=frase)
search(regex='c.s.', frase=frase)

Casou! cas
0
3
Posição na string: (0, 3)
Casou! casa
0
4
Posição na string: (0, 4)


In [116]:
# QUESTÃO 7
search(regex='c[aeiou]+[^0-9]', frase=frase)

Casou! cas
0
3
Posição na string: (0, 3)
