# Expressões regulares orientadas ao processamento de linguagem natural

## REGEX

### Metacaracteres Especiais

- `.`: Qualquer caractere (exceto `\n`);  
Exemplo: `a.c` - Corresponde a "abc", "a1c", etc;  

- `\d`: Dígitos (digits - `0/9`);  
Exemplo: `\d+` - Corresponde a "123", "4", etc;  

- `\w`: Caracteres alfanuméricos (words - `a-z`, `A-Z`, `0-9`, _);  
Exemplo: `\w+`- Corresponde a "palavra123" ou "_variavel";  

- `\s`: Qualquer espaço em branco (space - espaço, tab, nova linha);  
Exemplo: `\s+` - Corresponde a todos os tipos de espaços e quebras de linha;  
 
- `\b`: Fronteira palavra (border);  
Exemplo: `\bword\b` - Corresponde a "word" como uma palavra completa.


### Âncoras

- `^`: Início de uma linha;  
Exemplo: `^ola` - Corresponde a "Olá" no início da string;  

- `$`: Fim de uma linha;  
Exemplo: `fim$` - Corresponde a "fim" no final da string;  

### Quantificadores

- `*`: Zero ou mais ocorrências;  
Exemplo: `a*` - Corresponde a "" (nenhum) ou "aaaa";  

- `+`: Uma ou mais ocorrências;  
Exemplo: `a+` - Corresponde a "a", "aa", "aaa", etc;  

- `?`: Zero ou uma ocorrência (boolean);  
Exemplo: `a?`- Corresponde a "" (nenhum) ou "a";  

- `{n}`: Exatamente n ocorrências;  
Exemplo: `a{3}` - Corresponde a "aaa";  
 
- `{n,}`: Pelo menos n ocorrências;  
Exemplo: `a{2,}` - Corresponde a "aa", "aaa", "aaaa", etc;  

- `{n,m}`: Entre n e m ocorrências (range);  
Exemplo: `a{2,5}` - Corresponde a "aa", "aaa", "aaaa", "aaaaa";

### Conjuntos de Caracteres

- `[abc]`: Qualquer caractere "a", "b", ou "c";  
Exemplo: `[abc]` - Corresponde a "a", "b", ou "c";  

- `[a-z]`: Qualquer caractere entre "a" e "z" (minúsculas);  
Exemplo: `[a-z]` - Corresponde a qualquer letra minúscula;  

- `[A-Z]`: Qualquer caractere entre "A" e "Z" (maiúsculas);  
Exemplo: `[A-Z]`- Corresponde a qualquer letra maiúscula;  

- `[0-9]`: Qualquer dígito;  
Exemplo: `[0-9]` - Corresponde a "0", "1", "2", ..., "9";  
 
- `[^abc]`: Negação (tudo exceto "a", "b", ou "c");  
Exemplo: `[^a-z]` - Corresponde a qualquer coisa que não seja uma letra minúscula;

### Agrupamentos

- `(abc)`: Agrupamento de padrões;  
Exemplo: `(abc)` - Corresponde ao padrão "abc";    

- `(abc){n}`: Agrupamento de padrões que se repetem n vezes;  
Exemplo: `(abc){2}` - "abc" deve aparecer exatamente 2 vezes;  

### Caracteres Especiais

- `\{c}`: Corresponde à um caractere especial e/ou reservado (como `.`, `\`, etc);  
Exemplo: `\.` - Corresponde a um ponto literal ".";

## Biblioteca `re` do python - Regex

Biblioteca utilizada pela linguagem `python` para a manipulação de expressões regulares, regex.

## import

In [1]:
import re

### `re.match()`

Verifica se o padrão corresponde ao início da string. Retorna um objeto de correspondência se houver uma correspondência, ou `None` se não houver.

```python
re.match(pattern, string, flags=0)
```

In [2]:
resultado = re.match(r'\d+', '123abc')
print(resultado.group()) 

123


### `re.search()`

Procura o padrão em qualquer parte da string e retorna a primeira correspondência encontrada. Se o padrão for encontrado, retorna um objeto de correspondência; caso contrário, retorna `None`.

```python
re.search(pattern, string, flags=0)
```

In [3]:
resultado = re.search(r'\d+', 'abc123def')
print(resultado.group()) 

123


### `re.findall()`

Retorna todas as correspondências do padrão na string como uma lista. Se não houver correspondências, retorna uma lista vazia.

```python
re.findall(pattern, string, flags=0)
```

In [4]:
resultado = re.findall(r'\d+', 'abc123def456')
print(resultado)

['123', '456']


### `re.sub()`

Substitui todas as ocorrências do padrão por uma nova string. Pode ser usada para limpeza e transformação de texto.

```python
re.sub(pattern, repl, string, count=0, flags=0)
```

- `pattern`: o padrão a ser substituído;
- `repl`: a string ou função de substituição;
- `count`: o número máximo de substituições (opcional);

In [5]:
resultado = re.sub(r'\d+', 'número', 'abc123def456')
print(resultado)

abcnúmerodefnúmero


### `re.split()`

Divide a string com base no padrão e retorna uma lista com as partes. Funciona como `str.split()`, mas com suporte para padrões complexos de divisão.

```python
re.split(pattern, string, maxsplit=0, flags=0)
```

- `pattern`: o padrão a ser usado para divisão;
- `maxsplit`: o número máximo de divisões (opcional);

In [6]:
resultado = re.split(r'\s+', 'Olá tudo bem')
print(resultado)

['Olá', 'tudo', 'bem']


### `re.compile()`

Compila um padrão em um objeto REGEX, permitindo seu reuso. Isso pode melhorar a eficiência quando o mesmo padrão é utilizado várias vezes.

```python
re.compile(pattern, flags=0)
```

In [7]:
padrao = re.compile(r'\d+')
resultado = padrao.findall('abc123def456')
print(resultado)

['123', '456']


### `re.finditer()`

Retorna um iterador com todas as correspondências encontradas como objetos de correspondência. É útil quando precisamos de mais detalhes sobre cada correspondência, como suas posições.

```python
re.finditer(pattern, string, flags=0)
```

In [8]:
for match in re.finditer(r'\d+', 'abc123def456'):
    print(match.group())


123
456


### `re.fullmatch()`

Verifica se a string inteira corresponde ao padrão (não apenas uma parte dela). Se houver correspondência completa, retorna um objeto de correspondência, caso contrário, retorna `None`.

```python
re.fullmatch(pattern, string, flags=0)
```

In [9]:
resultado = re.fullmatch(r'\d+', '123456')
print(resultado)

<re.Match object; span=(0, 6), match='123456'>


### Exemplos

#### Encontrar datas no formato dd/mm/aaaa.

In [10]:
from datetime import datetime

datas = "01/09/2024, 15/10/2023, 99/99/9999"

# Regex
day_regex = r'(0[1-9]|[12][0-9]|3[01])'
month_regex = r'(0[1-9]|1[0-2])'
year_regex = r'(\d{4})'
regex_data_ddmmaaaa = rf'\b{day_regex}/{month_regex}/{year_regex}\b'

# Filtragem por Regex
datas_encontradas = re.findall(regex_data_ddmmaaaa, datas)

# String - Datetime
datas_formatadas = [f"{dia}/{mes}/{ano}" for dia, mes, ano in datas_encontradas]
datas_datetime = [datetime.strptime(data, '%d/%m/%Y') for data in datas_formatadas]

# Print
for data_formatada, data_objeto in zip(datas_formatadas, datas_datetime):
    print(f"Data formatada: {data_formatada}, Data como datetime: {data_objeto}")


Data formatada: 01/09/2024, Data como datetime: 2024-09-01 00:00:00
Data formatada: 15/10/2023, Data como datetime: 2023-10-15 00:00:00


#### Email

In [11]:
texto = """
Você pode entrar em contato através dos seguintes e-mails:
joao.silva@example.com, maria_123@dominio.org, contato@empresa.co.br.
E-mails inválidos: joao..silva@example.com e @dominio.com
"""

# Regex
usr_regex = r'[a-zA-Z0-9._%+-]'
domain_regex = r'[a-zA-Z0-9.-]'
tld_regex = r'[a-zA-Z]{2,}'

email_regex = rf'{usr_regex}+@{domain_regex}+\.{tld_regex}'

# Filtragem Regex
remails = re.findall(email_regex, texto)

print(remails)


['joao.silva@example.com', 'maria_123@dominio.org', 'contato@empresa.co.br', 'joao..silva@example.com']


#### Caracteres Especiais

In [12]:
texto = "Olá! Como você está? Espero que sim... #Python @2024"

regex_caracteres_especiais = r'[^a-zA-Z0-9á-üÁ-Ü\s]'

texto_limpo = re.sub(regex_caracteres_especiais, '', texto)

print(texto_limpo)

Olá Como você está Espero que sim Python 2024


#### Texto com números por palavras

In [13]:
texto = 'Tenho 2 gatos, 3 cachorros e 4 aves'

def digito_para_palavra(match):
    digito_palavra = {'0': 'zero', '1': 'um', '2': 'dois', '3': 'três',
        '4': 'quatro', '5': 'cinco', '6': 'seis', '7': 'sete',
        '8': 'oito', '9': 'nove'}
    return digito_palavra[match.group(0)]

regex_numeros = r'\d'

texto_filtrado = re.sub(regex_numeros, digito_para_palavra, texto)

print(texto_filtrado)
    

Tenho dois gatos, três cachorros e quatro aves


#### Telefones Válidos

In [14]:
lista_telefones = ["(21) 98765-4321", "(11) 1234-5678", "(00) 123-456", "(21) 12345-678"]

regex_ddd = r'\(\d{2}\)'
regex_fix = r'\d{4}-\d{4}'
regex_cel = r'\d{5}-\d{4}'
regex_telefones = rf'{regex_ddd} ({regex_cel}|{regex_fix})'

telefones_validos = [tel for tel in lista_telefones if re.match(regex_telefones, tel)]

print("Telefones válidos:", telefones_validos)


Telefones válidos: ['(21) 98765-4321', '(11) 1234-5678']


#### Palavras com letras maiúsculas

In [15]:
texto = "Maria foi ao mercado, João comprou pão, e Pedro levou Ana para a escola."

regex_upper = r'\b[A-ZÁ-Ú][a-zá-ú]*\b'

upper_words = re.findall(regex_upper, texto)

print(upper_words)

['Maria', 'João', 'Pedro', 'Ana']


## Processando de linguagem natural

### Tokenização
Utilizar regex para dividir o texto em tokens considerando várias formas de separação, como ponto, virgula e múltiplos espaços.

In [16]:
texto = 'Bom dia, como você esta?'
tokens = re.findall(r'\w+', texto)
print(tokens)

['Bom', 'dia', 'como', 'você', 'esta']


### Remover Stopwords e Pontuação

`\w+` captura grupos de caracteres alfanuméricos(words, `w`), ignorando puntações e espaços.

In [17]:
texto_limpo = re.sub(r'[^\w\s]', '', texto)
print(texto_limpo)

Bom dia como você esta


### Normalização de Texto (como remoção de acentos)

Regex pode ser combinado com bibliotecas como unidecode para remover acentos de forma eficiente.

In [18]:
texto = "A aplicação de NLP envolve análise de padrões linguísticos."

def remove_acento(match):
    acentuadas = {
    'á': 'a', 'à': 'a', 'ã': 'a', 'â': 'a',
    'é': 'e', 'ê': 'e',
    'í': 'i',
    'ó': 'o', 'ô': 'o', 'õ': 'o',
    'ú': 'u',
    'ç': 'c'
    }
    return acentuadas[match.group(0)]

regex_acentos = r'[á-ú]'

texto_filtrado = re.sub(regex_acentos, remove_acento, texto)

print(texto_filtrado)

A aplicacao de NLP envolve analise de padroes linguisticos.


#### Extração de Entidades com Regex

Você pode usar regex para extrair entidades específicas, como e-mails, datas, URLs ou nomes próprios (como já vimos no exemplo de palavras com maiúscula).

In [19]:
texto = 'Entre em contato: email1@empresa.com ou email2@exemplo.org'

# Regex
usr_regex = r'[a-zA-Z0-9._%+-]'
domain_regex = r'[a-zA-Z0-9.-]'
tld_regex = r'[a-zA-Z]{2,}'

email_regex = rf'{usr_regex}+@{domain_regex}+\.{tld_regex}'

# Filtragem Regex
remails = re.findall(email_regex, texto)

print(remails)

['email1@empresa.com', 'email2@exemplo.org']


#### Normalização de Texto (Datas, Telefones, etc.)

A regex pode ser usada para detectar e transformar formatos de dados em textos, como números de telefone e datas.

In [20]:
from datetime import datetime

texto = "A reunião será no dia 15/10/2023 e outra em 01-09-2024."

# Regex
day_regex = r'(0[1-9]|[12][0-9]|3[01])'
month_regex = r'(0[1-9]|1[0-2])'
year_regex = r'(\d{4})'
regex_data_ddmmaaaa = rf'\b{day_regex}[/-]{month_regex}[/-]{year_regex}\b'

# Filtragem por Regex
datas_encontradas = re.findall(regex_data_ddmmaaaa, texto)

# String - Datetime
datas_formatadas = [f"{dia}/{mes}/{ano}" for dia, mes, ano in datas_encontradas]
datas_datetime = [datetime.strptime(data, '%d/%m/%Y') for data in datas_formatadas]

# Print
for data_formatada, data_objeto in zip(datas_formatadas, datas_datetime):
    print(f"Data formatada: {data_formatada}, Data como datetime: {data_objeto}")

Data formatada: 15/10/2023, Data como datetime: 2023-10-15 00:00:00
Data formatada: 01/09/2024, Data como datetime: 2024-09-01 00:00:00


#### Lematização e Stemming com Regex

Você pode usar regex para criar regras simples de stemming ou lemmatização personalizada, embora normalmente se usem bibliotecas específicas como o NLTK.

In [21]:
import re

palavras = ["correndo", "correu", "corre"]

palavras_stemmed = [re.sub(r'(ando|endo|iu|eu)$', '', palavra) for palavra in palavras]

print(palavras_stemmed)


['corr', 'corr', 'corre']
