## Metacaracteres em expressões regulares: exemplos em python

### Metacaracteres em expressões regulares: exemplos em python ###

#### Metacaracteres ####

<p>Os metacaracteres em expressões regulares são caracteres especiais que possuem um significado especial e são utilizados para construir padrões de correspondência mais complexos. Eles permitem realizar buscas mais precisas e flexíveis em um texto.</p>

#### Metacaracteres de Correspondência ####

<p>Os metacaracteres de correspondência em expressões regulares são utilizados para especificar padrões que correspondem a um determinado conjunto de caracteres em um texto. Eles nos permitem encontrar correspondências exatas ou parciais de uma sequência de caracteres.</p>

<p>Aqui estão alguns exemplos de metacaracteres de correspondência:</p>

- <code>.</code> (ponto): corresponde a qualquer caractere, exceto uma nova linha. Por exemplo, o padrão <code>c.t</code> corresponderia a "cat", "cut", "cot", entre outros.
<p>Um exemplo em python utilizando esse metacaracter é o seguinte:</p>

In [28]:
import re

pattern = r"c.t"
text = "the cat sat on the mat cut."

matches = re.findall(pattern, text)
print("saída:", matches)

saída: ['cat', 'cut']


<p>Neste exemplo, foi usada a biblioteca <code>re</code> para trabalhar com expressões regulares em Python. Definiu-se o padrão como <code>"c.t"</code>, onde o <code>.</code> corresponde a qualquer caractere, exceto uma nova linha. Em seguida, usa-se a função <code>findall()</code>para encontrar todas as correspondências do padrão no texto. A saída são as palavras "cat" e "cut", que são as sequências que atendem ao padrão definido.<p>

<p><code>[]</code> (colchetes): corresponde a qualquer caractere dentro dos colchetes. Por exemplo, o padrão "[aeiou]" corresponde a qualquer vogal. Se quisermos encontrar palavras que comecem com uma vogal, podemos usar o padrão "^[aeiou]".</p><p>Um exemplo em python de uso desse metacaracter pode ser o seguinte:</p>

In [29]:
import re

texto = '''apple 
banana
orange
dog
cat
elephant'''

padrao = r"^[aeiou]\w+"

correspondencias = re.findall(padrao, texto, re.MULTILINE)

print('saídas: ')
for correspondencia in correspondencias:
    print(correspondencia)

saídas: 
apple
orange
elephant


<p>Nesse exemplo, a expressão regular <code>^[aeiou]\w*</code> é utilizada para encontrar palavras que começam com uma vogal. O <code>[aeiou]</code> representa uma classe de caracteres que corresponde a qualquer vogal. O <code>^</code> indica o início da palavra, seguido de uma vogal. O <code>\w*</code> corresponde a zero ou mais caracteres alfanuméricos após a vogal. Assim, encontramos as palavras "apple", "orange" e "elephant" que começam com uma vogal no texto.</p>

- <code>-</code> (hífen): usado dentro dos colchetes, representa um intervalo de caracteres. Por exemplo, o padrão <code>[a-z]</code> corresponde a qualquer caractere alfabético minúsculo.

<p>Um exemplo em python de uso desse metacaracter pode ser o seguinte:</p>

In [31]:
import re

texto = "Hello, World! 123"
padrao = r"[a-z]+"

correspondencias = re.findall(padrao, texto, re.IGNORECASE)
print('saída:', correspondencias)

saída: ['Hello', 'World']


<p>Nesse exemplo, o padrão <code>[a-z]+</code> é utilizado na função <code>re.findall()</code> para encontrar todas as ocorrências de sequências de letras minúsculas no texto. O modificador <code>re.IGNORECASE</code> é usado para ignorar a diferenciação entre maiúsculas e minúsculas.</p>

<p>O padrão <code>[a-z]</code> corresponde a qualquer caractere alfabético minúsculo individualmente. Ao usar o quantificador <code>+</code> após o padrão, garantimos que corresponda a uma ou mais ocorrências consecutivas de letras minúsculas.</p>

- <code>[^]</code> (colchetes negados): corresponde a qualquer caractere que não esteja dentro dos colchetes. Por exemplo, o padrão <code>[^0-9]</code> corresponde a qualquer caractere que não seja um dígito numérico.
    
<p>Um exemplo em python de uso desse metacaracter pode ser o seguinte:</p>

In [33]:
import re

texto = "Hello, World! 123"
padrao = r"[^0-9]"

correspondencias = re.findall(padrao, texto)
print("saída: ", correspondencias)

saída:  ['H', 'e', 'l', 'l', 'o', ',', ' ', 'W', 'o', 'r', 'l', 'd', '!', ' ']


Nesse exemplo, o padrão <code>[^0-9]</code> é utilizado na função <code>re.findall()</code> para encontrar todas as ocorrências de caracteres que não sejam dígitos numéricos no texto.

- <code>\d</code>: corresponde a qualquer dígito numérico. É equivalente a <code>[0-9]</code>;

<p>Um exemplo em python de uso desse metacaracter pode ser o seguinte:</p>

In [35]:
import re

texto = "123 Hello 456 World"
padrao = r"\d"

correspondencias = re.findall(padrao, texto)
print("saída:", correspondencias)

saída: ['1', '2', '3', '4', '5', '6']


Nesse exemplo, o padrão <code>\d</code> é utilizado na função <code>re.findall()</code> para encontrar todas as ocorrências de dígitos numéricos no texto.

- <code>\D</code>: corresponde a qualquer caractere que não seja um dígito numérico. É equivalente a <code>[^0-9]</code>.

<p>Um exemplo em python de uso desse metacaracter pode ser o seguinte:</p>

In [38]:
import re

texto = "123 Hello 456 World!"
padrao = r"\D"

correspondencias = re.findall(padrao, texto)
print("saída: ", correspondencias)

saída:  [' ', 'H', 'e', 'l', 'l', 'o', ' ', ' ', 'W', 'o', 'r', 'l', 'd', '!']


Nesse exemplo, o padrão <code>\D</code> é utilizado na função <code>re.findall()</code> para encontrar todas as ocorrências de caracteres que não sejam dígitos numéricos.

- <code>\w</code>: corresponde a qualquer caractere alfanumérico (letras maiúsculas e minúsculas, dígitos e sublinhado). É equivalente a <code>[a-zA-Z0-9_]</code>.
  
<p>Um exemplo em python de uso desse metacaracter pode ser o seguinte:</p>

In [40]:
import re

texto = "Hello World_123!"
padrao = r"\w"

correspondencias = re.findall(padrao, texto)
print("saida:", correspondencias)

saida: ['H', 'e', 'l', 'l', 'o', 'W', 'o', 'r', 'l', 'd', '_', '1', '2', '3']


- <code>\W</code>: corresponde a qualquer caractere que não seja alfanumérico. É equivalente a <code>[^a-zA-Z0-9_]</code></li>

<p>Um exemplo em python de uso desse metacaracter pode ser o seguinte:</p>

In [41]:
import re

texto = "Hello World_123!"
padrao = r"\W"

correspondencias = re.findall(padrao, texto)
print("saída:", correspondencias)

saída: [' ', '!']


Nesse exemplo, o padrão <code>\W</code>é utilizado na função <code>re.findall()</code> para encontrar todas as ocorrências de caracteres que não sejam alfanuméricos no texto.

- <code>\s</code>: corresponde a qualquer caractere de espaço em branco (espaço, tabulação, quebra de linha).

<p>Um exemplo em python de uso desse metacaracter pode ser o seguinte:</p>

In [44]:
import re

texto = "Olá\tmundo!\nComo vai você?"

padrao = r"\s"
correspondencias = re.findall(padrao, texto)
print("saída: ", correspondencias)

saída:  ['\t', '\n', ' ', ' ']


Nesse exemplo, o padrão <code>\s</code> é utilizado na função <code>re.findall()</code> para encontrar todas as ocorrências de caracteres de espaço em branco no texto.

 - <code>\S</code>: corresponde a qualquer caractere que não seja um espaço em branco.
 
 <p>Um exemplo em python de uso desse metacaracter pode ser o seguinte:</p>

In [49]:
import re

texto = "Olá\tmundo!\nComo vai você?"

padrao = r"\S"
correspondencias = re.findall(padrao, texto)
print("saída: ", correspondencias)

saída:  ['O', 'l', 'á', 'm', 'u', 'n', 'd', 'o', '!', 'C', 'o', 'm', 'o', 'v', 'a', 'i', 'v', 'o', 'c', 'ê', '?']


Nesse exemplo, o padrão <code>\S</code> é utilizado na função <code>re.findall()</code> para encontrar todas as ocorrências de caracteres que não seja um espaço em branco.

#### Metacaracteres de quantificação

Os metacaracteres de quantificação em expressões regulares são utilizados para especificar quantas vezes um determinado padrão deve ocorrer em uma sequência de caracteres. Eles nos permitem especificar se um padrão deve aparecer uma vez, várias vezes ou até mesmo uma quantidade específica de vezes.

- <code>*</code> (asterisco): corresponde a zero ou mais ocorrências do padrão anterior. Por exemplo, o padrão <code>ab*</code> corresponde a "a", "ab", "abb", "abbb" e assim por diante.

Um exemplo em python de uso desse metacaracter pode ser o seguinte:

In [50]:
import re

texto = "a abb abbb abc abbc ac"

padrao = r"ab*"

correspondencias = re.findall(padrao, texto)

print("saída: ", correspondencias)

saída:  ['a', 'abb', 'abbb', 'ab', 'abb', 'a']


Nesse exemplo, o padrão <code>ab*</code> é utilizado na função <code>re.findall()</code> para encontrar todas as ocorrências que começam com "a" seguido de zero ou mais "b". A saída será uma lista com as correspondências encontradas:

<code>['a', 'abb', 'abbb', 'ab', 'abbc']</code>

Isso ocorre porque o padrão "ab*" corresponde a "a", "abb", "abbb", "ab" e "abbc" no texto fornecido.

 - <code>+</code> (sinal de mais): corresponde a uma ou mais ocorrências do padrão anterior. Por exemplo, o padrão <code>ab+</code> corresponde a "ab", "abb", "abbb" e assim por diante, mas não corresponde a apenas "a".
 
 Um exemplo em python de uso desse metacaracter pode ser o seguinte:

In [51]:
import re

texto = "a abb abbb abc abbc ac"

padrao = r"ab+"

correspondencias = re.findall(padrao, texto)

print("saída", correspondencias)

saída ['abb', 'abbb', 'ab', 'abb']


Nesse exemplo, o padrão <code>ab+</code> é utilizado na função <code>re.findall()</code> para encontrar todas as ocorrências que começam com "a" seguido de um ou mais "b". A saída será uma lista com as correspondências encontradas:

<code>['ab', 'abb', 'abbb', 'ab', 'abbc']</code>

Isso ocorre porque o padrão <code>ab+</code> corresponde a "ab", "abb", "abbb", "ab" e "abbc" no texto fornecido. No entanto, a correspondência "a" não é incluída, pois o <code>+</code> exige que pelo menos um "b" esteja presente.

- <code>?</code> (interrogação): corresponde a zero ou uma ocorrência do padrão anterior. Por exemplo, o padrão "colou?r" corresponde tanto a "color" como a "colour".

Um exemplo em python de uso desse metacaracter pode ser o seguinte:

In [52]:
import re

texto = "The color of the sky is blue. The colour of the flower is red."

padrao = r"colou?r"

correspondencias = re.findall(padrao, texto)

print("saída", correspondencias)

saída ['color', 'colour']


Nesse exemplo, o padrão <code>colou?r</code> é utilizado na função <code>re.findall()</code> para encontrar todas as ocorrências que correspondam a "color" ou "colour". A saída será uma lista com as correspondências encontradas:

<code>['color', 'colour']</code>

Isso ocorre porque o ponto de interrogação <code>?</code> indica que o caractere anterior (nesse caso, a letra "u") é opcional na correspondência. Portanto, o padrão <code>colou?r</code> corresponderá tanto a "color" quanto a "colour" no texto fornecido.

- <code>{n}</code> (chaves): corresponde exatamente a $n$ ocorrências do padrão anterior. Por exemplo, o padrão <code>a{3}</code> corresponde a "aaa".

Um exemplo em python de uso desse metacaracter pode ser o seguinte:

In [58]:
import re

texto = "aaaa aaa aaaaaa aaaaaaa"

padrao = r"a{3}"

correspondencias = re.findall(padrao, texto)

print("saída", correspondencias)

saída ['aaa', 'aaa', 'aaa', 'aaa', 'aaa', 'aaa']


Nesse exemplo, o padrão <code>a{3}</code> é utilizado na função <code>re.findall()</code> para encontrar todas as ocorrências em que o caractere "a" se repete exatamente três vezes consecutivas. A saída será uma lista com as correspondências encontradas:

<code>['aaa', 'aaa', 'aaa', 'aaa', 'aaa', 'aaa']</code>

Isso ocorre porque o padrão "a{3}" especifica que o caractere "a" deve ocorrer exatamente três vezes consecutivas na correspondência e no texto "aaaa aaa aaaaaa aaaaaaa" ocorrem seis casos desse tipo.

- <code>{n,}</code> (chaves com vírgula): corresponde a no mínimo $n$ ocorrências do padrão anterior. Por exemplo, o padrão <code>a{2,}</code> corresponde a "aa", "aaa", "aaaa" e assim por diante.

Um exemplo em python de uso desse metacaracter pode ser o seguinte:

In [61]:
import re

texto = "a aa aaa aaaa"

padrao = r"a{2,}"

correspondencias = re.findall(padrao, texto)

print("saída", correspondencias)

saída ['aa', 'aaa', 'aaaa']


Nesse exemplo, o padrão <code>a{2,n}</code> é utilizado na função <code>re.findall()</code> para encontrar todas as ocorrências em que o caractere "a" ocorre no mínimo duas vezes. A saída será uma lista com as correspondências encontradas:

<code>['aa', 'aaa', 'aaaa']</code>

- <code>{n,m}</code> (chaves com dois valores separados por vírgula): corresponde a um mínimo de n ocorrências e um máximo de m ocorrências do padrão anterior. Por exemplo, o padrão <code>a{2,4}</code> corresponde a "aa", "aaa" e "aaaa", mas não corresponde a apenas "a" ou a "aaaaa".

Um exemplo em python de uso desse metacaracter pode ser o seguinte:

In [64]:
import re

texto = "a aa aaa aaaa aaaaa aaaaaa"

padrao = r"a{2,4}"

correspondencias = re.findall(padrao, texto)

print("saída", correspondencias)

saída ['aa', 'aaa', 'aaaa', 'aaaa', 'aaaa', 'aa']


Nesse exemplo, o padrão <code>a{2,4}</code> é utilizado na função <code>re.findall()</code> para encontrar todas as ocorrências em que o caractere "a" ocorre no mínimo duas vezes. A saída será uma lista com as correspondências encontradas:

<code>['aa', 'aaa', 'aaaa', 'aaaa', 'aaaa', 'aa']</code>

Isso ocorre porque o padrão <code>a{2,4}</code> especifica que o caractere "a" deve ocorrer no mínimo duas e no máximo quatro vezes consecutivas na correspondência e no texto "a aa aaa aaaa aaaaa aaaaaa" ocorrem seis casos desse tipo.

#### Metacaracteres de agrupamento e alternância

Os metacaracteres de agrupamento e alternância são usados para agrupar partes de uma expressão regular ou especificar alternativas.

- Matacaractere de agrupamento <code>(caracteres)</code> é usado para agrupar uma sequência de caracteres. Por exemplo, o padrão <code>(abc)+</code> corresponde a uma ou mais ocorrências da sequência "abc". Ele corresponderia a "abc", "abcabc", "abcabcabc", e assim por diante.

Um exemplo em python de uso desse metacaracter pode ser o seguinte:

In [81]:
import re

texto = "abc abcabc abcabcabc"

padrao = r"(abc)+"

correspondencias = re.finditer(padrao, texto)

print("saída: ")
for correspondencia in correspondencias:
    print(correspondencia.group())

saída: 
abc
abcabc
abcabcabc


Se utilizarmos o método <code>re.findall()</code> isso retornará apenas os grupos de captura correspondentes, no caso do padrão <code>(abc)+</code>, que é o grupo (abc) repetido uma ou mais vezes.

Para obter todas as correspondências que contêm a sequência "abc" repetida uma ou mais vezes, pode-se utilizar o método <code>re.finditer()</code> para iterar sobre as correspondências encontradas. 

- O metacaractere de alternância <code>|</code> é usado para especificar alternativas. O exemplo <code>apple|banana</code> corresponde a "apple" ou "banana". Ele encontraria correspondências em um texto que contém qualquer uma das palavras "apple" ou "banana".

Um exemplo em python de uso desse metacaracter pode ser o seguinte:

In [77]:
import re

texto = "I like apple, but sometimes I prefer banana."

padrao = r"apple|banana"

correspondencias = re.findall(padrao, texto)

print("saída", correspondencias)

saída ['apple', 'banana']


Nesse exemplo, o padrão <code>"apple|banana"</code> indica que se quer encontrar correspondências para "apple" ou "banana" no texto. O método <code>re.findall()</code> retornará uma lista com todas as correspondências encontradas.

Pode-se combinar agrupamento e alternância. Por exemplo o padrão <code>(red|blue) car</code> corresponde a "red car" ou "blue car". Ele encontraria correspondências em um texto que contém a expressão "red car" ou "blue car".

Um exemplo em python de uso desse metacaracter pode ser o seguinte:

In [80]:
import re

texto = "I have a red car and a blue car."

padrao = r"(red|blue) car"

correspondencias = re.finditer(padrao, texto)

print("saída: ")
for correspondencia in correspondencias:
    print(correspondencia.group())

saída: 
red car
blue car


#### Metacaracteres de âncora

Os metacaracteres de âncora em expressões regulares são usados para especificar a posição em que um padrão deve ocorrer dentro do texto. Eles não correspondem a nenhum caractere em si, mas sim à posição do texto.

O Metacaractere <code>^</code> (circunflexo) é uma âncora de início de linha. Ele indica que o padrão deve ocorrer no início de uma linha. Por exemplo, o padrão <code>^Hello.*</code> corresponde a qualquer linha que comece com a palavra "Hello". Ele encontraria correspondências em um texto que contém as linhas "Hello, world!" ou "Hello there".

Um exemplo em python de uso desse metacaracter pode ser o seguinte:

In [107]:
import re

texto = '''Hello, world!
Hello there
Goodbye, Hello'''

padrao = r'^Hello.*'

correspondencias = re.findall(padrao, texto, re.MULTILINE)

print("saída", correspondencias)

saída ['Hello, world!', 'Hello there']


Neste exemplo, o padrão <code>^Hello.*</code> é utilizado para corresponder a qualquer linha que comece com a palavra "Hello" e capturar todo o texto da linha até o final. A flag <code>re.MULTILINE</code> é usada para considerar cada linha separadamente.

O metacaractere <code>\$</code> (cifrão) é uma âncora de final de linha e indica que o padrão deve ocorrer no final de uma linha. Por exemplo, o padrão <code>.*world$</code> corresponde a qualquer linha que termine com a palavra "world". Ele encontraria correspondências em um texto que contém as linhas "Hello, world!" ou "Goodbye, world!".

Um exemplo em python de uso desse metacaracter pode ser o seguinte:

In [108]:
import re

texto = '''Hello, world
Goodbye, world
Hello, Python!
World is amazing'''

padrao = r'.*world$'

correspondencias = re.findall(padrao, texto, re.MULTILINE)

print("saída", correspondencias)

saída ['Hello, world', 'Goodbye, world']


Neste exemplo, o padrão <code>.*world\$</code> é utilizado para corresponder a qualquer linha que termine com a palavra "word" e capturar todo o texto da linha até a ocorrêcia de "word". A flag re.MULTILINE é usada para considerar cada linha separadamente.

O metacaractere <code>\b</code> é usado para definir âncoras de limite de palavra. Por exemplo, o padrão <code>\bcat\b</code> corresponde à palavra "cat" como uma palavra completa, sem ser parte de outra palavra. Ele encontraria correspondências em um texto que contém as palavras "I have a cat" ou "The cat is black", mas não em "caterpillar".

In [109]:
import re

texto = '''I have a cat.
The cat is black.
She loves to play with cats.
The caterpillar is not a cat.'''

padrao = r'\bcat\b'

correspondencias = re.findall(padrao, texto)

print("saída", correspondencias)

saída ['cat', 'cat', 'cat']


Neste exemplo, o padrão <code>\bcat\b</code> é utilizado para corresponder à palavra "cat" como uma palavra completa, sem ser parte de outra palavra. A função <code>re.findall()</code> retorna todas as correspondências encontradas no texto.

<code>['cat', 'cat']</code>

Isso ocorre porque as palavras "cat" em "I have a cat" e "The cat is black" são correspondências válidas, enquanto em "The caterpillar is not a cat" a palavra "cat" faz parte da palavra "caterpillar" e não é considerada uma correspondência.

Um bom site para testar expressões regulares é: https://www.regextester.com/