# Expressões Regulares

- O Pacote que permite utilizar ER é <b>re</b>
- Existem vários métodos para utilizar expressões regulares em python., alguns deles para <b>buscar</b> padrões são:

|   Método   |                                      Descrição                                     |
|:----------:|:----------------------------------------------------------------------------------:|
| match()    | Determina se a RE combina com o início da string.                                  |
| search()   | Varre toda a string, procurando qualquer local onde esta RE tem correspondência.   |
| findall()  | Encontra todas as substrings onde a RE corresponde, e as retorna como uma lista.   |
| finditer() | Encontra todas as substrings onde a RE corresponde, e as retorna como um iterador. |

- Métodos para modificar strings:

| Método  | Descrição                                                                                            |
|---------|------------------------------------------------------------------------------------------------------|
| split() | Divide a string em uma lista, dividindo-a onde quer que haja correspondência com a RE                |
| sub()   | Encontra todas as substrings que correspondem com a RE e faz a substituição por uma string diferente |
| subn()  |  É o mesmo que o método sub(), mas retorna a nova string e o número de substituições                 |


Link: https://docs.python.org/pt-br/3.8/howto/regex.html

Agora vamos exemplificar cada um desses métodos:

In [None]:
import re
import datetime

In [None]:
texto = "Vamos encontrar Padrões nesta string!! \nAgora é a nossa primeira prática de NLP!! Vamos aprender a procurar padrões!! \nBelo Horizonte, "+ str(datetime.datetime.now().date())+"."

In [None]:
print(texto)

Vamos encontrar Padrões nesta string!! 
Agora é a nossa primeira prática de NLP!! Vamos aprender a procurar padrões!! 
Belo Horizonte, 2021-05-23.


## Match
Determina se a RE combina com o início da string

In [None]:
re.match("Vamos", texto)

<re.Match object; span=(0, 5), match='Vamos'>

In [None]:
re.match("nesta", texto)

é case sensitive

In [None]:
re.match(r"vamos", texto)

## Search
Varre toda a string, procurando qualquer local onde esta RE tem correspondência

In [None]:
re.search("Vamos", texto)

<re.Match object; span=(0, 5), match='Vamos'>

In [None]:
re.search("encontrar", texto)

<re.Match object; span=(6, 15), match='encontrar'>

o default é case-sensitive

In [None]:
re.search("padrões", texto)

<re.Match object; span=(108, 115), match='padrões'>

In [None]:
re.search("Padrões", texto)

<re.Match object; span=(16, 23), match='Padrões'>

podemos ignorar case-sensitive

In [None]:
re.search("padrões", texto, re.IGNORECASE)

<re.Match object; span=(16, 23), match='Padrões'>

## Findall
Encontra todas as substrings onde a RE corresponde, e as retorna como uma lista

In [None]:
re.findall("Vamos", texto)

['Vamos', 'Vamos']

In [None]:
re.findall("padrões", texto)

['padrões']

re.I é igal re.IGNORECASE

In [None]:
re.findall("padrões", texto, re.I)

['Padrões', 'padrões']

In [None]:
#quando uso o + o padrão é 1 ou mais. Assim todas string que tem a no meio de outras letras  são retornadas
re.findall(r'\w+a\w+', texto)

['Vamos', 'encontrar', 'Padrões', 'Vamos', 'procurar', 'padrões']

In [None]:
#quando uso o * o padrão é 0 ou mais. Assim todas string que tem a no meio, ou no início ou no fim são retornadas
re.findall(r'\w*a\w*', texto)

['Vamos',
 'encontrar',
 'Padrões',
 'nesta',
 'Agora',
 'a',
 'nossa',
 'primeira',
 'prática',
 'Vamos',
 'aprender',
 'a',
 'procurar',
 'padrões']

## Finditer
Encontra todas as substrings onde a RE corresponde, e as retorna como um iterador.

In [None]:
re.finditer("Vamos", texto)

<callable_iterator at 0x7f741c31ed90>

In [None]:
res = re.finditer("Vamos", texto)
[r for r in res]

[<re.Match object; span=(0, 5), match='Vamos'>,
 <re.Match object; span=(82, 87), match='Vamos'>]

In [None]:
re.finditer("padrões", texto)

<callable_iterator at 0x7f741c277090>

In [None]:
re.finditer("padrões", texto, re.I)

<callable_iterator at 0x7f741c277f50>

## Split

In [None]:
re.split('\n',texto)

['Vamos encontrar Padrões nesta string!! ',
 'Agora é a nossa primeira prática de NLP!! Vamos aprender a procurar padrões!! ',
 'Belo Horizonte, 2021-05-23.']

In [None]:
texto.split("\s+")

['Vamos encontrar Padrões nesta string!! \nAgora é a nossa primeira prática de NLP!! Vamos aprender a procurar padrões!! \nBelo Horizonte, 2021-05-23.']

In [None]:
(re.split(r'\s+',texto))

['Vamos',
 'encontrar',
 'Padrões',
 'nesta',
 'string!!',
 'Agora',
 'é',
 'a',
 'nossa',
 'primeira',
 'prática',
 'de',
 'NLP!!',
 'Vamos',
 'aprender',
 'a',
 'procurar',
 'padrões!!',
 'Belo',
 'Horizonte,',
 '2021-05-23.']

## Sub

In [None]:
re.sub('\w+a\w+', 'a-word', texto)

'a-word a-word a-word nesta string!! \nAgora é a nossa primeira prática de NLP!! a-word aprender a a-word a-word!! \nBelo Horizonte, 2021-05-23.'

## Subn

In [None]:
re.subn('\w+a\w+', 'a-word', texto)

('a-word a-word a-word nesta string!! \nAgora é a nossa primeira prática de NLP!! a-word aprender a a-word a-word!! \nBelo Horizonte, 2021-05-23.',
 6)

# Exercícios

1. Escreva uma expressão regular para verificar se uma string contém apenas um determinado conjunto de caracteres (neste caso, a-z, A-Z e 0-9).

In [None]:
string1 = "ABCDEFabcdef123450"
string2 = "*&%@#!}{"

2. Escreva uma expressão regular que corresponda a uma sequência que tenha um a seguido por zero ou mais b's.

In [None]:
string1 = "abc"
string2 = "aacb"
string3 = "abbc"
string4 = "bb"

3. Escreva um expressão regular que corresponda a uma sequência que tenha um a seguido por um ou mais b's.

In [None]:
string1 = "abc"
string2 = "aacb"
string3 = "abbc"
string4 = "bb"

4. Escreva uma expressão regular para converter uma data do formato aaaa-mm-dd para o formato dd-mm-aaaa.

In [None]:
data1 = "2026-01-02"
data2 = "26-01-02"

5. Escreva uma expressão para dividir uma string em letras maiúsculas

In [None]:
string = "ExercídiosExpressãoRegularAA"

6. Escreva uma expressão regular para remover a área de parênteses em uma string


- Amostra de Entrada: 
> * ["example (.br)", "w3resource", "github (.com)", "stackoverflow (.com)"] </br>
* Saída Esperada: 
> * example
> * w3resource
> * github
> * stackoverflow

In [None]:
strings = ["example (.br)", "w3resource", "github (.com)", "stackoverflow (.??)"]

7. Escreva um programa para quebrar um texto em sentenças

In [None]:
string = "Vamos encontrar Padrões nesta string!! Agora é a nossa primeira prática de NLP!! Vamos aprender a procurar padrões!! Belo Horizonte 2020."

8. Escreva um código para remover os zeros iniciais do IP 216.08.094.196

In [None]:
ip = "216.08.094.196"

9. Recupere todos os "Twitter" da string abaixo

In [None]:
texto_exemplo_twitter = """This is a @test of some cool features that @mi_asd be @use-ful but @don't. look at this email@address.com. @bla! I like #nylas but I don't like to go to this apple.com?a#url. I also don't like the ### comment blocks. But #msft is cool."""
texto_exemplo_twitter

"This is a @test of some cool features that @mi_asd be @use-ful but @don't. look at this email@address.com. @bla! I like #nylas but I don't like to go to this apple.com?a#url. I also don't like the ### comment blocks. But #msft is cool."

10. Escreva uma expressão regular para remover as urls do texto:

- Para realizar pesquisas de artigos acadêmicos use o Google Scholar: https://scholar.google.com.br/
- Sempre mantenha seu linkedin atualizado: https://www.linkedin.com/ 