# <font color='blue'>UNINOVE - Ciência de Dados</font>

## Tópico 08 - Expressões Regulares

In [None]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

### Biblioteca RE - https://docs.python.org/pt-br/3.9/library/re.html

In [None]:
import re

In [None]:
# String onde será realizada a busca
string = 'O aluno José foi reprovado. A aluna Ana foi aprovada e os alunos Thiago e Andre ficaram em dependência'

Usamos dois métodos do módulo <b>re</b>: <i>match</i> e o <i>search</i>.

Ambos os métodos possuem 2 parâmetros. O primeiro parâmetro é a <b>string que se deseja procurar</b>. O segundo parâmetro é a <b>string onde a informação desejada será procurada</b>.

In [None]:
procurar = re.match('O aluno',string)
print(procurar)

In [None]:
procurar = re.match('Ana',string)
print(procurar)

O método <i>match</i> procura a string desejada no <b>início</b> da string. Caso se encontre correspondência entre a string desejada na string a ser procurada será retornada essa informação conforme acima. 

Caso não se encontre a correspondência será retornado a palavra <i>None</i>.

In [None]:
procurar = re.search('O aluno',string)
print(procurar)

In [None]:
procurar = re.search('Ana',string)
print(procurar)

In [None]:
procurar = re.search('Monica',string)
print(procurar)

O método <i>search</i> procura a string desejada em <b>toda</b> string e não somente em seu início. Caso se encontre correspondência entre a string desejada na string a ser procurada será retornada essa informação conforme acima.

Caso não se encontre a correspondência será retornado a palavra <i>None</i>.

### RAW string

Um dos padrões adotados quando se procura uma cadeia de caracteres em outra cadeia de caracteres é procurar pela RAW string, ou seja, a string pura, <b>sem caracteres especiais</b>.

In [None]:
# Imprime considerando caractere especial
print('Leonardo\nFernanda')

In [None]:
# Imprime string pura
print(r'Leonardo\nFernanda')

### Usando sequencias especiais

<b>\w</b> significa que o mesmo pode ser substituído por qualquer caractere alfanumérico (ou seja, letras e números).

<b>\d</b> significa que o mesmo pode ser substituído por qualquer caractere numérico. 

In [None]:
# Importando biblioteca
import re

# Definindo a string que será usada 
string = 'O aluno José foi reprovado. Ele tiou 10 na segunda nota'

Procura por 6 caracteres alfanuméricos na variável <i>string</i>. 

Note que a primeira palavra na variável <i>string</i> que possui 6 ou mais caracteres é reprovado. Como a busca é somente por 6 caracteres alfanuméricos o mesmo é carregado com <b>reprov</b> (6 caracteres). Para impressão do valor carregado usamos o método <i>group()</i>, que retorna a string correspondente ao RE. 

In [None]:
procurar = re.search(r'\w\w\w\w\w\w',string)
if (procurar):
    print(procurar)
    print(procurar.group())
else:
    print('Não encontrado')

Procura por somente 1 caractere numérico na variável <i>string</i>. 

Note que a primeira palavra na variável <i>string</i> que possui 1 ou mais caracteres numéricos é 10. Como a busca é somente por 1 caractere numérico o mesmo é carregado com <b>1</b> (1 caractere).

In [None]:
procurar = re.search(r'\d',string)
if (procurar):
    print(procurar.group())
else:
    print('Não encontrado')

O <b>\w+</b> significa 1 ou mais caracteres alfanuméricos. Portanto estamos procurando palavra alfanumérica com 6 caracteres ou mais. Neste caso teremos como resultado a palavra <b>reprovado</b>.

In [None]:
procurar = re.search(r'\w\w\w\w\w\w+',string)
if (procurar):
    print(procurar.group())
else:
    print('Não encontrado')

Outra forma de utilizarmos é com os caracteres <b>{}</b>. Neste caso estou dizendo que tem que ter de 6 a 8 caracteres alfanuméricos, tendo como retorno a palavra <b>reprovad</b> (8 caracteres - tamanho máximo definido).

In [None]:
procurar = re.search(r'\w{6,8}',string)
if (procurar):
    print(procurar.group())
else:
    print('Não encontrado')

Neste caso estou procurando por ao menos 6 caracteres alfanuméricos (5 decorrentes dos presentes nos {} e mais um decorrente do \w+). Neste caso temos que o retorno será <b>reprovado</b>.

In [None]:
procurar = re.search(r'\w{5}\w+',string)
if (procurar):
    print(procurar.group())
else:
    print('Não encontrado')

Estou procurando por ao menos 1 caractere numérico. Neste caso o retorno será <b>10</b> (como desejado).

In [None]:
procurar = re.search(r'\d+',string)
if (procurar):
    print(procurar.group())
else:
    print('Não encontrado')

Note que se a nota possuir ponto o programa acima irá falhar, irá pegar somente a parte inteira. Para solucionarmos este problema vamos ajustar a procura, 

In [None]:
string = 'O aluno José foi reprovado. Ele tiou 10.0 na segunda nota'
procurar = re.search(r'\d+\.\d+',string)
if (procurar):
    print(procurar.group())
else:
    procurar = re.search(r'\d+', string)
    if (procurar):
        print(procurar.group())
    else:
        print('Não encontrado')

ou seja, irá procurar por números seguido de um ponto e seguido de outros números. Caso não localize ele procure somente pelo número, desconsiderando o ponto.

Note que o método <i>search</i> localiza a primeira cadeia de caracteres que satisfaça a expressão regular porém não continua a busca.

Caso queiramos procurar várias ocorrências de uma cadeia de caracteres (expressão regular) em uma string, podemos usar o método <b>findall</b>.

O método <i>findall</i> irá localizar todas as ocorrências que satisfaçam a expressão regular e irá armazenar o resultado em uma lista.

In [None]:
import re
 
string = 'O aluno José foi reprovado. Ele tirou 7.7 na segunda nota'

Retorna todas as palavras da cadeia de caracteres que tenham 4 caracteres ou mais.

In [None]:
procurar = re.findall(r'\w\w\w\w+',string)
if (procurar):
    for x in procurar:
        print(x)
else:
    print('Não encontrado')

Vamos fazer uma busca para recuperar emails da página da Uninove, referente ao Fale Conosco do curso de Ciência de Computação.

Vamos acessar o link: https://www.uninove.br/graduacao/ciencia-da-computacao/fale-com-o-coordenador/

In [None]:
# Importando a biblioteca para requisitar a página web
import requests

# definir uma variável para o link da página
url = 'https://www.uninove.br/graduacao/ciencia-da-computacao/fale-com-o-coordenador/'
requisicao = requests.post(url)

# imprimir o retorno da requisição
# print(requisicao.text)

Ao verificarmos o retorno vemos que toda a página HTML foi impressa. Porém como o interesse está no e-mail, precisamos localizar algo no padrão abaixo:

In [None]:
# <a href="mailto:nilson.salvetti@uninove.br">nilson.salvetti@uninove.br</a>

Note que o email aparece 2 vezes porém é interessante que peguemos somente uma única vez pois os valores se repetem.

In [None]:
# bibliotecas
import re
import requests

url = 'https://www.uninove.br/graduacao/ciencia-da-computacao/fale-com-o-coordenador/'
requisicao = requests.post(url)
string_de_retorno = requisicao.text

Como email aparece duas vezes a primeira comparação feita é que a cadeia de caracteres inicie com "mailto:" (desta forma já elimino o email que aparece na segunda parte da string justamente por não possuir mailto). 

Em seguida é obrigatório a presença de um caractere alfanumérico (\w).

O colchete ([]) indica, na expressão regular, uma opção, ou seja, podemos ter um caractere alfanumérico (\w), um ponto (\.) ou um traço (-). 

Depois do colchete temos um símbolo de +. O símbolo de + indica uma ou mais vezes, ou seja, a expressão regular [\w\.-]+ pode ser lida como: deve possuir uma combinação de caracteres alfanuméricos, pontos e traços, tantos quanto se faça necessário, mas ao menos um destes três. 

Em seguida deve possuir o caractere @. Depois do @ ([\w-]+) deve possuir uma combinação de caracteres alfanuméricos e traços (pelo menos um deles). 

Posteriormente deve possuir obrigatoriamente um ponto (\.). Depois do ponto esta associado a expressão regular [\w\.-]*. O * significa 0 ou mais vezes. Note que o + significa 1 ou mais vezes. A leitura da expressão regular [\w\.-]* pode ser feita como 0 ou mais combinações de caracteres alfanuméricos, pontos e traços. 

Deve ser finalizada (\w{2,3}) com 2 ou 3 caracteres alfanuméricos.

In [None]:
padrao = re.findall(r'mailto:\w[\w\.-]+@[\w-]+\.[\w\.-]*\w{2,3}',string_de_retorno)

O que foi localizado e que atende a expressão regular, vai gerar as impressões de:

mailto:ovidio@uninove.br

mailto:nilson.salvetti@uninove.br

Porém caso não se queira imprimir o <i>mailto:</i> podemos verificar o tamanho da cadeia de caracteres com a função <i>len()</i> e armazenar o seu valor na variável <i>comprimento</i>.

Depois imprimir a variável <i>x</i> a partir da posição 7 (eliminando-se com isso a palavra mailto:) até seu final, ou seja, posição <i>comprimento</i>.

In [None]:
for x in padrao:
    print(x)
    comprimento = len(x)
    print (x[7:comprimento])