# Reconhecendo padrões com RegEx

Bibliografia:
* Teoria: Chomsky, N, "On Certain Formal Properties of Grammars" INFORMATION AND CONTROL 9., 137-167 (1959) (https://somr.info/lib/Chomsky_1959.pdf)


## Exercício 1: Uma máquina de estados finitos

Leia atentamente o código abaixo. Ele define uma classe que deve receber, sequencialmente, um caractere a cada chamada de `ler_caractere()`:

In [1]:
class UmaMaquinaDeEstadosSimples:
    def __init__(self):
        self.estado = 0
    
    def ler_caractere(self, caractere):
        print("No estado " + str(self.estado) + " recebi o caractere " + caractere)
        if self.estado==0:
            if caractere == 'a':
                self.estado = 1
            else:
                self.estado = 0
        
        elif self.estado == 1:
            if caractere == 'a':
                self.estado = 1
            else:
                self.estado = 0
        print("Fui para o estado " + str(self.estado))

    def finalizar(self):
        if self.estado == 1:
            return 'ACEITO'
        else:
            return 'REJEITO'

(a) O que será impresso na tela caso executemos a seguinte chamada:

In [2]:
minha_string = 'abbaa'
maquina = UmaMaquinaDeEstadosSimples()
for n in range(len(minha_string)):
    maquina.ler_caractere(minha_string[n])
print(maquina.finalizar())

No estado 0 recebi o caractere a
Fui para o estado 1
No estado 1 recebi o caractere b
Fui para o estado 0
No estado 0 recebi o caractere b
Fui para o estado 0
No estado 0 recebi o caractere a
Fui para o estado 1
No estado 1 recebi o caractere a
Fui para o estado 1
ACEITO


(b) Para cada valor de n, qual é o estado que a máquina de estados assume?

- se n=a: 
    - estado = 1

- se n = qualquer valor que não seja a:
    - estado = 0


(c) Encontre 3 strings que são rejeitadas pela máquina, e 3 strings que são aceitas pela máquina.

In [3]:
class UmaMaquinaDeEstados:
    def __init__(self):
        self.estado = 0
    
    def ler_caractere(self, caractere):
        if self.estado==0:
            if caractere == 'a':
                self.estado = 1
            elif caractere == 'b':
                self.estado = 0
            else:
                self.estado = 2
        
        elif self.estado == 1:
            if caractere == 'a':
                self.estado = 0
            elif caractere == 'b':
                self.estado = 1
            else:
                self.estado = 2

    def finalizar(self):
        if self.estado == 1:
            return 'ACEITO'
        else:
            return 'REJEITO'

In [4]:
minha_string = 'ab'
# caso I - estado = 0
    # termina em "a" ou "ab"
# caso II - estado = 1
    # termina em "b" ou "a" e caso I

maquina = UmaMaquinaDeEstados()
for n in range(len(minha_string)):
    maquina.ler_caractere(minha_string[n])
print(maquina.finalizar())

ACEITO


## Exercício 2
**Objetivo: relacionar o código de uma máquina de estados a sua representação como diagrama de bolha**

O diagrama abaixo representa a máquina de estados implementada no Exercício 1.

![Diagrama de Bolha](regex_bolha.png "Diagrama de Bolha")

(a) Como os estados são representados no código computacional?
- Armazena o valor numérico correspondente ao estado no atributo "estado" da máquina de estados.

(b) Como os estados são representados no diagrama de bolha?
- Uma bolha com o mesmo valor numérico representado no código computacional.

(c) Como as transições entre estados são representadas no código computacional?
- Substitui o valor do atributo "estado".

(d) Como as transições entre estados são representadas no diagrama de bolha?
- Setas.

(e) Que informação a máquina de estados usa para calcular a transição de um estado para outro?
- O valor de a

(f) Marque no diagrama o estado inicial e o estado de "aceitação".

## Exercício 3
**Objetivo: desenhar um diagrama de bolhas à partir de um código computacional**

Analise o código abaixo e:

(a) Desenhe o diagrama de bolhas correspondente a esta máquina de estados
![Diagrama de Bolha](aula01-exercício03.drawio.png "Diagrama de Bolha")

(b) Encontre 3 palavras existentes em português que são aceitas pela cadeia, e 3 palavras que são rejeitadas.
- Chegando, Andando, Passando - Gerundios ndo
- chegar, andar, passar

In [5]:
class ReconhecedorDeGerundismos:
    def __init__(self):
        self.estado = 0
    
    def ler_caractere(self, caractere):
        if self.estado==0:
            if caractere == 'n':
                self.estado = 1
            else:
                self.estado = 0
        
        elif self.estado==1:
            if caractere == 'd':
                self.estado = 2
            else:
                self.estado = 0
        
        elif self.estado==2:
            if caractere == 'o':
                self.estado = 3
            else:
                self.estado = 0
        
        elif self.estado==3:
            self.estado=0

    def finalizar(self):
        if self.estado == 3:
            return 'ACEITO'
        else:
            return 'REJEITO'

In [6]:
minha_string = 'ndandendo'
maquina = ReconhecedorDeGerundismos()
for n in range(len(minha_string)):
    maquina.ler_caractere(minha_string[n])
print(maquina.finalizar())

ACEITO


## Exercício 4
**Objetivo: construir um reconhecedor de padrões usando máquinas de estados**

Um problema que existe em formulários online é que, algumas vezes, o usuário digita dados inválidos nos campos. Um exemplo disso é quando há um campo de texto que pede o "ano de nascimento", e o valor digitado é, por exemplo, o ano digitado por extenso – quando, na verdade, estamos esperando um número inteiro.

Implemente um programa que recebe uma string que foi digitada por um usuário hipotético e então informa se o valor digitado é um ano de nascimento válido na forma de um inteiro.

Sugestão de roteiro:

1. Faça uma lista de regras que você gostaria de implementar, incluindo as variações que você achar relevantes (por exemplo: você gostaria que fosse válido digitar tanto 1993 quanto 93? Posso ter espaços antes ou depois do número? O que acontece se eu digitar cinco dígitos? O que acontece se eu digitar anos que ainda não aconteceram, como 3022?)
1. Faça um diagrama de bolha mostrando a máquina de estados que você irá implementar
1. Implemente sua máquina de estados mapeando diretamente o diagrama de bolha para um código computacional. Se quiser, baseie-se nos códigos fornecidos como exemplo.


In [36]:
# Faça o exercício aqui

class ReconhecedorDeDatasDeNascimento:
    def __init__(self):
        self.estado = 0
        
    def ler_caractere(self, caractere):
        if self.estado == 0:
            if caractere in ['0', '1']:
                self.estado = 1
            elif caractere == '2':
                self.estado = 5
            else:
                self.estado = 0
                
        elif self.estado == 1:
            if caractere in [str(x) for x in range(0,10)]:
                self.estado = 2 
            else:
                self.estado = 0
                
        elif self.estado == 2:
            if caractere in [str(x) for x in range(0,10)]:
                self.estado = 3
            else:
                self.estado = 0
        
        elif self.estado == 3:
            if caractere in [str(x) for x in range(0,10)]:
                self.estado = 4
            else:
                self.estado = 0
        
        elif self.estado == 4:
            if caractere == '-':
                self.estado = 9
            else:
                self.estado = 0
        
        elif self.estado == 5:
            if caractere == '0':
                self.estado = 6
            else:
                self.estado = 0
                
        elif self.estado == 6:
            if caractere in ['0', '1']:
                self.estado = 7
            elif caractere == '2':
                self.estado = 8
            else:
                self.estado = 0
        
        elif self.estado == 7:
            if caractere in [str(x) for x in range(0,10)]:
                self.estado = 4
            else:
                self.estado = 0
                
        elif self.estado == 8:
            if caractere in ['0', '1', '2', '3']:
                self.estado = 4
            else:
                self.estado = 0
                
        elif self.estado == 9:
            if caractere == '0':
                self.estado = 10
            elif caractere == '1':
                self.estado = 11
            else:
                self.estado = 0 
        
        elif self.estado == 10:
            if caractere in (['1'] + [str(x) for x in range(3,10)]):
                self.estado = 12
            elif caractere == '2':
                self.estado = 13
            else:
                self.estado = 0
            
        elif self.estado == 11:
            if caractere in [str(x) for x in range(0,3)]:
                self.estado = 12
            else:
                self.estado = 0
        
        elif self.estado == 12:
            if caractere == '-':
                self.estado = 14
            else:
                self.estado = 0
        
        elif self.estado == 13:
            if caractere == '-':
                self.estado = 18
            else:
                self.estado = 0
        
        elif self.estado == 14:
            if caractere == '0':
                self.estado = 15
            elif caractere in ['1','2']:
                self.estado = 16
            elif caractere == '3':
                self.estado = 17
            else:
                self.estado = 0
                
        elif self.estado == 15:
            if caractere in [str(x) for x in range(1,10)]:
                self.estado = 20
            else:
                self.estado = 0
        
        elif self.estado == 16:
            if caractere in [str(x) for x in range(0,10)]:
                self.estado = 20
            else:
                self.estado = 0
        
        elif self.estado == 17:
            if caractere in ['0', '1']:
                self.estado = 20
            else:
                self.estado = 0
                
        elif self.estado == 18:
            if caractere == '0':
                self.estado = 15
            elif caractere == '1':
                self.estado = 16
            elif caractere == '2':
                self.estado = 19
            else: 
                self.estado = 0
                
        elif self.estado == 19:
            if caractere in [str(x) for x in range(0,9)]:
                self.estado = 20
            else:
                self.estado = 0
                
    def finalizar(self):
        if self.estado == 20:
            return 'ACEITO'
        else:
            return 'REJEITO'

In [46]:
minha_string = '2000-09-31'
maquina = ReconhecedorDeDatasDeNascimento()
for n in range(len(minha_string)):
    maquina.ler_caractere(minha_string[n])
print(maquina.finalizar())

ACEITO


<font color="red">FALTA ARRUMAR MESES QUE VÃO ATÉ O DIA 30 OU 31</font>

## Exercício 5
**Objetivo: relacionar expressões regulares a máquinas de estados correspondentes**

Existem vários tipos de strings que obedecem a padrões. Existem padrões para placas de carros (as placas antigas são compostas por três letras seguidas de quatro dígitos), para números inteiros (um ou mais dígitos seguidos), siglas de rodovias, e assim por diante. Podemos encontrar máquinas de estados para vários deles, mas é claramente pouco prático programar cadeias de if-then-else para cada um desses casos. Daí aparecem as expressões regulares, que são strings que permitem descrever máquinas de estados para reconhecimentos de padrões.

Numa expressão regular, um caractere qualquer corresponde exatamente a aquele caractere, na sequência que ele aparece. Isso significa que temos a sequência `ab`, por exemplo, pode ser imediatamente associada à máquina de estados:

![Diagrama de Bolha](regex_ab.png "Diagrama de Bolha")

Embora seja possível, é pouco prático converter manualmente uma expressão regular em uma máquina de estados. Por isso, usamos a biblioteca `re` em Python para usar expressões regulares. Neste exercício, usaremos a função `re.fullmatch()`, que recebe como entrada uma string e uma expressão regular e então retorna ou a informação sobre como a expressão regular foi encontrada ou `None`. No código abaixo, modifique a string de teste e/ou a expressão regular para verificar os diferentes comportamentos da função:

In [47]:
import re

a = re.fullmatch("ab", "ab")
print(a)

<re.Match object; span=(0, 2), match='ab'>


## Exercício 6
**Objetivo: usar caracteres especiais das expressões regulares**

A maior utilidade das expressões regulares aparece quando usamos caracteres especiais. Para cada um dos casos abaixo, (i) desenhe a máquina de estados correspondente ao exemplo de trabalho e (ii) encontre uma string que é aceita e uma que é rejeitada pela expressão, e teste ambas em um código Python.

(a) O caractere `+` significa "um ou mais caracteres do tipo anterior a este símbolo". Por exemplo, "a+" significa "um ou mais caracteres `a`".
Exemplo de trabalho: `ab+` 

(b) O caractere `*` significa "zero ou mais caracteres do tipo anterior a este símbolo". Por exemplo, "a*" significa "zero ou mais caracteres `a`".
Exemplo de trabalho: `a*b+`

(c) O caractere  `?` significa "zero ou um caractere do tipo anterior a este símbolo". Por exemplo, "a?" significa "zero ou um caractere  `a`".
Exemplo de trabalho: `ab?`

(d) Quando colocamos expressões entre colchetes [ ], isso significa que trata-se de um conjunto, e a expressão aceita uma instância de qualquer um dos caracteres contidos. Por exemplo, "[abc]" significa "qualquer um entre `a`, `b` ou `c`".
Exemplo de trabalho: `a[ab]+`

(e) Se o caractere `^` é o primeiro elemento de um conjunto, então a expressão regular aceitará o complemento do conjunto. Por exemplo: "[^a]" significa "qualquer caractere, menos `a`.
Exemplo de trabalho: `a[^b]`

(f) O caractere `.` (ponto) representa qualquer caractere. Por exemplo, "a.b" significa "`a` seguido de qualquer caractere e então seguido de `b`".
Exemplo de trabalho: `.b+`

(g) Quando colocamos elementos entre parêntese `()`, isso significa uma sequência. Por exemplo, `(ab)+` significa uma repetição de uma ou mais vezes da sequência `ab` (`ab`, `abab`, `ababab`, etc.)
Exemplo de trabalho: `(aa)+(bb)?`

(h) O caractere `|` (barra vertical) representa um "ou". Por exemplo: `aa|ab|bb` significa "ou um `aa`, ou `ab`, ou `bb`". 
Exemplo de trabalho: `SP|RJ|MG`. Qual é a diferença disso para `(SP)|(RJ)|(MG)`? Como posso fazer: "S, seguindo de P ou R, seguindo de J ou M, seguido de G"?

Veja mais em: https://docs.python.org/3/library/re.html



In [25]:
# Faça seu código aqui

# Exemplo (a)
a = re.fullmatch("ab+", "abbbbb")
print(a)

<re.Match object; span=(0, 6), match='abbbbb'>


## Exercício 7
**Objetivo: usar expressões regulares para validar campos**
Em expressões regulares, também temos acesso a conjuntos que são usados muito comumente:

* `[0-9]` significa qualquer dígito entre 0 e 9
* `[a-z]` significa qualquer letra minúscula, `[A-Z]` significa qualquer letra maiúscula
* `[A-Za-z0-9]` significa qualquer letra maiúscula ou minúscula ou digíto.
* `\w` significa qualquer caractere que podem fazer parte de palavras, incluindo underscore (_), números, e caracteres com acento
* `\W` é o complemento de `\w` (ou: `\W = [^\w]`
* `\s` significa qualquer caractere em branco ou quebra de linha
* `\S = [^\s]`
* `\d` significa qualquer dígito, e `\D` significa qualquer caractere não-digíto

Combine estas regras para gerar programas em Python que validam se uma string recebida como entrada representa:

1. uma placa de carro válida, considerando o padrão antigo (3 letras seguidas de 4 dígitos).
1. um número de telefone celular de são Paulo
1. um CEP válido
1. um verbo conjugado no gerúndio em português


In [28]:
def placa_valida(s):
    return False

def celular_valido(s):
    return False

def CEP_valido(s):
    return False

def gerundio(s):
    return False


## Exercício 8
**Objetivo: usar expressões regulares para validar e-mails**

Faça uma função em Python que recebe como entrada uma string qualquer e retorna True se essa string representa um endereço de e-mail válido, e retorna False caso contrário.

In [48]:
# Resolva seu exercício aqui
def eh_um_email(s):

    if re.match(r"[^@]+@[^@]+\.[^@]+", s):
        print("Email válido!")
    else:
        print("Email inválido.")

In [49]:
eh_um_email('roger.pina12@hotmail.com')

Email válido!
