# Exercício interativo

Antes da submissão final do seu problema, certifique que tudo funciona como esperado. Primeiro, **reinicie o kernel** (Kernel$\rightarrow$Restart) e depois **execute todas as células** (Cell$\rightarrow$Run All).

Preencha todos lugares que digam `SUA SOLUÇÃO` or `YOUR ANSWER HERE`, e o seu nome e dos colaboradores (outros alunos no grupo) abaixo.

In [84]:
NAME = "Guilherme Guy de Andrade - 16/0123186"
COLLABORATORS = "Elias Bernardo Marques Magalhães - 15/0009011"

---

In [85]:
# Código de auxílio a correção. Não modifique.

import re


def test_regex(regex, ok, bad, accept_empty=False):
    """
    Check if regular expression accepts all strings in the "ok" set
    and refuses all strings in the "bad".
    
    Args:
        regex (str): 
            A string representing a regular expression. 
        ok (sequence):
            A sequence of strings or a single string that will be
            split in its spaces.
        bad (sequence):
            A sequence of strings or a single string that will be
            split in its spaces.
        accept_empty (bool):
            If True, accepts empty strings.
    """
    regex = re.compile(regex)
    if isinstance(ok, str):
        ok = ok.split()
    if isinstance(bad, str):
        bad = bad.split()
    false_positives = []
    false_negatives = []
    for test in ok:
        if not regex.fullmatch(test):
            false_negatives.append(test)
    for test in bad:
        if regex.fullmatch(test):
            false_positives.append(test)
    if not accept_empty and regex.fullmatch(''):
        false_positives.append('')
        
    if false_positives or false_negatives:
        msg = ['Errors found testing regular expression <%s>:' % regex.pattern]
        if false_positives:
            msg.extend([
                '    The following strings should be REFUSED:',
                *('     - %r' % st for st in false_positives)
            ])
        if  false_negatives:
            msg.extend([
                '    The following strings should be ACCEPTED:',
                *('      - %r' % st for st in false_negatives)
            ])
        raise AssertionError('\n'.join(msg))
        

def test_compact(st, size):
    """
    Check if string at most the given size.
    """
    if len(st) > size:
        msg = 'string must be at most {} characters long, got {}.'.format(size, len(st))
        raise AssertionError(msg)

![](jupyter.png)

---
## Questão 1
### Parte 1 (1,5 pts)

Escreva uma expressão regular que identifica conteúdo de texto dentro de uma tag HTML. Apenas considere tags simples que não contêm nenhum atributo e nenhuma tag filha.

A expressão regular final deve identificar o seguinte padrão:

* Tag de abertura (ex.: `<tag>`). Nome das tags pode conter letras minúsculas e hífens. Tags **não** contêm atributos.
* Conteúdo. Qualquer texto (possivelmente vazio) que não contenha o símbolo `<`.
* Tag de fechamento (ex.: `</other-tag>`). As regras de nome são iguais às regras de nome para tags de abertura.

In [86]:
regex = r'<[a-zA-Z\-]+?>[^<]*?<\/[a-zA-Z\-]+?>'

In [87]:
"Verifica se expressão regular funciona em alguns casos simples"

test_regex(regex, 
           '<empty></empty>  <P></P>  <foo-bar>hello!</bar-foo>  <p>Some-data</p>', 
           '<></>  <foo42></bar>')

### Parte 2 (1,5 pts)

Na segunda parte do exercício, você deve criar uma função baseada em expressões regulares que identifica as partes da tag e retorna uma tupla o valor da tag e o conteúdo. A função também deve detectar se a tag de fechamento é igual à de abertura e retornar None caso identifique algum erro.

In [88]:
def parse_tagged(st):
    regex = r'(?P<openning><(?P<name>[a-zA-Z\-]+?)>)(?P<content>[^<]+?)(?P<closing><\/(?P=name)>)'
    result = re.fullmatch(regex, st)
    try:
        result_dict = result.groupdict()
    
        return result['name'], result['content']
    except:
        return None

In [89]:
"Verifica que a função parse tagged consegue identificar um padrão de tag."

assert parse_tagged('<foo>bar</foo>') == ('foo', 'bar')
assert parse_tagged('<foo>bar</baz>') is None
assert parse_tagged('<foo>') is None

---
## Questão 2
### Datas (1,5 pts)

Detecte timestamps no formato AAAA-MM-DDTHH:MM+HH:MM. Não é necessário validar se o mês, dia, horas ou minutos são válidos. Exemplo: `2019-04-30T16:00-03:00`. Este é um formato compatível com timestamps ISO e representa uma data, seguida de uma hora e uma fuso horário. O fuso horário pode corresponder a um valor positivo ou negativo.

In [90]:
regex = r'\d{4}-\d{2}-\d{2}T\d{2}:\d{2}[-+]\d{2}:\d{2}'

In [91]:
"Verifica exemplos simples"

test_regex(regex, 
           '2019-04-30T16:00-03:00  2019-04-30T16:00+03:00', 
           '2019-04-30T16:00  2019-4-30T16:00-3:00')

---
## Questão 3


### Parte 1 - Hexadecimais com underscore (1,5 pts)
Crie uma expressão regular que detecte números hexadecimais no formato `0xf00_ba5`, e que permita underscores entre os dígitos hexadecimais. Considera apenas letras de a até f minúsculas. O underscore não pode estar no inicio ou no fim da string e nem entre os números e o prefixo 0x

In [92]:
regex = r'0x([0-9,a-f]+_?)*[0-9,a-f]$'

In [93]:
"Verifica exemplos simples"

test_regex(regex, 
           '0xff  0x123_456_abcdef', 
           '0xFF  0x_f00_ba4  0_x_f00  0xff__ff  0x123_')

### Parte 2 - Localizando valores (1,5 pts)

Crie um programa que lê uma string de texto e lista todos os números hexadecimais válidos (aceitando underscores) dentro do mesmo. O programa deve ser implementado na função abaixo.

In [94]:
def find_hex(st):
    
    regex = r'0x([0-9a-f]+_?)*[0-9a-f]'
    
    found = [r.span() for r in re.finditer(regex, st)]
    
    return [st[r[0]:r[1]] for r in found]

In [95]:
"Testa um caso simples"

find_hex("""
Números: 1, 2, 3 0xfoo, 0x123, 0xf00_bar.
""") == ['0xf', '0x123', '0xf00_ba']

True

ESCREVA SUA SOLUÇÃO