# Expressões regulares

Lista de exercícios, vamos praticar a criação de expressões regulares. O código abaixo testa a expressão regular fornecida comparando o resultado com alguns exemplos positivos e negativos. Cada questão pede um tipo de padrão diferente, verificando o resultado. Também testamos se a expressão regular não possui redundâncias impondo um limite para o tamanho máximo da mesma.

Tentem encontrar uma expressão regular válida para cada exercício e depois otimize-a para ficar do mesmo tamanho (ou quem sabe menor) que o limite fornecido.

In [1]:
import re


def test_regex(regex, ok, bad, accept_empty=False):
    """
    Check if regular expression accepts all strings in the "ok" set
    and refuses all strings in the "bad".
    
    Args:
        regex (str): 
            A string representing a regular expression. 
        ok (sequence):
            A sequence of strings or a single string that will be
            split in its spaces.
        bad (sequence):
            A sequence of strings or a single string that will be
            split in its spaces.
        accept_empty (bool):
            If True, accepts empty strings.
    """
    regex = re.compile(regex)
    if isinstance(ok, str):
        ok = ok.split()
    if isinstance(bad, str):
        bad = bad.split()
    false_positives = []
    false_negatives = []
    for test in ok:
        if not regex.fullmatch(test):
            false_negatives.append(test)
    for test in bad:
        if regex.fullmatch(test):
            false_positives.append(test)
    if not accept_empty and regex.fullmatch(''):
        false_positives.append('')
        
    if false_positives or false_negatives:
        msg = ['Errors found testing regular expression <%s>:' % regex.pattern]
        if false_positives:
            msg.extend([
                '    The following strings should be REFUSED:',
                *('     - %r' % st for st in false_positives)
            ])
        if  false_negatives:
            msg.extend([
                '    The following strings should be ACCEPTED:',
                *('      - %r' % st for st in false_negatives)
            ])
        raise AssertionError('\n'.join(msg))
        

def test_compact(st, size):
    """
    Check if string at most the given size.
    """
    if len(st) > size:
        msg = 'string must be at most {} characters long, got {}.'.format(size, len(st))
        raise AssertionError(msg)

## Questão 1 - inteiros

Detecte números inteiros, mas invalide os números com zeros à esquerda.

In [2]:
regex = r'0|[1-9]\d*'

In [3]:
test_regex(regex, '10  0  12', '0.1  05  .10  a1  0b1  foo')

In [4]:
test_compact(regex, 10)

## Questão 2 - decimais

Detecte números de ponto flutuante com o sinal opcional (não deve aceitar notação científica).

In [5]:
regex = r'[+-]?\d+\.\d+'

In [6]:
test_regex(regex, 
           '1.0  3.14  +1.5  -10.0', 
           '42  +  .42  42. 40.a  a.b  50p5  1.0e20')

In [7]:
test_compact(regex, 13)

## Questão 3 - datas

Detecte datas no formato AAAA-MM-DD. Não é necessário validar se o mês e o dia são válidos.

In [8]:
regex = r'\d{4}-\d\d-\d\d'

In [9]:
test_regex(regex, 
           '1970-01-01  0001-01-01  1917-11-08', 
           '1970-1-1  70-1-1  70-01-01  a111-10-10  foob-ar-ba  1900m10d12')

In [10]:
test_compact(regex, 15)

## Questão 4 - binários

Detecte números binários e hexadecimais no formato 0b10101 ou 0xFab10.

In [11]:
regex = r'0(b[01]+|x[\da-fA-F]*)'

In [12]:
test_regex(regex, 
           '0b10101  0xafa  0xFE10  0xBeef', 
           '10101  0d1234  0b12  0xgee')

In [13]:
test_compact(regex, 22)

## Questão 5 - inteiros com underscore

Algumas linguagens aceitam underscore entre os dígitos de um inteiro para facilitar a visualização (ex.: 2_019). Crie uma expressão regular que identifique este padrão.

In [14]:
regex = r'\d+(_\d+)*'

In [15]:
test_regex(regex, 
           '42 1_000  1_23_45  6_7_8_9', 
           '_  4_  _2  1__000  abc')

In [16]:
test_compact(regex, 10)

## Questão 6 - strings simples

Crie uma expressão regular simples que detecte strings. Por enquanto uma string é definida começando com uma 
aspas dupla, seguida de qualquer número de caracteres que não são aspas duplas e terminando em uma aspas dupla. Ex.: `"foo bar"`.

In [24]:
regex = r'"[^"]*"'

In [25]:
test_regex(regex, 
           r'"foo bar"  ""  "foo\nbar"'.split('  '), 
           '"foo\\"bar"  foo  "  "foo"a'.split('  '))

In [26]:
test_compact(regex, 7)

## Questão 7 - strings com escape

Complemente o exercício anterior e crie um padrão que aceite escape das aspas no interior da string. Ex.: `"foo \"bar\"!"`

In [42]:
regex = r'"(\w|\\"| )*"'

In [43]:
test_regex(regex, 
           r'"foo bar"  ""  "foo\"bar\""  "\"\""'.split('  '), 
           r'"foo"bar"  "\"  foo  "  "foo"a'.split('  '))

In [44]:
test_compact(regex, 16)

## Questão 8 - strings sem quebra de linha

Agora proíba a existência de quebras de linha (`\n`) no interior da string. 

In [48]:
regex = r'"((?!\n)|\w|\\"| )*"'

In [49]:
test_regex(regex, 
           r'"foo bar"  ""  "foo\"bar\""  "\"\""'.split('  '), 
           '"foo\nbar"  "\\"  "foo\"\nbar"  "foo"bar"  foo  "  "foo"a'.split('  '))

In [50]:
test_compact(regex, 21)

## Questão 9 - strings com escapes específicos.

Consulte a especificação de strings JSON no site http://json.org e aceite apenas as regras de escape listas explicitamente na especificicação. Para este exercício, ignore a última cláusula de escape com `\u hex hex hex hex`.

In [0]:
regex = r'...'

In [0]:
test_regex(regex, 
           r'"foo bar"  ""  "\n"  "foo\"bar\""  "\"\""'.split('  '), 
           '"\\d"  "\\"  "\\u"  "foo\nbar"  "foo\"\nbar"  "foo"bar"  foo  "  "foo"a'.split('  '))

In [0]:
test_compact(regex, 34)

## Questão 10 - strings JSON

Complete a implementação da especificação do json.org e aceite os codepoints unicode

In [0]:
regex = r'...'

In [0]:
test_regex(regex, 
           r'"foo bar"  "\u2204"  ""  "foo\"bar\""  "\"\""'.split('  '), 
           '"foo\nbar" "" "\\ub" "\\"  "foo\"\nbar"  "foo"bar"  foo  "  "foo"a'.split('  '))

In [0]:
test_compact(regex, 52)

## Questão 11 - grupos de captura

Modifique a expressão regular para detecção de anos e faça com que ela entenda grupos de captura para os campos
`year`, `month` e `day`. Desta forma, um objecto de `match` sobre a string `1914-06-28` deveria resultar no dicionário `{'year': '1914', 'month': '06', 'day': '28'}`.

In [0]:
regex = r'...'

In [0]:
test_regex(regex, 
           '1970-01-01  0001-01-01  1917-11-08', 
           '1970-1-1  70-1-1  70-01-01  a111-10-10  foob-ar-ba  1900m10d12')

In [0]:
re_obj = re.compile(regex)
msg = 'Assassination of Franz Ferdinand: 1914-06-28.'
assert re_obj.search(msg).groupdict() == {'year': '1914', 'month': '06', 'day': '28'}

In [0]:
test_compact(regex, 45)