#Expressões Regulares

Expressões regulares são padrões de correspondência de texto descritos com uma sintaxe formal. Você frequentemente ouvirá expressões regulares chamadas de 'regex' ou 'regexp' na literatura. Expressões regulares podem incluir uma variedade de regras, desde encontrar repetições, correspondência de texto além de outras funcionalidades. À medida que avança no Python descrito nesse notebook, você verá que muitos dos seus problemas de análise podem ser resolvidos com expressões regulares.

A sintaxe adotada pelo Python para lidar com expressões regulares é muito similar a adotada pelo Perl. 


## Procurando por padrões no Texto

Um dos usos mais comuns para o módulo re é encontrar padrões no texto. Vamos fazer um exemplo rápido de usar o método de pesquisa no re módulo para encontrar algum texto:

In [7]:
import re

patterns = ['termo1', 'termo2']

# Texto para fazer o parse
text = 'Essa seria uma string com o termo1, mas sem o outro termo.'

for pattern in patterns:
    print 'Procurando por "%s" em: \n"%s"' % (pattern, text),
    
    # Check pelo padrão
    if re.search(pattern,  text):
        print '\n'
        print 'Match foi encontrado.\n'
    else:
        print '\n'
        print 'Sem Match encontrado.\n'

SyntaxError: invalid syntax (<ipython-input-7-4fb417afccf0>, line 9)


Agora vimos que re.search() pegará o pattern, fará a varredura do texto e retornará um objeto **Match**. Se nenhum padrão for encontrado, um **None** será retornado. Para dar uma imagem mais clara desse objeto de correspondência, confira a célula abaixo:


In [2]:
pattern = 'termo1'

text = 'Essa string tem o termo1, mas não tem o termo2.'

match = re.search(pattern, text)

type(match)

NameError: name 're' is not defined


Esse objeto **Match** retornado pelo método search() é mais do que apenas um Boolean ou None, ele contém informações sobre a correspondência, incluindo a string de entrada original, a expressão regular que foi usada e a localização da correspondência. Vamos ver os métodos que podemos usar no objeto de correspondência:

In [7]:
# Mostra o início do Match
match.start()

18

In [8]:
# Mostra a posição final do Match
match.end()

24

## Separação da Expressão Regular

Vamos ver como podemos dividir com a re sintaxe. Isso deve ser semelhante a como utilizamos o método split() com strings.

In [10]:
# A partir de qual caractere queremos separar
split_term = '@'

frase = 'Qual o nome de dominio do seguinte endereco de email: geanderson@gmail.com'

# Divide a frase
re.split(split_term, frase)

['Qual o nome de dominio do seguinte endereco de email: geanderson',
 'gmail.com']

Observe como re.split() retorna uma lista com o termo a ser removido e os termos na lista são uma versão dividida da string. 

## Encontrando todas as instâncias de um padrão

Você pode usar re.findall() para encontrar todas as instâncias de um padrão em uma string. Por exemplo:

In [12]:
# Retornar uma lista de todos os matches
re.findall('match','frase de teste com match no meio e no final outro match')

['match', 'match']

## re Sintaxe

Expressões regulares suportam uma enorme variedade de padrões simplesmente localizando onde uma única string ocorreu.

Podemos usar *metacaracteres* junto com re para encontrar tipos específicos de padrões.

Como estaremos testando vários formulários de re-sintaxe, vamos criar uma função que imprima os resultados, dada uma lista de várias expressões regulares e uma frase para analisar:

In [0]:
def multi_re_find(patterns, phrase):
    '''
    Pega uma lista de padrões regex
    Imprime a lista de todos os matches
    '''
    for pattern in patterns:
        print 'Procurando a frase usando o re check: %r' %pattern
        print re.findall(pattern, phrase)
        print '\n'

###Reperatição da Sintaxe

Existem cinco maneiras de expressar a repetição em um padrão:

    1.) Um padrão seguido pelo meta-caractere * é repetido zero ou mais vezes.
    2.) Substitua o * por + e o padrão deve aparecer pelo menos uma vez.
    3.) Usando ? significa que o padrão aparece zero ou uma vez.
    4.) Para um número específico de ocorrências, use {m} após o padrão, onde m é substituído pelo número de vezes que o padrão deve se repetir.
    5.) Use {m, n} onde m é o número mínimo de repetições e n é o máximo. Saída de n ({m,}) significa que o valor aparece pelo menos m vezes, sem máximo.
    
Agora vamos ver um exemplo de cada um deles usando nossa função multi_re_find:

In [15]:
test_phrase = 'sdsd..sssddd...sdddsddd...dsds...dsssss...sdddd'

test_patterns = ['sd*',     # s seguido de 0 ou mais d's
                 'sd+',     # s seguido de 1 ou mais d's
                 'sd?',     # s seguido de 0 ou d's
                 'sd{3}',   # s seguido de 3 d's
                 'sd{2,3}', # s seguido de 2 para 3 d's
                ]

multi_re_find(test_patterns,test_phrase)

Procurando a frase usando o re check: 'sd*'
['sd', 'sd', 's', 's', 'sddd', 'sddd', 'sddd', 'sd', 's', 's', 's', 's', 's', 's', 'sdddd']


Procurando a frase usando o re check: 'sd+'
['sd', 'sd', 'sddd', 'sddd', 'sddd', 'sd', 'sdddd']


Procurando a frase usando o re check: 'sd?'
['sd', 'sd', 's', 's', 'sd', 'sd', 'sd', 'sd', 's', 's', 's', 's', 's', 's', 'sd']


Procurando a frase usando o re check: 'sd{3}'
['sddd', 'sddd', 'sddd', 'sddd']


Procurando a frase usando o re check: 'sd{2,3}'
['sddd', 'sddd', 'sddd', 'sddd']





## Conjuntos de Caracteres

Conjuntos de caracteres são usados quando você deseja corresponder qualquer um de um grupo de caracteres em um ponto de entrada. Os colchetes são usados para construir entradas de conjunto de caracteres. Por exemplo: a entrada [ab] procura ocorrências de a ou b.
Vamos ver alguns exemplos:

In [0]:
test_phrase = 'sdsd..sssddd...sdddsddd...dsds...dsssss...sdddd'

test_patterns = ['[sd]',    # s ou d
                 's[sd]+']   # s seguido de um ou mais s ou d
            

multi_re_find(test_patterns,test_phrase)

Procurando a frase usando o re check: '[sd]'
['s', 'd', 's', 'd', 's', 's', 's', 'd', 'd', 'd', 's', 'd', 'd', 'd', 's', 'd', 'd', 'd', 'd', 's', 'd', 's', 'd', 's', 's', 's', 's', 's', 's', 'd', 'd', 'd', 'd']


Procurando a frase usando o re check: 's[sd]+'
['sdsd', 'sssddd', 'sdddsddd', 'sds', 'sssss', 'sdddd']




Faz sentido que o primeiro [sd] retorne todas as instâncias. Além disso, a segunda entrada apenas retornará qualquer coisa que comece com um s neste caso específico da entrada da frase de teste.

##Exclusão

Podemos usar ^ para excluir termos, incorporando-os à notação de sintaxe de colchetes. Por exemplo: [^...] corresponderá a qualquer caractere único que não esteja entre colchetes. Vamos ver alguns exemplos:

In [0]:
test_phrase = 'Eu sou uma string com pontuacao. Como posso remover tudo isso?'

Use [^!.? ] para verificar se há correspondências que não sejam!,.,? ou espaço. Adicione o + para verificar se a correspondência aparece pelo menos uma vez, isso basicamente se traduz em encontrar as palavras.

In [20]:
re.findall('[^!.?]+',test_phrase)

['Eu sou uma string com pontuacao', ' Como posso remover tudo isso']

## Intervalos de caracteres

À medida que os conjuntos de caracteres crescem, digitar cada caractere que deve (ou não) corresponder pode se tornar muito tedioso. Um formato mais compacto usando intervalos de caracteres permite definir um conjunto de caracteres para incluir todos os caracteres contíguos entre um ponto inicial e um ponto final. O formato usado é [início-fim].

Casos de uso comuns são procurar por um intervalo específico de letras no alfabeto, como [a-f] retornaria correspondências com qualquer instância de letras entre a e f.

Vamos percorrer alguns exemplos:

In [21]:

test_phrase = 'Uma sentenca de exemplo. Vamos tentar encontrar alguns caracteres.'

test_patterns=[ '[a-z]+',      # caracteres minusculos
                '[A-Z]+',      # caracteres maiusculos
                '[a-zA-Z]+',   # caracteres minusculos ou maiusculos
                '[A-Z][a-z]+'] # um caracter maiuscula seguida de caracteres minusculos
                
multi_re_find(test_patterns,test_phrase)

Procurando a frase usando o re check: '[a-z]+'
['ma', 'sentenca', 'de', 'exemplo', 'amos', 'tentar', 'encontrar', 'alguns', 'caracteres']


Procurando a frase usando o re check: '[A-Z]+'
['U', 'V']


Procurando a frase usando o re check: '[a-zA-Z]+'
['Uma', 'sentenca', 'de', 'exemplo', 'Vamos', 'tentar', 'encontrar', 'alguns', 'caracteres']


Procurando a frase usando o re check: '[A-Z][a-z]+'
['Uma', 'Vamos']




## Códigos de Escape

Você pode usar códigos de escape especiais para encontrar tipos específicos de padrões em seus dados, como dígitos, não dígitos, espaço em branco e muito mais. Por exemplo:

<table border="1" class="docutils">
<colgroup>
<col width="14%" />
<col width="86%" />
</colgroup>
<thead valign="bottom">
<tr class="row-odd"><th class="head">Code</th>
<th class="head">Meaning</th>
</tr>
</thead>
<tbody valign="top">
<tr class="row-even"><td><tt class="docutils literal"><span class="pre">\d</span></tt></td>
<td>um dígito</td>
</tr>
<tr class="row-odd"><td><tt class="docutils literal"><span class="pre">\D</span></tt></td>
<td>um não dígito</td>
</tr>
<tr class="row-even"><td><tt class="docutils literal"><span class="pre">\s</span></tt></td>
<td>espaços em branch (tab, espaço, nova linha, etc.)</td>
</tr>
<tr class="row-odd"><td><tt class="docutils literal"><span class="pre">\S</span></tt></td>
<td>sem espaço em branco</td>
</tr>
<tr class="row-even"><td><tt class="docutils literal"><span class="pre">\w</span></tt></td>
<td>alfanumérico</td>
</tr>
<tr class="row-odd"><td><tt class="docutils literal"><span class="pre">\W</span></tt></td>
<td>não alfanumérico</td>
</tr>
</tbody>
</table>

In [23]:
test_phrase = 'Tenho uma string com 1244 e uma #hashtag'

test_patterns=[ r'\d+', # sequencia de dígitos
                r'\D+', # sequencia de não-dígitos
                r'\s+', # sequencia de espaços em branco
                r'\S+', # sequencia de não-espaços em branco
                r'\w+', # caracteres alfanumericos
                r'\W+', # não-alfanumericos
                ]

multi_re_find(test_patterns,test_phrase)

Procurando a frase usando o re check: '\\d+'
['1244']


Procurando a frase usando o re check: '\\D+'
['Tenho uma string com ', ' e uma #hashtag']


Procurando a frase usando o re check: '\\s+'
[' ', ' ', ' ', ' ', ' ', ' ', ' ']


Procurando a frase usando o re check: '\\S+'
['Tenho', 'uma', 'string', 'com', '1244', 'e', 'uma', '#hashtag']


Procurando a frase usando o re check: '\\w+'
['Tenho', 'uma', 'string', 'com', '1244', 'e', 'uma', 'hashtag']


Procurando a frase usando o re check: '\\W+'
[' ', ' ', ' ', ' ', ' ', ' ', ' #']




Bom trabalho!
