# Expressões Regulares  


### Quantificadores 

Quantificador  
\+ : 1 ou mais   
\* : 0 ou mais    
\? : 0 ou 1  

Exemplos  
a ⟶ 'a'  
a+ ⟶ 'a', 'aa', 'aaa', ...  
a* ⟶ '', 'a', 'aa', 'aaa', ...    
a? ⟶ '', 'a'  

abc ⟶ 'abc'  
ab+c ⟶ 'abc', 'abbc', 'abbbc'  
a*bc ⟶ 'bc', 'abc', 'aabc', 'aaabc' 
ac?d ⟶ 'acd', 'ad'  

### Classes de caracteres

Classes de caracteres 

– Dígito: d  
– Letra: [A-Z],[a-z],[a-zA-Z]  
– Letra, dígito ou '_': \w  

O que casa com as seguintes expressões regulares  

– \d\d\d ⟶ '111', '121', '289'  
– [a-z]\w ⟶ 'a1', 'a_', 'cb'  
– [A-Z]\d\d ⟶  'A23', 'B12', 'C89'  


### Grupos 

Permitem agrupar trechos de strings. São úteis para
extrair partes de uma string e/ou substituir strings.  
Exemplos:  
– Horas e minutos (HH:MM)  
– \d\d:\d\d ⟶ Valida a string!  
– (\d\d):(\d\d) ⟶ Separa em grupos para serem acessados usando \1, \2  


É possível determinar o **inicio** e **fim** da string através dos metacaracteres ^ e \\$, respectivamente.
Exemplos:  
– ^inicio ⟶ Casa com 'inicio', porém não casa com '1inicio'  
– fim\\$ ⟶ Casa  com  '2 fim', porém não casa com '2 fim 2'     
– ^qualquerpadrao\\$ ⟶ Casa somente quando o padrão ocupa a linha inteira  
^\d\d\d\\$ ⟶ '222', '333', '234'


# Padrões básicos
a, X, 9, < : Caracteres ordinários que correspondem apenas a si mesmo.  
. (um ponto) : Corresponde a qualquer caractere único, exceto nova linha '\n'.  
[...] : Corresponde a qualquer caractere incluído no conjunto.  
[^...] : Corresponde a qualquer caractere não
incluído no conjunto.  
\ : Utilizada para inibir a excepcionalidade de um caractere. Por exemplo, utilize \\. para corresponder a um ponto ou \\\ para corresponder a uma barra invertida.  
\w : Corresponde a um caractere alfanumérico [a-zA-Z0-9_]. Se for maiúscula (\W),corresponde a um caractere não alfanumérico.  
\s :  Corresponde a um único caractere de espaço em branco (nova linha, retorno, tabulação e forma [\n,\r,\t,\f]. Se for maiúscula (\S), corresponde a um caractere não espaço em branco.  
\t,\n,\r Tabulação, Nova linha, Retorno.  
\d : Digito decimal [0-9]. Se for maiúscula (\D), corresponde a um não dígito.  

{n} : Exatamente n ocorrências.  
{n,m} : No mínimo n ocorrências e no máximo m.  
{n, } : No mínimo n ocorrências.
{, m} : No máximo m ocorrências.  
? : 0 ou 1 ocorrência; o mesmo que {0, 1}.  
\+ : 1 ou mais ocorrências; o mesmo que {,1}.  
\* : 0 ou mais ocorrências.  
^ = inicio, $ = fim : Corresponde com o início ou fim de uma string.  
(...) : Define um grupo para posterior extração ou reuso.  
... | ... : Alternativa, corresponde tanto a expressão regular da esquerda, quanto da direita.



# Exemplos:

– a\s\*b ⟶ 'a b', 'ab'  
– python[XYZ] ⟶ 'pythonX', 'pythonY', 'pythonZ'  
– 1. ⟶ '11', '1!', '1z', '1 '  
– .* ⟶ '', 'a', '1', ' '  qualquer coisa que preencha uma linha  
– \d\d\D ⟶ '12a', '18 ', '29z'  
– [^abc]+ ⟶ 'd', 'de4', '12312312' ,'%sdz'  
– py|thon ⟶ 'py', 'thon'  
– c|\d ⟶ 'c', '9', '0'  
– P|y|t|h|0|n ⟶ 'P', 'y', 't', 'h', '0', 'n'  mesmo que [Pyth0n]  


In [1]:
import re

# re

basicamente 3 funcoes (serch, findall, sub)

###  search 
sintaxe re.search(padrão, string)  

A função search procura pela primeira ocorrência da expressão regular dentro da string.  
Esse método irá procurar pelo padrão no texto, se encontrar retorna o objeto correspondente, se não encontrar retorna None.  

###  findall 
sintaxe re.findall(padrão, string)  

Encontra todas as ocorrências de um padrão em um texto.
O retorno será uma lista com todas as correspondências.

###  sub 
Podemos utilizar o método sub para substituir o
padrão encontrado por um valor específico.  
Essa funcionalidade procura por todas as ocorrências
de um padrão em um determinado texto e substitui.  
Utilizando a variável dados criada anteriormente,
substitua a virgula por ponto.  

#### search

In [2]:
texto = 'Victor Blois - 11-999999999'

In [3]:
r = re.search('(\d\d)-(\d{9})', texto)

In [4]:
print(r.group())

11-999999999


In [5]:
print(r.group(1))

11


In [6]:
print(r.group(2))

999999999


#### findall

In [7]:
texto = """
01/12/2019 - IPAD3 - R$ 1287,99
01/12/2019 - GALAXY - R$ 987,56
"""

In [8]:
datas = re.findall('\d\d/\d\d/\d{4}',texto)

In [9]:
print(datas)

['01/12/2019', '01/12/2019']


In [10]:
resultado = re.sub(',', '.', texto)

In [11]:
print(resultado)


01/12/2019 - IPAD3 - R$ 1287.99
01/12/2019 - GALAXY - R$ 987.56



In [12]:
texto = 'Programando em python em 3 2 1!'

In [13]:
r = re.search('python', texto)

In [14]:
print(r)

<re.Match object; span=(15, 21), match='python'>


In [15]:
print(r.group())

python


In [18]:
import os.path
def path_base(base_name):
    current_dir = os.path.abspath(os.path.join(os.getcwd()))
    data_dir = current_dir.replace('notebook','data')
    data_base = data_dir + '\\' + base_name
    return data_base

In [19]:
# Ex1
arquivo = open(path_base('dados_re.txt'))
dados = arquivo.read()
arquivo.close()

In [20]:
dados

'20/10/2016\t08:34:20\t\t-1,12\tnczq@cswezs.org\n16/12/2018\t05:09:48\t\t30,06\tgnnl@sqdgtsgsyuk.gov\n23/04/2019\t05:30:20\t\t54,44\tmbmecf@iegepivgrs.gov\n25/04/2019\t06:13:03\t\t50,48\tqjjmvpw@gxktxjvkijsg.gov\n01/08/2017\t18:17:18\t\t88,48\tllcnm@mliuoqkeuavj.net\n11/09/2013\t12:47:20\t-72,89\tstmkrx@jtgyceuxqqv.com\t\n09/09/2016\t05:22:31\t-59,82\thkebpj@yovuawpaxzrz.net\t\n29/03/2013\t23:00:13\t\t49,23\tazqiqp@kqekkdaog.org\n26/02/2019\t14:34:18\t\t96,23\tuaid@btbdmlk.org\n28/02/2019\t16:26:14\t\t93,53\towoejbc@bqpzndxp.gov\n07/04/2019\t23:42:02\t\t93,53\tobgeo@qioqwx.gov\n15/02/2019\t10:39:54\t-77,28\txjkmxk@cltllsls.com\t\n18/01/2019\t02:00:16\t-14,75\thoymbm@lzwofgfhv.com\t\n02/07/2019\t10:36:13\t\t82,57\twwbyq@bmtmi.com\n30/10/2018\t01:16:34\t\t-74,3\twibd@fqkalowcok.gov\n09/06/2019\t16:06:18\t-73,85\tkzdyn@rzuwzglodflg.edu\t\n12/08/2019\t01:28:50\tg\t47,2\tqmxehx@unzgdpubvbxv.or\n16/07/2019\t10:46:41\tv\t52,8\theqcxlz@lgvaggfipgrm.go\n07/12/2018\t05:47:45\t\t29,29\tnwcvbbk@sx

In [21]:
resultado = re.findall('-?\d+,\d+', dados)

In [22]:
print(resultado)

['-1,12', '30,06', '54,44', '50,48', '88,48', '-72,89', '-59,82', '49,23', '96,23', '93,53', '93,53', '-77,28', '-14,75', '82,57', '-74,3', '-73,85', '47,2', '52,8', '29,29', '21,78', '91,26', '-77,81', '-18,89']


In [23]:
# fazer analise exploratoria

In [24]:
def convert_float(lista):
    aux = [float(re.sub(',','.',aux)) for aux in lista]
    return aux

In [25]:
resultado = convert_float(resultado)

In [26]:
print(resultado)

[-1.12, 30.06, 54.44, 50.48, 88.48, -72.89, -59.82, 49.23, 96.23, 93.53, 93.53, -77.28, -14.75, 82.57, -74.3, -73.85, 47.2, 52.8, 29.29, 21.78, 91.26, -77.81, -18.89]


In [27]:
import statistics
def estatistica_lista(lista): 
    return {"min": min(lista),
            "mean": round(statistics.mean(lista),4), 
            "median": round(statistics.median(lista),4), 
            "mode": round(statistics.mode(lista),4),
            "max":max(lista)}

In [28]:
print(estatistica_lista(resultado))

{'min': -77.81, 'mean': 17.8335, 'median': 30.06, 'mode': 93.53, 'max': 96.23}
